Identifikace typů buněk, z jedné buňky dat pomocí stabilní clustering

cílem navrhované metody je identifikovat typy buněk přítomných ve směsi jednotlivých buněk. Vstupem metody je jednobuněčná genová exprese matrice (mgene×cell), ve které řádky představují geny a sloupce reprezentují buňky. V následujícím textu poskytujeme podrobnější informace o vstupních datech a různých krocích navrhovaného rámce. Celkový přístup je znázorněn na obr. 1.

Číslo 1

celkové schéma navrhované metody. Vzhledem k matici exprese genu jedné buňky modul (a) eliminuje geny, které nejsou exprimovány v žádné buňce. Pomocí výsledné matice modul (B) vypočítá euklidovskou vzdálenost mezi buňkami. Výstupem tohoto modulu je matice vzdálenosti, ve které řádky a sloupce jsou buňky (Dcell×cell). Modul (C) snižuje dimenzionalitu matice vzdálenosti pomocí techniky t-distributed Stochastic neighbor embeddinging (t-SNE). V tomto modulu, průměrnou siluetu metoda je zaměstnán zvolit optimální počet shluků k. Konečně v modulu (D), spodní rozměr matice vzdáleností a optimální počet shluků k získané z modulu (C) jsou použity jako vstupní data pro identifikaci nejvíce stabilní shlukování buněk. Obrázek 2 ukazuje podrobnosti modulu D.

zdroj Dat

osm veřejně k dispozici, scRNA-seq datových souborů, stejně jako pět simulace datových souborů jsme použili v naší analýze jsou zahrnuty v Doplňkových Materiálů. Z osmi reálných datových souborů jsou všechny kromě tří (Klein51, Patel52, Treutlein53) považovány za „zlatý standard“, protože štítky buněk jsou definitivně známy. Patel52 a Treutlein53 jsou podle Kiseleva et al. označovány jako „stříbrný standard“.28 protože jejich buněčné štítky jsou určeny na základě výpočetních metod a znalostí autorů o základní biologii.

zpracovaná data jsme získali z webových stránek Hemberg lab (https://hemberg-lab.github.io/scRNA.seq.datasets). Hemberg et al.54 pro ukládání dat použijte SingleCellExperiment Bioconductor S4 class55 a scater package56 pro účely kontroly kvality a Vykreslování. Normalizovaná data se ukládají jako jeden objekt Prolexperiment (.RData) a informace o typu buňky jsou přístupné ve sloupci cell_type1 slotu“ colData “ tohoto objektu. Hodnoty genové exprese buněk jsou organizovány jako matrice, ve které řádky jsou buňky a sloupce jsou geny. V naší analýze jsou odstraněny geny (rysy), které nejsou exprimovány v žádných buňkách. V této analýze jsme nefiltrovali žádnou buňku.

filtrování genů

, jak je znázorněno na obr. 1A, odstraňujeme geny / transkripty, které nejsou exprimovány v žádné buňce (hodnota exprese je nulová ve všech buňkách). Takové geny nemohou poskytnout užitečné informace, které mohou rozlišovat mezi typy buňek57. Jako vstup do druhého modulu navrhovaného rámce se použije výsledek provedení filtrační metody na matrici exprese genu jedné buňky (mgene×cell).

měření odlišnosti mezi buňkami

vzdálenost mezi buňkami se vypočítá pomocí euklidovské metriky (obr. 1B). Výstupem tohoto kroku je vzdálenost (odlišnost) matice dcell×buňka. Jsme snížit rozměr D provedením t-distribuované stochastické soused vkládání (t-VNO)34,58, nelineární redukci dimenzionality/vizualizační technika (Obr. 1C). Výstup budeme označovat jako D ‚ cell×l, kde 2 ≤ l ≤ buňka. V této studii je počet rozměrů 2.

Clustering

Identifikace optimálního počtu shluků

Tato část popisuje třetí modul navrhované metody (Obr. 1C). V této analýze, t-VNO je opakovaně (n = 50) aplikovaných na matice vzdáleností Dcell×buněk k získání rozměrů-snížený matice vzdáleností D’cell×l. Pokaždé, optimální počet shluků se vypočte na základě průměrného silueta metoda pomocí snížení dimenzionality matice vzdáleností D. S cílem nalézt optimální počet shluků k, k-means clustering se aplikuje na D‘ matici pomocí řady hodnota (default = 2:20), a k, který maximalizuje průměrnou siluetu opatření je vybrán. Nakonec je průměr vybraných čísel K v různých opakováních (n = 50) (zaokrouhlený na nejbližší celé číslo) považován za konečný optimální počet shluků.

silueta vyhodnocuje kvalitu tohoto shlukování na základě toho, jak dobře jsou seskupeny jeho datové body. Každému datovému bodu je přiřazena míra siluety představující, jak blízko je datový bod k vlastnímu clusteru ve srovnání s jinými klastry. Pro každý datový bod já, toto opatření se vypočte takto:

$${\rm{s}}({\rm{i}})=\frac{b(i)-a(i)}{max\{a(i),b(i)\}}$$

pokud(i) je průměrná vzdálenost mezi datový bod i a všechny ostatní datové body v rámci stejného clusteru. b(i) je nejmenší průměrná vzdálenost i ke všem bodům v jakémkoli jiném clusteru, jehož nejsem členem. s(i) nabývá hodnot od -1 do 1, kde vysoká pozitivní skóre ukazuje, že daný datový bod je dobře seskupený (blízko jiných bodů v jeho vlastní cluster a daleko od bodů v ostatních shlucích). Naopak vysoké negativní skóre ukazuje, že datový bod je špatně seskupen.

k-znamená shlukování založené na metodě převzorkování

tato část popisuje detail posledního modulu navrhované metody. Jak je znázorněno na obr. 2, pomocí snížení dimenzionality matice vzdáleností D‘ a zvolený počet shluků k z předchozího kroku, můžeme identifikovat nejvíce stabilní clustering generováním různých clusterů řešení (clusteringi (i ∈ )) a měří stabilitu jednotlivých clustering řešení, které bude založeno na převzorkování metodou. Stabilitu opatření přiřazen ke každé konkrétní clustering (označován jako clusteringi) představuje, jak často se k uskupení, které patří k tomu clustering jsou zachovány při zadávání dat (D‘) je převzorkování několikrát. Převzorkované datové sady jsou generovány z D‘ náhodným nahrazením 5% datových bodů (buněk) šumem. Tyto hlučné datové sady jsou pak použity jako vstup do algoritmu k-means. Proto je z převzorkovaných dat generováno několik shluků (clusteringi,j, j∈) (resampled verze clusteringi).

Obrázek 2

Identifikaci nejvíce stabilní clustering. V této analýze, vzhledem k nižší dimenze vzdálenost matice d ‚ cell×l a optimální počet shluků k, počítáme n různé shlukování (shlukování1, …, clusteringn) pomocí algoritmu shlukování k-means. Poté je stabilita každého shlukování hodnocena na základě převzorkovacího přístupu (grey box). Každému shlukování je přiřazeno skóre stability podle toho, jak často jsou jeho shluky obnoveny, když jsou vstupní data narušena(převzorkována). Jako konečné řešení je vybráno shlukování s maximálním skóre stability.

aby bylo možné posoudit stabilitu každého clusteru c v clusteringi (původní clustering), shluk c je ve srovnání se všemi klastry v, clustering, který je získán z převzorkování dat (clusteringi,j) na základě Jaccard vzdálenost. Jaccardův koeficient59, míra podobnosti mezi množinami, se používá k výpočtu podobnosti mezi dvěma klastry následovně:

$${\rm{J}}({\rm{A}},{\rm{B}})=\frac{|A\cap B|} {|\cup B|},\,A,B\subseteq X$$

kde na horizontu a a B jsou dvě uskupení, skládající se z několika datových bodů X = {x1, …, xN}.

Pokud Jaccard podobnost mezi clusteru c (z původního seskupení clusteringi) a nejvíce podobné clusteru v převzorkování clustering je roven nebo větší než 0.75, že cluster je považován za stabilní (zachovalé). Stabilita každého clusteru v clusteringi se tedy vypočítá jako procento doby, kdy je cluster zachován (Jaccardův koeficient ≥ 0.75) přes m různé resamplings.

pak průměrujeme míry stability klastrů k patřících do clusteringi a považujeme je za celkovou míru stability clusteringi. Mezi n různými řešeními shlukování (clusteringi (i∈)) vybereme řešení shlukování s mírou maximální stability jako konečné řešení shlukování.

obrázek 3 ukazuje detail metody převzorkování, kterou jsme provedli pro výpočet míry stability pro každé shlukování. Shluky, které jsou získány použitím k-mysli na převzorkování datové sady jsou v porovnání s klastry z původních vstupních dat pouze na základě non-hluk bodů (hluk datové body jsou vyloučeny, když se dva shluky jsou porovnány na základě Jaccard podobnost metrické.

Obrázek 3

převzorkování rámec pro výpočet stability opatření pro každý clustering. Vstup obsahuje N datových bodů X = {x1, …, xN}, počet shluků k, počet resamplings m, a shlukování C, které je dosaženo použitím k-means na X. Tato analýza generuje m převzorkování dat náhodně nahradí 5% datových bodů s hlukem, a vypočítá m převzorkování clusterings na základě k-means clustering. Každý cluster c v C je ve srovnání s nejvíce podobné clusteru v převzorkování clustering, a Jaccard koeficient mezi dvěma shluky je počítána, zatímco hluk body jsou vyloučeny. Procento časů, kdy jsou koeficienty Jaccard větší než 0.75 je považován za stabilitu opatření pro cluster c. Průměrná stability opatření pro všechny shluky patřící do seskupení, C je vypočtená a považovány za celkovou stabilitu opatření pro clustering C.

Validace metody

použijte 13 různých datových souborů, ve kterém buněčné typy (popisky) jsou známé. K měření úrovně podobnosti mezi referenčními štítky a odvozenými štítky, které jsou získány každou metodou shlukování, používáme tři různé metriky: upravený index rand (ARI), upravená vzájemná informace (ami) a míra V, jak je vysvětleno v následujícím textu.

Upravit rand index

Vzhledem k tomu, buňky štítky, Upravit Rand Index (ARI)47 se používá pro posouzení podobnosti mezi dovodit, clustering a pravda clustering. ARI se pohybuje od 0, pro špatnou shodu (náhodné shlukování), do 1 pro dokonalou shodu se skutečným shlukováním. Pro sadu n datových bodů je kontingenční tabulka sestavena na základě sdíleného počtu datových bodů mezi dvěma klastry. Předpokládejme, Že X = {X1, X2, …, XR} a Y = {Y1, Y2, …, YC} představují dvě různá shlukování s klastry R A C. Překrývání mezi X a Y lze shrnout jako kontingenční tabulku MR×C =, kde i = 1…R, j = 1…C. Xi a Yj označují cluster ve shlucích X a Y a i a j odkazují na číslo řádku a číslo sloupce pohotovostní tabulky. ARI je definována následovně:

Upravit vzájemné informace

$$H(X)=\mathop{\sum }\limits_{i\mathrm{=1}}^{R}P(i)\,logP(i)$$
(2)

H(X) je nezáporná a má hodnotu 0 pouze tehdy, když neexistuje žádná nejistota určení datový bod je shluk členství (je tam jen jeden cluster). Vzájemná informace (MI) mezi dvěma shluky X a Y se vypočítá následovně:

$$MI(X,Y)=\mathop{\sum }\limits_{i\mathrm{=1}}^{R}\mathop{\sum }\limits_{j\mathrm{=1}}^{C}P(i,j)\log\frac{P(i,j)}{P(i)P(j)}$$
(3)

, kde P(i, j) označuje pravděpodobnost, že datový bod patří do obou clusteru Xi v X a clusteru Yj Y:

$$P(i,j)=\frac{|{X}_{i}\cap {Y}_{j}|}{n}$$
(4)

MI je non-záporné množství horní ohraničené entropies H(X) a H(Y). Kvantifikuje informace sdílené dvěma shluky, a proto je lze považovat za měřítko podobnosti shluků. Upravené opatření pro vzájemná informace je definována takto:

$$AMI(X,Y)=\frac{MI(X,Y)-E\{MI(X,Y)\}}{max\{H(X),H(Y)\}-E\{MI(X,Y)\}}$$
(5)

kde se očekává, že vzájemná informace mezi dvěma náhodnými clusterings je:

, kde ai a bj jsou částečné součty v kontingenční tabulce: \({a}_{i}={\sum }_{j\mathrm{=1}}^{C}{n}_{ij}\) a \({b}_{j}={\sum }_{i\mathrm{=1}}^{R}{n}_{ij}\).

upravená vzájemná informace (ami) má hodnotu 1, když jsou dvě shluky identické, a 0, když MI mezi dvěma oddíly se rovná hodnotě očekávané pouze kvůli náhodě.

V-opatření

v-měření50 je harmonický průměr mezi dvěma opatřeními: homogenitou a úplností. Kritéria homogenity jsou splněna, pokud shlukování přiřadí pouze ty datové body, které jsou členy jedné třídy (true cluster) do jednoho clusteru. Rozdělení tříd v každém clusteru by tedy mělo být zkoseno na jednu třídu (nulová entropie). Určit, jak blízko daného clustering, je to ideální, podmíněné entropie třídy, distribuce vzhledem k zjištěné clustering se vypočítá jako H(C|K), kde C = {C1, C2, …, Cl} je množina tříd A K je shlukování K = {K1, K2, …, Km}. V dokonale homogenním případě je tato hodnota 0. Tato hodnota však závisí na velikosti datové sady a rozdělení velikostí tříd. Tato podmíněná entropie je tedy normalizována maximální redukcí entropie, kterou by informace o shlukování mohla poskytnout, H (C). Homogenita je proto definována následovně:

$$h=\{\begin{array}{cc}1 & \text{pokud}\,H(C,K)=0\\ 1-\frac{H(C| K)}{H(C)} & \text{jinak}\end{array}$$
(7)

úplnost je symetrické k homogeneity50. Za účelem splnění kritérií úplnosti, shlukování musí přiřadit všechny ty datové body, které jsou členy jedné třídy do jednoho clusteru. Pro měření úplnosti se hodnotí rozdělení přiřazení klastrů v každé třídě. V dokonale kompletním řešení shlukování bude každá z těchto distribucí zcela zkosena do jednoho clusteru.

Vzhledem k homogenitě h a úplnost, c, V-měření je počítán jako vážený harmonický průměr homogenity a úplnost:

$${\rm{V}} \mbox{-} {\rm{m}}{\rm{e}}{\rm{a}}{\rm{s}}{\rm{u}}{\rm{r}}{\rm{e}}=\frac{(1+\beta )\ast h\ast c}{(\beta \ast h)+c}$$
(8)

pokud β je větší než 1, úplnost, je vážený více silně ve výpočtu. Pokud je β menší než 1, homogenita je vážena silněji. Od výpočty homogenity, úplnost a V-opatření jsou zcela nezávislé na počtu tříd, počtu clusterů, velikost souboru dat a clustering algoritmus, tato opatření mohou být použity pro hodnocení všech clusterů řešení.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.