Identifisering av celletyper fra enkeltcelledata ved hjelp av stabile klynger

målet med den foreslåtte metoden er å identifisere celletyper som er tilstede i en blanding av enkeltceller. Input av metoden er enkelt celle genuttrykk matrise (Mgene×celle) der rader representerer gener og kolonner representerer cellene. I det følgende gir vi flere detaljer om inngangsdata og ulike trinn i det foreslåtte rammeverket. Den generelle tilnærmingen er vist I Fig. 1.

datakilde

de åtte offentlig tilgjengelige scRNA-seq datasettene samt de fem simuleringsdatasettene vi brukte i vår analyse er inkludert i Tilleggsmaterialene. Blant de åtte virkelige datasettene anses alle unntatt tre (Klein51, Patel52, Treutlein53) som’ gullstandard ‘ siden etikettene til cellene er kjent på en endelig måte. Patel52 Og Treutlein53 er referert til som ‘sølvstandard’ Av Kiselev et al.28 siden deres celleetiketter bestemmes ut fra beregningsmetodene og forfatterens kunnskap om den underliggende biologien.

vi hentet de behandlede dataene fra Hemberg labs nettsted (https://hemberg-lab.github.io/scRNA.seq.datasets). Hemberg et al.54 Bruk SingleCellExperiment Bioconductor S4 class55 til å lagre dataene, og scater package56 for kvalitetskontroll og plotting formål. De normaliserte data er avsatt som En SingleCellExperiment objekt (.RData-fil) og celletypeinformasjonen er tilgjengelig i kolonnen cell_type1 i «colData» – sporet av dette objektet. Genekspresjonsverdiene til cellene er organisert som en matrise der rader er celler og kolonner er gener. I vår analyse fjernes gener (egenskaper) som ikke uttrykkes i noen celler. Vi filtrerte ikke noen celle i denne analysen.

genfiltrering

som vist I Fig. 1A, vi fjerner gener / transkripsjoner som ikke er uttrykt i noen celle (uttrykksverdien er null i alle celler). Slike gener kan ikke gi nyttig informasjon som kan skille mellom celletyper57. Resultatet av å utføre filtreringsmetoden på enkeltcellens genekspresjonsmatrise (mgene×celle) brukes som inngang til den andre modulen i det foreslåtte rammeverket.

Måling av ulikheten mellom cellene

avstanden mellom cellene beregnes ved Hjelp Av Euklidisk metrisk (Fig. 1B). Utgangen av dette trinnet er avstanden (ulikhet) matrisen Dcell×celle. Vi reduserer dimensjonen Av D ved å utføre t-distribuert stokastisk nabo embedding (t-SNE)34,58, den ikke-lineære dimensjonsreduksjonen / visualiseringsteknikken (Fig . 1C). Vi vil referere til resultatet som d ‘ cell×l, der 2 ≤ l ≤ I denne studien er antall dimensjoner 2.

Clustering

Identifikasjon av det optimale antall klynger

denne delen beskriver den tredje modulen av den foreslåtte metoden (Fig. 1C). I denne analysen brukes t-SNE gjentatte ganger (n = 50) på avstandsmatrisen Dcell× – cellen for å oppnå dimensjonalitet-redusert avstandsmatrise D’cell×l. Hver gang beregnes det optimale antall klynger basert på gjennomsnittlig silhouettemetode ved bruk av dimensjonalitet redusert avstandsmatrise D’. For å finne det optimale antall klynger k, brukes k-means clustering På d’ matrisen ved hjelp av en områdeverdi (standard = 2:20), og k som maksimerer gjennomsnittlig silhouettemål er valgt. Til slutt regnes gjennomsnittet av de valgte tallene k over forskjellige repetisjoner (n = 50) (avrundet til nærmeste heltall) som det endelige optimale antall klynger.

silhouetten evaluerer kvaliteten på den klyngen basert på hvor godt datapunktene er gruppert. Et silhuettmål tilordnes hvert datapunkt som representerer hvor nær et datapunkt er til sin egen klynge i forhold til andre klynger. For hvert datapunkt i beregnes dette tiltaket som følger:

$${\rm{s}}({\rm{i}})=\frac{b(i)-a(i)}{max\{a(i), b(i)\}}$$

hvor a(i) er gjennomsnittlig avstand mellom datapunktet i og alle andre datapunkter i samme klynge. b (i) er den minste gjennomsnittlige avstanden til i til alle punkter i en annen klynge som jeg ikke er medlem av. s (i) tar verdier fra -1 til 1, hvor en høy positiv score viser at det gitte datapunktet er godt gruppert (nær andre punkter i sin egen klynge og langt fra punkter i de andre klyngene). Omvendt viser en høy negativ score at datapunktet er dårlig gruppert.

k – betyr clustering basert på resampling-metoden

denne delen beskriver detaljene i den siste modulen i den foreslåtte metoden. Som vist I Fig. 2, ved å bruke dimensjonaliteten redusert avstandsmatrise D’ og det valgte antall klynger k fra forrige trinn, identifiserer vi den mest stabile klyngen ved å generere forskjellige klyngeløsninger (clusteringi (i ∈ )) og måle stabiliteten til hver klyngeløsning basert på en resampling-metode. Stabilitetsmålet som er tilordnet hver bestemt clustering (betegnet som clusteringi) representerer hvor ofte k-klyngene som tilhører den klyngen, blir bevart når inngangsdataene (D’) resampleres flere ganger. De resampled datasettene genereres Fra D ‘ ved tilfeldig å erstatte 5% av datapunkter (celler) med støy. Disse støyende datasettene brukes da som inngang til k-means-algoritmen. Derfor genereres flere klynger (clusteringi,j, j ∈ ) fra de samplede dataene (resampled versjoner av clusteringi).

Valideringsmetoder

Vi bruker 13 forskjellige datasett der celletyper (etiketter) er kjent. For å måle nivået av likhet mellom referanseetikettene og de utledede etikettene som er oppnådd ved hver klyngemetode, bruker vi tre forskjellige beregninger: justert rand-indeks (ARI), justert gjensidig informasjon (AMI) og V-mål som forklart i det følgende.

Justert rand-indeks

Gitt celleetikettene, Brukes Den Justerte Rand-Indeksen (ARI)47 til å vurdere likheten mellom den utledede klyngen og den sanne klyngen. ARI varierer fra 0, for dårlig matching (en tilfeldig clustering), til 1 for en perfekt avtale med den sanne clustering. For et sett med n datapunkter er beredskapstabellen konstruert basert på det delte antallet datapunkter mellom to klynger. Anta X = {X1, X2,…, XR} Og Y = {Y1, Y2,…, Yc} representerer to forskjellige klynger med Henholdsvis R og C-klynger. Overlappingen Mellom X Og Y kan oppsummeres SOM en beredskapstabell MR×C =, hvor i = 1…R, j = 1…C. Xi og Yj betegner en klynge I klyngene X Og Y, og i og j refererer til radnummeret og kolonnenummeret til beredskapstabellen, henholdsvis. ARI er definert som følger:

justert gjensidig informasjon

$$H(X)=\mathop{\sum }\limits_{i\mathrm{=1}}^{r}p(i)\,logP(i)$$

(2)

H(X) er ikke-negativ og tar verdien 0 bare når det ikke er noen usikkerhet som bestemmer et datapunkts klyngemedlemskap (det er bare en cluster). Gjensidig informasjon (MI) Mellom To klynger X Og Y beregnes som følger:

$$MI(X,Y)=\mathop{\sum }\limits_{i\mathrm{=1}}^{R}\mathop{\sum }\limits_{j\mathrm{=1}}^{C}P(i,j)\,log\frac{P(i,j)}{P(i)P(j)}$$

(3)

hvor p(i, j) angir sannsynligheten for at ET DATAPUNKT TILHØRER både klyngen xi i x og klyngen yj i y:

$$p(i,j)=\frac {|{x}_{i}\cap {y}_{j}/} {n}$$

(4)

mi er en ikke-negativ mengde øvre avgrenset av entropiene h(x) og h(y). Det kvantifiserer informasjonen som deles av de to klyngene, og kan derfor betraktes som et clustering likhetsmål. Det justerte målet for gjensidig informasjon er definert som følger:

$$AMI(X,Y)=\FRAC{MI(X,Y)-E\{MI(X,Y)\}}{max\{h(X),H(Y)\}-e\{MI(X,Y)\}$$

(5)

hvor forventet gjensidig informasjon mellom to tilfeldige klynger er:

hvor ai og bj er de delvise summene av beredskapstabellen: ${A}_{I}={\sum} _{J\MATHRM{=1}}^{C} {n}_{ij}$ OG ${B}_{J}={\SUM} _{I\mathrm{=1}}^{r} {n}_{ij}$.den justerte gjensidige informasjonen (AMI) tar en verdi på 1 når de to klyngene er identiske og 0 NÅR MI mellom to partisjoner er lik verdien som forventes på grunn av tilfeldighet alene.

V-measure

V-measure 50 Er det harmoniske gjennomsnittet mellom to mål: homogenitet og fullstendighet. Kriteriene for homogenitet oppfylles hvis en klynge bare tilordner datapunktene som er medlemmer av en enkelt klasse (sann klynge) til en enkelt klynge. Dermed bør klassefordelingen i hver klynge være skjev til en enkelt klasse (null entropi). For å bestemme hvor nær en gitt clustering er til dette idealet, beregnes den betingede entropien til klassefordelingen gitt den identifiserte clustering Som H (C / K), Hvor C = {C1, C2,…, Cl} er et sett med klasser Og K er en clustering K = {K1, K2,…, Km}. I det helt homogene tilfellet er denne verdien 0. Denne verdien er imidlertid avhengig av størrelsen på datasettet og fordelingen av klassestørrelser. Dermed er denne betingede entropien normalisert ved maksimal reduksjon i entropi som klyngeinformasjonen kunne gi, H (C). Derfor er homogeniteten definert som følger:

$$h=\{\begin{array}{cc}1& \tekst{if}\,H(C,K)=0\\ 1-\frac{H(C| K)}{H(C)}& \tekst{ellers}\end{array}$$

(7)

fullstendigheten er symmetrisk til homogenitet50. For å oppfylle fullstendighetskriteriene må en klynge tilordne alle disse datapunktene som er medlemmer av en enkelt klasse til en enkelt klynge. For å måle fullstendigheten vurderes fordelingen av klyngeoppgaver innen hver klasse. I en perfekt komplett clustering løsning, vil hver av disse fordelingene være helt skjev til en enkelt klynge.

Gitt homogeniteten h og fullstendighet c, beregnes v-målet som det vektede harmoniske gjennomsnittet av homogenitet og fullstendighet:

$${\rm{V}} \mbox{-} {\rm{m}}{\rm{e}}{\rm{a}}{\rm{s}}{\rm{u}}{\rm{r}}{\rm{e}}=\frac{(1+\beta )\ast h\ast c}{(\Beta \ast h)+c}$$

(8)

hvis β er større enn 1, vektes fullstendigheten sterkere i beregningen. Hvis β er mindre enn 1, vektes homogeniteten sterkere. Siden beregningene av homogenitet, fullstendighet og V-mål er helt uavhengig av antall klasser, antall klynger, størrelsen på datasettet og klyngealgoritmen, kan disse tiltakene benyttes for å evaluere enhver klyngeløsning.

KGSAU