identifikation af celletyper fra enkeltcelledata ved hjælp af stabil klyngedannelse

målet med den foreslåede metode er at identificere de celletyper, der findes i en blanding af enkeltceller. Indgangen til metoden er enkeltcellegenekspressionsmatricen (MGEN-Kurt-celle), hvor rækker repræsenterer generne, og kolonner repræsenterer cellerne. I det følgende giver vi flere detaljer om inputdata og forskellige trin i den foreslåede ramme. Den overordnede tilgang er vist i Fig. 1.

Figur 1

den samlede arbejdsgang for den foreslåede metode. I betragtning af enkeltcellens genekspressionsmatrice eliminerer modul (a) de gener, der ikke udtrykkes i nogen celle. Ved hjælp af den resulterende matrice beregner modul (B) den euklidiske afstand mellem cellerne. Udgangen af dette modul er en afstandsmatrice, hvor rækkerne og kolonnerne er cellerne (dcell-kurscelle). Modul (C) reducerer dimensionaliteten af afstandsmatricen ved hjælp af T-distribueret stokastisk naboindlejring (t-SNE) teknik. I dette modul anvendes en gennemsnitlig silhuetmetode til at vælge det optimale antal klynger k. endelig i modul (D) bruges afstandsmatricen med lavere dimension og det optimale antal klynger k opnået fra modul (C) som inputdata til at identificere den mest stabile klynge af celler. Figur 2 viser detaljerne i modul D.

datakilde

de otte offentligt tilgængelige scRNA-sek datasæt samt de fem simuleringsdatasæt, vi brugte i vores Analyse, er inkluderet i det supplerende materiale. Blandt de otte virkelige datasæt betragtes alle undtagen tre (Klein51, Patel52, Treutlein53) som’ guldstandard’, da etiketterne på cellerne er kendt på en endelig måde. Patel52 og Treutlein53 kaldes ‘sølvstandard’ af Kiselev et al.28 da deres cellemærker bestemmes ud fra beregningsmetoderne og forfatternes viden om den underliggende biologi.

Vi opnåede de behandlede data fra Hemberg Labs hjemmeside (https://hemberg-lab.github.io/scRNA.seq.datasets). Hemberg et al.54 brug Singlecelleksperiment Bioconductor S4 class55 til at gemme dataene og scater-pakken56 til kvalitetskontrol og plotning. De normaliserede data deponeres som en Singleceleksperimentobjekt (.RDATA-fil) og celletypeoplysningerne er tilgængelige i cell_type1-kolonnen i “colData” – spalten på dette objekt. Cellernes genekspressionsværdier er organiseret som en matrice, hvor rækker er celler og kolonner er generne. I vores Analyse fjernes gener (funktioner), der ikke udtrykkes i nogen celler. Vi filtrerede ikke nogen celle i denne analyse.

genfiltrering

som vist i Fig. 1A fjerner vi generne / transkripterne, der ikke udtrykkes i nogen celle (ekspressionsværdi er nul i alle celler). Sådanne gener kan ikke give nyttige oplysninger, der kan skelne mellem celletyper57. Resultatet af at udføre filtreringsmetoden på enkeltcellegenekspressionsmatricen (MGEN-Kurt-celle) anvendes som input til det andet modul i den foreslåede ramme.

måling af uligheden mellem cellerne

afstanden mellem cellerne beregnes ved hjælp af den euklidiske metric (Fig. 1B). Udgangen af dette trin er afstanden (forskellighed) matrice dcell kurscelle. Vi reducerer dimensionen af D ved at udføre den T-distribuerede stokastiske naboindlejring (t-SNE)34,58, den ikke-lineære dimensionalitetsreduktion/visualiseringsteknik (Fig. 1C). Vi vil henvise til output som D ‘ celle l, hvor 2 liter l liter celle. I denne undersøgelse er antallet af dimensioner 2.

Clustering

identifikation af det optimale antal klynger

dette afsnit beskriver det tredje modul i den foreslåede metode (Fig. 1C). I denne analyse anvendes t-SNE gentagne gange (n = 50) på afstandsmatricen Dcell-kurscellen for at opnå den dimensionalitetsreducerede afstandsmatrice D’celle-kurr l. hver gang beregnes det optimale antal klynger baseret på den gennemsnitlige silhuetmetode ved hjælp af dimensionalitetsreduceret afstandsmatrice D’ celle. For at finde det optimale antal klynger k anvendes k-middelklyngningen på D’ – matricen ved hjælp af en områdeværdi (Standard = 2:20), og k, der maksimerer det gennemsnitlige silhuetmål, vælges. Endelig betragtes gennemsnittet af de valgte tal k på tværs af forskellige gentagelser (n = 50) (afrundet til nærmeste heltal) som det endelige optimale antal klynger.

silhuetten evaluerer kvaliteten af denne klyngedannelse baseret på, hvor godt dens datapunkter er grupperet. Et silhuetmål tildeles hvert datapunkt, der repræsenterer, hvor tæt et datapunkt er på sin egen klynge sammenlignet med andre klynger. For hvert datapunkt i beregnes dette mål som følger:

$${\rm{s}}({\rm{i}})=\frac{b(i)-A(i)}{maks\{a(i),b(i)\}}$$

hvor A(I) er den gennemsnitlige afstand mellem datapunktet i og alle andre datapunkter inden for samme klynge. b (i) er den mindste gennemsnitlige afstand af i til alle punkter i enhver anden klynge, som jeg ikke er medlem af. s (i) tager værdier fra -1 til 1, hvor en høj positiv score viser, at det givne datapunkt er godt grupperet (tæt på andre punkter i sin egen klynge og langt fra punkter i de andre klynger). Omvendt viser en høj negativ score, at datapunktet er dårligt grupperet.

k-betyder klyngedannelse baseret på resamplingsmetoden

dette afsnit beskriver detaljerne i det sidste modul i den foreslåede metode. Som vist i Fig. 2, ved hjælp af dimensionalitet reduceret afstandsmatrice D’ og det valgte antal klynger k fra det foregående trin, identificerer vi den mest stabile klyngedannelse ved at generere forskellige klyngeløsninger (clusteringi (i kur )) og måle stabiliteten af hver klyngedannelse baseret på en resamplingsmetode. Stabilitetsforanstaltningen tildelt hver enkelt klyngedannelse (betegnet som clusteringi) repræsenterer, hvor ofte k-klyngerne, der hører til denne klyngedannelse, bevares, når inputdataene (D’) genprøves flere gange. De resamplede datasæt genereres fra D ‘ ved tilfældigt at erstatte 5% af datapunkter (celler) med støj. Disse støjende datasæt bruges derefter som input til K-betyder algoritme. Derfor genereres flere klyngninger (clusteringi,j, j Kris ) ud fra de resamplede data (resamplede versioner af clusteringi).

figur 2

identificering af den mest stabile klyngedannelse. I denne analyse, i betragtning af afstandsmatricen med lavere dimension D ‘ celle kurr l og det optimale antal klynger k, vi beregner N forskellige klynger (klynge1, …, clusteringn) ved hjælp af k-betyder clustering algoritme. Derefter vurderes stabiliteten af hver klyngedannelse baseret på en resampling tilgang (grå boks). En stabilitetsscore tildeles hver klyngedannelse baseret på hvor ofte dens klynger gendannes, når inputdataene forstyrres (resamplet). En klyngedannelse med den maksimale stabilitetsscore vælges som den endelige løsning.

for at vurdere stabiliteten af hver klynge c i clusteringi (original clustering) sammenlignes klyngen c med alle klynger i clustering, der opnås fra resample data (clusteringi,j) baseret på Jaccard-afstanden. Jaccard koefficient59, en lighedsmåling mellem sæt, bruges til at beregne ligheden mellem to klynger som følger:

$ $ {\rm{J}} ({\rm{A}},{\rm{b}})=\frac{|a\cap b|}{|a\cup B|},\,A,B\delmængde$$

hvor udtrykket A og B er to klynger, der består af nogle datapunkter i = {H1, …, hn}.

Hvis Jaccard-ligheden mellem klyngen c (fra den oprindelige clustering clusteringi) og den mest lignende klynge i den resamplede klyngedannelse er lig med eller større end 0,75, betragtes denne klynge som stabil (bevaret). Således beregnes stabiliteten af hver klynge i clusteringi som procentdelen af de gange, som klyngen bevares (Jaccard-koefficient kr.0.75) på tværs af m forskellige resamplings.

Vi gennemsnit derefter stabilitetsmålene for k-klyngerne, der tilhører clusteringi, og betragter det som det samlede stabilitetsmål for clusteringi. Blandt n forskellige clustering-løsninger (clusteringi (i kur)) vælger vi clustering-løsningen med det maksimale stabilitetsmål som den endelige clustering-løsning.

figur 3 viser detaljerne i resamplingsmetoden, vi udførte for at beregne stabilitetsmålet for hver klyngedannelse. De klynger, der opnås ved at anvende k-gennemsnit på det resamplede datasæt, sammenlignes kun med klyngerne fra de oprindelige inputdata baseret på ikke-støjpunkter (støjdatapunkterne er udelukket, når to klynger sammenlignes baseret på Jaccard-lighedsmetrikken.

figur 3

resampling-rammen til beregning af stabilitetsmålingen for hver klyngedannelse. Input omfatter n datapunkter = {1, … denne analyse genererer m resampling data ved tilfældigt at erstatte 5% af datapunkter med støj og beregner m resampled clusteringer baseret på K-betyder clustering. Hver klynge c i C sammenlignes med den mest lignende klynge i resampling clustering, og Jaccard-koefficienten mellem de to klynger beregnes, mens støjpunkterne er udelukket. Procentdelen af de gange, at Jaccard koefficienter er større end 0.75 betragtes som stabilitetsmålingen for klynge c. gennemsnittet af stabilitetsmålinger for alle klynger, der tilhører klyngedannelse C, beregnes og betragtes som det samlede stabilitetsmål for klyngedannelse C.

valideringsmetoder

Vi bruger 13 forskellige datasæt, hvor celletyperne (etiketter) er kendt. For at måle niveauet af lighed mellem referenceetiketterne og de udledte etiketter, der opnås ved hver klyngemetode, bruger vi tre forskellige målinger: justeret Rand-indeks (ARI), justeret gensidig information (AMI) og V-mål som forklaret i det følgende.

justeret Rand-indeks

i betragtning af celleetiketterne bruges det justerede Rand-indeks (ARI)47 til at vurdere ligheden mellem den udledte klyngedannelse og den sande klyngedannelse. ARI spænder fra 0, for dårlig matching (en tilfældig klyngedannelse), til 1 for en perfekt aftale med den sande klyngedannelse. For et sæt n-datapunkter er beredskabstabellen konstrueret ud fra det delte antal datapunkter mellem to klynger. Antag, At = {1, 2,… Y = {Y1, Y2, …, YC} repræsenterer to forskellige klynger med henholdsvis R og C klynger. Overlapningen mellem H og Y kan sammenfattes som en beredskabstabel HR…R, j = 1…C. I og Y angiver en klynge i klynger hhv. Y, og i og j henviser til henholdsvis rækkenummeret og kolonnenummeret i beredskabstabellen. ARI er defineret som følger:

justeret gensidig information

$$H(H)=\mathop{\sum } \ limits_{i \ mathrm{=1}}^{R}P(i)\, logP(i)$ $
(2)

H(H) er ikke-negativ og tager kun værdien 0, når der ikke er nogen usikkerhed, der bestemmer et datapunkts klyngemedlemskab (der er kun en klynge). Den gensidige information (MI) mellem to klynger H og Y beregnes som følger:

$$MI(S,Y)=\mathop{\sum }\limits_{i\mathrm{=1}}^{R}\mathop{\sum }\limits_{j\mathrm{=1}}^{C}P(i,j)\,log\frac{P(i,j)}{P(I)P(j)}$$
(3)

hvor P(I, J) angiver sandsynligheden for,at et datapunkt hører til både klyngen i J og klyngen YJ i y:

$$p(i, j)=\frac{|{i}\Cap{y}_{j}|} {n}$$
(4)

Mi er en ikke-negativ mængde øvre afgrænset af entropierne H(H) og H(y). Det kvantificerer de oplysninger, der deles af de to klynger, og kan derfor betragtes som en klyngelighedsforanstaltning. Det justerede mål for den gensidige information er defineret som følger:

$$AMI(s,Y)=\frac{MI(S,Y)-E\{MI(S,Y)\}}{maks\{H(S),H(Y)\}-E\{MI(S,Y)\}}$$
(5)

hvor den forventede gensidige information mellem to tilfældige klynger er:

hvor AI og BJ er de delvise summer i beredskabstabellen: \({a}_{i}={\sum }_{J\mathrm{=1}}^{c}{n}_{Ij}\) og \({B}_{J}={\sum }_{i\mathrm{=1}}^{r}{n}_{IJ}\).

den justerede gensidige information (AMI) tager en værdi på 1, når de to klynger er identiske, og 0, når MI mellem to partitioner er lig med den forventede værdi på grund af chance alene.

v-mål

V-måle50 er det harmoniske gennemsnit mellem to mål: homogenitet og fuldstændighed. Homogenitetskriterierne er opfyldt, hvis en klyngedannelse kun tildeler de datapunkter, der er medlemmer af en enkelt klasse (ægte klynge) til en enkelt klynge. Klassefordelingen inden for hver klynge skal således være skæv til en enkelt klasse (nul entropi). For at bestemme, hvor tæt en given klyngedannelse er på dette ideal, beregnes den betingede entropi af klassefordelingen givet den identificerede klyngedannelse som H(C|K), hvor C = {C1, C2,…, Cl} er et sæt klasser, og K er en klyngedannelse K = {K1, K2,…, Km}. I det perfekt homogene tilfælde er denne værdi 0. Denne værdi afhænger dog af datasættets størrelse og fordelingen af klassestørrelser. Således normaliseres denne betingede entropi ved den maksimale reduktion i entropi, som klyngeinformationen kunne give, H(C). Derfor er homogeniteten defineret som følger:

$$h=\{\begin{array}{cc}1& \tekst{if}\,H(C,K)=0\\ 1-\frac{H(C| K)}{H(C)}& \tekst{ellers}\end{array}$$
(7)

fuldstændigheden er symmetrisk til homogenitet50. For at opfylde fuldstændighedskriterierne skal en klyngedannelse tildele alle de datapunkter, der er medlemmer af en enkelt klasse, til en enkelt klynge. For at måle fuldstændigheden vurderes fordelingen af klyngeopgaver inden for hver klasse. I en perfekt komplet klyngeløsning vil hver af disse distributioner være helt skævt til en enkelt klynge.

i betragtning af homogeniteten h og fuldstændigheden C beregnes v-målingen som det vægtede harmoniske gennemsnit af homogenitet og fuldstændighed:

$${\rm{V}} \mboks{-} {\rm{m}}{\rm{a}}{\rm{s}}{\rm{u}}{\rm{r}}{\rm{e}}{\rm{a}} {\rm {s}} {\rm {u}} {\rm {r}} {\rm {e}}=\frac {(1+\beta) \ AST h \ AST C} {(\beta \ AST H)+C}$$
(8)

hvis kursen er større end 1, vægtes fuldstændigheden stærkere i beregningen. Hvis kursen er mindre end 1, vægtes homogeniteten stærkere. Da beregningerne af homogenitet, fuldstændighed og v-mål er helt uafhængige af antallet af klasser, antallet af klynger, størrelsen på datasættet og klyngealgoritmen, kan disse mål anvendes til evaluering af enhver klyngeløsning.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.