identifiering av celltyper från enkelcellsdata med hjälp av stabil kluster

målet med den föreslagna metoden är att identifiera de celltyper som finns i en blandning av enskilda celler. Inmatningen av metoden är encellsgenuttrycksmatrisen (mgene-cellen) i vilken rader representerar generna och kolumnerna representerar cellerna. I det följande ger vi mer detaljer om indata och olika steg i det föreslagna ramverket. Det övergripande tillvägagångssättet visas i Fig. 1.

Figur 1

det övergripande arbetsflödet för den föreslagna metoden. Med tanke på enkelcellsgenuttrycksmatrisen eliminerar modul (A) generna som inte uttrycks i någon cell. Med hjälp av den resulterande matrisen beräknar modul (B) det euklidiska avståndet mellan cellerna. Utsignalen från denna modul är en avståndsmatris där raderna och kolumnerna är cellerna (dcell-cellerna). Modul (C) minskar dimensionen av avståndsmatrisen med hjälp av T-distribuerad stokastisk granninbäddning (t-SNE) teknik. I denna modul används en genomsnittlig siluettmetod för att välja det optimala antalet kluster k. slutligen i modul (D) används avståndsmatrisen med lägre dimension och det optimala antalet kluster k erhållna från modul (C) som ingångsdata för att identifiera den mest stabila kluster av celler. Figur 2 visar detaljerna i modul D.

datakälla

de åtta allmänt tillgängliga scRNA-seq-datauppsättningarna samt de fem simuleringsdatauppsättningar som vi använde i vår analys ingår i Tilläggsmaterialet. Bland de åtta verkliga datamängderna betraktas alla utom tre (Klein51, Patel52, Treutlein53) som’ guldstandard ’ eftersom etiketterna på cellerna är kända på ett definitivt sätt. Patel52 och Treutlein53 kallas ’Silver standard’ av Kiselev et al.28 eftersom deras celletiketter bestäms utifrån beräkningsmetoderna och författarnas kunskap om den underliggande biologin.

Vi har erhållit de behandlade uppgifterna från Hemberg Labs webbplats (https://hemberg-lab.github.io/scRNA.seq.datasets). Hemberg et al.54 använd SingleCellExperiment Bioconductor S4 class55 för att lagra data, och scater package56 för kvalitetskontroll och plottning ändamål. Den normaliserade data deponeras som en SingleCellExperiment objekt (.RDATA-fil) och celltypsinformationen nås i cell_type1-kolumnen i ”colData” – platsen för detta objekt. Genuttrycksvärdena för cellerna är organiserade som en matris där rader är celler och kolumner är generna. I vår analys avlägsnas gener (funktioner) som inte uttrycks i några celler. Vi filtrerade inte någon cell i denna analys.

genfiltrering

som visas i Fig. 1A, vi tar bort generna / transkripten som inte uttrycks i någon cell (uttrycksvärdet är noll i alla celler). Sådana gener kan inte ge användbar information som kan skilja mellan celltyper57. Resultatet av att utföra filtreringsmetoden på encellsgenuttrycksmatrisen (mgene 2Br-cellen) används som ingång till den andra modulen i det föreslagna ramverket.

mätning av olikheten mellan cellerna

avståndet mellan cellerna beräknas med hjälp av den euklidiska metriska (Fig. 1B). Utsignalen från detta steg är avståndet (olikhet) matrix dcell Kazaki cell. Vi minskar dimensionen av D genom att utföra t-distribuerad stokastisk granninbäddning (t-SNE)34,58, den icke-linjära dimensioneringsreducerings – /visualiseringstekniken (Fig. 1C). Vi kommer att hänvisa till utmatningen som d ’ cell bisexuell l, där 2 msk. I denna studie är antalet dimensioner 2.

Clustering

identifiering av det optimala antalet kluster

detta avsnitt beskriver den tredje modulen i den föreslagna metoden (Fig. 1C). I denna analys appliceras t-SNE upprepade gånger (n = 50) på avståndsmatrisen dcell-cellen för att erhålla dimensionalitetsreducerad avståndsmatris D’cell-l. varje gång beräknas det optimala antalet kluster baserat på den genomsnittliga silhuettmetoden med användning av dimensionalitetsreducerad avståndsmatris D’. För att hitta det optimala antalet kluster k appliceras k-means-klustringen på D ’ – matrisen med ett intervallvärde (standard = 2:20) och k som maximerar det genomsnittliga silhuettmåttet väljs. Slutligen betraktas medelvärdet av de valda siffrorna k över olika upprepningar (n = 50) (avrundat till närmaste heltal) som det slutliga optimala antalet kluster.

silhuetten utvärderar kvaliteten på den klustringen baserat på hur väl dess datapunkter är grupperade. Ett silhuettmått tilldelas varje datapunkt som representerar hur nära en datapunkt är till sitt eget kluster i jämförelse med andra kluster. För varje datapunkt i beräknas detta mått enligt följande:

$${\rm{s}} ({\rm{i}})= \ frac{b(i) – a(i)} {max\{a(i), b(i)\}}$

där a (i) är det genomsnittliga avståndet mellan datapunkten i och alla andra datapunkter inom samma kluster. b (i) är det minsta genomsnittliga avståndet från i till alla punkter i något annat kluster som jag inte är medlem i. s (i) Tar värden från -1 till 1, där en hög positiv poäng visar att den givna datapunkten är väl grupperad (nära andra punkter i sitt eget kluster och långt ifrån punkter i de andra klustren). Omvänt visar en hög negativ poäng att datapunkten är dåligt grupperad.

k – betyder kluster baserat på resamplingmetoden

det här avsnittet beskriver detaljerna i den sista modulen i den föreslagna metoden. Såsom visas i Fig. 2, med hjälp av dimensionen reducerad avståndsmatris D’ och det valda antalet kluster k från föregående steg, identifierar vi den mest stabila klustringen genom att generera olika klustringslösningar (clusteringi (i megapixlar )) och mäta stabiliteten hos varje klustringslösning baserat på en resamplingsmetod. Stabilitetsmåttet som tilldelas varje enskild kluster (betecknad som clusteringi) representerar hur ofta k-klusterna som tillhör den klusteringen bevaras när ingångsdata (D’) samplas flera gånger. De samplade datamängderna genereras från D ’ genom att slumpmässigt ersätta 5% av datapunkterna (celler) med brus. Dessa bullriga datamängder används sedan som ingång till k-means-algoritmen. Därför genereras flera clusterings (clusteringi,j, j Scorpii ) från de omsamplade data (omsamplade versioner av clusteringi).

Figur 2

identifiera den mest stabila klustringen. I denna analys, med tanke på den lägre dimensionen avståndsmatrisen D ’ cell db l och det optimala antalet kluster k, vi beräknar n olika kluster (clustering1,…, clusteringn) med hjälp av k-betyder klusteralgoritm. Därefter bedöms stabiliteten för varje kluster baserat på en omsamplingsmetod (grå ruta). En stabilitetspoäng tilldelas varje kluster baserat på hur ofta dess kluster återvinns när ingångsdata störs (samplas). En klustring med maximal stabilitetspoäng väljs som den slutliga lösningen.

för att bedöma stabiliteten för varje kluster c i clusteringi (original clustering) jämförs klustret c med alla kluster i klustringen som erhålls från omsamplingsdata (clusteringi, j) baserat på Jaccard-avståndet. Jaccard-koefficienten59, ett likhetsmått mellan uppsättningar, används för att beräkna likheten mellan två kluster enligt följande:

$${\rm{J}} ({\rm{a}}, {\rm{B}})=\frac{|a\cap B|}{|A\cup B|},\,A,B\subseteq X$$

där termen A och B är två kluster, som består av vissa datapunkter i X = {x1, …, xN}.

om Jaccard-likheten mellan klustret c (från den ursprungliga klustringklusteringeni) och det mest liknande klustret i den resamplade klustringen är lika med eller större än 0,75 anses det klustret vara stabilt (bevarat). Således beräknas stabiliteten hos varje kluster i clusteringi som procentandelen av de tider som klustret bevaras (Jaccard-koefficient 0.75) över M olika resamplings.

vi genomsnittliga sedan stabilitetsåtgärderna för k-kluster som tillhör clusteringi och betraktar det som det övergripande stabilitetsmåttet för clusteringi. Bland n olika klustringslösningar (clusteringi (i GHz)) väljer vi klustringslösningen med maximal stabilitetsmått som den slutliga klustringslösningen.

Figur 3 visar detaljerna i resamplingsmetoden vi utförde för att beräkna stabilitetsmåttet för varje kluster. De kluster som erhålls genom att applicera k-medelvärde på den omsamplade datauppsättningen jämförs med klustren från de ursprungliga indata endast baserat på icke-bruspunkter (bullerdatapunkterna utesluts när två kluster jämförs baserat på Jaccard-likhetsmätaren.

Figur 3

ramverket för omsampling för att beräkna stabilitetsmåttet för varje kluster. Ingången inkluderar N datapunkter X = {x1,…, xN}, antalet kluster k, antalet resamplingar m och klustringen C som erhålls genom att applicera k-medel på X. Denna analys genererar m-resamplingdata genom att slumpmässigt ersätta 5% av datapunkterna med bruset och beräknar m-resampled clusterings baserat på k-means clustering. Varje kluster c i C jämförs med det mest liknande klustret i resamplingklusteringen, och Jaccard-koefficienten mellan de två klustren beräknas, medan bruspunkterna utesluts. Andelen gånger som Jaccard-koefficienterna är större än 0.75 anses vara stabilitetsmåttet för kluster c. genomsnittet av stabilitetsåtgärder för alla kluster som tillhör kluster C beräknas och betraktas som det övergripande stabilitetsmåttet för kluster C.

valideringsmetoder

Vi använder 13 olika dataset där celltyperna (etiketterna) är kända. För att mäta likhetsnivån mellan referensetiketterna och de härledda etiketterna som erhålls med varje klustermetod använder vi tre olika mätvärden: justerat rand-index (ARI), justerad ömsesidig information (AMI) och V-mått som förklaras i följande.

justerat randindex

Med tanke på celletiketterna används det justerade Randindexet (ARI)47 för att bedöma likheten mellan den härledda klustringen och den sanna klustringen. ARI varierar från 0, för dålig matchning (en slumpmässig clustering), till 1 för en perfekt överenskommelse med den sanna clustering. För en uppsättning n-datapunkter konstrueras beredskapstabellen baserat på det delade antalet datapunkter mellan två kluster. Antag X = {X1, X2,…, XR} och Y = {Y1, Y2,…, YC} representerar två olika kluster med r-respektive C-kluster. Överlappningen mellan X och Y kan sammanfattas som en beredskapstabell Mr C = , där i = 1…R, j = 1…C. Xi och Yj betecknar ett kluster i kluster X och Y, och i och j hänvisar till radnumret respektive kolumnnumret i beredskapstabellen. ARI definieras som följer:

justerad ömsesidig information

$$h(x) = \mathop {\sum } \ limits_{i \ mathrm{=1}}^{R}P(i)\, logP (i)$ $
(2)

h(X) är icke-negativ och tar värdet 0 endast när det inte finns någon osäkerhet som bestämmer en datapunkts klustermedlemskap (det finns bara en kluster). Den ömsesidiga informationen (MI) mellan två kluster X och Y beräknas enligt följande:

$$MI(X,Y)=\mathop{\sum }\limits_{i\mathrm{=1}}^{R}\mathop{\sum }\limits_{j\mathrm{=1}}^{C}P(i,j)\,log\frac{P(I,j)}{P(I)p(j)}$$
(3)

där P(I, J) anger sannolikheten för att en datapunkt tillhör både klustret XI i X och klustret YJ i y:

$$p(I,J)=\frac{|{x}_{i}\Cap {y}_{j}|}{n}$$
(4)

Mi är en icke-negativ mängd övre avgränsad av entropierna H(x) och h(y). Den kvantifierar den information som delas av de två klusteringarna och kan därför betraktas som en klusterlikhetsåtgärd. Det justerade måttet för den ömsesidiga Informationen definieras enligt följande:

$$AMI(x,Y)=\frac{MI(X,Y)-e\{MI(X,Y)\}}{max\{H(X),H(Y)\}-e\{MI(X,Y)\}}$
(5)

där den förväntade ömsesidiga informationen mellan två slumpmässiga kluster är:

där AI och bj är delsummorna i beredskapstabellen: \({a}_{i}={\sum }_{J\mathrm{=1}}^{c}{n}_{Ij}\) och \({B}_{J}={\sum }_{i\mathrm{=1}}^{r}{n}_{ij}\).

den justerade ömsesidiga informationen (AMI) tar ett värde av 1 när de två klusteringarna är identiska och 0 när MI mellan två partitioner är lika med det förväntade värdet på grund av slumpen ensam.

v-measure

V-measure50 är det harmoniska medelvärdet mellan två mått: homogenitet och fullständighet. Homogenitetskriterierna är uppfyllda om en gruppering endast tilldelar de datapunkter som är medlemmar i en enda klass (true cluster) till ett enda kluster. Således bör klassfördelningen inom varje kluster Skevas till en enda klass (noll entropi). För att bestämma hur nära en given klustring är detta ideal beräknas den villkorliga entropin för klassfördelningen med tanke på den identifierade klustringen som H(C|K), där C = {C1, C2, …, Cl} är en uppsättning klasser och K är en clustering K = {K1, K2,…, Km}. I det helt homogena fallet är detta värde 0. Detta värde är dock beroende av storleken på datauppsättningen och fördelningen av klassstorlekar. Således normaliseras denna villkorliga entropi genom den maximala minskningen av entropi som klusterinformationen kan ge, H(C). Därför definieras homogeniteten enligt följande:

$$h=\{\begin{array}{cc}1& \text{if}\,H(C,K)=0\\ 1-\frac{H(C| K)}{H(C)}& \text{annars}\end{array}$$
(7)

fullständigheten är symmetrisk mot homogenitet50. För att uppfylla fullständighetskriterierna måste en gruppering tilldela alla datapunkter som är medlemmar i en enda klass till ett enda kluster. För att mäta fullständigheten bedöms fördelningen av klusteruppgifter inom varje klass. I en perfekt komplett klusterlösning kommer var och en av dessa fördelningar att vara helt snedställda till ett enda kluster.

givet homogeniteten h och fullständigheten C beräknas v-måttet som det viktade harmoniska medelvärdet av homogenitet och fullständighet:

$${\rm{v}} \mbox{-} {\rm{m}}{\rm{e}}{\rm{a}}{\rm{u}}{\rm{r}}{\rm{e}}=\frac {(1+\beta)\AST h\AST C} {(\beta\AST H)+C}$$
(8)

om det är större än 1, vägs fullständigheten starkare i beräkningen. Om mindre än 1 är mindre än 1, vägs homogeniteten starkare. Eftersom beräkningarna av homogenitet, fullständighet och v-mått är helt oberoende av antalet klasser, antalet kluster, storleken på datauppsättningen och klusteralgoritmen kan dessa åtgärder användas för att utvärdera vilken klusterlösning som helst.

Lämna ett svar

Din e-postadress kommer inte publiceras.