Identificatie van celtypen uit eencellige gegevens met behulp van stabiele clustering

Het doel van de voorgestelde methode is het identificeren van de celtypen die aanwezig zijn in een mengsel van enkele cellen. De input van de methode is de eencellige matrix van de genuitdrukking (mgene×cel) waarin de rijen de genen en de kolommen de cellen vertegenwoordigen. Hieronder geven we meer details over de inputgegevens en de verschillende stappen van het voorgestelde framework. De algemene aanpak is weergegeven in Fig. 1.

figuur 1

de totale workflow van de voorgestelde methode. Gezien de matrix van de ééncellige genuitdrukking, elimineert module (A) de genen die niet in om het even welke cel worden uitgedrukt. Met behulp van de resulterende matrix berekent module (B) de Euclidische afstand tussen de cellen. De output van deze module is een afstandsmatrix waarin de rijen en kolommen de cellen zijn (Dcell×cell). Module (C) vermindert de dimensionaliteit van de afstandsmatrix met behulp van de T-distributed stochastic neighbor embedding (t-SNE) techniek. In deze module, wordt een gemiddelde silhouetmethode aangewend om het optimale aantal clusters k te kiezen. tenslotte in module (D), worden de Matrijs van de lagere-dimensieafstand en het optimale aantal clusters k die van module (C) worden verkregen gebruikt als inputgegevens om het stabielste clustering van cellen te identificeren. Figuur 2 toont de details van module D.

gegevensbron

de acht openbaar beschikbare scrna-seq-datasets en de vijf simulatie-datasets die we in onze Analyse hebben gebruikt, zijn opgenomen in de aanvullende materialen. Van de acht echte datasets, op drie na (Klein51, Patel52, Treutlein53) worden beschouwd als’ gouden standaard ‘ omdat de labels van de cellen op een definitieve manier bekend zijn. Patel52 en Treutlein53 worden door Kiselev et al aangeduid als’ silver standard’.28 aangezien hun cellabels worden bepaald op basis van de computationele methoden en de kennis van de auteurs van de onderliggende biologie.

we hebben de verwerkte gegevens verkregen van de website van Hemberg lab (https://hemberg-lab.github.io/scRNA.seq.datasets). Henberg et al.54 gebruik het SingleCellExperiment Bioconductor S4 class55 om de gegevens op te slaan, en het scater package56 voor de kwaliteitscontrole en plotten doeleinden. De genormaliseerde gegevens worden gedeponeerd als een SingleCellExperiment object (.RData-bestand) en de celtype-informatie wordt benaderd in de kolom cell_type1 van het “colData” – slot van dit object. De waarden van de genuitdrukking van de cellen worden georganiseerd als matrijs waarin de rijen cellen zijn en de kolommen de genen zijn. In onze Analyse worden genen (eigenschappen) verwijderd die niet tot expressie komen in cellen. We hebben geen enkele cel gefilterd in deze analyse.

Genfiltering

zoals weergegeven in Fig. 1A, verwijderen we de genen / transcripten die niet in een cel worden uitgedrukt (expressiewaarde is nul in alle cellen). Dergelijke genen kunnen geen nuttige informatie verstrekken die tussen celtypes57 kan onderscheiden. Het resultaat van het uitvoeren van de filtermethode op de eencellige genexpressiematrix (mgene×cell) wordt gebruikt als input voor de tweede module van het voorgestelde kader.

het meten van de verschillen tussen de cellen

de afstand tussen de cellen wordt berekend met behulp van de Euclidische metriek (Fig. 1 ter). De output van deze stap is de afstand (ongelijksoortigheid) matrix Dcell×cel. We verminderen de dimensie van D door het uitvoeren van de T-distributed stochastic neighbor embedding (t-SNE)34,58, de niet-lineaire dimensionaliteitsreductie/visualisatietechniek (Fig. 1C). We zullen naar de output verwijzen als D ‘ cell×l, waar 2 ≤ L ≤ cel. In deze studie is het aantal dimensies 2.

Clustering

Identificatie van het optimale aantal clusters

deze paragraaf beschrijft de derde module van de voorgestelde methode (Fig. 1C). In deze analyse wordt de t-SNE herhaaldelijk (n = 50) toegepast op de distance matrix Dcell×cell om de dimensionaliteit-gereduceerde distance matrix d’cell×l te verkrijgen. telkens wordt het optimale aantal clusters berekend op basis van de gemiddelde silhouetmethode met behulp van de dimensionaliteit gereduceerde distance matrix D’. Om het optimale aantal clusters k te vinden, wordt de k-means clustering toegepast op de D ‘ matrix met behulp van een bereikwaarde (standaard = 2:20), en de k die de gemiddelde silhouetmaat maximaliseert wordt geselecteerd. Ten slotte wordt het gemiddelde van de geselecteerde getallen k over verschillende herhalingen (n = 50) (afgerond op het dichtstbijzijnde gehele getal) beschouwd als het uiteindelijke optimale aantal clusters.

het silhouet evalueert de kwaliteit van die clustering op basis van hoe goed de datapunten zijn geclusterd. Een silhouetmaat wordt toegewezen aan elk gegevenspunt dat vertegenwoordigt hoe dicht een gegevenspunt aan zijn eigen cluster in vergelijking met andere clusters is. Voor elk gegevenspunt i wordt deze maat als volgt berekend:

$${\RM{s}}({\rm{i}})=\frac{b(i)-a(i)}{max\{a(i), b(i)\}}$$

waarbij a(i) De gemiddelde afstand is tussen het gegevenspunt i en alle andere gegevenspunten binnen hetzelfde cluster. b (i) de kleinste gemiddelde afstand van i is tot alle punten in een andere cluster waarvan i geen lid is. s (i) neemt waarden van -1 tot 1, waarbij een hoge positieve score laat zien dat het gegeven gegevenspunt goed geclusterd is (dicht bij andere punten in zijn eigen cluster en ver van punten in de andere clusters). Omgekeerd toont een hoge negatieve score aan dat het gegevenspunt slecht geclusterd is.

k – betekent clustering op basis van de resamplingmethode

Deze sectie beschrijft de details van de laatste module van de voorgestelde methode. Zoals in Fig. 2, met behulp van de dimensionaliteit verminderde afstand matrix D’ en het gekozen aantal clusters k van de vorige stap, identificeren we de meest stabiele clustering door het genereren van verschillende clustering oplossingen (clusteringi (i ∈ )) en meten de stabiliteit van elke clustering oplossing op basis van een resampling methode. De stabiliteitsmaat die aan elke bijzondere clustering wordt toegewezen (aangeduid als clusteringi) vertegenwoordigt hoe vaak de k-clusters die tot die clustering behoren worden bewaard wanneer de inputgegevens (D’) meerdere malen opnieuw worden bemonsterd. De opnieuw gesamplede datasets worden gegenereerd uit D ‘ door willekeurig 5% van de gegevenspunten (cellen) te vervangen door ruis. Deze lawaaierige datasets worden dan gebruikt als de input voor het algoritme van k-means. Vandaar, verschillende clusterings (clusteringi,j, j ∈ ) worden gegenereerd uit de resampled data (resampled versies van clusteringi).

Figuur 2

Identificatie van de meest stabiele clustering. In deze analyse, gezien de lagere dimensie afstand matrix D ‘ cell×l en het optimale aantal clusters k, berekenen we n verschillende clusters (clustering1, …, clusteringn) met behulp van het k-means clustering algoritme. Vervolgens wordt de stabiliteit van elke clustering beoordeeld op basis van een resamplingbenadering (grey box). Een stabiliteitsscore wordt toegewezen aan elke clustering op basis van hoe vaak de clusters worden hersteld wanneer de inputgegevens worden verstoord (opnieuw bemonsterd). Een clustering met de maximale stabiliteitsscore wordt geselecteerd als de uiteindelijke oplossing.

om de stabiliteit van elk cluster c in de clusteringi (oorspronkelijke clustering) te beoordelen, wordt cluster c vergeleken met alle clusters in de clustering die wordt verkregen uit de resample data (clusteringi,j) op basis van de Jaccard afstand. De Jaccard-coëfficiënt 59, een gelijkenis tussen verzamelingen, wordt als volgt gebruikt om de gelijkenis tussen twee clusters te berekenen:

$${\rm{J}}({\rm{A}},{\rm{B}})=\frac {|A\cap B|} {|a\cup B/},\, A,B\subseteq X$$

waarbij de term A en B twee clusters zijn, bestaande uit enkele gegevenspunten in X = {x1, …, xN}.

als de Jaccard-overeenkomst tussen cluster c (van de oorspronkelijke clustering clusteringi) en de meest vergelijkbare cluster in de opnieuw gesamplede clustering gelijk is aan of groter is dan 0,75, wordt die cluster als stabiel beschouwd (bewaard). Aldus, wordt de stabiliteit van elke cluster in clusteringi berekend als het percentage van de tijden die cluster wordt behouden (Jaccard coëfficiënt ≥ 0.75) over de m verschillende resamplings.

we gemiddelde de stabiliteitsmaten van de k-clusters die tot clusteringi behoren, en beschouwen het als de Algemene stabiliteitsmaat van clusteringi. Onder n verschillende clustering oplossingen (clusteringi (i ∈ )), selecteren we de clustering oplossing met de maximale stabiliteit maatregel als de uiteindelijke clustering oplossing.

Figuur 3 toont de details van de resamplingmethode die we hebben uitgevoerd om de stabiliteitsmaat voor elke clustering te berekenen. De clusters die worden verkregen door het toepassen van k-mean op de resampled dataset worden vergeleken met de clusters van de oorspronkelijke inputgegevens alleen gebaseerd op de niet-ruispunten (de ruisgegevenspunten worden uitgesloten wanneer twee clusters worden vergeleken op basis van de Jaccard-gelijkenis metriek.

Figure 3

het resampling framework om de stabiliteitsmaat voor elke clustering te berekenen. De invoer omvat N gegevenspunten X = {x1, …, xN}, het aantal clusters k, het aantal resamplings m, en de clustering C die wordt verkregen door het toepassen van k-middelen op X. Deze analyse genereert m resampling gegevens door willekeurig vervangen 5% van datapunten met de ruis, en berekent m resamplings gebaseerd op k-middelen clustering. Elke cluster c in C wordt vergeleken met de meest vergelijkbare cluster in het resampling clustering, en de Jaccard-coëfficiënt tussen de twee clusters wordt berekend, terwijl de ruispunten worden uitgesloten. Het percentage van de keren dat Jaccard coëfficiënten groter zijn dan 0.75 wordt beschouwd als de stabiliteitsmaat voor cluster c. Het gemiddelde van de stabiliteitsmaatstaven voor alle clusters die tot clustering C behoren, wordt berekend en beschouwd als de Algemene stabiliteitsmaat voor clustering C.

Validatiemethoden

we gebruiken 13 verschillende datasets waarin de celtypes (labels) bekend zijn. Om de mate van overeenstemming te meten tussen de referentie labels en de afgeleide labels die worden verkregen door elke clustering methode, gebruiken we drie verschillende metrics: aangepaste rand-index (ARI), aangepaste Wederzijdse informatie (AMI) en v-maatregel zoals hieronder uiteengezet.

aangepaste rand-index

gegeven de cellabels wordt de aangepaste Rand-Index (ARI)47 gebruikt om de overeenkomst tussen de afgeleide clustering en de echte clustering te beoordelen. ARI varieert van 0, voor slechte matching (een willekeurige clustering), tot 1 voor een perfecte overeenkomst met de ware clustering. Voor een reeks n-gegevenspunten wordt de noodtabel geconstrueerd op basis van het gedeelde aantal gegevenspunten tussen twee clusters. Stel Dat X = {X1, X2, …, XR} en Y = {Y1, Y2, …, YC} vertegenwoordigen twee verschillende clusters met R en c clusters, respectievelijk. De overlapping tussen X en Y kan worden samengevat als een contingentietabel MR×C = , waarbij i = 1…R, j = 1…C. Xi en Yj staan voor een cluster in clusterings X en Y, en i en j verwijzen respectievelijk naar het rijnummer en het kolomnummer van de contingency table. De ARI wordt gedefinieerd als volgt::

aangepaste Wederzijdse informatie

$$H(X)=\mathop{\sum }\limits_{i\mathrm{=1}}^{R}P(i)\,logP(i)$$
(2)

H(X) is niet-negatief en neemt de waarde 0 alleen aan als er geen onzekerheid is die het clusterlidmaatschap van een gegevenspunt bepaalt (er is slechts één cluster). De wederzijdse informatie (MI) tussen twee clusterings X en Y wordt als volgt berekend:

$$MI(X,Y)=\mathop{\sum }\limits_{i\mathrm{=1}}^{R}\mathop{\sum }\limits_{j\mathrm{=1}}^{C}P(i,j)\log\frac{P(i,j)}{P(i)P(j)}$$
(3)

waar P(i, j) staat voor de kans dat een data-punt behoort tot zowel de cluster Xi in de X-en de cluster Yj Y:

$$P(i,j)=\frac{|{X}_{i}\kap {Y}_{j}|}{n}$$
(4)

MI is een niet-negatieve hoeveelheid boven begrensd door de entropies H(X) en H(Y). Het kwantificeert de informatie die door de twee clusterings wordt gedeeld en kan daarom worden beschouwd als een clustering gelijkenis maatregel. De gecorrigeerde maat voor de onderlinge uitwisseling van informatie is als volgt gedefinieerd:

$$AMI(X,Y)=\frac{MI(X,Y)-E\{MI(X,Y)\}}{max\{H(X),H(Y)\}-E\{MI(X,Y)\}}$$
(5)

waar de verwachte wederzijdse informatie tussen twee willekeurige clusteringen is:

waar de ai en bj zijn de partiële sommen van de contingency tabel: \({a}_{i}={\sum }_{j\mathrm{=1}}^{C}{n}_{ij}\) en \({b}_{j}={\sum }_{i\mathrm{=1}}^{R}{n}_{ij}\).

De adjusted mutual information (AMI) heeft een waarde van 1 als de twee clusterings identiek zijn en 0 als de MI tussen twee partities gelijk is aan de waarde die alleen al door toeval wordt verwacht.

v-Maat

De V-maat50 is het harmonische gemiddelde tussen twee maten: homogeniteit en volledigheid. Aan de homogeniteitscriteria is voldaan als een clustering alleen die gegevenspunten die lid zijn van een enkele klasse (true cluster) aan een enkele cluster toewijst. Daarom moet de klassenverdeling binnen elk cluster worden scheefgetrokken tot één klasse (nul entropie). Om te bepalen hoe dicht een bepaalde clustering bij dit ideaal ligt, wordt de voorwaardelijke entropie van de klassenverdeling berekend als H(C|K), waarbij C = {C1, C2, …, Cl} is een verzameling van klassen en K is een clustering K = {K1, K2,…, Km}. In het volkomen homogene geval is deze waarde 0. Deze waarde is echter afhankelijk van de grootte van de dataset en de verdeling van klassengroottes. Dus, deze voorwaardelijke entropie wordt genormaliseerd door de maximale vermindering van entropie de clustering informatie zou kunnen bieden, H (C). Daarom wordt de homogeniteit als volgt gedefinieerd: :

$$h=\{\begin{array}{cc}1 & \text{if}\,H(C,K)=0\\ 1-\frac{H(C/K)}{H(C)} & \text{anders}\end{array}$$
(7)

de volledigheid is symmetrisch met homogeniteit50. Om aan de volledigheidscriteria te voldoen, moet een clustering al die gegevenspunten die lid zijn van een enkele klasse aan een enkele cluster toewijzen. Om de volledigheid te meten, wordt de verdeling van clustertoewijzingen binnen elke klasse beoordeeld. In een perfect complete clustering oplossing, elk van deze distributies zal volledig worden scheefgetrokken naar een enkele cluster.

gegeven de homogeniteit h en volledigheid c, wordt de V-maat berekend als het gewogen harmonisch gemiddelde van homogeniteit en volledigheid:

$${\rm{V}} \mbox{-} {\rm{m}}{\RM{e}}{\rm{a}}{\rm{s}}{\RM{u}}{\rm{r}}{\RM{e}}=\frac{(1+\beta )\ast h\AST C}{(\beta \AST H)+C}$$
(8)

Als β groter is dan 1, wordt de volledigheid sterker gewogen in de berekening. Indien β kleiner is dan 1, wordt de homogeniteit sterker gewogen. Aangezien de berekeningen van homogeniteit, volledigheid en v-Maat volledig onafhankelijk zijn van het aantal klassen, het aantal clusters, de grootte van de dataset en het clustering algoritme, kunnen deze metingen worden gebruikt voor het evalueren van elke clustering oplossing.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.