Identificazione dei tipi di cellule da dati a cellule singole mediante clustering stabile

L’obiettivo del metodo proposto è quello di identificare i tipi di cellule presenti in una miscela di singole cellule. L’input del metodo è la matrice di espressione genica a cellula singola (Mgene×cell) in cui le righe rappresentano i geni e le colonne rappresentano le cellule. Di seguito forniamo maggiori dettagli sui dati di input e sulle diverse fasi del quadro proposto. L’approccio generale è mostrato in Fig. 1.

Figura 1

Il flusso di lavoro complessivo del metodo proposto. Data la matrice di espressione genica a singola cellula, il modulo (A) elimina i geni che non sono espressi in nessuna cellula. Utilizzando la matrice risultante, il modulo (B) calcola la distanza euclidea tra le celle. L’output di questo modulo è una matrice di distanza in cui le righe e le colonne sono le celle (Dcell×cell). Il modulo (C) riduce la dimensionalità della matrice di distanza utilizzando la tecnica t-SNE (Distributed stochastic neighbor embedding). In questo modulo, viene impiegato un metodo di silhouette media per scegliere il numero ottimale di cluster k. Infine nel modulo (D), la matrice di distanza di dimensione inferiore e il numero ottimale di cluster k ottenuti dal modulo (C) vengono utilizzati come dati di input per identificare il clustering più stabile di celle. La figura 2 mostra i dettagli del modulo D.

Origine dati

Gli otto set di dati scRNA-seq disponibili pubblicamente e i cinque set di dati di simulazione utilizzati nella nostra analisi sono inclusi nei Materiali supplementari. Tra gli otto set di dati reali, tutti tranne tre (Klein51, Patel52, Treutlein53) sono considerati “gold standard” poiché le etichette delle celle sono note in modo definitivo. Patel52 e Treutlein53 sono indicati come’argento standard ‘ da Kiselev et al.28 poiché le loro etichette cellulari sono determinate in base ai metodi computazionali e alla conoscenza degli autori della biologia sottostante.

Abbiamo ottenuto i dati elaborati dal sito web di Hemberg lab (https://hemberg-lab.github.io/scRNA.seq.datasets). Hemberg et al.54 utilizzare il bioconduttore SingleCellExperiment S4 class55 per memorizzare i dati e il pacchetto scater56 per il controllo qualità e la stampa. I dati normalizzati vengono depositati come oggetto SingleCellExperiment (.File RData) e le informazioni sul tipo di cella sono accessibili nella colonna cell_type1 dello slot “colData” di questo oggetto. I valori di espressione genica delle cellule sono organizzati come una matrice in cui le righe sono cellule e le colonne sono i geni. Nella nostra analisi, i geni (caratteristiche) che non sono espressi in nessuna cellula vengono rimossi. Non abbiamo filtrato nessuna cella in questa analisi.

Filtro genico

Come mostrato in Fig. 1A, rimuoviamo i geni / trascritti che non sono espressi in nessuna cellula (il valore di espressione è zero in tutte le cellule). Tali geni non possono fornire informazioni utili in grado di distinguere tra i tipi di cellule57. Il risultato dell’esecuzione del metodo di filtraggio sulla matrice di espressione genica a cellula singola (Mgene×cell) viene utilizzato come input per il secondo modulo del framework proposto.

Misurando la dissomiglianza tra le celle

La distanza tra le celle viene calcolata utilizzando la metrica euclidea (Fig. 1 TER). L’output di questo passaggio è la distanza (dissomiglianza) matrice Dcell×cell. Riduciamo la dimensione di D eseguendo il t-distributed stocastic neighbor embedding (t-SNE)34,58, la tecnica di riduzione/visualizzazione della dimensionalità non lineare (Fig. 1C). Ci riferiremo all’uscita come D’cell×l, dove 2 ≤ l ≤ cell. In questo studio, il numero di dimensioni è 2.

Clustering

Identificazione del numero ottimale di cluster

Questa sezione descrive il terzo modulo del metodo proposto (Fig. 1C). In questa analisi, il t-SNE viene ripetutamente (n = 50) applicato sulla matrice di distanza Dcell×cell per ottenere la matrice di distanza dimensionalità-ridotta D’cell×l. Ogni volta, il numero ottimale di cluster viene calcolato in base al metodo di silhouette media utilizzando la matrice di distanza dimensionalità ridotta D’. Per trovare il numero ottimale di cluster k, il clustering k-means viene applicato sulla matrice D ‘ utilizzando un valore di intervallo (default = 2:20) e viene selezionato il k che massimizza la misura media della silhouette. Infine, la media dei numeri selezionati k attraverso diverse ripetizioni (n = 50) (arrotondata al numero intero più vicino) è considerata come il numero ottimale finale di cluster.

La silhouette valuta la qualità di quel clustering in base a quanto bene i suoi punti dati sono raggruppati. A ciascun punto dati viene assegnata una misura silhouette che rappresenta la vicinanza di un punto dati al proprio cluster rispetto ad altri cluster. Per ogni punto dati i, questa misura è calcolata come segue:

$ $ {\rm{s}}({\rm{i}})=\frac{b(i)-a(i)}{max\{a(i),b(i)\}} where

dove a(i) è la distanza media tra il punto dati i e tutti gli altri punti dati all’interno dello stesso cluster. b (i) è la più piccola distanza media di i a tutti i punti in qualsiasi altro cluster di cui i non è un membro. s (i) prende valori da -1 a 1, dove un punteggio positivo elevato mostra che il punto dati dato è ben raggruppato (vicino ad altri punti nel proprio cluster e lontano dai punti negli altri cluster). Al contrario, un punteggio negativo elevato mostra che il punto dati è scarsamente raggruppato.

k-significa clustering basato sul metodo di ricampionamento

Questa sezione descrive il dettaglio dell’ultimo modulo del metodo proposto. Come mostrato in Fig. 2, utilizzando la matrice di dimensionalità a distanza ridotta D ‘ e il numero scelto di cluster k dal passaggio precedente, identifichiamo il clustering più stabile generando diverse soluzioni di clustering (clusteringi (i ∈)) e misuriamo la stabilità di ciascuna soluzione di clustering sulla base di un metodo di ricampionamento. La misura di stabilità assegnata a ciascun particolare clustering (indicata come clusteringi) rappresenta la frequenza con cui i cluster k appartenenti a tale clustering vengono conservati quando i dati di input (D’) vengono ricampionati più volte. I set di dati ricampionati vengono generati da D’ sostituendo casualmente il 5% dei punti dati (celle) con il rumore. Questi set di dati rumorosi vengono quindi utilizzati come input per l’algoritmo k-means. Quindi, diversi clustering (clusteringi, j, j ∈) vengono generati dai dati ricampionati (versioni ricampionate di clusteringi).

Figura 2

Identificare il clustering più stabile. In questa analisi, data la matrice di distanza di dimensione inferiore D’cell×l e il numero ottimale di cluster k, calcoliamo n diversi clusterings (clustering1,…, clusteringn) utilizzando l’algoritmo di clustering k-means. Quindi, la stabilità di ciascun clustering viene valutata sulla base di un approccio di ricampionamento (scatola grigia). A ciascun clustering viene assegnato un punteggio di stabilità in base alla frequenza con cui i cluster vengono recuperati quando i dati di input vengono perturbati (ricampionati). Come soluzione finale viene selezionato un clustering con il punteggio massimo di stabilità.

Al fine di valutare la stabilità di ogni cluster c nel clusteringi (clustering originale), il cluster c viene confrontato con tutti i cluster nel clustering che si ottiene dai dati di ricampionamento (clusteringi,j) in base alla distanza Jaccard. Il coefficiente Jaccard59, una misura di somiglianza tra insiemi, viene utilizzato per calcolare la somiglianza tra due cluster come segue:

{{\rm {J}} ({\rm {A}}, {\rm {B}})=\frac {|A\cap B|} {|A\cup B/},\, A,B\subseteq X X

dove il termine A e B sono due cluster, costituiti da alcuni punti dati in X = {x1, …, xN}.

Se la somiglianza di Jaccard tra il cluster c (dal clustering clusteringi originale) e il cluster più simile nel clustering ricampionato è uguale o maggiore di 0,75, quel cluster è considerato stabile (conservato). Pertanto, la stabilità di ciascun cluster in clusteringi viene calcolata come percentuale delle volte in cui il cluster viene conservato (coefficiente Jaccard ≥ 0.75) attraverso il m diversi resamplings.

Facciamo quindi la media delle misure di stabilità dei cluster k appartenenti a clusteringi e la consideriamo come la misura di stabilità complessiva di clusteringi. Tra n diverse soluzioni di clustering (clusteringi (i ∈ )), selezioniamo la soluzione di clustering con la misura di massima stabilità come soluzione finale di clustering.

La figura 3 mostra il dettaglio del metodo di ricampionamento che abbiamo eseguito per calcolare la misura di stabilità per ogni clustering. I cluster ottenuti applicando k-mean sul set di dati ricampionato vengono confrontati con i cluster dai dati di input originali solo in base ai punti non-rumore (i punti dati di rumore sono esclusi quando due cluster vengono confrontati in base alla metrica di somiglianza Jaccard.

Figura 3

Il framework di ricampionamento per calcolare la misura di stabilità per ogni clustering. L’input include N punti dati X ={x1,…, XN}, il numero di cluster k, il numero di ricampionamenti m, e il clustering C che si ottiene applicando k-means su X. Questa analisi genera m ricampionamento dei dati sostituendo casualmente 5% dei punti dati con il rumore, e calcola m ricampionamento clustering basato su k-means clustering. Ogni cluster c in C viene confrontato con il cluster più simile nel clustering di ricampionamento e viene calcolato il coefficiente Jaccard tra i due cluster, mentre i punti di rumore sono esclusi. La percentuale delle volte che i coefficienti di Jaccard sono maggiori di 0.75 è considerata la stabilità di misura per il cluster c. La media delle misure di stabilità per tutti i cluster di appartenenza di clustering C è calcolato e considerato come la stabilità complessiva misura per il clustering C.

metodi di Convalida

usiamo 13 diversi set di dati in cui i tipi di cellule (etichette) sono noti. Per misurare il livello di somiglianza tra le etichette di riferimento e le etichette dedotte ottenute da ciascun metodo di clustering, utilizziamo tre diverse metriche: adjusted rand index (ARI), adjusted mutual information (AMI), e V-measure come spiegato di seguito.

Adjusted rand index

Date le etichette delle celle, l’Adjusted Rand Index (ARI)47 viene utilizzato per valutare la somiglianza tra il clustering dedotto e il vero clustering. ARI varia da 0, per la scarsa corrispondenza (un clustering casuale), a 1 per un accordo perfetto con il vero clustering. Per un set di n punti dati, la tabella di contingenza viene costruita in base al numero condiviso di punti dati tra due cluster. Supponiamo che X = {X1, X2, …, XR} e Y = {Y1, Y2, …, YC} rappresentano due diversi cluster con cluster R e C, rispettivamente. La sovrapposizione tra X e Y può essere riassunta come una tabella di contingenza MR×C =, dove i = 1…R, j = 1…C. Xi e Yj denotano un cluster in cluster X e Y, e i e j si riferiscono rispettivamente al numero di riga e al numero di colonna della tabella di contingenza. L’ARI è definito come segue:

Adjusted mutual information

$ $ H (X)=\mathop{\sum }\limits_{i\mathrm {=1}}^{R}P(i)\,logP (i) log
(2)

H(X) non è negativo e assume il valore 0 solo quando non c’è incertezza nel determinare l’appartenenza a un cluster di un punto dati (esiste un solo cluster). Le informazioni reciproche (MI) tra due cluster X e Y sono calcolate come segue:

$$MI(X,Y)=\mathop{\sum }\limits_{i\mathrm{=1}}^{R}\mathop{\sum }\limits_{j\mathrm{=1}}^{C}P(i,j)\log\frac{P(i,j)}{P(i)P(j)}$$
(3)

dove P(i, j) indica la probabilità che un punto appartiene al cluster Xi X e il cluster Yj Y:

$$P(i,j)=\frac{|{X}_{i}\cap {Y}_{j}|}{n}$$
(4)

MI è non negativo quantità superiore delimitata dal entropie H(X) e H(Y). Quantifica le informazioni condivise dai due cluster e quindi può essere considerato come una misura di somiglianza di clustering. Il aggiustati per lo scambio reciproco di informazioni è definito come segue:

$$AMI(X,Y)=\frac{MI(X,Y)-E\{MI(X,Y)\}}{max\{H(X),H(Y)\}-E\{MI(X,Y)\}}$$
(5)

dove previsto lo scambio reciproco di informazioni tra due random clusterings è:

dove l’ai e bj sono le somme parziali della tabella di contingenza: \({a}_{i}={\sum }_{j\mathrm{=1}}^{C}{n}_{ij}\) e \({b}_{j}={\sum }_{i\mathrm{=1}}^{R}{n}_{ij}\).

L’AMI (adjusted Mutual information) assume un valore di 1 quando i due clustering sono identici e 0 quando l’MI tra due partizioni è uguale al valore previsto a causa del solo caso.

V-measure

Il V-measure50 è la media armonica tra due misure: omogeneità e completezza. I criteri di omogeneità sono soddisfatti se un clustering assegna solo i punti dati che sono membri di una singola classe (true cluster) a un singolo cluster. Pertanto, la distribuzione della classe all’interno di ciascun cluster dovrebbe essere inclinata su una singola classe (zero entropia). Per determinare quanto sia vicino un dato clustering a questo ideale, l’entropia condizionale della distribuzione di classe data il clustering identificato viene calcolata come H(C|K), dove C = {C1, C2, …, Cl} è un insieme di classi e K è un clustering K = {K1, K2, …, Km}. Nel caso perfettamente omogeneo, questo valore è 0. Tuttavia, questo valore dipende dalla dimensione del set di dati e dalla distribuzione delle dimensioni della classe. Pertanto, questa entropia condizionale è normalizzata dalla massima riduzione dell’entropia che le informazioni di clustering potrebbero fornire, H(C). Pertanto, l’omogeneità è definita come segue:

$$h=\{\begin{array}{cc}1 & \text{se}\,H(C,K)=0\\ 1-\frac{H(C| K)}{H(C)} & \text{altrimenti}\end{array}$$
(7)

La completezza è simmetrica homogeneity50. Per soddisfare i criteri di completezza, un clustering deve assegnare tutti i punti dati che sono membri di una singola classe a un singolo cluster. Per misurare la completezza, viene valutata la distribuzione delle assegnazioni di cluster all’interno di ciascuna classe. In una soluzione di clustering perfettamente completa, ciascuna di queste distribuzioni sarà completamente distorta in un singolo cluster.

Dato che l’omogeneità h e completezza c, V-misura è calcolata come la media armonica ponderata di omogeneità e completezza:

$${\rm{V}} \mbox{-} {\rm{m}}{\rm{e}}{\rm{a}}{\rm{s}}{\rm{u}}{\rm{r}}{\rm{e}}=\frac{(1+\beta )\ast h\ast c}{(\beta \ast h)+c}$$
(8)

se b è maggiore di 1, la completezza è pesata di più fortemente nel calcolo. Se β è inferiore a 1, l’omogeneità è ponderata più fortemente. Poiché i calcoli di omogeneità, completezza e V-measure sono completamente indipendenti dal numero di classi, dal numero di cluster, dalla dimensione del set di dati e dall’algoritmo di clustering, queste misure possono essere impiegate per valutare qualsiasi soluzione di clustering.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.