Identificarea tipurilor de celule din date cu o singură celulă utilizând clustering stabil / Rapoarte științifice

scopul metodei propuse este de a identifica tipurile de celule prezente într-un amestec de celule unice. Introducerea metodei este matricea de expresie a genei cu o singură celulă (celula mgene) în care rândurile reprezintă genele și coloanele reprezintă celulele. În cele ce urmează oferim mai multe detalii despre datele de intrare și diferitele etape ale cadrului propus. Abordarea generală este prezentată în Fig. 1.

sursa de date

cele opt seturi de date scRNA-seq disponibile publicului, precum și cele cinci seturi de date de simulare pe care le-am folosit în analiza noastră sunt incluse în materialele suplimentare. Dintre cele opt seturi de date reale, toate, cu excepția a trei (Klein51, Patel52, Treutlein53) sunt considerate drept’ gold standard’, deoarece etichetele celulelor sunt cunoscute într-un mod definitiv. Patel52 și Treutlein53 sunt denumite standard de argint ‘ de Kiselev și colab.28 deoarece etichetele lor celulare sunt determinate pe baza metodelor de calcul și a cunoștințelor autorilor despre biologia de bază.

am obținut datele prelucrate de pe site-ul Hemberg lab (https://hemberg-lab.github.io/scRNA.seq.datasets). Hemberg și colab.54 utilizați Bioconductorul SingleCellExperiment S4 class55 pentru a stoca datele și pachetul scater56 pentru controlul calității și pentru trasare. Datele normalizate sunt depozitate ca un obiect SingleCellExperiment (.Fișier RData) și informațiile de tip celulă sunt accesate în coloana cell_type1 a slotului „colData” al acestui obiect. Valorile expresiei genetice ale celulelor sunt organizate ca o matrice în care rândurile sunt celule și coloanele sunt genele. În analiza noastră, genele (caracteristicile) care nu sunt exprimate în celule sunt eliminate. Nu am filtrat nicio celulă în această analiză.

filtrarea genelor

așa cum se arată în Fig. 1A, eliminăm genele / transcrierile care nu sunt exprimate în nicio celulă (valoarea expresiei este zero în toate celulele). Astfel de gene nu pot furniza informații utile care pot face diferența între tipurile de celule57. Rezultatul efectuării metodei de filtrare pe matricea de expresie a genei cu o singură celulă (celula mgene XV) este utilizat ca intrare la cel de-al doilea modul al cadrului propus.

măsurarea diferenței dintre celule

distanța dintre celule se calculează folosind metrica euclidiană (Fig. 1B). Ieșirea din această etapă este distanța (neasemănare) matrice dcell celulă de celule. Reducem dimensiunea D prin realizarea t-distributed stocastic neighbor embedding (t-end)34,58, tehnica de reducere/vizualizare a dimensionalității neliniare (Fig. 1C). Ne vom referi la ieșire ca D ‘ cell, în cazul în care 2 celule de la cell, la cell. În acest studiu, numărul de dimensiuni este 2.

Clustering

identificarea numărului optim de clustere

această secțiune descrie al treilea modul al metodei propuse (Fig. 1C). În această analiză, t-end este aplicat în mod repetat (n = 50) pe matricea de distanță dcell celula de la XL pentru a obține matricea de distanță redusă dimensionalitate d’XL XL l. de fiecare dată, numărul optim de clustere este calculat pe baza metodei siluetei medii folosind matricea de distanță redusă dimensionalitate D’. Pentru a găsi numărul optim de clustere k, K-înseamnă clustering este aplicat pe matricea D ‘ folosind o valoare a intervalului (implicit = 2:20) și este selectat k care maximizează măsura medie a siluetei. În cele din urmă, media numerelor selectate k pe diferite repetări (n = 50) (rotunjit la cel mai apropiat număr întreg) este considerat ca fiind numărul optim final de clustere.

silueta evaluează calitatea acelei grupări pe baza cât de bine sunt grupate punctele sale de date. O măsură siluetă este atribuită fiecărui punct de date reprezentând cât de aproape este un punct de date de propriul cluster în comparație cu alte clustere. Pentru fiecare punct de date i, Această măsură se calculează după cum urmează:

$${\rm{s}}({\rm{i}})=\frac{b(i)-a(i)}{max\{a(i),b(i)\}}$$

unde a(i) este distanța medie dintre punctul de date i și toate celelalte puncte de date din același cluster. b (i) este cea mai mică distanță medie a lui i față de toate punctele din orice alt grup din care eu nu este membru. s (i) ia valori de la -1 la 1, unde un scor pozitiv ridicat arată că punctul de date dat este bine grupat (aproape de alte puncte din propriul cluster și departe de punctele din celelalte clustere). În schimb, un scor negativ ridicat arată că punctul de date este slab grupat.

k-înseamnă gruparea bazată pe metoda de reeșantionare

această secțiune descrie detaliile ultimului modul al metodei propuse. Așa cum se arată în Fig. 2, folosind matricea de distanță redusă de dimensionalitate D ‘ și numărul ales de clustere k din etapa anterioară, identificăm cea mai stabilă grupare prin generarea diferitelor soluții de clusterizare (clusteringi (i )) și măsurăm stabilitatea fiecărei soluții de clusterizare pe baza unei metode de reeșantionare. Măsura de stabilitate atribuită fiecărei grupări particulare (notată ca clusteringi) reprezintă cât de des se păstrează clusterele k aparținând acelei grupări atunci când datele de intrare (D’) sunt reeșantionate de mai multe ori. Seturile de date reeșantionate sunt generate din D ‘ prin înlocuirea aleatorie a 5% din punctele de date (celule) cu zgomot. Aceste seturi de date zgomotoase sunt apoi utilizate ca intrare la algoritmul k-means. Prin urmare,mai multe clusteringi (clusteringi, j, J ) sunt generate din datele reeșantionate (versiuni reeșantionate ale clusteringi).

pentru a evalua stabilitatea fiecărui cluster C în clusteringi (clustering original), cluster-ul c este comparat cu toate clusterele din clustering care sunt obținute din datele resample (clusteringi,j) pe baza distanței Jaccard. Coeficientul Jaccard59, o măsură de similitudine între seturi, este utilizat pentru a calcula similitudinea dintre două clustere după cum urmează:

$${\rm{J}}({\rm{a}},{\rm{B}})=\frac {|A\cap B|} {|A\cup B/},\, A,B\subseteq X$$

unde termenul a și B sunt două clustere, constând din unele puncte de date în X = {x1, …, xN}.

dacă similitudinea Jaccard dintre clusterul C (din clusterul original clusteringi) și cel mai similar cluster din clusterul reeșantionat este egal sau mai mare de 0,75, acel cluster este considerat stabil (conservat). Astfel, stabilitatea fiecărui cluster în clusteringi se calculează ca procent din timpii în care clusterul este păstrat(coeficientul Jaccard 0.75) peste M diferite reeșantioane.

apoi mediem măsurile de stabilitate ale clusterelor k aparținând clusteringi și o considerăm ca fiind măsura generală de stabilitate a clusteringi. Dintre n diferite soluții de clusterizare (clusteringi (i )), selectăm soluția de clusterizare cu măsura maximă de stabilitate ca soluție finală de clusterizare.

Figura 3 prezintă detaliile metodei de reeșantionare pe care am efectuat-o pentru a calcula măsura de stabilitate pentru fiecare grupare. Clusterele care sunt obținute prin aplicarea mediei k pe setul de date reeșantionat sunt comparate cu clusterele din datele de intrare originale numai pe baza punctelor fără zgomot (punctele de date privind zgomotul sunt excluse atunci când două clustere sunt comparate pe baza metricii de similitudine Jaccard.

metode de validare

folosim 13 seturi de date diferite în care sunt cunoscute tipurile de celule (etichete). Pentru a măsura nivelul de similitudine dintre etichetele de referință și etichetele deduse care sunt obținute prin fiecare metodă de grupare, folosim trei valori diferite: indicele rand ajustat( ARI), informațiile reciproce ajustate (AMI) și măsura V, așa cum se explică în cele ce urmează.

indicele rand ajustat

având în vedere etichetele celulelor, indicele Rand ajustat (ARI)47 este utilizat pentru a evalua similitudinea dintre gruparea dedusă și gruparea adevărată. ARI variază de la 0, pentru potrivire slabă (o grupare aleatoare), la 1 pentru un acord perfect cu adevărata grupare. Pentru un set de n puncte de date, tabelul de urgență este construit pe baza numărului partajat de puncte de date între două clustere. Să Presupunem Că X = {X1, X2, …, XR} și Y = {Y1, Y2, …, YC} reprezintă două clustere diferite cu clustere R și, respectiv, C. Suprapunerea dintre X și Y poate fi rezumată ca un tabel de urgență Mr…R, j = 1…C. Xi și Yj denotă un cluster în clusterele X și Y, iar i și j se referă la numărul rândului și, respectiv, la numărul coloanei tabelului de urgență. ARI este definit după cum urmează:

informații reciproce ajustate

$$H(X)=\mathop{\sum }\limits_{i\mathrm{=1}}^{R}P(i)\,logP(i)$$

(2)

H(X) este non-negativ și ia valoarea 0 numai atunci când nu există nici o incertitudine care determină apartenența unui cluster punct de date (există doar un singur cluster). Informațiile reciproce (MI) dintre două clustere X și Y se calculează după cum urmează:

$$mi(X,Y)=\mathop{\sum }\limits_{i\mathrm{=1}}^{R}\mathop{\sum }\limits_{J\mathrm{=1}}^{C}P(i,j)\,log\frac{P(i,j)}{P(I)P(j)}$$

(3)

unde p(i, j) denotă probabilitatea ca un punct de date să aparțină atât clusterului XI în X,cât și clusterului YJ în y:

$$p(i, j)=\frac{|{x}_{i}\cap {y}_{j}|}{n}$$

(4)

mi este o cantitate non-negativă superioară delimitată de entropiile h(X) și h(y). Acesta cuantifică informațiile împărtășite de cele două clustere și, prin urmare, poate fi considerat ca o măsură de similitudine a clusterelor. Măsura ajustată pentru informațiile reciproce este definită după cum urmează:

$$AMI(X,Y)=\frac{MI(X,Y)-E\{mi(x,Y)\}}{max\{H(X),H(Y)\}-E\{MI(X,Y)\}}$$

(5)

unde informațiile reciproce așteptate între două clustere aleatorii sunt:

unde ai și BJ sunt sumele parțiale ale tabelului de urgență: ${a}_{i}={\sum }_{J\mathrm{=1}}^{C}{n}_{IJ}$ și ${B}_{J}={\sum }_{I\mathrm{=1}}^{r}{n}_{IJ}$.informațiile mutuale ajustate (ami) au o valoare de 1 când cele două clustere sunt identice și 0 când MI între două partiții este egală cu valoarea așteptată doar datorită întâmplării.

măsura V

măsura V50 este media armonică dintre două măsuri: omogenitate și completitudine. Criteriile de omogenitate sunt îndeplinite dacă o grupare atribuie numai acele puncte de date care sunt membre ale unei singure clase (cluster adevărat) unui singur cluster. Astfel, distribuția clasei în cadrul fiecărui cluster ar trebui să fie înclinată către o singură clasă (entropie zero). Pentru a determina cât de aproape este o grupare dată de acest ideal, entropia condiționată a distribuției clasei având în vedere gruparea identificată este calculată ca H(C|K), unde C = {C1, C2, …, Cl} este un set de clase și K este o grupare K = {K1, K2, …, Km}. În cazul perfect omogen, această valoare este 0. Cu toate acestea, această valoare depinde de dimensiunea setului de date și de distribuția dimensiunilor clasei. Astfel, această entropie condiționată este normalizată prin reducerea maximă a entropiei pe care informațiile de grupare le-ar putea oferi, H(C). Prin urmare, omogenitatea este definită după cum urmează:

$$h=\{\begin{array}{cc}1& \text{if}\,H(C,K)=0\\ 1-\frac{H(C| K)}{H(C)}& \text{altfel}\end{array}$$

(7)

completitudinea este simetrică cu omogenitatea50. Pentru a satisface criteriile de exhaustivitate, o grupare trebuie să atribuie toate acele puncte de date care sunt membre ale unei singure clase unui singur cluster. Pentru a măsura completitudinea, se evaluează distribuția alocărilor de cluster în cadrul fiecărei clase. Într-o soluție de clustering perfect completă, fiecare dintre aceste distribuții va fi complet înclinată către un singur cluster.

dată fiind omogenitatea h și integralitatea c, măsura V este calculată ca media armonică ponderată a omogenității și integralității:

$${\rm{V}} \mbox {-} {\rm{m}}{\rm{e}}{\rm{a}}{\rm{s}}{\rm{u}}{\rm{r}}{\rm{e}}=\frac{(1+\beta )\ast h\AST C}{(\beta \AST H)+C}$$

(8)

în cazul în care este mai mare de 1, completitudinea este ponderată mai puternic în calcul. În cazul în care valoarea maximă este mai mică de 1, omogenitatea este ponderată mai puternic. Deoarece calculele de omogenitate, completitudine și v-măsură sunt complet independente de numărul de clase, numărul de clustere, dimensiunea setului de date și algoritmul de clustering, aceste măsuri pot fi utilizate pentru evaluarea oricărei soluții de clustering.

KGSAU

identificarea tipurilor de celule din date cu o singură celulă utilizând clustering stabil