solutyyppien tunnistaminen yksittäissolutiedoista käyttäen stabiilia ryhmittelyä

ehdotetun menetelmän tavoitteena on tunnistaa yksittäisten solujen seoksessa esiintyvät solutyypit. Menetelmän syöte on yksisoluisen geenin ilmentymämatriisi (Mgene×cell), jossa rivit edustavat geenejä ja sarakkeet soluja. Seuraavassa kerromme tarkemmin ehdotetun kehyksen syöttötiedoista ja eri vaiheista. Yleinen lähestymistapa on esitetty Fig. 1.

Kuva 1

ehdotetun menetelmän yleinen työnkulku. Koska yksisoluisen geenin ekspressiomatriisi, moduuli (A) poistaa geenit, jotka eivät ilmene missään solussa. Moduli (B) laskee tuloksena olevan matriisin avulla solujen välisen euklidisen etäisyyden. Tämän moduulin lähtö on etäisyysmatriisi, jossa rivit ja sarakkeet ovat soluja (Dcell×solu). Moduuli (C) vähentää etäisyysmatriisin mitoitusta käyttämällä T-distributed stokastic neighborg embedding (t-SNE) – tekniikkaa. Tässä moduulissa käytetään keskimääräistä siluettimenetelmää, jotta voidaan valita optimaalinen klusterien k lukumäärä.moduulissa (D) käytetään alemman ulottuvuuden etäisyysmatriisia ja moduulista (C) saatua optimaalista klusterien k lukumäärää syöttötietoina solujen vakaimman ryhmittelyn tunnistamiseksi. Kuvassa 2 esitetään moduulin d yksityiskohdat.

tietolähde

kahdeksan julkisesti saatavilla olevaa scRNA-seq-tietoaineistoa sekä viisi analyysissämme käyttämäämme simulaatioaineistoa sisältyvät Lisämateriaaleihin. Kahdeksasta reaaliaineistosta kaikkia kolmea lukuun ottamatta (Klein51, Patel52, Treutlein53) pidetään ”Goldin standardina”, koska solujen merkinnät tunnetaan lopullisella tavalla. Patel52 ja Treutlein53 kutsutaan ’Silver standard” Kiselev et al.28 koska niiden solumerkinnät määritetään laskennallisten menetelmien ja tekijöiden tietämyksen perusteella taustalla olevasta biologiasta.

saimme käsiteltävät tiedot Hemberg Labin verkkosivuilta (https://hemberg-lab.github.io/scRNA.seq.datasets). Hemberg ym.54 käytä SingleCellExperiment Biojohdinta S4 class55 tietojen tallentamiseen ja scater package56 laadunvalvontaan ja piirtämiseen. Normalisoitu data talletetaan SingleCellExperiment-olioksi (.RData-tiedosto) ja solutyypin tietoja pääsee käsiksi tämän objektin ”colData” – paikan cell_type1-sarakkeeseen. Solujen geeniekspressioarvot on järjestetty matriisiksi, jossa rivit ovat soluja ja sarakkeet geenejä. Analyysissamme poistetaan geenit (ominaisuudet), joita ei esiinny missään solussa. Emme suodattaneet solua tässä analyysissä.

Geenisuodatus

kuten kuvassa. 1A, poistamme geenit / transkriptit, joita ei ilmaista missään solussa (ekspressioarvo on nolla kaikissa soluissa). Tällaiset geenit eivät voi antaa hyödyllistä tietoa, joka voi erottaa solutyypit 57. Yhden solun geeniekspressiomatriisin (Mgene×cell) suodatusmenetelmän tulosta käytetään ehdotetun Kehyksen toisen moduulin syötteenä.

mittaamalla solujen erilaisuutta

solujen välinen etäisyys lasketaan euklidisen metriikan avulla (kuva. 1b). Tämän vaiheen lähtö on etäisyys (erilaisuus) matriisi Dcell×solu. Vähennämme D: n ulottuvuutta suorittamalla t-distributed stokastinen naapuri embedding (t-SNE)34,58, epälineaarinen dimensionality reduction/visualization technique (Kuva. 1C). Kutsumme lähtöksi D ’ cell×l, jossa 2 ≤ l ≤ solu. Tässä tutkimuksessa ulottuvuuksien määrä on 2.

klusterointi

klusterien optimaalisen lukumäärän tunnistaminen

tässä jaksossa kuvataan ehdotetun menetelmän kolmas moduuli (Kuva. 1C). Tässä analyysissä t-SNE: tä sovelletaan toistuvasti (n = 50) etäisyysmatriisiin dcell×solu, jotta saadaan dimensionalisuusvähennetty etäisyysmatriisi D’cell×l. joka kerta klusterien optimaalinen lukumäärä lasketaan keskimääräisen siluettimenetelmän perusteella käyttäen dimensionalisuusvähennettyä etäisyysmatriisia D’. Jotta voidaan löytää optimaalinen määrä klustereita k, sovelletaan k-means-ryhmittelyä d’ – matriisissa käyttäen alueen arvoa (oletusarvo = 2:20), ja valitaan K, joka maksimoi keskimääräisen siluettimitan. Lopullisena optimaalisena klusterien lukumääränä pidetään valittujen lukujen k keskiarvoa eri toistoissa (n = 50) (pyöristettynä lähimpään kokonaislukuun).

siluetti arvioi kyseisen ryhmittelyn laatua sen perusteella, kuinka hyvin sen tietopisteet ryhmittyvät. Kuhunkin datapisteeseen osoitetaan siluettimitta, joka kuvaa sitä, kuinka lähellä datapiste on omaa klusteriaan muihin klustereihin verrattuna. Jokaiselle datapisteelle i tämä mitta lasketaan seuraavasti:

$${\rm{S}} ({\rm{i}})=\frac{b(i)-a(i)}{max\{a(i),b(i)\}}$$

missä a (i) on datapisteen i ja kaikkien muiden saman klusterin datapisteiden välinen keskimääräinen etäisyys. b (i) on pienin keskimääräinen etäisyys i: n kaikkiin pisteisiin missään muussa klusterissa, johon i ei kuulu. s (i) ottaa arvot -1: stä 1: een, jossa suuri positiivinen pistemäärä osoittaa, että annettu datapiste on hyvin ryhmittynyt (lähellä Oman klusterinsa muita pisteitä ja kaukana muiden klustereiden pisteistä). Vastaavasti suuri negatiivinen pistemäärä osoittaa, että datapiste on huonosti ryhmittynyt.

k-tarkoittaa resamplausmenetelmään perustuvaa ryhmittelyä

tässä jaksossa kuvataan ehdotetun menetelmän viimeisen moduulin yksityiskohdat. Kuten kuvassa. 2, Käyttämällä dimensionality pelkistetty etäisyys matriisi D ’ ja valittu määrä klustereita k edellisestä vaiheesta, tunnistamme vakain klusterointi tuottamalla erilaisia klusterointi ratkaisuja (clusteringi (i ∈ )) ja mitata vakautta kunkin klusterointi ratkaisu perustuu resampling menetelmä. Kullekin tietylle ryhmittelylle annettu stabiilisuusmittari (jota kutsutaan ryhmittelyksi) kuvaa sitä, kuinka usein kyseiseen ryhmittymään kuuluvat k-klusterit säilyvät, kun syöttötiedot (D’) otetaan uudelleen useita kertoja. Resampled datasetit luodaan d ’ satunnaisesti korvaa 5% datapisteistä (solut) kohinalla. Näitä meluisia tietokokonaisuuksia käytetään sitten syötteenä k-means-algoritmiin. Näin ollen resamploidusta datasta (resampled version of clusteringi,j, j ∈ ) syntyy useita klusteringejä (resampled version of clusteringi).

kuva 2

stabiilimman ryhmittymän tunnistaminen. Tässä analyysissä, ottaen huomioon alemman ulottuvuuden etäisyysmatriisi D ’ cell×l ja optimaalinen määrä klustereita k, laskemme n eri ryhmittymiä (klustering1, …, clusteringn) käyttäen k-tarkoittaa klusterointialgoritmia. Tämän jälkeen kunkin ryhmittelyn stabiilisuus arvioidaan resampling-menetelmän (grey box) perusteella. Vakauspisteet annetaan kullekin ryhmittelylle sen perusteella, kuinka usein sen klusterit otetaan talteen, kun syöttötiedot ovat häiriintyneitä (resampled). Lopulliseksi ratkaisuksi valitaan ryhmittely, jossa on maksimivakuuspisteet.

jotta voidaan arvioida kunkin klusterin C pysyvyyttä klusteroinnissa (alkuperäinen klusterointi), klusteria C verrataan kaikkiin klusteroinnin klustereihin,jotka saadaan Resample-aineistosta (clusteringi, j) Jaccard-etäisyyden perusteella. Jaccard-kertoimella 59, joka on samankaltaisuuden mitta sarjojen välillä, lasketaan kahden klusterin samankaltaisuus seuraavasti:

$${\rm{J}}({\rm{A}},{\rm{B}})=\frac {|a\cap B|} {|a\cup B/},\, A,B\subseteq x$$

missä termi A ja B ovat kaksi klusteria, jotka koostuvat joistakin datapisteistä X = {x1, …, xN}.

Jos klusterin C (alkuperäisestä klusteroinnista) ja resamploituneen klusterin samankaltaisimman klusterin välinen Jaccard-samankaltaisuus on yhtä suuri tai suurempi kuin 0,75, kyseistä klusteria pidetään stabiilina (säilyneenä). Siten kunkin klusterin stabiilisuus clusteringissä lasketaan rykelmän säilymiskertojen prosenttiosuutena (Jaccard-kerroin ≥ 0.75) Koko m eri resamples.

tämän jälkeen keskitämme clusteringiin kuuluvien k-klustereiden vakausmittarit ja pidämme sitä clusteringin kokonaisvakauden mittarina. N eri klusterointiratkaisuista (clusteringi (i∈)) valitsemme lopulliseksi klusterointiratkaisuksi klusterointiratkaisun, jonka enimmäisstabiilisuus mitataan.

Kuvassa 3 esitetään yksityiskohtaisesti resampling-menetelmä, jolla laskimme stabiliteettimittarin kullekin ryhmälle. Klustereita, jotka saadaan soveltamalla k-keskiarvoa uudelleenotettuun aineistoon, verrataan alkuperäisen syöttötiedon klustereihin vain kohinanpoikkeamapisteiden perusteella (melutietopisteitä ei oteta huomioon, kun kahta klusteria verrataan Jaccard-samankaltaisuusmittarin perusteella.

kuva 3

resampling framework to computer the stability measure for each clustering. Syöte sisältää N datapisteet X = {x1,…, xN}, klusterien lukumäärä k, resamblingien lukumäärä m ja klusterointi C, joka saadaan soveltamalla K-keskiarvoa X: ään.tämä analyysi tuottaa m resamplingdataa korvaamalla satunnaisesti 5% datapisteistä kohinalla, ja laskee m resampled clusterings perustuu k-means clustering. Kutakin klusteria C: ssä verrataan resampling clusteringissa eniten vastaavaan klusteriin,ja näiden kahden klusterin välinen Jaccard-kerroin lasketaan, kun taas kohinapisteet jätetään pois. Jakocard-kertoimien prosenttiosuus on suurempi kuin 0.75: tä pidetään klusterin C stabiilisuusmittarina. kaikkien klusteriin C kuuluvien klustereiden stabiilisuusmittareiden keskiarvo lasketaan ja pidetään Kokonaisstabiilisuusmittarina klusterin C osalta.

Validointimenetelmät

käytämme 13 eri tietokokonaisuutta, joissa solutyypit (nimikkeet) tunnetaan. Jos haluat mitata vertailumerkintöjen ja pääteltyjen merkintöjen samankaltaisuuden tason, joka saadaan kullakin ryhmittelymenetelmällä, käytämme kolmea eri mittaria: adjusted Rand index (ARI), adjusted mutual information (AMI), and V-measure as explained in the following.

Adjusted rand index

solumerkinnät huomioon ottaen Adjusted Rand Index (ARI)47: ää käytetään arvioimaan päätellyn ryhmittelyn ja todellisen ryhmittelyn samankaltaisuutta. ARI vaihtelee 0, huono matching (satunnainen ryhmittymä), ja 1 täydellinen sopimus todellinen ryhmittymä. N-datapisteiden joukolle varautumistaulukko muodostetaan kahden klusterin välisen jaetun datapisteiden lukumäärän perusteella. Oletetaan, Että X = {X1, X2,…, XR} ja Y = {Y1, Y2,…, YC} edustavat kahta eri klusterointia R-ja C-klustereilla. X: n ja Y: n päällekkäisyys voidaan tiivistää varautumistaulukoksi Mr×C = , jossa i = 1…R, j = 1…C. Xi ja Yj tarkoittavat klusteria ryhmittymissä X ja Y, ja i ja j viittaavat varataulukon rivinumeroon ja sarakenumeroon. ARI määritellään seuraavasti:

oikaistut keskinäiset tiedot

$$h(X)=\mathop{\sum }\limits_{i\mathrm{=1}}^{R}P(i)\,logP(i)$$
(2)

h(X) on ei-negatiivinen ja ottaa arvon 0 vain silloin, kun datapisteen klusterijäsenyydestä ei ole epävarmuutta (on vain yksi cluster). Kahden ryhmittymän X ja Y keskinäinen informaatio (MI) lasketaan seuraavasti:

$$MI(X,Y)=\mathop{\sum }\limits_{i\mathrm{=1}}^{R}\mathop{\sum }\limits_{j\mathrm{=1}}^{C}P(i,j)\,log\frac{P(i,j)}{P(i)p(j)}$$
(3)

missä p(i, j) tarkoittaa todennäköisyyttä,että datapiste kuuluu sekä klusteriin XI x että klusteriin YJ y: ssä:

$$p(i, j)=\frac{|{x}_{I}\Cap {y}_{j}|}{n}$$
(4)

Mi on ei-negatiivinen Suure, jota rajoittaa entropiat h(x) ja H(y). Se määrittää näiden kahden ryhmittymän jakamat tiedot, minkä vuoksi sitä voidaan pitää ryhmittelevänä samankaltaisuustoimenpiteenä. Keskinäisen tiedon oikaistu mitta määritellään seuraavasti:

$$AMI(X,Y)=\frac{MI(X,Y)-E\{MI(X,Y)\}}{max\{H(X),H(Y)\}-e\{MI(X,Y)\}}$$
(5)

missä kahden satunnaisen ryhmittymän välinen odotettu keskinäinen tieto on

missä AI ja bj ovat varataulukon osasummat: \({A}_{I}={\Sum }_{J\mathrm{=1}}^{C}{n}_{IJ}\) ja \({B}_{J}={\Sum }_{i\mathrm{=1}}^{r}{n}_{IJ}\).

adjusted mutual information (ami) saa arvon 1, Kun kaksi osiota ovat identtisiä, ja arvon 0, kun MI on kahden osion välillä yhtä suuri kuin pelkästä sattumasta johtuva odotettu arvo.

V-mitta

V-mitta50 on harmoninen keskiarvo kahden mittauksen välillä: homogeenisuus ja täydellisyys. Homogeenisuuskriteerit täyttyvät, jos ryhmittymä määrittää yhteen klusteriin vain ne tietopisteet, jotka ovat yhden luokan (todellisen klusterin) jäseniä. Näin ollen luokkajakauma jokaisen klusterin sisällä tulee vääristyä yhdeksi luokaksi (nolla entropiaa). Sen määrittämiseksi, kuinka lähellä tietty ryhmittymä on tätä ideaalia, luokitusjakauman ehdollinen entropia lasketaan H: ksi(C|K), Missä C = {C1, C2,…, Cl} on joukko luokkia ja K on ryhmittymä K = {K1, K2,…, Km}. Täysin homogeenisessa tapauksessa tämä arvo on 0. Tämä arvo riippuu kuitenkin aineiston koosta ja luokkakokojen jakaumasta. Näin ollen tämä ehdollinen entropia normalisoituu siten, että ryhmittymätiedon antama entropian maksimivähennys on H (C). Näin ollen homogeenisuus määritellään seuraavasti:

$$h=\{\begin{array}{cc}1 & \text{IF}\,H(C,K)=0\\ 1-\frac{H(C| K)}{H(C)} & \text{otherwise}\end{array}$$
(7)

täydellisyys on symmetrinen homogeenisuuteen50. Täydellisyyskriteerien täyttämiseksi ryhmittelyssä on jaettava kaikki tietopisteet, jotka kuuluvat samaan luokkaan, yhteen klusteriin. Täydellisyyden mittaamiseksi arvioidaan klusteritoimeksiantojen jakautuminen kunkin luokan sisällä. Täysin täydellisessä klusterointiratkaisussa jokainen näistä jakaumista on täysin vinossa yhdeksi klusteriksi.

Koska homogeenisuus s ja täydellisyys c, V-toimenpide on laskettu painotettu harmoninen keskiarvo yhtenäisyys ja täydellisyys:

$${\rm{V}} \mbox{-} {\rm{m}}{\rm{e}}{\rm{a}}{\rm{s}}{\rm{u}}{\rm{r}}{\rm{e}}=\frac{(1+\beta )\ast s\ast c}{(\beta \ast s)+c}$$
(8)

jos β on suurempi kuin 1, täydellisyys on painotettu voimakkaammin laskennassa. Jos β on pienempi kuin 1, homogeenisuus painotetaan voimakkaammin. Koska homogeenisuuden, täydellisyyden ja V-mittauksen laskelmat ovat täysin riippumattomia luokkien lukumäärästä, klustereiden lukumäärästä, aineiston koosta ja ryhmittelyalgoritmista, näitä mittareita voidaan käyttää minkä tahansa ryhmittelyratkaisun arvioinnissa.

Vastaa

Sähköpostiosoitettasi ei julkaista.