ehdotetun menetelmän tavoitteena on tunnistaa yksittäisten solujen seoksessa esiintyvät solutyypit. Menetelmän syöte on yksisoluisen geenin ilmentymämatriisi (Mgene×cell), jossa rivit edustavat geenejä ja sarakkeet soluja. Seuraavassa kerromme tarkemmin ehdotetun kehyksen syöttötiedoista ja eri vaiheista. Yleinen lähestymistapa on esitetty Fig. 1.
tietolähde
kahdeksan julkisesti saatavilla olevaa scRNA-seq-tietoaineistoa sekä viisi analyysissämme käyttämäämme simulaatioaineistoa sisältyvät Lisämateriaaleihin. Kahdeksasta reaaliaineistosta kaikkia kolmea lukuun ottamatta (Klein51, Patel52, Treutlein53) pidetään ”Goldin standardina”, koska solujen merkinnät tunnetaan lopullisella tavalla. Patel52 ja Treutlein53 kutsutaan ’Silver standard” Kiselev et al.28 koska niiden solumerkinnät määritetään laskennallisten menetelmien ja tekijöiden tietämyksen perusteella taustalla olevasta biologiasta.
saimme käsiteltävät tiedot Hemberg Labin verkkosivuilta (https://hemberg-lab.github.io/scRNA.seq.datasets). Hemberg ym.54 käytä SingleCellExperiment Biojohdinta S4 class55 tietojen tallentamiseen ja scater package56 laadunvalvontaan ja piirtämiseen. Normalisoitu data talletetaan SingleCellExperiment-olioksi (.RData-tiedosto) ja solutyypin tietoja pääsee käsiksi tämän objektin ”colData” – paikan cell_type1-sarakkeeseen. Solujen geeniekspressioarvot on järjestetty matriisiksi, jossa rivit ovat soluja ja sarakkeet geenejä. Analyysissamme poistetaan geenit (ominaisuudet), joita ei esiinny missään solussa. Emme suodattaneet solua tässä analyysissä.
Geenisuodatus
kuten kuvassa. 1A, poistamme geenit / transkriptit, joita ei ilmaista missään solussa (ekspressioarvo on nolla kaikissa soluissa). Tällaiset geenit eivät voi antaa hyödyllistä tietoa, joka voi erottaa solutyypit 57. Yhden solun geeniekspressiomatriisin (Mgene×cell) suodatusmenetelmän tulosta käytetään ehdotetun Kehyksen toisen moduulin syötteenä.
mittaamalla solujen erilaisuutta
solujen välinen etäisyys lasketaan euklidisen metriikan avulla (kuva. 1b). Tämän vaiheen lähtö on etäisyys (erilaisuus) matriisi Dcell×solu. Vähennämme D: n ulottuvuutta suorittamalla t-distributed stokastinen naapuri embedding (t-SNE)34,58, epälineaarinen dimensionality reduction/visualization technique (Kuva. 1C). Kutsumme lähtöksi D ’ cell×l, jossa 2 ≤ l ≤ solu. Tässä tutkimuksessa ulottuvuuksien määrä on 2.
klusterointi
klusterien optimaalisen lukumäärän tunnistaminen
tässä jaksossa kuvataan ehdotetun menetelmän kolmas moduuli (Kuva. 1C). Tässä analyysissä t-SNE: tä sovelletaan toistuvasti (n = 50) etäisyysmatriisiin dcell×solu, jotta saadaan dimensionalisuusvähennetty etäisyysmatriisi D’cell×l. joka kerta klusterien optimaalinen lukumäärä lasketaan keskimääräisen siluettimenetelmän perusteella käyttäen dimensionalisuusvähennettyä etäisyysmatriisia D’. Jotta voidaan löytää optimaalinen määrä klustereita k, sovelletaan k-means-ryhmittelyä d’ – matriisissa käyttäen alueen arvoa (oletusarvo = 2:20), ja valitaan K, joka maksimoi keskimääräisen siluettimitan. Lopullisena optimaalisena klusterien lukumääränä pidetään valittujen lukujen k keskiarvoa eri toistoissa (n = 50) (pyöristettynä lähimpään kokonaislukuun).
siluetti arvioi kyseisen ryhmittelyn laatua sen perusteella, kuinka hyvin sen tietopisteet ryhmittyvät. Kuhunkin datapisteeseen osoitetaan siluettimitta, joka kuvaa sitä, kuinka lähellä datapiste on omaa klusteriaan muihin klustereihin verrattuna. Jokaiselle datapisteelle i tämä mitta lasketaan seuraavasti:
missä a (i) on datapisteen i ja kaikkien muiden saman klusterin datapisteiden välinen keskimääräinen etäisyys. b (i) on pienin keskimääräinen etäisyys i: n kaikkiin pisteisiin missään muussa klusterissa, johon i ei kuulu. s (i) ottaa arvot -1: stä 1: een, jossa suuri positiivinen pistemäärä osoittaa, että annettu datapiste on hyvin ryhmittynyt (lähellä Oman klusterinsa muita pisteitä ja kaukana muiden klustereiden pisteistä). Vastaavasti suuri negatiivinen pistemäärä osoittaa, että datapiste on huonosti ryhmittynyt.
k-tarkoittaa resamplausmenetelmään perustuvaa ryhmittelyä
tässä jaksossa kuvataan ehdotetun menetelmän viimeisen moduulin yksityiskohdat. Kuten kuvassa. 2, Käyttämällä dimensionality pelkistetty etäisyys matriisi D ’ ja valittu määrä klustereita k edellisestä vaiheesta, tunnistamme vakain klusterointi tuottamalla erilaisia klusterointi ratkaisuja (clusteringi (i ∈ )) ja mitata vakautta kunkin klusterointi ratkaisu perustuu resampling menetelmä. Kullekin tietylle ryhmittelylle annettu stabiilisuusmittari (jota kutsutaan ryhmittelyksi) kuvaa sitä, kuinka usein kyseiseen ryhmittymään kuuluvat k-klusterit säilyvät, kun syöttötiedot (D’) otetaan uudelleen useita kertoja. Resampled datasetit luodaan d ’ satunnaisesti korvaa 5% datapisteistä (solut) kohinalla. Näitä meluisia tietokokonaisuuksia käytetään sitten syötteenä k-means-algoritmiin. Näin ollen resamploidusta datasta (resampled version of clusteringi,j, j ∈ ) syntyy useita klusteringejä (resampled version of clusteringi).
jotta voidaan arvioida kunkin klusterin C pysyvyyttä klusteroinnissa (alkuperäinen klusterointi), klusteria C verrataan kaikkiin klusteroinnin klustereihin,jotka saadaan Resample-aineistosta (clusteringi, j) Jaccard-etäisyyden perusteella. Jaccard-kertoimella 59, joka on samankaltaisuuden mitta sarjojen välillä, lasketaan kahden klusterin samankaltaisuus seuraavasti:
missä termi A ja B ovat kaksi klusteria, jotka koostuvat joistakin datapisteistä X = {x1, …, xN}.
Jos klusterin C (alkuperäisestä klusteroinnista) ja resamploituneen klusterin samankaltaisimman klusterin välinen Jaccard-samankaltaisuus on yhtä suuri tai suurempi kuin 0,75, kyseistä klusteria pidetään stabiilina (säilyneenä). Siten kunkin klusterin stabiilisuus clusteringissä lasketaan rykelmän säilymiskertojen prosenttiosuutena (Jaccard-kerroin ≥ 0.75) Koko m eri resamples.
tämän jälkeen keskitämme clusteringiin kuuluvien k-klustereiden vakausmittarit ja pidämme sitä clusteringin kokonaisvakauden mittarina. N eri klusterointiratkaisuista (clusteringi (i∈)) valitsemme lopulliseksi klusterointiratkaisuksi klusterointiratkaisun, jonka enimmäisstabiilisuus mitataan.
Kuvassa 3 esitetään yksityiskohtaisesti resampling-menetelmä, jolla laskimme stabiliteettimittarin kullekin ryhmälle. Klustereita, jotka saadaan soveltamalla k-keskiarvoa uudelleenotettuun aineistoon, verrataan alkuperäisen syöttötiedon klustereihin vain kohinanpoikkeamapisteiden perusteella (melutietopisteitä ei oteta huomioon, kun kahta klusteria verrataan Jaccard-samankaltaisuusmittarin perusteella.
Validointimenetelmät
käytämme 13 eri tietokokonaisuutta, joissa solutyypit (nimikkeet) tunnetaan. Jos haluat mitata vertailumerkintöjen ja pääteltyjen merkintöjen samankaltaisuuden tason, joka saadaan kullakin ryhmittelymenetelmällä, käytämme kolmea eri mittaria: adjusted Rand index (ARI), adjusted mutual information (AMI), and V-measure as explained in the following.
Adjusted rand index
solumerkinnät huomioon ottaen Adjusted Rand Index (ARI)47: ää käytetään arvioimaan päätellyn ryhmittelyn ja todellisen ryhmittelyn samankaltaisuutta. ARI vaihtelee 0, huono matching (satunnainen ryhmittymä), ja 1 täydellinen sopimus todellinen ryhmittymä. N-datapisteiden joukolle varautumistaulukko muodostetaan kahden klusterin välisen jaetun datapisteiden lukumäärän perusteella. Oletetaan, Että X = {X1, X2,…, XR} ja Y = {Y1, Y2,…, YC} edustavat kahta eri klusterointia R-ja C-klustereilla. X: n ja Y: n päällekkäisyys voidaan tiivistää varautumistaulukoksi Mr×C = , jossa i = 1…R, j = 1…C. Xi ja Yj tarkoittavat klusteria ryhmittymissä X ja Y, ja i ja j viittaavat varataulukon rivinumeroon ja sarakenumeroon. ARI määritellään seuraavasti:
oikaistut keskinäiset tiedot
h(X) on ei-negatiivinen ja ottaa arvon 0 vain silloin, kun datapisteen klusterijäsenyydestä ei ole epävarmuutta (on vain yksi cluster). Kahden ryhmittymän X ja Y keskinäinen informaatio (MI) lasketaan seuraavasti:
missä p(i, j) tarkoittaa todennäköisyyttä,että datapiste kuuluu sekä klusteriin XI x että klusteriin YJ y: ssä:
Mi on ei-negatiivinen Suure, jota rajoittaa entropiat h(x) ja H(y). Se määrittää näiden kahden ryhmittymän jakamat tiedot, minkä vuoksi sitä voidaan pitää ryhmittelevänä samankaltaisuustoimenpiteenä. Keskinäisen tiedon oikaistu mitta määritellään seuraavasti:
missä kahden satunnaisen ryhmittymän välinen odotettu keskinäinen tieto on
missä AI ja bj ovat varataulukon osasummat: \({A}_{I}={\Sum }_{J\mathrm{=1}}^{C}{n}_{IJ}\) ja \({B}_{J}={\Sum }_{i\mathrm{=1}}^{r}{n}_{IJ}\).
adjusted mutual information (ami) saa arvon 1, Kun kaksi osiota ovat identtisiä, ja arvon 0, kun MI on kahden osion välillä yhtä suuri kuin pelkästä sattumasta johtuva odotettu arvo.
V-mitta
V-mitta50 on harmoninen keskiarvo kahden mittauksen välillä: homogeenisuus ja täydellisyys. Homogeenisuuskriteerit täyttyvät, jos ryhmittymä määrittää yhteen klusteriin vain ne tietopisteet, jotka ovat yhden luokan (todellisen klusterin) jäseniä. Näin ollen luokkajakauma jokaisen klusterin sisällä tulee vääristyä yhdeksi luokaksi (nolla entropiaa). Sen määrittämiseksi, kuinka lähellä tietty ryhmittymä on tätä ideaalia, luokitusjakauman ehdollinen entropia lasketaan H: ksi(C|K), Missä C = {C1, C2,…, Cl} on joukko luokkia ja K on ryhmittymä K = {K1, K2,…, Km}. Täysin homogeenisessa tapauksessa tämä arvo on 0. Tämä arvo riippuu kuitenkin aineiston koosta ja luokkakokojen jakaumasta. Näin ollen tämä ehdollinen entropia normalisoituu siten, että ryhmittymätiedon antama entropian maksimivähennys on H (C). Näin ollen homogeenisuus määritellään seuraavasti:
täydellisyys on symmetrinen homogeenisuuteen50. Täydellisyyskriteerien täyttämiseksi ryhmittelyssä on jaettava kaikki tietopisteet, jotka kuuluvat samaan luokkaan, yhteen klusteriin. Täydellisyyden mittaamiseksi arvioidaan klusteritoimeksiantojen jakautuminen kunkin luokan sisällä. Täysin täydellisessä klusterointiratkaisussa jokainen näistä jakaumista on täysin vinossa yhdeksi klusteriksi.
Koska homogeenisuus s ja täydellisyys c, V-toimenpide on laskettu painotettu harmoninen keskiarvo yhtenäisyys ja täydellisyys:
jos β on suurempi kuin 1, täydellisyys on painotettu voimakkaammin laskennassa. Jos β on pienempi kuin 1, homogeenisuus painotetaan voimakkaammin. Koska homogeenisuuden, täydellisyyden ja V-mittauksen laskelmat ovat täysin riippumattomia luokkien lukumäärästä, klustereiden lukumäärästä, aineiston koosta ja ryhmittelyalgoritmista, näitä mittareita voidaan käyttää minkä tahansa ryhmittelyratkaisun arvioinnissa.