celem proponowanej metody jest identyfikacja typów komórek obecnych w mieszaninie pojedynczych komórek. Wkład metody jest matryca ekspresji genów pojedynczych komórek (Mgene×cell), w której wiersze reprezentują geny, a kolumny reprezentują komórki. Poniżej podajemy więcej szczegółów na temat danych wejściowych i różnych etapów proponowanych ram. Ogólne podejście przedstawiono na Rys. 1.
źródło danych
osiem publicznie dostępnych zestawów danych scRNA-seq oraz pięć zestawów danych symulacyjnych, które wykorzystaliśmy w naszej analizie, znajdują się w materiałach uzupełniających. Wśród ośmiu rzeczywistych zestawów danych, wszystkie z wyjątkiem trzech (Klein51, Patel52, Treutlein53) są uważane za „złoty standard”, ponieważ etykiety komórek są znane w sposób definitywny. Patel52 i Treutlein53 są określane jako „silver standard” przez Kiselev et al.28 ponieważ ich etykiety komórkowe są określane w oparciu o metody obliczeniowe i wiedzę autorów na temat podstawowej biologii.
pozyskaliśmy przetworzone dane ze strony internetowej Hemberg lab (https://hemberg-lab.github.io/scRNA.seq.datasets). Hemberg i in.54 do przechowywania danych wykorzystaj jednoskładnikowy Biokonduktor S4 class55, a pakiet scater56 do kontroli jakości i tworzenia wykresów. Znormalizowane dane są zdeponowane jako pojedynczy obiekt (.Plik RData) oraz informacja o typie komórki jest dostępna w kolumnie cell_type1 gniazda „colData” tego obiektu. Wartości ekspresji genów komórek są zorganizowane jako matryca, w której wiersze są komórkami, a kolumny są genami. W naszej analizie usuwane są geny (cechy), które nie ulegają ekspresji w żadnych komórkach. Nie filtrowaliśmy żadnej komórki w tej analizie.
filtrowanie genów
jak pokazano na Fig. 1A, usuwamy geny / transkrypty, które nie są wyrażone w żadnej komórce (wartość ekspresji wynosi zero we wszystkich komórkach). Takie geny nie mogą dostarczyć użytecznych informacji, które mogą odróżniać typy komórkowe57. Wynik wykonania metody filtrowania na matrycy ekspresji genów jednokomórkowych (Mgene×cell) jest wykorzystywany jako wejście do drugiego modułu proponowanego frameworka.
pomiar różnicy między komórkami
odległość między komórkami oblicza się za pomocą metryki euklidesowej (rys. 1B). Wyjście ten krok być odległość (odmienność) matryca Dcell×komórka. Zmniejszamy Wymiar D, wykonując technikę t-distributed Stochastic neighbor embedding (T-SNE)34,58, nieliniową redukcję wymiarowości/wizualizację (rys. 1C). Będziemy odnosić się do wyjścia jako D ’ cell×l, gdzie 2 ≤ l ≤ cell. W tym badaniu liczba wymiarów wynosi 2.
grupowanie
Identyfikacja optymalnej liczby klastrów
w tej sekcji opisano trzeci moduł proponowanej metody (rys. 1C). W tej analizie T-SNE jest wielokrotnie (N = 50) nakładany na matrycę odległości dcell×cell w celu uzyskania matrycy odległości d’cell×l o zmniejszonej wymiarowości. za każdym razem optymalną liczbę klastrów oblicza się na podstawie metody średniej sylwetki przy użyciu matrycy odległości d’o zmniejszonej wymiarowości. Aby znaleźć optymalną liczbę klastrów k, klastry k-means są stosowane na macierzy D ’ przy użyciu wartości zakresu (domyślnie = 2:20) i wybiera się k, które maksymalizuje średnią miarę sylwetki. Wreszcie, średnia wybranych liczb K w różnych powtórzeniach (N = 50) (zaokrąglona do najbliższej liczby całkowitej) jest uważana za ostateczną optymalną liczbę klastrów.
sylwetka ocenia jakość tego klastrowania w oparciu o to, jak dobrze jego punkty danych są klastrowane. Miara sylwetki jest przypisana do każdego punktu danych, reprezentując, jak blisko punktu danych jest do własnego klastra w porównaniu do innych klastrów. Dla każdego punktu danych i miara ta jest obliczana w następujący sposób:
gdzie A(i) jest średnią odległością między punktem danych i A wszystkimi innymi punktami danych w tym samym klastrze. b (i) jest najmniejszą średnią odległością i do wszystkich punktów w jakimkolwiek innym skupisku, którego i nie jest członkiem. s (i) przyjmuje wartości od -1 do 1, gdzie wysoki wynik dodatni pokazuje, że dany punkt danych jest dobrze zgrupowany (blisko innych punktów we własnym klastrze i daleko od punktów w innych klastrach). Z drugiej strony, wysoki wynik ujemny pokazuje, że punkt danych jest słabo zgrupowany.
K-oznacza grupowanie oparte na metodzie resamplingu
w tej sekcji opisano szczegółowo ostatni moduł proponowanej metody. Jak pokazano na Fig. 2, korzystając z matrycy odległości zmniejszonej wymiarowo D ’ i wybranej liczby klastrów k z poprzedniego kroku, identyfikujemy najbardziej stabilne klastry, generując różne rozwiązania klastrowe (clusteringi (i∈)) i mierzymy stabilność każdego rozwiązania klastrowego w oparciu o metodę resamplingu. Miara stabilności przypisana do każdego konkretnego klastrowania (oznaczona jako clusteringi) określa, jak często klastry K należące do tego klastra są zachowywane, gdy dane wejściowe (D’) są wielokrotnie próbkowane. Resamplowane zbiory danych są generowane z D ’ przez losowe zastąpienie 5% punktów danych (komórek) szumem. Te hałaśliwe zbiory danych są następnie używane jako wejście do algorytmu k-means. W związku z tym,kilka klastrów (clusteringi, j, j ∈ ) są generowane z resamplowanych danych (resamplowane wersje clusteringi).