O objetivo do método proposto é identificar os tipos de células presentes em uma mistura de células individuais. A entrada do método é a matriz de expressão do gene de uma única célula (Mgene×célula) na qual as linhas representam os genes e colunas representam as células. A seguir, fornecemos mais detalhes sobre os dados de entrada e as diferentes etapas do quadro proposto. A abordagem global é apresentada na Fig. 1.
fonte de dados
os oito conjuntos de dados scRNA-seq disponíveis publicamente, bem como os cinco conjuntos de dados de simulação que utilizámos na nossa análise, estão incluídos nos materiais suplementares. Entre os oito conjuntos de dados reais, todos, exceto três (Klein51, Patel52, Treutlein53) são considerados como “padrão velho”, uma vez que os rótulos das células são conhecidos de uma forma definitiva. Patel52 e Treutlein53 são referidos como “padrão de prata” por Kiselev et al.28 uma vez que os seus rótulos celulares são determinados com base nos métodos computacionais e no conhecimento dos autores da biologia subjacente.obtivemos os dados processados do site da Hemberg lab (https://hemberg-lab.github.io/scRNA.seq.datasets). Hemberg et al.54 utilizar o Biocondutor S4 class55 SingleCellExperiment para armazenar os dados, e o package56 scater para efeitos de controlo de qualidade e plotagem. Os dados normalizados são depositados como um objeto Uniclecellexperiment (.RData file) and the cell type information is accessed in the cell_type1 column of the” colData ” slot of this object. Os valores de expressão genética das células são organizados como uma matriz na qual as linhas são células e as colunas são os genes. Em nossa análise, genes (características) que não são expressos em quaisquer células são removidos. Não filtramos nenhuma célula nesta análise.
filtragem genética
tal como demonstrado na Fig. 1A, we remove the genes/transcripts that are not expressed in any cell (expression value is zero in all cells). Tais genes não podem fornecer informações úteis que possam diferenciar entre tipos de células 57. O resultado da realização do método de filtragem na matriz de expressão do gene da célula única (Mgene×célula) é utilizado como entrada para o segundo módulo da estrutura proposta.
medindo a diferença entre as células
a distância entre as células é calculada usando a métrica Euclidiana (Fig. 1B). A saída deste passo é a distância (dissimilaridade) matriz Dcell×célula. Reduzimos a dimensão de D realizando a incorporação estocástica de vizinhos t-distribuídos (T-SNE)34,58, a técnica de redução de dimensionalidade não-linear/visualização (Fig. 1C). Nós nos referiremos à saída como d’cell×l, Onde 2 ≤ L ≤ célula. Neste estudo, o número de dimensões é 2.esta secção descreve o terceiro módulo do método proposto (Fig. 1C). Nesta análise, o T-PND é aplicado repetidamente (n = 50) na matriz de distância Dcell×célula para obter a matriz de distância dimensionality-reduced distance d’cell×L. de cada vez, o número ideal de aglomerados é calculado com base no método da silhueta média usando a matriz de distância reduzida de dimensionalidade D’. A fim de encontrar o número ideal de clusters k, o k-means clustering é aplicado na matriz D’ usando um valor de intervalo (padrão = 2: 20), e o k que maximiza a medida média de silhueta é selecionado. Finalmente, a média dos números selecionados k em diferentes repetições (n = 50) (arredondada ao inteiro mais próximo) é considerada como o número ideal final de aglomerados.
A Silhueta avalia a qualidade desse agrupamento com base na forma como os seus pontos de dados são agrupados. Uma medida de silhueta é atribuída a cada ponto de dados que representa a proximidade de um ponto de dados com o seu próprio aglomerado em comparação com outros aglomerados. Para cada ponto de dados, esta medida é calculada da seguinte forma:
a, onde a(i) é a distância média entre o ponto de dados que eu e todos os outros pontos de dados dentro do mesmo cluster. b (i) é a menor distância média de i para todos os pontos em qualquer outro grupo do qual eu não é membro. s (i) toma valores de -1 para 1, onde uma pontuação positiva elevada mostra que o dado ponto de dados está bem agrupado (perto de outros pontos em seu próprio aglomerado e longe de pontos em outros aglomerados). Inversamente, uma pontuação negativa elevada mostra que o ponto de dados está mal agrupado.esta secção descreve os pormenores do último módulo do método proposto. Como mostrado na Fig. 2, usando a matriz de distância reduzida de dimensionalidade D’ e o número escolhido de clusters k do passo anterior, identificamos a clustering mais estável gerando diferentes soluções de clustering (clusteringi (i ∈ )) e medimos a estabilidade de cada solução de clustering com base num método de recolocação. A medida de estabilidade atribuída a cada agrupamento em particular (denotada como clusteringi) representa a frequência com que os clusters k pertencentes a esse agrupamento são preservados quando os dados de entrada (D’) são recolocados várias vezes. Os conjuntos de dados novamente amostrados são gerados a partir de D’, substituindo aleatoriamente 5% dos pontos de dados (células) por ruído. Estes conjuntos de dados ruidosos são então usados como a entrada para o algoritmo k-means. Assim, vários clusterings (clusteringi,j, J ∈ ) são gerados a partir dos dados remampled (versões remampled de clusteringi).
a fim de avaliar a estabilidade de cada cluster c no clusteringi original (clustering), o cluster c é comparado com todos os clusters de clusters, que é obtido a partir da redefinição de dados (clusteringi,j), com base no Jaccard distância. O coeficiente de Jaccard59, uma medida de semelhança entre conjuntos, é utilizado para calcular a semelhança entre dois conjuntos da seguinte forma::
, onde o termo A e B são dois conjuntos, que consiste de alguns pontos de dados X = {x1, …, xN}.
Se a semelhança dos cartões entre o cluster c (do clustering clusteringi original) e o cluster mais semelhante no clustering recolocado for igual ou superior a 0,75, esse cluster é considerado estável (preservado). Assim, a estabilidade de cada aglomerado em clusteringi é calculada como a percentagem dos tempos em que o aglomerado é preservado (coeficiente Jaccard ≥ 0.75) através dos m diferentes acampamentos.
então mediamos as medidas de estabilidade dos clusters k pertencentes a clusteringi, e consideramo-lo como a medida de estabilidade global de clusteringi. Entre n diferentes soluções de agrupamento (clusteringi (i∈)), selecionamos a solução de agrupamento com a medida máxima de estabilidade como a solução final de agrupamento.
A Figura 3 mostra o detalhe do método de recolocação que realizámos para calcular a medida de estabilidade para cada agrupamento. Os clusters que são obtidos aplicando K-mean no conjunto de dados remampled são comparados com os clusters dos dados de entrada originais somente baseados nos pontos não-Ruído (os pontos de dados de ruído são excluídos quando dois clusters são comparados com base na métrica de similaridade de Jaccard.
Validação de métodos
Nós usamos 13 diferentes conjuntos de dados em que os tipos de célula (etiquetas) são conhecidos. Para medir o nível de semelhança entre os rótulos de referência e os rótulos inferidos que são obtidos por cada método de agrupamento, utilizamos três métricas diferentes: Índice de rand ajustado (ARI), informação mútua ajustada (AMI) e medida V, como explicado a seguir.
Índice de rand ajustado
dadas as etiquetas das células, o Índice de Rand ajustado (ARI)47 é usado para avaliar a semelhança entre a clusterização inferida e a clusterização verdadeira. ARI varia de 0, para uma má correspondência (um agrupamento Aleatório), a 1 para um acordo perfeito com o agrupamento verdadeiro. Para um conjunto de pontos de dados n, a tabela de contingência é construída com base no número compartilhado de pontos de dados entre dois clusters. Suponha X = {X1, X2,…, XR} E Y = {Y1, Y2,…, YC} representam dois aglomerados diferentes com aglomerados R E C, respectivamente. A sobreposição entre X e Y pode ser resumida como uma tabela de contingência MR×C =, onde i = 1…R, j = 1…C. Xi e Yj denotam um conjunto em clusterings X e Y, e i e j referem-se ao número da linha e ao número da coluna da tabela de contingência, respectivamente. O ARI é definido como segue::
Ajustada de informação mútua
H(X) é não-negativo e assume o valor 0 somente quando não houver nenhuma incerteza determinação de um ponto de dados da associação de cluster (há apenas um cluster). A informação mútua (ia) entre dois aglomerados X e Y é calculada do seguinte modo::
onde P(i, j) denota a probabilidade de que um ponto de dados pertence a ambos o cluster Xi em X e o cluster Yj Y:
MI é uma não-negativo quantidade superior delimitada pelo entropies H(X) e H(Y). Quantifica a informação partilhada pelos dois agrupamentos e, por conseguinte, pode ser considerada uma medida de semelhança de agrupamento. O ajustado medida para a informação mútua é definido como a seguir:
, onde o esperava a troca de informações entre dois aleatório clusterings é:
onde ai e bj são as somas parciais da tabela de contingência: \({a}_{i}={\sum }_{j\mathrm{=1}}^{C}{n}_{ij}\) e \({b}_{j}={\sum }_{i\mathrm{=1}}^{R}{n}_{ij}\).
a informação mútua ajustada (AMI) tem um valor de 1 quando as duas aglomerações são idênticas e 0 quando o em entre duas partições é igual ao valor esperado devido apenas ao acaso.
V-measure
A V-measure50 é a média harmónica entre duas medidas: homogeneidade e completude. O critério de homogeneidade é satisfeito se um agrupamento atribui apenas os pontos de dados que são membros de uma única classe (cluster verdadeiro) a um único cluster. Assim, a distribuição de classes dentro de cada aglomerado deve ser inclinada para uma única classe (entropia zero). Para determinar o quão próximo um determinado agrupamento está desse ideal, a Entropia condicional da distribuição de classe dada a clustering identificada é computada como H(C|K), onde C = {C1, C2,…, Cl} é um conjunto de classes e K é um clustering K = {K1, K2,…, Km}. No caso perfeitamente homogêneo, este valor é 0. No entanto, este valor depende do tamanho do conjunto de dados e da distribuição de tamanhos de classe. Assim, esta entropia condicional é normalizada pela redução máxima na entropia que a informação de agrupamento poderia fornecer, H(C). Por conseguinte, a homogeneidade é definida do seguinte modo::
A integralidade é simétrico ao homogeneity50. A fim de satisfazer os critérios de exaustividade, um agrupamento deve atribuir todos os pontos de dados que são membros de uma única classe a um único conjunto. Para medir a completude, a distribuição de atribuições de clusters dentro de cada classe é avaliada. Numa solução de agrupamento perfeitamente completa, cada uma destas distribuições será completamente desviada para um único conjunto.
Dada a homogeneidade h e integridade c, V-medir é calculado como o ponderado média harmónica de homogeneidade e integridade:
se β é maior que 1, a integralidade é ponderada mais fortemente no cálculo. Se β for inferior a 1, a homogeneidade é mais fortemente ponderada. Desde os cálculos de homogeneidade, exaustividade e V-a medida são completamente independentes do número de classes, o número de clusters, o tamanho do conjunto de dados e o algoritmo de clustering, estas medidas podem ser empregadas para avaliar qualquer solução de cluster.