提案手法の目的は、単一細胞の混合物中に存在する細胞型を同定することである。 この方法の入力は、行が遺伝子を表し、列が細胞を表す単一細胞遺伝子発現マトリックス(Mgene×cell)である。 以下では、入力データと提案されたフレームワークのさまざまなステップについての詳細を提供します。 全体的なアプローチを図10に示す。 1.
データソース
公開されている8つのscRNA-seqデータセットと、分析で使用した5つのシミュレーションデータセットは、補足資料に含まれています。 8つの実際のデータセットのうち、3つを除くすべて(Klein51、Patel52、Treutlein53)は、細胞のラベルが決定的な方法で知られているため、「ゴールド標準」と見なされます。 Patel5 2およびTreutlein5 3は、Kiselev e t a l.28彼らの細胞ラベルは、計算方法と基礎となる生物学の著者の知識に基づいて決定されているので。処理されたデータはHemberg labのwebサイト(https://hemberg-lab.github.io/scRNA.seq.datasets)から取得しました。 Hemberg et al.54SingleCellExperiment Bioconductor S4class55を使用してデータを保存し、scater package56を使用して品質管理とプロットの目的に使用します。 正規化されたデータは、SingleCellExperimentオブジェクト(。このオブジェクトの”colData”スロットのcell_type1列にセルタイプ情報がアクセスされます。 細胞の遺伝子発現値は、行が細胞であり、列が遺伝子である行列として編成されている。 我々の分析では、どの細胞でも発現していない遺伝子(特徴)が除去される。 この分析では、セルをフィルタリングしませんでした。
遺伝子フィルタリング
図に示すように。 図1Aに示すように、どの細胞でも発現していない遺伝子/転写物を除去する(発現値はすべての細胞でゼロである)。 このような遺伝子は、細胞型を区別することができる有用な情報を提供することはできない57。 単一細胞遺伝子発現マトリックス(Mgene×cell)上でフィルタリング法を行った結果を提案したフレームワークの第二モジュールへの入力として用いた。
セル間の非類似性を測定する
セル間の距離は、ユークリッドメトリックを使用して計算されます(図。 1B)。 このステップの出力は、距離(非類似度)行列Dcell×cellである。 我々は、非線形次元低減/可視化技術であるt-distributed stochastic neighbor embedding(t-SNE)34,58を実行することによってDの次元を減少させる(図。 1C)。 出力をD’cell×lと呼びます。 この研究では、次元の数は2です。
クラスタリング
クラスターの最適数の同定
このセクションでは、提案された方法の第三のモジュールについて説明します(図。 1C)。 この解析では、t-SNEを距離行列Dcell×cellに繰り返し(n=50)適用して、次元減少距離行列D’cell×lを求めます。 最適なクラスター数kを見つけるために、k平均クラスタリングが範囲値(既定値=2:20)を使用してD’行列に適用され、平均シルエット測度を最大化するkが選択されます。 最後に、選択された数kの異なる繰り返し間の平均(n=50)(最も近い整数に四捨五入)が、最終的な最適なクラスター数とみなされます。
シルエットは、データポイントがどれだけクラスタ化されているかに基づいて、そのクラスタリングの品質を評価します。 シルエットメジャーは、各データポイントに割り当てられ、他のクラスターと比較して、データポイントが独自のクラスターにどれだけ近いかを表します。 各データポイントiについて、この尺度は次のように計算されます。
ここで、a(i)はデータポイントiと同じクラスター内の他のすべてのデータポイントとの間の平均距離です。 b(i)は、iがメンバーではない他のクラスター内のすべての点までのiの最小平均距離です。 s(i)は-1から1の値をとり、高い正のスコアは、指定されたデータポイントが適切にクラスター化されていることを示します(独自のクラスター内の他のポイ 逆に、負のスコアが高いと、データポイントのクラスター化が不十分であることが示されます。
リサンプリング法に基づくk-meansクラスタリング
このセクションでは、提案された方法の最後のモジュールの詳細について説明します。 図に示すように。 2,次元減少距離行列D’と前のステップから選択されたクラスタ数kを用いて,異なるクラスタリング解(clusteringi(i θ))を生成することによって最も安定なクラスタリングを同定し,リサンプリング法に基づいて各クラスタリング解の安定性を測定する。 各特定のクラスタリングに割り当てられた安定度尺度(clusteringiと表示)は、入力データ(D’)が数回リサンプリングされたときに、そのクラスタリングに属するk個のクラスタリングが保存される頻度を表します。 リサンプリングされたデータセットは、データポイント(セル)の5%をノイズでランダムに置換することによってD’から生成されます。 これらのノイズの多いデータセットは、k-meansアルゴリズムへの入力として使用されます。 したがって、いくつかのクラスタ(clusteringi,j,j∈)は、リサンプリングされたデータ(clusteringiのリサンプリングされたバージョン)から生成されます。
clusteringi(元のクラスタリング)内の各クラスター cの安定性を評価するために、クラスター cは、Jaccard距離に基づいてリサンプルデータ(clusteringi,j)から取得されたクラスタリング内のすべてのクラスターと比較されます。 集合間の類似度尺度であるJaccard coefficient59は、次のように2つのクラスター間の類似度を計算するために使用されます:term{\rm{J}}({\rm{A}}、{\rm{B}})=\frac{|A\cap b|}{|A\cup b|}、\、A、B\subseteq x$ $
ここで、用語aとBはx={x1、…、xn}のいくつかのデータポイントで構成される2つのクラスターです。
(元のクラスタリングclusteringiからの)クラスター cとリサンプリングされたクラスター内の最も類似したクラスターとの間のJaccard類似性が0.75以上の場合、そのクラスターは安定している(保存されている)と見なされます。 したがって、clusteringiの各クラスターの安定性は、クラスターが保存されている時間の割合として計算されます(Jaccard係数≤0。75)mの異なったリサンプリングを渡って。次に、clusteringiに属するk個のクラスターの安定度の尺度を平均し、それをclusteringiの全体的な安定度の尺度とみなします。
次に、clusteringiに属するk個のクラスターの安定度の測 N個の異なるクラスタリング解(clusteringi(i∞))の中から,最終的なクラスタリング解として最大安定度尺度を持つクラスタリング解を選択した。
図3は、各クラスタリングの安定度測定を計算するために実行したリサンプリング方法の詳細を示しています。 リサンプリングされたデータセットにk平均を適用して得られたクラスターは、非ノイズ点に基づいてのみ元の入力データからのクラスターと比較されます(
検証方法
セルタイプ(ラベル)が知られている13の異なるデータセットを使用します。 各クラスタリング法によって取得される参照ラベルと推論されたラベルの類似度を測定するために、三つの異なるメトリックを使用します: 以下で説明するように、調整されたランド指数(ARI)、調整された相互情報(AMI)、およびV-measure。
Adjusted rand index
セルラベルが与えられた場合、adjusted Rand Index(ARI)47を使用して、推論されたクラスタリングと真のクラスタリングの類似性を評価します。 ARIの範囲は、マッチングが悪い(ランダムなクラスタリング)場合は0から、真のクラスタリングと完全に一致する場合は1までです。 N個のデータポイントのセットについては、分割表は、二つのクラスタ間のデータポイントの共有数に基づいて構築されます。 X={X1,X2,…,XR}およびY={Y1,Y2,…,YC}は、それぞれRクラスターとCクラスターを持つ二つの異なるクラスターを表します。 XとYとの間の重複は、分割表MR×C=として要約することができ、ここで、i=1である。..R,j=1…C.XiとYjはクラスタxとYのクラスタを表し、iとjはそれぞれ分割表の行番号と列番号を表します。 ARIは次のように定義されています:Adjusted h(X)=\mathop{\sum}\limits_{i\mathrm{=1}}^{r}P(i)\、logp(i)log
h(X)は負ではなく、データポイントのクラスターメンバーシップを決定する不確実性がない場合にのみ値0を取ります(クラ 2つのクラスター xとYの間の相互情報(MI)は、次のように計算されます:mi P(I、J)=\sum_{i\mathrm{=1}}c{r}\mathop{\sum}\limits_{j\mathrm{=1}}log{c}P(i、j)\、log\frac{P(i、j)}{P(i)P(j)}logここで、P(i、j)は、P(i、j)は、P(i、j)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)は、P(i、J)データポイントがXのクラスター xiとYのクラスター YJの両方に属する確率:
Miは、エントロピー h(x)とH(y) これは、二つのクラスタによって共有される情報を定量化するため、クラスタ化類似度尺度と考えることができます。 相互情報の調整された尺度は、次のように定義されます。
ここで、二つのランダムなクラスタリング間の期待される相互情報は次のように定義されます。
cont a_{i}=\SUM_{i=1}r{r}{n}_{ij}contとcont A_{i}=\SUM_{I=1}r{r}{n}_{ij}.とすると、cont A_{i}=\SUM_{i=1}.{r}{n}_{ij}.となります。
調整された相互情報(AMI)は、二つのクラスターが同一である場合は1の値をとり、二つのパーティション間のMIが偶然だけのために期待される値と等しい場合は0を取ります。
V-measure
v-measure50は、均質性と完全性の二つの尺度の間の高調波平均です。 同質性基準は、クラスタリングが単一のクラス(真のクラスター)のメンバーであるデータポイントのみを単一のクラスターに割り当てる場合に満たされます。 したがって、各クラスター内のクラス分布は、単一のクラス(ゼロエントロピー)に偏っている必要があります。 与えられたクラスタリングがこの理想にどれだけ近いかを決定するために、同定されたクラスタリングが与えられたクラス分布の条件付きエントロピーはH(C|K)として計算されます。..,Cl}はクラスの集合であり、KはクラスタリングK={K1,K2,…,Km}. 完全に均質な場合、この値は0です。 ただし、この値は、データセットのサイズとクラスサイズの分布に依存します。 したがって、この条件付きエントロピーは、クラスタリング情報が提供できるエントロピーの最大減少H(C)によって正規化されます。 したがって、均質性は次のように定義されます:$ $H=\{\開始{アレイ}{CC}1&\テキスト{もし}\、H(C、K)=0\1-\FRAC{H(C/K)}{H(C)}&\テキスト{さもなければ}端\{アレイ}end
完全性は均質性と対称である50。 完全性基準を満たすために、クラスタリングは、単一のクラスのメンバーであるすべてのデータポイントを単一のクラスターに割り当てる必要があります。 完全性を測定するために、各クラス内のクラスター割り当ての分布が評価されます。 完全に完全なクラスタリングソリューションでは、これらの各分布は完全に単一のクラスターに偏っています。homogen{\rm{v}}\mbox{-}{\rm{m}}{\rm{e}}{\rm{a}}{\rm{s}}{\rm{u}}{\rm{r}}{\rm{e}}=\frac{(1+\beta)\ast h\ast c}{\rm{v}}\mbox{-}{\rm{m}}{\rm{e}}\mbox{-}{\rm{m}}{\rm{e}}\mbox{-}{\rm{m}}{\rm{e}}\mbox{-}{\rm{e}}\mbox{-}{\rm{e}}\mbox{-}{\rm{e}}\mbox{-}{\rm{e}}\mbox{-}{\rm{e}}\mbox{-}{\rm{e}}\mbox{-}{\rm{e}}\mbox{-}{\rm{e}}\(\beta\ast h)+c}β
βが1より大きい場合、計算において完全性がより強く重み付けされます。 Βが1より小さい場合、均質性はより強く重み付けされる。 均質性,完全性およびV測度の計算は,クラス数,クラスタ数,データセットのサイズおよびクラスタリングアルゴリズムと完全に独立しているので,これらの測度は任意のクラスタリング解を評価するために用いることができる。