Figura 3
Il framework di ricampionamento per calcolare la misura di stabilità per ogni clustering. L’input include N punti dati X ={x1,…, XN}, il numero di cluster k, il numero di ricampionamenti m, e il clustering C che si ottiene applicando k-means su X. Questa analisi genera m ricampionamento dei dati sostituendo casualmente 5% dei punti dati con il rumore, e calcola m ricampionamento clustering basato su k-means clustering. Ogni cluster c in C viene confrontato con il cluster più simile nel clustering di ricampionamento e viene calcolato il coefficiente Jaccard tra i due cluster, mentre i punti di rumore sono esclusi. La percentuale delle volte che i coefficienti di Jaccard sono maggiori di 0.75 è considerata la stabilità di misura per il cluster c. La media delle misure di stabilità per tutti i cluster di appartenenza di clustering C è calcolato e considerato come la stabilità complessiva misura per il clustering C.
metodi di Convalida
usiamo 13 diversi set di dati in cui i tipi di cellule (etichette) sono noti. Per misurare il livello di somiglianza tra le etichette di riferimento e le etichette dedotte ottenute da ciascun metodo di clustering, utilizziamo tre diverse metriche: adjusted rand index (ARI), adjusted mutual information (AMI), e V-measure come spiegato di seguito.
Adjusted rand index
Date le etichette delle celle, l’Adjusted Rand Index (ARI)47 viene utilizzato per valutare la somiglianza tra il clustering dedotto e il vero clustering. ARI varia da 0, per la scarsa corrispondenza (un clustering casuale), a 1 per un accordo perfetto con il vero clustering. Per un set di n punti dati, la tabella di contingenza viene costruita in base al numero condiviso di punti dati tra due cluster. Supponiamo che X = {X1, X2, …, XR} e Y = {Y1, Y2, …, YC} rappresentano due diversi cluster con cluster R e C, rispettivamente. La sovrapposizione tra X e Y può essere riassunta come una tabella di contingenza MR×C =, dove i = 1…R, j = 1…C. Xi e Yj denotano un cluster in cluster X e Y, e i e j si riferiscono rispettivamente al numero di riga e al numero di colonna della tabella di contingenza. L’ARI è definito come segue:
Adjusted mutual information
$ $ H (X)=\mathop{\sum }\limits_{i\mathrm {=1}}^{R}P(i)\,logP (i) log
(2)
H(X) non è negativo e assume il valore 0 solo quando non c’è incertezza nel determinare l’appartenenza a un cluster di un punto dati (esiste un solo cluster). Le informazioni reciproche (MI) tra due cluster X e Y sono calcolate come segue:
$$MI(X,Y)=\mathop{\sum }\limits_{i\mathrm{=1}}^{R}\mathop{\sum }\limits_{j\mathrm{=1}}^{C}P(i,j)\log\frac{P(i,j)}{P(i)P(j)}$$
(3)
dove P(i, j) indica la probabilità che un punto appartiene al cluster Xi X e il cluster Yj Y:
$$P(i,j)=\frac{|{X}_{i}\cap {Y}_{j}|}{n}$$
(4)
MI è non negativo quantità superiore delimitata dal entropie H(X) e H(Y). Quantifica le informazioni condivise dai due cluster e quindi può essere considerato come una misura di somiglianza di clustering. Il aggiustati per lo scambio reciproco di informazioni è definito come segue:
$$AMI(X,Y)=\frac{MI(X,Y)-E\{MI(X,Y)\}}{max\{H(X),H(Y)\}-E\{MI(X,Y)\}}$$
(5)
dove previsto lo scambio reciproco di informazioni tra due random clusterings è:
dove l’ai e bj sono le somme parziali della tabella di contingenza: \({a}_{i}={\sum }_{j\mathrm{=1}}^{C}{n}_{ij}\) e \({b}_{j}={\sum }_{i\mathrm{=1}}^{R}{n}_{ij}\).
L’AMI (adjusted Mutual information) assume un valore di 1 quando i due clustering sono identici e 0 quando l’MI tra due partizioni è uguale al valore previsto a causa del solo caso.
V-measure
Il V-measure50 è la media armonica tra due misure: omogeneità e completezza. I criteri di omogeneità sono soddisfatti se un clustering assegna solo i punti dati che sono membri di una singola classe (true cluster) a un singolo cluster. Pertanto, la distribuzione della classe all’interno di ciascun cluster dovrebbe essere inclinata su una singola classe (zero entropia). Per determinare quanto sia vicino un dato clustering a questo ideale, l’entropia condizionale della distribuzione di classe data il clustering identificato viene calcolata come H(C|K), dove C = {C1, C2, …, Cl} è un insieme di classi e K è un clustering K = {K1, K2, …, Km}. Nel caso perfettamente omogeneo, questo valore è 0. Tuttavia, questo valore dipende dalla dimensione del set di dati e dalla distribuzione delle dimensioni della classe. Pertanto, questa entropia condizionale è normalizzata dalla massima riduzione dell’entropia che le informazioni di clustering potrebbero fornire, H(C). Pertanto, l’omogeneità è definita come segue:
$$h=\{\begin{array}{cc}1 & \text{se}\,H(C,K)=0\\ 1-\frac{H(C| K)}{H(C)} & \text{altrimenti}\end{array}$$
(7)
La completezza è simmetrica homogeneity50. Per soddisfare i criteri di completezza, un clustering deve assegnare tutti i punti dati che sono membri di una singola classe a un singolo cluster. Per misurare la completezza, viene valutata la distribuzione delle assegnazioni di cluster all’interno di ciascuna classe. In una soluzione di clustering perfettamente completa, ciascuna di queste distribuzioni sarà completamente distorta in un singolo cluster.
Dato che l’omogeneità h e completezza c, V-misura è calcolata come la media armonica ponderata di omogeneità e completezza:
$${\rm{V}} \mbox{-} {\rm{m}}{\rm{e}}{\rm{a}}{\rm{s}}{\rm{u}}{\rm{r}}{\rm{e}}=\frac{(1+\beta )\ast h\ast c}{(\beta \ast h)+c}$$
(8)
se b è maggiore di 1, la completezza è pesata di più fortemente nel calcolo. Se β è inferiore a 1, l’omogeneità è ponderata più fortemente. Poiché i calcoli di omogeneità, completezza e V-measure sono completamente indipendenti dal numero di classi, dal numero di cluster, dalla dimensione del set di dati e dall’algoritmo di clustering, queste misure possono essere impiegate per valutare qualsiasi soluzione di clustering.