3.ábra
az újramintavételi keretrendszer az egyes klaszterek stabilitási mértékének kiszámításához. A bemenet N adatpontot tartalmaz X = {x1,…, xN}, a klaszterek száma k, az újracsomagolások száma m, valamint a C klaszterezés, amelyet k-eszközök alkalmazásával kapunk X. Ez az elemzés generál m újramintavétel adatok az adatpontok 5%-ának véletlenszerű helyettesítésével a zajjal, és kiszámítja m újramintázott klaszterek alapján k-eszközök klaszterezés. A C-ben lévő c klasztereket összehasonlítjuk a resampling klaszterezés leginkább hasonló klaszterével, és kiszámítjuk a két klaszter közötti Jaccard-együtthatót, miközben a zajpontokat kizárjuk. Azoknak az időknek a százalékos aránya, amikor a Jaccard-együtthatók nagyobbak, mint 0.A 75. szám a C klaszter stabilitási mércéje. a C klaszterhez tartozó összes klaszter stabilitási mérésének átlagát számítjuk ki és tekintjük a C klaszterezés Általános stabilitási mércéjének.
validálási módszerek
13 különböző adatkészletet használunk, amelyekben a cellatípusok (címkék) ismertek. A referenciacímkék és az egyes fürtözési módszerekkel kapott kikövetkeztetett címkék hasonlóságának mérésére három különböző mutatót használunk: korrigált rand index (ARI), korrigált kölcsönös információ (AMI) és V-mérés az alábbiak szerint.
Korrigált rand index
a cellacímkék alapján a korrigált Rand indexet (Ari)47 használjuk a következtetett csoportosítás és a valódi csoportosítás közötti hasonlóság értékelésére. ARI tól 0, a rossz megfelelő (véletlenszerű klaszterezés), hogy 1 egy tökéletes megállapodás a valódi klaszterezés. N adatpontok halmaza esetén a kontingenciatábla a két klaszter közötti megosztott adatpontok száma alapján készül. Tegyük Fel, Hogy X = {X1, X2, …, XR} és Y = {Y1, Y2, …, YC} két különböző klasztert képvisel R, illetve C klaszterekkel. Az X és Y közötti átfedés egy kontingenciatáblázatban foglalható össze , ahol az MR = C=, ahol i = 1…R, j = 1…A C. Xi és Yj az X és Y csoportosulásokban egy klasztert jelöl, az i és j pedig a készenléti táblázat sorszámára, illetve oszlopszámára utal. Az ARI meghatározása a következő:
Korrigált kölcsönös információ
$$H(X)=\mathop{\sum }\limits_{i\mathrm{=1}}^{R}P(I)\,logP(i)$$
(2)
H(X) nem negatív, és csak akkor veszi a 0 értéket, ha nincs bizonytalanság az adatpont klasztertagságának meghatározásában (csak egy klaszter). A két X és Y csoportosítás közötti kölcsönös információ (Mi) kiszámítása a következőképpen történik:
$$MI(X,Y)=\mathop{\sum }\limits_{i\mathrm{=1}}^{R}\mathop{\sum }\limits_{j\mathrm{=1}}^{C}P(i,j)\,log\frac{P(i,j)}{P(i)P(j)}$$
(3)
ahol P(I, J) azt a valószínűséget jelöli,hogy egy adatpont mind az X X, mind az YJ klaszterhez tartozik y:
$$p(i, j)=\frac{|{x}_{i}\cap {y}_{j}|}{n}$$
(4)
mi egy nem negatív mennyiség, amelyet az entrópiák határolnak H(X) és h(y). Számszerűsíti a két csoportosulás által megosztott információkat, ezért csoportosítási hasonlósági intézkedésnek tekinthető. A kölcsönös információ korrigált mértéke a következőképpen van meghatározva:
$$AMI(X,Y)=\frac{MI(X,Y)-E\{Mi(X,Y)\}}{max\{H(X),H(Y)\}-e\{mi(X,Y)\}}$$
(5)
ahol a várható kölcsönös információ két véletlenszerű klaszter között:
ahol az AI és a bj a kontingencia táblázat részleges összegei: \({a}_{I}={\sum }_{J\mathrm{=1}}^{c}{n}_{IJ}\) és \({B}_{J}={\sum }_{I\mathrm{=1}}^{r}{n}_{IJ}\).
a korrigált kölcsönös információ (ami) értéke 1, ha a két klaszter azonos, és 0, ha a mi két partíció között megegyezik a véletlen miatt elvárt értékkel.
V-mérték
A V-mérték 50 a két mérték közötti harmonikus átlag: homogenitás és teljesség. A homogenitási feltétel akkor teljesül, ha egy klaszterezés csak azokat az adatpontokat rendeli hozzá egyetlen klaszterhez, amelyek egyetlen osztály (igaz fürt) tagjai. Így az egyes klasztereken belüli osztályeloszlást egyetlen osztályra kell torzítani (nulla entrópia). Annak meghatározásához, hogy egy adott csoportosítás milyen közel van ehhez az ideálhoz, az osztályeloszlás feltételes entrópiáját az azonosított csoportosulás alapján számítjuk ki H(C / K), ahol C = {C1, C2,…, Cl} osztályok halmaza, K pedig klaszterezés K = {K1, K2,…, Km}. Tökéletesen homogén esetben ez az érték 0. Ez az érték azonban az adatkészlet méretétől és az osztályméretek eloszlásától függ. Így ezt a feltételes entrópiát normalizálja az entrópia maximális csökkenése, amelyet a klaszterezési információ nyújthat, H (C). Ezért a homogenitást a következőképpen határozzuk meg:
$$h=\{\begin{array}{cc}1 & \text{if}\,H(C,K)=0\\ 1-\frac{H(C| K)}{H(C)} & \text{egyébként}\end{array}$$
(7)
a teljesség szimmetrikus a homogenitással50. A teljességi kritériumok teljesítése érdekében a fürtözésnek minden olyan adatpontot hozzá kell rendelnie, amely egyetlen osztály tagja, egyetlen fürthöz. A teljesség méréséhez felmérjük a klaszterfeladatok eloszlását az egyes osztályokon belül. Egy tökéletesen teljes fürtözési megoldásban ezen eloszlások mindegyike teljesen egyetlen klaszterre torzul.
a H homogenitás és a C teljesség alapján a V-mérték a homogenitás és a teljesség súlyozott harmonikus átlagaként kerül kiszámításra:
$${\rm{V}} \mbox{-} {\rm{m}}{\rm{e}}{\RM{S}}{\rm{u}}{\rm{r}}{\rm{e}}=\frac {(1+\beta)\AST h\AST C} {(\beta\AST H)+C}$$
(8)
ha a 6-nál nagyobb, akkor a teljességet erősebben súlyozzuk a számítás során. Ha az 1-nél kisebb, akkor a homogenitás erősebben súlyozódik. Mivel a homogenitás, a teljesség és a V-mérték számításai teljesen függetlenek az osztályok számától, a klaszterek számától, az adatkészlet méretétől és a klaszterezési algoritmustól, ezek a mérések bármilyen klaszterezési megoldás értékelésére alkalmazhatók.