sklearn.feature_selection.
chi2
(X, y) xhamsteren
számítsuk ki a khi-négyzet statisztikát az egyes nemnegatív tulajdonságok és osztályok között.
ezzel a pontszámmal lehet kiválasztani az n_features jellemzőket a teszt khi-négyzet statisztikájának legmagasabb értékeivel X, amelynek csak nem negatív jellemzőket kell tartalmaznia, például logikai értékeket vagy frekvenciákat(pl.
emlékezzünk arra, hogy a khi-négyzet teszt a sztochasztikusváltozók közötti függőséget méri, ezért ennek a függvénynek a használata “kigyomlálja” azokat a jellemzőket, amelyek valószínűleg függetlenek az osztálytól, ezért irrelevánsak az osztályozás szempontjából.
További információ a Felhasználói útmutatóban.
paraméterek X{tömb-szerű, ritka mátrix} alakú (n_samples, n_features)
minta Vektorok.
yarray-szerű alak (n_samples,)
Célvektor (osztály címkék).
visszatér chi2array, shape = (n_features,)
chi2 statisztika az egyes funkciók.
pfalarray, shape = (n_features,)
p-értékek az egyes funkciók.
Lásd még
f_classif
ANOVA F-érték a címke/funkció között osztályozási feladatokhoz.
f_regression
f-érték a regressziós feladatok címkéje/jellemzője között.
Megjegyzések
Az algoritmus összetettsége O (n_classes * n_features).