sklearn.feature_selection.
chi2
(X, y)
calculați Statisticile chi-pătrat între fiecare caracteristică non-negativă și clasă.
acest scor poate fi folosit pentru a selecta caracteristicile n_features cu cele mai mari valori pentru testul chi-pătrat statistica de la X, care trebuie să conțină numai caracteristici non-negative, cum ar fi booleans sau frecvențe(de exemplu, numărul de termeni în clasificarea documentelor), în raport cu clasele.
reamintim că testul chi-pătrat măsoară dependența dintre variabilele stocastice, astfel încât utilizarea acestei funcții „elimină” caracteristicile care sunt cele mai susceptibile de a fi independente de clasă și, prin urmare, irelevante pentru clasificare.
citiți mai multe în Ghidul utilizatorului.
parametrii x{matrice asemănătoare, matrice rară} de formă (n_samples, n_features)
vectori de probă.
yarray-ca de formă (n_samples,)
vector țintă (etichete de clasă).
returnează chi2array, shape = (n_features,)
chi2 statistici ale fiecărei caracteristici.
pvalarray, shape = (n_features,)
p-Valorile fiecărei caracteristici.
a se vedea, de asemenea,
f_classif
ANOVA F-valoare între etichetă / caracteristică pentru sarcini de clasificare.
f_regression
valoarea F între etichetă / caracteristică pentru sarcinile de regresie.
Note
complexitatea acestui algoritm este O(n_classes * n_features).