sklearn.feature_selection.
chi2
(X, y)¶
Beregn chi-kvadrert statistikk mellom hver ikke-negativ funksjon og klasse.
denne poengsummen kan brukes til å velge n_features-funksjonene med de høyeste verdiene for testkvadratstatistikken Fra X, som bare må inneholde ikke-negative egenskaper som booleans eller frekvenser(f.eks. term teller i dokumentklassifisering), i forhold til klassene.
Husk at chi-square-testen måler avhengighet mellom stokastiskvariabler, så bruk av denne funksjonen «luker ut» de funksjonene som er mest sannsynlig å være uavhengig av klasse og derfor irrelevant forklassifisering.
Les mer i Brukerhåndboken.
Parametere X{array-lignende, sparsom matrise} av form (n_samples, n_features)
Prøvevektorer.
yarray-lignende av form (n_samples,)
Målvektor (klasse etiketter).
Returnerer chi2array, shape = (n_features,)
chi2 statistikk for hver funksjon.
pvalarray, shape = (n_features,)
p-verdier for hver funksjon.
Se også
f_classif
ANOVA F-verdi mellom etikett / funksjon for klassifiseringsoppgaver.
f_regression
F-verdi mellom etikett / funksjon for regresjonsoppgaver.Kompleksiteten i denne algoritmen er O (n_classes * n_features).