sklearn.feature_selection.
chi2
(H, y) Larsen
Beregn chi-kvadreret statistik mellem hver ikke-negativ funktion og klasse.
denne score kan bruges til at vælge n_features-funktionerne med de højeste værdier for test chi-kvadreret statistik fra H, som kun skal indeholde ikke-negative funktioner såsom booleere eller frekvenser(f.eks.
Husk, at chi-kvadratprøven måler afhængighed mellem stochasticvariables, så brug af denne funktion “ukrudt ud” de funktioner, der er mest tilbøjelige til at være uafhængige af klassen og derfor irrelevante forklassificering.
Læs mere i brugervejledningen.
parametre{array-lignende, sparsom matrice} af form (n_samples, n_features)
Prøvevektorer.
yarray-lignende af form (n_samples,)
Målvektor (klasse etiketter).
returnerer chi2array, shape = (n_features,)
chi2 statistik over hver funktion.
pvalarray, shape = (n_features,)
p-værdier for hver funktion.
Se også
f_classif
ANOVA F-værdi mellem etiket/funktion til klassificeringsopgaver.
f_regression
F-værdi mellem etiket/funktion til regressionsopgaver.
noter
kompleksiteten af denne algoritme er O(n_classes * n_features).