sklearn.feature_selection.
chi2
(X, y)¶
Bereken chi-kwadraat statistieken tussen elk NIET-negatief kenmerk en klasse.
deze score kan worden gebruikt om de eigenschappen n_features te selecteren met de hoogste waarden voor de chi-kwadraatstatistiek van de test uit X, die alleen niet-negatieve kenmerken moeten bevatten, zoals booleans of frequenties(bijvoorbeeld termtellingen in documentclassificatie), ten opzichte van de klassen.
bedenk dat de chi-kwadraat test de afhankelijkheid tussen stochastische variabelen meet, dus door deze functie te gebruiken, worden de kenmerken “onkruid verwijderd” die het meest waarschijnlijk onafhankelijk zijn van de klasse en daarom niet relevant zijn voor de classificatie.
Lees meer in de gebruikershandleiding.
Parameters X{array-achtige, schaarse matrix} van vorm (n_samples, n_features)
Monstervectoren.
yarray-achtige vorm (n_samples,)
Doelvector (klassenlabels).
geeft chi2array, shape = (n_features,)
chi2 statistieken van elke functie.
pvalarray, shape = (n_features,)
p-waarden van elk kenmerk.
zie ook
f_classif
ANOVA F-waarde tussen label/functie voor classificatietaken.
f_regression
F-waarde tussen label/functie voor regressietaken.
Notes
complexiteit van dit algoritme is O (n_classes * n_features).