sklearn.feature_selection.
chi2
(X, y)¶
Calcule les statistiques du chi carré entre chaque entité et classe non négatives.
Ce score peut être utilisé pour sélectionner les caractéristiques n_features avec les valeurs les plus élevées pour la statistique du chi carré de test à partir de X, qui ne doivent contenir que des caractéristiques non négatives telles que des booléens ou des fréquences (par exemple, le nombre de termes dans la classification des documents), par rapport aux classes.
Rappelons que le test du chi carré mesure la dépendance entre les variables stochastiques, de sorte que l’utilisation de cette fonction « élimine » les caractéristiques les plus susceptibles d’être indépendantes de la classe et donc non pertinentes pour la classification.
En savoir plus dans le Guide de l’utilisateur.
Paramètres X {matrice de type tableau, matrice clairsemée} de forme (n_samples, n_features)
Vecteurs d’échantillons.
yarray-like of shape(n_samples,)
Vecteur cible (étiquettes de classe).
Retourne chi2array, shape=(n_features,)
statistiques chi2 de chaque entité.
pvalarray, shape=(n_features,)
p- valeurs de chaque entité.
Voir aussi
f_classif
Valeur F d’ANOVA entre l’étiquette/la fonction pour les tâches de classification.
f_regression
F – valeur entre étiquette/caractéristique pour les tâches de régression.
Notes
La complexité de cet algorithme est O(n_classes*n_features).