sklearn.feature_selection.
chi2
(X, y)¶
Calcola le statistiche del chi quadrato tra ogni caratteristica e classe non negativa.
Questo punteggio può essere utilizzato per selezionare le caratteristiche n_features con i valori più alti per la statistica del chi-quadrato di prova da X, che deve contenere solo caratteristiche non negative come booleani o frequenze(ad esempio, conteggi di termini nella classificazione dei documenti), relative alle classi.
Ricordiamo che il test chi-quadrato misura la dipendenza tra variabili stochastiche, quindi usando questa funzione “elimina” le caratteristiche che sono più probabilmente indipendenti dalla classe e quindi irrilevanti per la classificazione.
Per saperne di più nella Guida per l’utente.
Parametri X {array-like, sparse matrix} di forma (n_samples, n_features)
Vettori campione.
yarray-like di forma (n_samples,)
Vettore di destinazione (etichette di classe).
Restituisce chi2array, shape = (n_features,)
statistiche chi2 di ogni caratteristica.
pvalarray, shape = (n_features,)
p-valori di ogni caratteristica.
Vedere anche
f_classif
ANOVA F-value tra label / feature per le attività di classificazione.
f_regression
F-valore tra etichetta / caratteristica per le attività di regressione.
Note
La complessità di questo algoritmo è O(n_classes * n_features).
Esempi che utilizzano sklearn.feature_selection.chi2¶