sklearn.feature_selection.chi2¶

sklearn.feature_selection.chi2(X, y)¶

Calcola le statistiche del chi quadrato tra ogni caratteristica e classe non negativa.

Questo punteggio può essere utilizzato per selezionare le caratteristiche n_features con i valori più alti per la statistica del chi-quadrato di prova da X, che deve contenere solo caratteristiche non negative come booleani o frequenze(ad esempio, conteggi di termini nella classificazione dei documenti), relative alle classi.

Ricordiamo che il test chi-quadrato misura la dipendenza tra variabili stochastiche, quindi usando questa funzione “elimina” le caratteristiche che sono più probabilmente indipendenti dalla classe e quindi irrilevanti per la classificazione.

Per saperne di più nella Guida per l’utente.

Parametri X {array-like, sparse matrix} di forma (n_samples, n_features)

Vettori campione.

yarray-like di forma (n_samples,)

Vettore di destinazione (etichette di classe).

Restituisce chi2array, shape = (n_features,)

statistiche chi2 di ogni caratteristica.

pvalarray, shape = (n_features,)

p-valori di ogni caratteristica.

Vedere anche

f_classif

ANOVA F-value tra label / feature per le attività di classificazione.

f_regression

F-valore tra etichetta / caratteristica per le attività di regressione.

Note

La complessità di questo algoritmo è O(n_classes * n_features).

Esempi che utilizzano sklearn.feature_selection.chi2¶

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.