sklearn .feature_selection.chi2¶

sklearn.feature_selection.chi2(X, y)¶

Beregn chi-kvadrert statistikk mellom hver ikke-negativ funksjon og klasse.

denne poengsummen kan brukes til å velge n_features-funksjonene med de høyeste verdiene for testkvadratstatistikken Fra X, som bare må inneholde ikke-negative egenskaper som booleans eller frekvenser(f.eks. term teller i dokumentklassifisering), i forhold til klassene.

Husk at chi-square-testen måler avhengighet mellom stokastiskvariabler, så bruk av denne funksjonen «luker ut» de funksjonene som er mest sannsynlig å være uavhengig av klasse og derfor irrelevant forklassifisering.

Les mer i Brukerhåndboken.

Parametere X{array-lignende, sparsom matrise} av form (n_samples, n_features)

Prøvevektorer.

yarray-lignende av form (n_samples,)

Målvektor (klasse etiketter).

Returnerer chi2array, shape = (n_features,)

chi2 statistikk for hver funksjon.

pvalarray, shape = (n_features,)

p-verdier for hver funksjon.

Se også

f_classif

ANOVA F-verdi mellom etikett / funksjon for klassifiseringsoppgaver.

f_regression

F-verdi mellom etikett / funksjon for regresjonsoppgaver.Kompleksiteten i denne algoritmen er O (n_classes * n_features).

Eksempler ved hjelp av sklearn.feature_selection.chi2¶

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.