sklearn.feature_selection.
chi2
(X, y)¶
Výpočet chí-kvadrát statistiky mezi jednotlivými non-negativní funkce a třídy.
Toto skóre může být použit k výběru n_features funkce s nejvyšší hodnoty pro test chi-squared statistika z X, které mustcontain pouze nezáporná funkce, jako je boolean nebo frekvence(např., termín se počítá v dokumentu klasifikace), relativní tříd.
Připomeňme si, že chi-square test měří závislost mezi stochasticvariables, takže pomocí této funkce „plevele“ funkce, které jsou těch nejvíce pravděpodobné, že bude nezávislý třídy, a proto irelevantní forclassification.
Přečtěte si více v uživatelské příručce.
parametry X{array-like, řídká matice} tvaru (n_samples, n_features)
ukázkové vektory.
yarray-like tvaru (n_samples,)
cílový vektor (štítky tříd).
vrací chi2array, shape = (n_features,)
chi2 statistiky každé funkce.
pvalarray, shape = (n_features,)
p-hodnoty každé funkce.
Viz také
f_classif
ANOVA F-hodnota mezi štítkem / funkcí pro klasifikační úlohy.
f_regression
F-hodnota mezi štítkem / funkcí pro regresní úlohy.
poznámky
složitost tohoto algoritmu je O (n_classes * n_features).