sklearn.feature_selection.
chi2
(X, y)¶
Oblicz statystyki chi-kwadrat pomiędzy każdą nieujemną cechą i klasą.
ten wynik może być użyty do wybrania funkcji n_features z najwyższymi wartościami dla testu chi-kwadrat statystyki z X, które muszą zawierać tylko nieujemne cechy, takie jak wartości logiczne lub częstotliwości(np. termin liczy się w klasyfikacji dokumentów), w stosunku do klas.
przypomnij sobie, że test chi-kwadrat mierzy zależność między zmiennymi stochastycznymi, więc użycie tej funkcji „usuwa” cechy, które mogą być niezależne od klasy, a zatem nieistotne dla klasyfikacji.
Czytaj więcej w Podręczniku użytkownika.
parametry X{array-like, sparse matrix} of shape (n_sample, n_features)
przykładowe wektory.
yarray-like of shape (n_sample,)
Target vector (class labels).
zwraca chi2array, shape = (n_features,)
statystyki chi2 każdej funkcji.
pvalarray, shape = (n_features,)
p-wartości każdej funkcji.
Zobacz również
f_classif
ANOVA F-wartość między etykietą / funkcją Dla zadań klasyfikacji.
f_regression
f-wartość pomiędzy etykietą / funkcją Dla zadań regresji.
uwagi
złożoność tego algorytmu to O(n_klasy * n_funkcje).