sklearn.feature_selection.chi2¶

sklearn.feature_selection.chi2(X, y)¶

Berechne Chi-Quadrat-Statistiken zwischen jedem nicht negativen Merkmal und jeder Klasse.

Diese Bewertung kann verwendet werden, um die n_features-Merkmale mit den höchsten Werten für die Test-Chi-Quadrat-Statistik von X auszuwählen, die nur nicht negative Merkmale wie Boolesche Werte oder Häufigkeiten (z. B. Termzahlen in der Dokumentklassifizierung) relativ zu den Klassen enthalten dürfen.

Denken Sie daran, dass der Chi-Quadrat-Test die Abhängigkeit zwischen stochastischen Variablen misst, so dass die Verwendung dieser Funktion die Merkmale „aussortiert“, die am wahrscheinlichsten von der Klasse unabhängig und daher für die Klassifizierung irrelevant sind.

Lesen Sie mehr im Benutzerhandbuch.

Parameter X{Array-ähnliche, spärliche Matrix} der Form (n_samples, n_features)

Beispielvektoren.

yarray-like der Form (n_samples,)

Zielvektor (Klassenbeschriftungen).

Gibt chi2array, shape = (n_features,)

chi2-Statistiken jedes Features zurück.

pvalarray, shape = (n_features,)

p-Werte jedes Features.

Siehe auch

f_classif

ANOVA F-Wert zwischen Label/Feature für Klassifizierungsaufgaben.

f_regression

F-Wert zwischen Label/Feature für Regressionsaufgaben.

Anmerkungen

Die Komplexität dieses Algorithmus ist O(n_classes * n_features).

Beispiele mit sklearn.feature_selection.chi2¶

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.