sklearn.feature_selection.
chi2
(X,y)¶
各非負の特徴とクラスの間のカイ二乗統計を計算します。
このスコアを使用して、xからの検定カイ二乗統計量の最も高い値を持つn_featuresフィーチャを選択することができます。
カイ二乗検定はstochasticvariables間の依存性を測定するので、この関数を使用すると、クラスから独立している可能性が最も高く、したがって分類には無関係な特徴を”排除”することを思い出してください。
ユーザーガイドの続きを読みます。
パラメータx{配列のような、スパース行列}形状の(n_samples,n_features)
サンプルベクトル。
yarrayのような形状(n_samples,)
ターゲットベクトル(クラスラベル)。
Chi2array、shape=(n_features,)
各フィーチャのchi2統計を返します。
pvalarray,shape=(n_features,)
各フィーチャのp値。
も参照してください
f_classif
分類タスクのラベル/機能間のANOVA F値。
f_regression
回帰タスクのラベル/機能間のF値。このアルゴリズムの複雑さはO(n_classes*n_features)です。