barisesmer/C4.5

pythonでのC4.5機械学習アルゴリズムの実装

C4.5アルゴリズム

C4.5は、John Ross Quinlanによって開発されたアルゴリズムであり、決定tressを作成する。 意思決定ツリーは、内部ノードがテストを表し、葉が意思決定を表すツリー構造を使用する機械学習の分類に使用されるツールです。 C4.5では、エントロピーなどの情報理論的概念を使用してデータを分類しています。

alt text

データ形式

各データセットには、クラスと属性を記述するファイルと、実際のデータで構成されるファイルが 属性とクラスのファイルには、最初の行にすべてのクラスが含まれ、その後、属性が離散である場合は、属性とその可能な値が行ごとに含まれている必 Continuos(数値)属性の場合、可能な値は”continuos”になります。 実際のデータとより具体的な構文については、iris datasetフォルダを確認してください。

使用法

C4を作成します。このような5オブジェクト

c1 = C45("path_to_data_file", "path_to_description_file")

この後、データをフェッチして前処理し、ツリーを生成して画面に印刷することができます。

テストの実行

ディレクトリ”C4.5″に移動し、python -m unittest discoverと入力して、”C4.5/tests”フォルダの下にあるすべてのテストモジュー (モジュールの名前は”test”で始まり、”.py”で終わる必要があります)

関連リンク

  • https://en.wikipedia.org/wiki/C4.5_algorithm
  • https://en.wikipedia.org/wiki/Decision_tree_learning
  • http://www.rulequest.com/Personal/
  • http://www.rulequest.com/Personal/
  • http://www.rulequest.com/Personal/
  • http://www.rulequest.com/Personal/
  • http://www.rulequest.com/Personal/
  • http://www.rulequest.com/Personal/

コメントを残す

メールアドレスが公開されることはありません。