barisesmer / C4.5

implementace C4.5 strojového učení algoritmus v pythonu

C4.5 Algoritmus

C4.5 je algoritmus vyvinutý John Ross Quinlan, který vytváří rozhodovací stromy. Rozhodovací strom je nástroj, který se používá pro klasifikaci ve strojovém učení, který používá stromovou strukturu, kde interní uzly představují testy a listy představují rozhodnutí. C4. 5 využívá teoretických konceptů informací, jako je entropie, ke klasifikaci dat.

alt text

Formát Dat

Pro každý datový soubor tam by měly být dva soubory, jeden, který popisuje třídy a atributy a jeden, který podepsané aktuální data. Soubor atributů a tříd by měl obsahovat všechny třídy v prvním řádku a poté řádek po řádku atributy a jejich možné hodnoty, pokud je atribut diskrétní. Pro kontinua (numerické) atributy by možné hodnoty byly „kontinua“. Zkontrolujte složku datasetu iris Pro aktuální data a konkrétnější syntaxi.

použití

Vytvořte C4.5 objekt, jako je tento,

c1 = C45("path_to_data_file", "path_to_description_file")

Po tomto, můžete načtení a předzpracování dat, generování stromu a vytisknout jej na obrazovku.

Testy

Přejděte do adresáře „C4.5“ a zadejte python -m unittest discover spustit všechny testovací moduly, pod položkou „C4.5/testy“ složky. (názvy modulů by se mělo začít s „test“ a končí „.py“)

související Odkazy

  • https://en.wikipedia.org/wiki/C4.5_algorithm
  • https://en.wikipedia.org/wiki/Decision_tree_learning
  • http://www.rulequest.com/Personal/
  • http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.