implementace C4.5 strojového učení algoritmus v pythonu
C4.5 Algoritmus
C4.5 je algoritmus vyvinutý John Ross Quinlan, který vytváří rozhodovací stromy. Rozhodovací strom je nástroj, který se používá pro klasifikaci ve strojovém učení, který používá stromovou strukturu, kde interní uzly představují testy a listy představují rozhodnutí. C4. 5 využívá teoretických konceptů informací, jako je entropie, ke klasifikaci dat.
Formát Dat
Pro každý datový soubor tam by měly být dva soubory, jeden, který popisuje třídy a atributy a jeden, který podepsané aktuální data. Soubor atributů a tříd by měl obsahovat všechny třídy v prvním řádku a poté řádek po řádku atributy a jejich možné hodnoty, pokud je atribut diskrétní. Pro kontinua (numerické) atributy by možné hodnoty byly „kontinua“. Zkontrolujte složku datasetu iris Pro aktuální data a konkrétnější syntaxi.
použití
Vytvořte C4.5 objekt, jako je tento,
c1 = C45("path_to_data_file", "path_to_description_file")
Po tomto, můžete načtení a předzpracování dat, generování stromu a vytisknout jej na obrazovku.
Testy
Přejděte do adresáře „C4.5“ a zadejte python -m unittest discover
spustit všechny testovací moduly, pod položkou „C4.5/testy“ složky. (názvy modulů by se mělo začít s „test“ a končí „.py“)
související Odkazy
- https://en.wikipedia.org/wiki/C4.5_algorithm
- https://en.wikipedia.org/wiki/Decision_tree_learning
- http://www.rulequest.com/Personal/
- http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html