o implementare a algoritmului de învățare automată C4.5 în python
C4.5 algoritm
C4.5 este un algoritm dezvoltat de John Ross Quinlan care creează șuviță de decizie. Un arbore de decizie este un instrument care este utilizat pentru clasificarea în învățarea automată, care utilizează o structură arborescentă în care nodurile interne reprezintă teste și frunzele reprezintă decizii. C4.5 folosește concepte teoretice ale informațiilor, cum ar fi entropia, pentru a clasifica datele.
format de date
pentru fiecare set de date ar trebui să existe două fișiere, unul care descrie clasele și atributele și unul care constă din datele reale. Fișierul pentru atribute și clase ar trebui să conțină toate clasele din prima linie și după aceea, linie cu linie atributele și valorile posibile ale acestora dacă atributul este discret. Pentru atributele continuos (numerice), valorile posibile ar fi „continuos”. Verificați folderul iris dataset pentru date reale și sintaxă mai specifică.
utilizare
creați un C4.5 obiect ca acesta
c1 = C45("path_to_data_file", "path_to_description_file")
după aceasta, puteți prelua și preprocesa datele, genera arborele și imprima pe ecran.
rularea testelor
navigați la directorul „C4.5” și tastațipython -m unittest discover
pentru a rula toate modulele de testare din folderul „C4.5 / teste”. (numele modulelor ar trebui să înceapă cu „test” și se termină cu „.py”)
link-uri relevante
- https://en.wikipedia.org/wiki/C4.5_algorithm
- https://en.wikipedia.org/wiki/Decision_tree_learning
- http://www.rulequest.com/Personal/
- http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html