barisesmer / C4.5

o implementare a algoritmului de învățare automată C4.5 în python

C4.5 algoritm

C4.5 este un algoritm dezvoltat de John Ross Quinlan care creează șuviță de decizie. Un arbore de decizie este un instrument care este utilizat pentru clasificarea în învățarea automată, care utilizează o structură arborescentă în care nodurile interne reprezintă teste și frunzele reprezintă decizii. C4.5 folosește concepte teoretice ale informațiilor, cum ar fi entropia, pentru a clasifica datele.

alt text

format de date

pentru fiecare set de date ar trebui să existe două fișiere, unul care descrie clasele și atributele și unul care constă din datele reale. Fișierul pentru atribute și clase ar trebui să conțină toate clasele din prima linie și după aceea, linie cu linie atributele și valorile posibile ale acestora dacă atributul este discret. Pentru atributele continuos (numerice), valorile posibile ar fi „continuos”. Verificați folderul iris dataset pentru date reale și sintaxă mai specifică.

utilizare

creați un C4.5 obiect ca acesta

c1 = C45("path_to_data_file", "path_to_description_file")

după aceasta, puteți prelua și preprocesa datele, genera arborele și imprima pe ecran.

rularea testelor

navigați la directorul „C4.5” și tastațipython -m unittest discover pentru a rula toate modulele de testare din folderul „C4.5 / teste”. (numele modulelor ar trebui să înceapă cu „test” și se termină cu „.py”)

link-uri relevante

  • https://en.wikipedia.org/wiki/C4.5_algorithm
  • https://en.wikipedia.org/wiki/Decision_tree_learning
  • http://www.rulequest.com/Personal/
  • http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html

Lasă un răspuns

Adresa ta de email nu va fi publicată.