en implementering Av C4.5 maskinlæringsalgoritme i python
C4.5 Algoritme
C4.5 er en algoritme utviklet av John Ross Quinlan som skaper beslutningslokk. Et beslutningstre er et verktøy som brukes til klassifisering i maskinlæring, som bruker en trestruktur der interne noder representerer tester og blader representerer beslutninger. C4. 5 benytter seg av informasjonsteoretiske begreper som entropi for å klassifisere dataene.
Dataformat
for hvert datasett bør det være to filer, en som beskriver klassene og attributtene og en som består av de faktiske dataene. Filen for attributter og klasser skal inneholde alle klassene i første linje og etter det, linje for linje attributter og deres mulige verdier hvis attributtet er diskret. For continuos (numeriske) attributter vil mulige verdier være «continuos». Sjekk iris dataset mappen for faktiske data og mer spesifikk syntaks.
Bruk
Opprett En C4.5 objekt som dette
c1 = C45("path_to_data_file", "path_to_description_file")
Etter dette kan du hente og preprosessere dataene, generere treet og skrive det ut på skjermen.
Kjører Tester
Naviger til katalogen «C4.5″og skriv python -m unittest discover
for å kjøre alle testmodulene under «C4. 5/tests» – mappen. (navnene på modulene skal starte med «test» og slutte med «.py»)
Relevante Lenker
- https://en.wikipedia.org/wiki/C4.5_algorithm
- http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html
https://en.wikipedia.org/wiki/Decision_tree_learninghttp://www.rulequest.com/Personal/