an implementation of C4.5 machine learning algorithm in python
C4.5 Algorithm
C4.5 algoritmi
C4. 5 on John Ross Quinlanin kehittämä algoritmi, joka luo päätöksenteon tress. Päätöksentekopuu on koneoppimisessa luokittelussa käytettävä työkalu, jossa käytetään puurakennetta, jossa sisäiset solmut edustavat testejä ja leavet päätöksiä. C4.5 käyttää informaatioteoreettisia käsitteitä, kuten entropiaa, aineiston luokitteluun.
tietomuoto
kussakin tietojoukossa tulee olla kaksi tiedostoa, joista toinen kuvaa luokat ja attribuutit ja toinen koostuu todellisista tiedoista. Attribuutteja ja luokkia koskevan tiedoston olisi sisällettävä kaikki luokat ensimmäisellä rivillä ja sen jälkeen rivi riviltä attribuutit ja niiden mahdolliset arvot,jos attribuutti on diskreetti. Continuos (numeerinen) attribuuteille mahdolliset arvot olisivat ”continuos”. Tarkista iris-tietokokonaisuudesta todelliset tiedot ja tarkempi syntaksi.
käyttö
luo C4.5 objekti näin
c1 = C45("path_to_data_file", "path_to_description_file")
tämän jälkeen voit hakea ja esikäsitellä tiedot, luoda puun ja tulostaa sen näytölle.
Ajotestit
Siirry hakemistoon ”C4.5” ja kirjoita python -m unittest discover
suorittaaksesi kaikki testimoduulit ”C4.5 / testit” – kansiossa. (moduulien nimet alkaisivat ”test” ja päättyisivät ”.py”)
relevantit linkit
- https://en.wikipedia.org/wiki/C4.5_algorithm
- http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html
https://en.wikipedia.org/wiki/Decision_tree_learninghttp://www.rulequest.com/Personal/