Een implementatie van C4.5 machine learning algoritme in python
C4.5 Algoritme
C4.5 is een algoritme ontwikkeld door John Ross Quinlan dat maakt de beslissing bomen. Een beslissingsboom is een hulpmiddel dat wordt gebruikt voor classificatie in machine learning, die een boomstructuur gebruikt waar interne knooppunten testen en bladeren vertegenwoordigen beslissingen. C4. 5 maakt gebruik van informatietheoretische concepten zoals entropie om de gegevens te classificeren.
gegevensformaat
voor elke dataset moeten er twee bestanden zijn, een die de klassen en attributen beschrijft en een die bestaat uit de werkelijke gegevens. Het bestand voor attributen en klassen moet alle klassen in de eerste regel bevatten en daarna regel voor regel de attributen en hun mogelijke waarden als het attribuut discreet is. Voor continuos (numerieke) attributen zouden mogelijke waarden “continuos”zijn. Controleer de iris-datasetmap voor actuele gegevens en meer specifieke syntaxis.
gebruik
Maak een C4 aan.5 object als dit
c1 = C45("path_to_data_file", "path_to_description_file")
hierna kunt u de gegevens ophalen en vooraf verwerken, de boomstructuur genereren en afdrukken naar het scherm.
lopende Tests
Navigeer naar de map “C4.5” en typpython -m unittest discover
om alle testmodules in de map “C4.5 / tests” uit te voeren. (de namen van de modules moet beginnen met “test” en eindigt met “.py”)
Relevante Links
- https://en.wikipedia.org/wiki/C4.5_algorithm
- https://en.wikipedia.org/wiki/Decision_tree_learning
- http://www.rulequest.com/Personal/
- http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html