barisesmer / C4.5

Een implementatie van C4.5 machine learning algoritme in python

C4.5 Algoritme

C4.5 is een algoritme ontwikkeld door John Ross Quinlan dat maakt de beslissing bomen. Een beslissingsboom is een hulpmiddel dat wordt gebruikt voor classificatie in machine learning, die een boomstructuur gebruikt waar interne knooppunten testen en bladeren vertegenwoordigen beslissingen. C4. 5 maakt gebruik van informatietheoretische concepten zoals entropie om de gegevens te classificeren.

alt text

gegevensformaat

voor elke dataset moeten er twee bestanden zijn, een die de klassen en attributen beschrijft en een die bestaat uit de werkelijke gegevens. Het bestand voor attributen en klassen moet alle klassen in de eerste regel bevatten en daarna regel voor regel de attributen en hun mogelijke waarden als het attribuut discreet is. Voor continuos (numerieke) attributen zouden mogelijke waarden “continuos”zijn. Controleer de iris-datasetmap voor actuele gegevens en meer specifieke syntaxis.

gebruik

Maak een C4 aan.5 object als dit

c1 = C45("path_to_data_file", "path_to_description_file")

hierna kunt u de gegevens ophalen en vooraf verwerken, de boomstructuur genereren en afdrukken naar het scherm.

lopende Tests

Navigeer naar de map “C4.5” en typpython -m unittest discover om alle testmodules in de map “C4.5 / tests” uit te voeren. (de namen van de modules moet beginnen met “test” en eindigt met “.py”)

Relevante Links

  • https://en.wikipedia.org/wiki/C4.5_algorithm
  • https://en.wikipedia.org/wiki/Decision_tree_learning
  • http://www.rulequest.com/Personal/
  • http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.