barisesmer/C4.5

en implementering Av C4.5 maskinlæringsalgoritme i python

C4.5 Algoritme

C4.5 er en algoritme utviklet av John Ross Quinlan som skaper beslutningslokk. Et beslutningstre er et verktøy som brukes til klassifisering i maskinlæring, som bruker en trestruktur der interne noder representerer tester og blader representerer beslutninger. C4. 5 benytter seg av informasjonsteoretiske begreper som entropi for å klassifisere dataene.

alt text

Dataformat

for hvert datasett bør det være to filer, en som beskriver klassene og attributtene og en som består av de faktiske dataene. Filen for attributter og klasser skal inneholde alle klassene i første linje og etter det, linje for linje attributter og deres mulige verdier hvis attributtet er diskret. For continuos (numeriske) attributter vil mulige verdier være «continuos». Sjekk iris dataset mappen for faktiske data og mer spesifikk syntaks.

Bruk

Opprett En C4.5 objekt som dette

c1 = C45("path_to_data_file", "path_to_description_file")

Etter dette kan du hente og preprosessere dataene, generere treet og skrive det ut på skjermen.

Kjører Tester

Naviger til katalogen «C4.5″og skriv python -m unittest discover for å kjøre alle testmodulene under «C4. 5/tests» – mappen. (navnene på modulene skal starte med «test» og slutte med «.py»)

Relevante Lenker

  • https://en.wikipedia.org/wiki/C4.5_algorithm
  • https://en.wikipedia.org/wiki/Decision_tree_learninghttp://www.rulequest.com/Personal/

  • http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.