barisesmer / C4.5

en implementering av C4.5 maskininlärningsalgoritm i python

C4.5 algoritm

C4.5 är en algoritm utvecklad av John Ross Quinlan som skapar besluts tress. Ett beslutsträd är ett verktyg som används för klassificering i maskininlärning, som använder en trädstruktur där interna noder representerar tester och löv representerar beslut. C4. 5 använder sig av informationsteoretiska begrepp som entropi för att klassificera data.

alt text

dataformat

För varje dataset ska det finnas två filer, en som beskriver klasserna och attributen och en som bestårav de faktiska data. Filen för attribut och klasser ska innehålla alla klasser i första raden och därefter rad för rad attributen och deras möjliga värden om attributet är diskret. För kontinuerliga (numeriska) attribut skulle möjliga värden vara”kontinuerliga”. Kontrollera iris dataset-mappen för faktiska data och mer specifik syntax.

användning

skapa en C4.5 objekt som detta

c1 = C45("path_to_data_file", "path_to_description_file")

därefter kan du hämta och förbehandla data, generera trädet och skriva ut det på skärmen.

kör test

navigera till katalogen ”C4.5″och skriv python -m unittest discover för att köra alla testmoduler under mappen” C4.5/tests”. (namnen på modulerna bör börja med ”test” och sluta med ”.py”)

relevanta länkar

  • https://en.wikipedia.org/wiki/C4.5_algorithm
  • https://en.wikipedia.org/wiki/Decision_tree_learning
  • http://www.rulequest.com/Personal/
  • http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html

Lämna ett svar

Din e-postadress kommer inte publiceras.