en implementering av C4.5 maskininlärningsalgoritm i python
C4.5 algoritm
C4.5 är en algoritm utvecklad av John Ross Quinlan som skapar besluts tress. Ett beslutsträd är ett verktyg som används för klassificering i maskininlärning, som använder en trädstruktur där interna noder representerar tester och löv representerar beslut. C4. 5 använder sig av informationsteoretiska begrepp som entropi för att klassificera data.
dataformat
För varje dataset ska det finnas två filer, en som beskriver klasserna och attributen och en som bestårav de faktiska data. Filen för attribut och klasser ska innehålla alla klasser i första raden och därefter rad för rad attributen och deras möjliga värden om attributet är diskret. För kontinuerliga (numeriska) attribut skulle möjliga värden vara”kontinuerliga”. Kontrollera iris dataset-mappen för faktiska data och mer specifik syntax.
användning
skapa en C4.5 objekt som detta
c1 = C45("path_to_data_file", "path_to_description_file")
därefter kan du hämta och förbehandla data, generera trädet och skriva ut det på skärmen.
kör test
navigera till katalogen ”C4.5″och skriv python -m unittest discover
för att köra alla testmoduler under mappen” C4.5/tests”. (namnen på modulerna bör börja med ”test” och sluta med ”.py”)
relevanta länkar
- https://en.wikipedia.org/wiki/C4.5_algorithm
- https://en.wikipedia.org/wiki/Decision_tree_learning
- http://www.rulequest.com/Personal/
- http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html