Uma implementação do C4.5 de aprendizagem de máquina algoritmo em python
C4.5 Algoritmo
C4.5 é um algoritmo desenvolvido por John Ross Quinlan que cria árvores de decisão. Uma árvore de decisão é uma ferramenta usada para a classificação na aprendizagem de máquinas, que usa uma estrutura de árvore onde nós internos representam testes e permite representar decisões. C4. 5 faz uso de conceitos teóricos da informação como entropia para classificar os dados.
Data Format
para cada conjunto de dados deve haver dois Ficheiros, um que descreve as classes e atributos e outro que consiste nos dados reais. O ficheiro de atributos e classes deve conter todas as classes na primeira linha e depois, linha a linha, os atributos e os seus possíveis valores, se o atributo for discreto. Para atributos contínuos (numéricos), os valores possíveis seriam “continuos”. Verifique a pasta de conjuntos de dados iris para obter dados reais e sintaxe mais específica.
Utilização
criar um C4.5 objecto como este
c1 = C45("path_to_data_file", "path_to_description_file")
Depois disto, poderá obter e pré-processar os dados, gerar a árvore e imprimi-la ao ecrã.
executando testes
navegue para a pasta “C4. 5″e escreva python -m unittest discover
para executar todos os módulos de ensaio na pasta” C4.5/tests”. (os nomes dos módulos deve começar com “test” e terminam com “.py”)
Links Relevantes
- https://en.wikipedia.org/wiki/C4.5_algorithm
- https://en.wikipedia.org/wiki/Decision_tree_learning
- http://www.rulequest.com/Personal/
- http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html