barisesmer / C4.5

Uma implementação do C4.5 de aprendizagem de máquina algoritmo em python

C4.5 Algoritmo

C4.5 é um algoritmo desenvolvido por John Ross Quinlan que cria árvores de decisão. Uma árvore de decisão é uma ferramenta usada para a classificação na aprendizagem de máquinas, que usa uma estrutura de árvore onde nós internos representam testes e permite representar decisões. C4. 5 faz uso de conceitos teóricos da informação como entropia para classificar os dados.

alt text

Data Format

para cada conjunto de dados deve haver dois Ficheiros, um que descreve as classes e atributos e outro que consiste nos dados reais. O ficheiro de atributos e classes deve conter todas as classes na primeira linha e depois, linha a linha, os atributos e os seus possíveis valores, se o atributo for discreto. Para atributos contínuos (numéricos), os valores possíveis seriam “continuos”. Verifique a pasta de conjuntos de dados iris para obter dados reais e sintaxe mais específica.

Utilização

criar um C4.5 objecto como este

c1 = C45("path_to_data_file", "path_to_description_file")

Depois disto, poderá obter e pré-processar os dados, gerar a árvore e imprimi-la ao ecrã.

executando testes

navegue para a pasta “C4. 5″e escreva python -m unittest discover para executar todos os módulos de ensaio na pasta” C4.5/tests”. (os nomes dos módulos deve começar com “test” e terminam com “.py”)

Links Relevantes

  • https://en.wikipedia.org/wiki/C4.5_algorithm
  • https://en.wikipedia.org/wiki/Decision_tree_learning
  • http://www.rulequest.com/Personal/
  • http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html

Deixe uma resposta

O seu endereço de email não será publicado.