barisesmer / C4.5

Una implementación del algoritmo de aprendizaje automático C4.5 en python

Algoritmo C4.5

C4.5 es un algoritmo desarrollado por John Ross Quinlan que crea tress de decisión. Un árbol de decisiones es una herramienta que se utiliza para la clasificación en el aprendizaje automático, que utiliza una estructura de árbol donde los nodos internos representan pruebas y las hojas representan decisiones. C4. 5 utiliza conceptos teóricos de la información como la entropía para clasificar los datos.

texto alternativo

Formato de datos

Para cada conjunto de datos debe haber dos archivos, uno que describa las clases y atributos y otro que consista en los datos reales. El archivo de atributos y clases debe contener todas las clases en primera línea y, después, línea por línea, los atributos y sus posibles valores si el atributo es discreto. Para los atributos continuos (numéricos), los valores posibles serían «continuos». Compruebe la carpeta de conjuntos de datos iris para obtener datos reales y una sintaxis más específica.

Uso

Crear un C4.5 objeto como este

c1 = C45("path_to_data_file", "path_to_description_file")

Después de esto, usted puede obtener y preprocesar los datos, generar el árbol e imprimirlo en pantalla.

Ejecutar pruebas

Vaya al directorio «C4.5″y escriba python -m unittest discover para ejecutar todos los módulos de prueba en la carpeta» C4.5/pruebas». (los nombres de los módulos debe empezar con «test» y terminan con «.py»)

Enlaces de interés

  • https://en.wikipedia.org/wiki/C4.5_algorithm
  • https://en.wikipedia.org/wiki/Decision_tree_learning
  • http://www.rulequest.com/Personal/
  • http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html

Deja una respuesta

Tu dirección de correo electrónico no será publicada.