Una implementación del algoritmo de aprendizaje automático C4.5 en python
Algoritmo C4.5
C4.5 es un algoritmo desarrollado por John Ross Quinlan que crea tress de decisión. Un árbol de decisiones es una herramienta que se utiliza para la clasificación en el aprendizaje automático, que utiliza una estructura de árbol donde los nodos internos representan pruebas y las hojas representan decisiones. C4. 5 utiliza conceptos teóricos de la información como la entropía para clasificar los datos.
Formato de datos
Para cada conjunto de datos debe haber dos archivos, uno que describa las clases y atributos y otro que consista en los datos reales. El archivo de atributos y clases debe contener todas las clases en primera línea y, después, línea por línea, los atributos y sus posibles valores si el atributo es discreto. Para los atributos continuos (numéricos), los valores posibles serían «continuos». Compruebe la carpeta de conjuntos de datos iris para obtener datos reales y una sintaxis más específica.
Uso
Crear un C4.5 objeto como este
c1 = C45("path_to_data_file", "path_to_description_file")
Después de esto, usted puede obtener y preprocesar los datos, generar el árbol e imprimirlo en pantalla.
Ejecutar pruebas
Vaya al directorio «C4.5″y escriba python -m unittest discover
para ejecutar todos los módulos de prueba en la carpeta» C4.5/pruebas». (los nombres de los módulos debe empezar con «test» y terminan con «.py»)
Enlaces de interés
- https://en.wikipedia.org/wiki/C4.5_algorithm
- https://en.wikipedia.org/wiki/Decision_tree_learning
- http://www.rulequest.com/Personal/
- http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html