barisesmer / C4.5

Un’implementazione dell’algoritmo di apprendimento automatico C4.5 in python

L’algoritmo C4.5

C4.5 è un algoritmo sviluppato da John Ross Quinlan che crea alberi decisionali. Un albero decisionale è uno strumento utilizzato per la classificazione nell’apprendimento automatico, che utilizza una struttura ad albero in cui i nodi interni rappresentano test e le foglie rappresentano decisioni. C4.5 fa uso di concetti teorici dell’informazione come l’entropia per classificare i dati.

testo alt

Formato dati

Per ogni set di dati ci dovrebbero essere due file, uno che descrive le classi e gli attributi e uno che consiste dei dati effettivi. Il file per attributi e classi deve contenere tutte le classi in prima riga e successivamente, riga per riga gli attributi e i loro possibili valori se l’attributo è discreto. Per gli attributi continui (numerici), i valori possibili sarebbero “continui”. Controllare la cartella iris dataset per i dati effettivi e la sintassi più specifica.

Utilizzo

Crea un C4.5 oggetto come questo

c1 = C45("path_to_data_file", "path_to_description_file")

Dopo questo, è possibile recuperare e pre-elaborare i dati, generare l’albero e stamparlo sullo schermo.

Esecuzione di test

Passare alla directory “C4.5” e digitarepython -m unittest discover per eseguire tutti i moduli di test nella cartella “C4.5 / tests”. (i nomi dei moduli che dovrebbe iniziare con “test” e terminano con “.py”)

Link utili

  • https://en.wikipedia.org/wiki/C4.5_algorithm
  • https://en.wikipedia.org/wiki/Decision_tree_learning
  • http://www.rulequest.com/Personal/
  • http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.