an implementation of C4.5 machine learning algorithm in python
C4.5 Algorithm
C4.5 is an algorithm developed by John Ross Quinlan that creates decision tress. Drzewo decyzyjne jest narzędziem używanym do klasyfikacji w uczeniu maszynowym, które wykorzystuje strukturę drzewa, w której wewnętrzne węzły reprezentują testy, a leaves reprezentują decyzje. C4. 5 wykorzystuje pojęcia teoretyczne informacji, takie jak Entropia do klasyfikacji danych.
format danych
dla każdego zbioru danych powinny być dwa pliki, jeden opisujący klasy i atrybuty oraz jeden, który składa się z rzeczywistych danych. Plik dla atrybutów i klas powinien zawierać wszystkie klasy w pierwszej linii, a następnie, linia po linii atrybuty i ich Możliwe wartości, jeśli atrybut jest dyskretny. Dla atrybutów continuos(numerycznych) możliwe wartości to „continuos”. Sprawdź folder iris dataset pod kątem rzeczywistych danych i bardziej konkretnej składni.
użycie
Utwórz C4.5 obiekt taki jak ten
c1 = C45("path_to_data_file", "path_to_description_file")
następnie możesz pobrać i wstępnie przetworzyć dane, wygenerować drzewo i wydrukować je na ekranie.
Uruchamianie testów
przejdź do katalogu „C4.5” i wpiszpython -m unittest discover
, aby uruchomić wszystkie moduły testowe w folderze „C4.5 / tests”. (nazwy modułów powinny zaczynać się od „test” i kończyć na „.py”)
odpowiednie linki
- https://en.wikipedia.org/wiki/C4.5_algorithm
- https://en.wikipedia.org/wiki/Decision_tree_learning
- http://www.rulequest.com/Personal/
- http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html