barisesmer/C4.5

an implementation of C4.5 machine learning algorithm in python

C4.5 Algorithm

C4.5 is an algorithm developed by John Ross Quinlan that creates decision tress. Drzewo decyzyjne jest narzędziem używanym do klasyfikacji w uczeniu maszynowym, które wykorzystuje strukturę drzewa, w której wewnętrzne węzły reprezentują testy, a leaves reprezentują decyzje. C4. 5 wykorzystuje pojęcia teoretyczne informacji, takie jak Entropia do klasyfikacji danych.

alt text

format danych

dla każdego zbioru danych powinny być dwa pliki, jeden opisujący klasy i atrybuty oraz jeden, który składa się z rzeczywistych danych. Plik dla atrybutów i klas powinien zawierać wszystkie klasy w pierwszej linii, a następnie, linia po linii atrybuty i ich Możliwe wartości, jeśli atrybut jest dyskretny. Dla atrybutów continuos(numerycznych) możliwe wartości to „continuos”. Sprawdź folder iris dataset pod kątem rzeczywistych danych i bardziej konkretnej składni.

użycie

Utwórz C4.5 obiekt taki jak ten

c1 = C45("path_to_data_file", "path_to_description_file")

następnie możesz pobrać i wstępnie przetworzyć dane, wygenerować drzewo i wydrukować je na ekranie.

Uruchamianie testów

przejdź do katalogu „C4.5” i wpiszpython -m unittest discover, aby uruchomić wszystkie moduły testowe w folderze „C4.5 / tests”. (nazwy modułów powinny zaczynać się od „test” i kończyć na „.py”)

odpowiednie linki

  • https://en.wikipedia.org/wiki/C4.5_algorithm
  • https://en.wikipedia.org/wiki/Decision_tree_learning
  • http://www.rulequest.com/Personal/
  • http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.