barisesmer / C4.5

Eine Implementierung des C4.5-Algorithmus für maschinelles Lernen in Python

C4.5-Algorithmus

C4.5 ist ein von John Ross Quinlan entwickelter Algorithmus, der Entscheidungsstress erstellt. Ein Entscheidungsbaum ist ein Werkzeug, das zur Klassifizierung im maschinellen Lernen verwendet wird und eine Baumstruktur verwendet, in der interne Knoten Tests darstellen und Blätter Entscheidungen darstellen. C4.5 verwendet informationstheoretische Konzepte wie Entropie, um die Daten zu klassifizieren.

alt text

Datenformat

Für jeden Datensatz sollten zwei Dateien vorhanden sein, eine, die die Klassen und Attribute beschreibt, und eine, die aus den tatsächlichen Daten besteht. Die Datei für Attribute und Klassen sollte alle Klassen in der ersten Zeile und danach Zeile für Zeile die Attribute und ihre möglichen Werte enthalten, wenn das Attribut diskret ist. Für kontinuierliche (numerische) Attribute wären mögliche Werte „continuos“. Überprüfen Sie den Iris-Dataset-Ordner auf tatsächliche Daten und spezifischere Syntax.

Verwendung

Erstellen Sie einen C4.5 objekt wie dieses

c1 = C45("path_to_data_file", "path_to_description_file")

Danach können Sie die Daten abrufen und vorverarbeiten, den Baum generieren und auf dem Bildschirm drucken.

Tests ausführen

Navigieren Sie zum Verzeichnis „C4.5“ und geben Sie python -m unittest discover ein, um alle Testmodule im Ordner „C4.5/tests“ auszuführen. (die Namen der Module sollten mit „test“ beginnen und mit „.py“ enden)

Relevante Links

  • https://en.wikipedia.org/wiki/C4.5_algorithm
  • https://en.wikipedia.org/wiki/Decision_tree_learning
  • http://www.rulequest.com/Personal/
  • http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.