barisesmer / C4.5

a C4.5 gépi tanulási algoritmus implementációja Pythonban

C4.5 algoritmus

a C4.5 egy algoritmus, amelyet John Ross Quinlan fejlesztett ki, amely döntést hoz. A döntési fa olyan eszköz, amelya gépi tanulás osztályozásához használják, amely olyan faszerkezetet használ,ahol a belső csomópontok a teszteket és a leveleket képviselik. A C4.5 információelméleti fogalmakat, például entrópiát használ az adatok osztályozásához.

alt text

adatformátum

minden adatkészlethez két fájlnak kell lennie, az egyik az osztályokat és attribútumokat írja le, a másik pedig a tényleges adatokat tartalmazza. Az attribútumok és osztályok fájljának tartalmaznia kell az összes osztályt az első sorban,majd soronként az attribútumokat és azok lehetséges értékeit, ha az attribútum diszkrét. Continuos (numerikus) attribútumok esetén a lehetséges értékek “continuos”lennének. Ellenőrizze az iris dataset mappát a tényleges adatokhoz és a konkrétabb szintaxishoz.

használat

Hozzon létre egy C4-et.5 ilyen objektum

c1 = C45("path_to_data_file", "path_to_description_file")

ezt követően előhívhatja és feldolgozhatja az adatokat, létrehozhatja a fát és kinyomtathatja a képernyőre.

futó tesztek

keresse meg a “C4.5” könyvtárat, majd írja be a python -m unittest discover parancsot, hogy az összes tesztmodult a “C4.5 / tests” mappába Futtassa. (a modulok nevének “test” – vel kell kezdődnie és “.py” – vel kell végződnie)

releváns linkek

  • https://en.wikipedia.org/wiki/C4.5_algorithm
  • https://en.wikipedia.org/wiki/Decision_tree_learning
  • http://www.rulequest.com/Personal/http://www.rulequest.com/Personal/

  • http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.