a C4.5 gépi tanulási algoritmus implementációja Pythonban
C4.5 algoritmus
a C4.5 egy algoritmus, amelyet John Ross Quinlan fejlesztett ki, amely döntést hoz. A döntési fa olyan eszköz, amelya gépi tanulás osztályozásához használják, amely olyan faszerkezetet használ,ahol a belső csomópontok a teszteket és a leveleket képviselik. A C4.5 információelméleti fogalmakat, például entrópiát használ az adatok osztályozásához.
adatformátum
minden adatkészlethez két fájlnak kell lennie, az egyik az osztályokat és attribútumokat írja le, a másik pedig a tényleges adatokat tartalmazza. Az attribútumok és osztályok fájljának tartalmaznia kell az összes osztályt az első sorban,majd soronként az attribútumokat és azok lehetséges értékeit, ha az attribútum diszkrét. Continuos (numerikus) attribútumok esetén a lehetséges értékek “continuos”lennének. Ellenőrizze az iris dataset mappát a tényleges adatokhoz és a konkrétabb szintaxishoz.
használat
Hozzon létre egy C4-et.5 ilyen objektum
c1 = C45("path_to_data_file", "path_to_description_file")
ezt követően előhívhatja és feldolgozhatja az adatokat, létrehozhatja a fát és kinyomtathatja a képernyőre.
futó tesztek
keresse meg a “C4.5” könyvtárat, majd írja be a python -m unittest discover
parancsot, hogy az összes tesztmodult a “C4.5 / tests” mappába Futtassa. (a modulok nevének “test” – vel kell kezdődnie és “.py” – vel kell végződnie)
releváns linkek
- https://en.wikipedia.org/wiki/C4.5_algorithm
- https://en.wikipedia.org/wiki/Decision_tree_learning
- http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html
http://www.rulequest.com/Personal/http://www.rulequest.com/Personal/