tehát mielőtt létrehoznánk a szavak beágyazását, amely a szavak jelentésábrázolását hozza létre, és csökkenti a dimenziókat, Hogyan hozzunk létre egy jó szókincset, amely megragadja a nyelvünk lényegét. Különböző nyelvek vannak a világon, és az egyes nyelveknek eltérő szerkezete van. Az olyan agglutinatív nyelvek, mint a török, minden szót agglutinálnak (hozzáadnak a tetejére), hogy ugyanazon kezdeti szóból újabb jelentést hozzanak létre. Hasonló, angolul a smart-est utótag része az est, ahol sok szóban használható.
például a mi szókincs lehet, hogy nem a szó leghangosabb, de lehet, hogy a szó hangos, ha tokenizes hangos – est a beágyazása token lesz ábrázolása est, így lesz egy információt a szó leghangosabb.
a gyermek hasonló szerkezetű is zajlik. A gyermeknek nem kell minden szót és többes számot hallania ahhoz, hogy megértse. Hallás után sok többes formák tárgy, mint az autók, méhek és egyéb tárgyak a gyermek agy struktúrák oly módon, ahol ha a gyermek tudja, mi a kalap ő/ő nem kell hallani a szót kalap annak érdekében, hogy használni. A nyelvi modelleknek jelezniük kell szókincsünk szerkezeti mechanizmusát is.
a BPE-nek két előnye van, hogy tudja, hogyan kell kezelni az ismeretlen szavakat, és az ismeretlen szavakból következtetni tud a jelentésre
hogyan működik
szükségünk van egy fájlra, amely jól reprezentálja a tokenizálni kívánt nyelvet.
- hívja a .a TXT fájl minden szót feloszt a karakterláncban, és hozzáadja a</w> szót minden szó végéhez. Hozzon létre egy szótárt a szavak gyakoriságáról.
2. Hozzon létre egy függvényt, amely megkapja a szókincset, és a szókincs minden szavában minden szót karakterekre oszthat, és hozzon létre egy frekvenciaszótárat a legtöbb párosított karakterből.
3. Képzési folyamatunk során folyamatosan frissítjük szókincsünket. Th merge_vocabulary funkció lesz a régi szókincs szótár és frissíti a leggyakoribb karakter pár.
4. Get tokenek fogják használni később tokenize bemenetek karakterláncok
létrehozása szókincs
így etetés után a kezdeti szókincs és a frekvencia a szavak. Létrehozunk egy hurkot, amely tokenizációt hoz létre a szókincsből. Minden iteráció meg fogja találni a karakter fordul elő együtt, és add hozzá a szókincs.
a példában mondjuk a szókincsünk
- hozzáadjuk a szó végét token
- a kezdeti tokenek
- a vocabhoz megyünk, ellenőrizzük a bigramokat, és megszámoljuk a bigramm gyakoriságát ebben az esetben az ‘r’ és ‘</w>’ frissítjük a token szótárt
- hozzáadjuk az új karaktert a szókincsünkhöz ‘r</w>’
Ön dönti el, hogy hány iterációnak kell megtörténnie. Ez lehet 10.000 vagy 100.000. Ön dönti el, hogy mi legyen a szókincs mérete.
kódolás és dekódolás
az adott mondat kódolásához először át kell alakítanunk a token szótárunkat a leghosszabb szóból a legrövidebb szóvá. Minden szót megosztunk a mondatban, és hozzáadjuk a</w> szót a szó végéhez. Minden egyes tokenen keresztül iterálunk, és ha a szó részstringje tartalmazza a tokent, akkor ezt a tokent tokenizációs folyamatként tesszük. Dekódolás adott a tokenek egyesítjük a szó nincs </w>és add ” ha a szó </w> a végén.