Bájtpár kódolás

tehát mielőtt létrehoznánk a szavak beágyazását, amely a szavak jelentésábrázolását hozza létre, és csökkenti a dimenziókat, Hogyan hozzunk létre egy jó szókincset, amely megragadja a nyelvünk lényegét. Különböző nyelvek vannak a világon, és az egyes nyelveknek eltérő szerkezete van. Az olyan agglutinatív nyelvek, mint a török, minden szót agglutinálnak (hozzáadnak a tetejére), hogy ugyanazon kezdeti szóból újabb jelentést hozzanak létre. Hasonló, angolul a smart-est utótag része az est, ahol sok szóban használható.

például a mi szókincs lehet, hogy nem a szó leghangosabb, de lehet, hogy a szó hangos, ha tokenizes hangos – est a beágyazása token lesz ábrázolása est, így lesz egy információt a szó leghangosabb.

a gyermek hasonló szerkezetű is zajlik. A gyermeknek nem kell minden szót és többes számot hallania ahhoz, hogy megértse. Hallás után sok többes formák tárgy, mint az autók, méhek és egyéb tárgyak a gyermek agy struktúrák oly módon, ahol ha a gyermek tudja, mi a kalap ő/ő nem kell hallani a szót kalap annak érdekében, hogy használni. A nyelvi modelleknek jelezniük kell szókincsünk szerkezeti mechanizmusát is.

a BPE-nek két előnye van, hogy tudja, hogyan kell kezelni az ismeretlen szavakat, és az ismeretlen szavakból következtetni tud a jelentésre

hogyan működik

szükségünk van egy fájlra, amely jól reprezentálja a tokenizálni kívánt nyelvet.

  1. hívja a .a TXT fájl minden szót feloszt a karakterláncban, és hozzáadja a</w> szót minden szó végéhez. Hozzon létre egy szótárt a szavak gyakoriságáról.

2. Hozzon létre egy függvényt, amely megkapja a szókincset, és a szókincs minden szavában minden szót karakterekre oszthat, és hozzon létre egy frekvenciaszótárat a legtöbb párosított karakterből.

3. Képzési folyamatunk során folyamatosan frissítjük szókincsünket. Th merge_vocabulary funkció lesz a régi szókincs szótár és frissíti a leggyakoribb karakter pár.

4. Get tokenek fogják használni később tokenize bemenetek karakterláncok

létrehozása szókincs

így etetés után a kezdeti szókincs és a frekvencia a szavak. Létrehozunk egy hurkot, amely tokenizációt hoz létre a szókincsből. Minden iteráció meg fogja találni a karakter fordul elő együtt, és add hozzá a szókincs.

a példában mondjuk a szókincsünk

  • hozzáadjuk a szó végét token
  • a kezdeti tokenek
  • a vocabhoz megyünk, ellenőrizzük a bigramokat, és megszámoljuk a bigramm gyakoriságát ebben az esetben az ‘r’ és ‘</w>’ frissítjük a token szótárt
  • hozzáadjuk az új karaktert a szókincsünkhöz ‘r</w>’

Ön dönti el, hogy hány iterációnak kell megtörténnie. Ez lehet 10.000 vagy 100.000. Ön dönti el, hogy mi legyen a szókincs mérete.

kódolás és dekódolás

az adott mondat kódolásához először át kell alakítanunk a token szótárunkat a leghosszabb szóból a legrövidebb szóvá. Minden szót megosztunk a mondatban, és hozzáadjuk a</w> szót a szó végéhez. Minden egyes tokenen keresztül iterálunk, és ha a szó részstringje tartalmazza a tokent, akkor ezt a tokent tokenizációs folyamatként tesszük. Dekódolás adott a tokenek egyesítjük a szó nincs </w>és add ” ha a szó </w> a végén.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.