Tavuparien koodaus

joten ennen kuin luomme sanavalintoja, jotka luovat sanojen merkitysesityksiä ja vähentävät dimensionaalisuutta, miten luomme hyvän sanaston, joka vangitsee kielemme olemuksen. Eri puolilla maailmaa on erilaisia kieliä ja kunkin kielen rakenne on erilainen. Agglutinatiiviset kielet, kuten Turkin agglutinaatti (lisää päälle), luovat toisen merkityksen samasta alkuperäisestä sanasta. Samankaltainen, englanniksi, pääte osa smart-est on est, jossa sitä voidaan käyttää paljon sanoja.

esimerkiksi sanastossamme meillä ei ehkä ole sanaa äänekkäin, mutta saattaa olla sana kova, kun se tokenizes niin kova – est Tokenin embeddingillä on EST: n edustus, joten siinä on informaatio sanalle äänekkäin.

lapsellakin tapahtuu samanlainen rakenne. Lapsen ei tarvitse kuulla jokaista sanaa ja niiden monikkomuotoa ymmärtääkseen. Kuultuaan paljon monikkomuotoja esineistä, kuten autoista, mehiläisistä ja muista esineistä, lapsen aivot rakentavat sen siten, että kun lapsi tietää mikä hattu on, hänen ei tarvitse kuulla sanaa hatut käyttääkseen sitä. Kielimallien pitäisi myös vahvistaa sanastomme rakenteellista mekanismia.

BPE: llä on kaksi etua se osaa käsitellä tuntemattomia sanoja ja voi päätellä merkityksen tuntemattomista sanoista

miten se toimii

tarvitsemme tiedoston, joka on hyvä edustaja kielelle, jota yrität tokenisoida.

  1. Soita.txt-tiedosto jakaa merkkijonon jokaisen sanan ja lisää </w> jokaisen sanan loppuun. Luo sanakirja taajuus sanoja.

2. Luo funktio, joka saa sanaston ja jokaisen sanan sanastossa jakaa jokaisen sanan merkkeihin ja luoda taajuus sanakirja useimmat pariksi merkkiä.

3. Koulutusprosessin aikana päivitämme jatkuvasti sanastoamme. Th merge_vocabulary funktio saa vanhan sanaston sanakirjan ja päivittää sen yleisin merkkipari.

4. Get tokeneja käytetään myöhemmin tulomerkkijonojen tokenisointiin

luoden sanaston

niin syötettyämme alkuperäisen sanaston ja sanojen taajuuden. Luomme silmukan, joka luo sanastosta tokenisaation. Jokainen iteraatio se löytää merkin, joka esiintyy yhdessä ja lisätä ne sanastoon.

esimerkissä sanotaan, että sanastomme on

  • lisäämme sanaston loppuun
  • alkuperäiset tokenit ovat
  • menemme vocabiin ja tarkistamme bigramsin taajuuden ja laskemme bigramsin taajuuden tässä tapauksessa sen”r”ja”</w>”päivitämme token-sanakirjaa
  • lisäämme sanastoomme uuden merkin”R</w> ”

sinä päätät, kuinka monta iterointia tämän pitäisi tapahtua. Se voi olla 10 000 tai 100.000. Sinä päätät, mikä on sanavarastosi koko.

koodaus ja dekoodaus

koodataksemme annetun lauseen ensin meidän täytyy muuntaa token-sanakirjamme pisimmästä sanasta lyhyimmäksi sanaksi. Lisäämme lauseeseen jokaisen sanan jakoa ja lisäämme </w> sanan loppuun. Me iterate kautta kunkin token ja jos substring sanan sisältää token laitamme, että token tokenization prosessi. Dekoodaus annetaan tokeneille yhdistämme sanan ei ole </w> ja lisätään””, jos sana on </w> lopussa.

Vastaa

Sähköpostiosoitettasi ei julkaista.