Byte Par Koding

>

så før vi lager ordinnbygginger som skaper meningsrepresentasjoner av ord og reduserer dimensjonalitet, hvordan lager vi et godt ordforråd som fanger noe av essensen i vårt språk. Det er forskjellige språk rundt om i verden og forskjellig struktur til hvert språk. Agglutinative språk som tyrkisk agglutinat (legg til på toppen) av hvert ord for å skape en annen mening fra det samme opprinnelige ordet. Lignende, på engelsk, er suffiksdelen av smart-est est der den kan brukes i mange ord.for eksempel, i vårt ordforråd kan vi kanskje ikke ha ordet høyest, men kan ha ordet høyt når det tokeniserer så høyt-est, vil innlemmingen av token ha en representasjon av est, så det vil ha en informasjon for ordet høyest.

i barn finner en lignende struktur også sted. Et barn trenger ikke å høre hvert ord og deres flertallsform for å forstå. Etter å ha hørt mange flertallsformer av objekt som biler, bier og andre gjenstander, strukturerer barnets hjerne det på en måte der når et barn vet hva en lue er, trenger han/hun ikke å høre ordet hatter for å kunne bruke den. Språkmodeller bør også tokenisere den strukturelle mekanismen i vårt ordforråd.

BPE har to fordeler det vet hvordan man skal håndtere ukjente ord og kan antyde mening fra ukjente ord

hvordan fungerer det

Vi trenger en fil Som er en god representant for språket som du prøver å tokenize.

  1. Ring det .txt-fil del hvert ord i strengen og legg til </w> til slutten av hvert ord. Lag en ordbok med frekvens av ord.

2. Lag en funksjon som får vokabular og i hvert ord i vokabular delt hvert ord i tegn og lage en frekvens ordbok av de fleste sammenkoblede tegn.

3. Under vår treningsprosess vil vi fortsette å oppdatere vårt ordforråd. Th merge_vocabulary funksjonen vil få den gamle vokabular ordbok og oppdatere den med den hyppigste tegn par.

4. Få tokens vil bli brukt senere for å tokenize innganger strenger

Opprette vokabularet

Så etter å ha matet vårt første ordforråd og frekvensen av ord. Vi vil lage en løkke som vil skape tokenisering ut av vokabularet. Hver iterasjon det vil finne tegnet som oppstår sammen og legge dem til vokabularet.Vi legger til slutten av ordet token

  • de første tokens vil være
  • Vi går til vokaben Og sjekker for bigram og teller frekvensen av bigram i dette tilfellet er»r»og»</w > ‘vi oppdaterer token ordboken
  • vi legger til det nye tegnet i vårt ordforråd’ r</w> ‘
  • du bestemmer hvor mange iterasjoner dette Skal Finne sted. Det kan være 10.000 eller 100.000. Du bestemmer hva som skal være din vokabular størrelse.

    Koding og Dekoding

    for å kode gitt setning først må vi konvertere vår token ordbok fra lengste ord til korteste ord. Vi legger til split hvert ord i setningen og legger til </w> til slutten av ordet. Vi itererer gjennom hvert token, og hvis substringen av ordet inneholder token, legger vi det token som tokeniseringsprosess. Dekoding er gitt våre tokens vi fusjonere ordet ikke har </w> og legge til » hvis ordet har </w> på slutten.

    Legg igjen en kommentar

    Din e-postadresse vil ikke bli publisert.