Menneskelige oversettere er fortsatt på topp – foreløpig

Du har kanskje gått glipp av sprutingen av champagnekorker og dusjen av tickertape, men de siste månedene har datalingvister begynt å hevde at nevrale maskinoversettelse nå samsvarer med ytelsen til menneskelige oversettere.

Teknikken med å bruke et nevralt nettverk til å oversette tekst fra ett språk til et annet har blitt forbedret med stormskritt de siste årene, takket være de pågående gjennombruddene innen maskinlæring og kunstig intelligens. Så det er egentlig ikke en overraskelse at maskiner har nærmet seg ytelsen til mennesker. Faktisk har datalingvister gode bevis for å støtte denne påstanden.

Men i dag sier Samuel Laubli ved Universitetet i Zürich og et par kollegaer at champagnen skal tilbake på is. De bestrider ikke kollegenes resultater, men sier at testprotokollen ikke tar hensyn til måten mennesker leser hele dokumenter på. Når dette vurderes, henger maskinene betydelig etter mennesker, sier de.



Spørsmålet er hvordan maskinoversettelse skal evalueres. Dette gjøres i dag på to mål: tilstrekkelighet og flyt. Tilstrekkeligheten av en oversettelse bestemmes av profesjonelle menneskelige oversettere som leser både originalteksten og oversettelsen for å se hvor godt den uttrykker betydningen av kilden. Flytende bedømmes av enspråklige lesere som kun ser oversettelsen og bestemmer hvor godt den uttrykkes på engelsk.

Beregningslingvister er enige om at dette systemet gir nyttige vurderinger. Men ifølge Laubli og co sammenligner den nåværende protokollen bare oversettelser på setningsnivå, mens mennesker også vurderer tekst på dokumentnivå.

Så de har utviklet en ny protokoll for å sammenligne ytelsen til maskin- og menneskelige oversettere på dokumentnivå. De ba profesjonelle oversettere vurdere hvor godt maskiner og mennesker oversatte over 100 nyhetsartikler skrevet på kinesisk til engelsk. Eksaminatorene vurderte hver oversettelse for tilstrekkelighet og flyt på setningsnivå, men avgjørende også på nivået av hele dokumentet.

Resultatene gir interessant lesning. Til å begynne med fant Laubli og co ingen signifikant forskjell i måten profesjonelle oversettere vurderte tilstrekkeligheten til maskin- og menneskeoversatte setninger. På denne måten er mennesker og maskiner like gode oversettere, noe som er i tråd med tidligere funn.

Men når det gjelder å evaluere hele dokumentet, vurderes menneskelige oversettelser som mer tilstrekkelige og mer flytende enn maskinoversettelser. Menneskelige vurderere som vurderer tilstrekkelighet og flyt, viser en sterkere preferanse for menneskelig oversettelse fremfor maskinell oversettelse når de evaluerer dokumenter sammenlignet med isolerte setninger, sier de.

Forskerne tror de vet hvorfor. Vi antar at evaluering på dokumentnivå avdekker feil som feiloversettelse av et tvetydig ord, eller feil relatert til tekstlig sammenheng og sammenheng, som fortsatt er vanskelige eller umulige å få øye på i en evaluering på setningsnivå, sier de.

For eksempel gir teamet eksempelet på en ny app kalt 微信挪 车, som mennesker konsekvent oversetter som WeChat Move the Car, men som maskiner ofte oversetter på flere forskjellige måter i samme artikkel. Maskiner oversetter denne setningen som Twitter Move Car, WeChat mobile og WeChat Move. Denne typen inkonsekvens, sier Laubli og co, gjør dokumenter vanskeligere å følge.

Dette antyder at måten maskinoversettelse evalueres på må utvikle seg bort fra et system der maskiner vurderer hver setning isolert.

Etter hvert som kvaliteten på maskinoversettelse forbedres, vil oversettelser bli vanskeligere å diskriminere når det gjelder kvalitet, og det kan være på tide å gå over til evaluering på dokumentnivå, som gir vurdererne mer kontekst for å forstå originalteksten og dens oversettelse, og også avslører oversettelsesfeil relatert til å diskursere fenomener som forblir usynlige i en evaluering på setningsnivå, sier Laubli og co.

Denne endringen bør hjelpe maskinoversettelse å forbedre. Noe som betyr at det fortsatt er satt til å overgå menneskelig oversettelse - bare ikke ennå.

Ref: arxiv.org/abs/1808.07048 : Har maskinoversettelse oppnådd menneskelig paritet? En sak for evaluering på dokumentnivå

gjemme seg

Faktiske Teknologier

Kategori

Ukategorisert

Teknologi

Bioteknologi

Teknisk Politikk

Klima Forandringer

Mennesker Og Teknologi

Silicon Valley

Databehandling

Mit News Magazine

Kunstig Intelligens

Rom

Smarte Byer

Blockchain

Feature Story

Alumniprofil

Alumniforbindelse

Mit News-Funksjon

1865

Mitt Syn

77 Mass Ave

Møt Forfatteren

Profiler I Generøsitet

Sett På Campus

Alumnibrev

Nyheter

Valget 2020

Med Indeks

Under Kuppelen

Brannslange

Uendelige Historier

Pandemisk Teknologiprosjekt

Fra Presidenten

Forsidehistorie

Fotogalleri

Anbefalt