Het is eigen aan de mens om te dromen. Die dromen helpen ons ook, zo kunnen we hierdoor enerzijds emoties of herinneringen verwerken en anderzijds vooruitkomen. Elke mens heeft ambities en verlangens die we willen nastreven en dankzij artificiële intelligentie lijkt dat steeds beter te lukken. Deze suggestie focust op de droom van taaltechnologen om een universele vertaalmachine te ontwerpen.
Taaltechnologen streefden decennialang een eigen droom na: een universele vertaalmachine ontwikkelen die in realtime kan vertalen tussen alle talen in de wereld en die er dus voor zorgt dat we alle talen van de wereld begrijpen.
Aan die droom begonnen technologen te bouwen na de Tweede Wereldoorlog: door politieke spanningen en een militaire dreiging tussen de Verenigde Staten en de Sovjet-Unie werd sterk ingezet op het vertalen van Russische teksten naar het Engels wat in 1954 voor het eerst lukte. Gewapend met zes taalkundige regels en 250 woorden kon een computersysteem enkele Russische zinnen omzetten.
Vandaag lijken 250 woorden erg weinig, maar dit systeem legde wel de basis voor verdere ontwikkelingen in de taaltechnologie.
Stap voor stap kan je de leerlingen meenemen in de geschiedenis van de taaltechnologie, waarbij elke mijlpaal geïllustreerd wordt met een bijbehorende opdracht.
Regelgebaseerde systemen
Rond 1980 - 1990 konden systemen zinnen automatisch vertalen door een uitgebreide set regels te volgen die voor elke mogelijke situatie zijn opgesteld. Net zoals jij een vreemde taal verwerft, baseerden deze systemen zich op woordenschatlijsten en grammaticaregels die door programmeurs ingevoerd werden. Kregen deze systemen de opdracht om een bronzin te vertalen, dan ontleedden ze die eerst volledig. Vervolgens zetten ze elk woord in een andere taal om en ze pasten daarbij enkele regels toe om de zin van de brontaal naar de doeltaal om te vormen.
De kwaliteit van de vertaling was dan ook afhankelijk van hoe uitvoerig en nauwkeurig de programmeurs de regels geprogrammeerd hadden. Voor een nauwkeurige vertaling waren deze regelgebaseerde systemen dus heel complex omdat er nu eenmaal heel veel uitzonderingen op regels en zelfs uitzonderingen op uitzonderingen zijn.
Je kan je leerlingen de complexiteit van een regelgebaseerd systeem zelf laten verkennen via een opdracht. Hier volgt een mogelijke aanpak.
Correcte vertalingen:
Le petit garçon voit une voiture rouge - De kleine jongen ziet een rode auto
J'ai peur des chiens - Ik ben bang van honden
I am cold - Ik heb het koud
Where do you live? - Waar woon jij?
Datagebaseerde systemen
In 2000 overtroffen datagebaseerde vertaalsystemen de regelgebaseerde. Zij kregen geen regels, maar moesten zichzelf trainen via een corpus, een uitgebreide verzameling aan tekstmateriaal, waarna ze vooral leerden voorspellen wat het meest waarschijnlijke woord is. Een datagebaseerd systeem bestaat uit twee modellen: een vertaal- en een taalmodel. Een vertaalmodel bevat alle info die nodig is om te kunnen vertalen van taal A naar taal B. Het taalmodel bevat alle kennis die nodig is om correcte, vlotte zinnen te kunnen bouwen in taal B of de doeltaal.
Via een nieuwe oefening leren de leerlingen redeneren als een datagebaseerd systeem. Neem je leerlingen ook hier stap voor stap mee door hen eerst de dataset voor te leggen, waarna ze mogen denken zoals het AI-systeem: wat is, op basis van deze voorbeelden, de meest waarschijnlijke vertaling?
Stel dat het systeem de volgende dataset kreeg ...
De jongen ziet de auto - Le garçon voit la voiture
De man ziet een auto - L’homme voit une voiture
De jongen koopt brood - Le garçon achète du pain
De vrouw koopt brood - La femme achète du pain
Kan het nu voorspellen hoe de vertaling luidt van De vrouw ziet de auto?
Ook het volgende blijkt al bekend ...
Ik hou van appels en bananen - I like apples and bananas
Ik ben bang van spinnen - I'm afraid of spiders
Hoe luidt de vertaling dan van Ik hou van spinnen?
Verder kent het systeem ...
Hij zag de vleermuis - He saw the bat
Hij sloeg de bal met de knuppel - He hit the ball with the bat
Welk probleem duikt dan op als de volgende zin vertaald moet worden: The bat was in the room?
Laat je leerlingen deze zin ook eens vertalen via AI-vertaaltools, als Google Translate of DeepL. Welke vertaling krijgen ze te zien?
Tot slot zijn de volgende data aangereikt ...
Mijn buurman is vriendelijk - My neighbour is friendly
Mijn buurman werkt bij de bank - My neighbour works at the bank
Mijn buurvrouw hielp mij - My neighbour helped me
Mijn buurman rijdt met een vrachtwagen - My neighbour drives a truck
Wat zou nu de meest waarschijnlijke vertaling zijn van He kisses his neighbour?
Je leerlingen mogen het gerust even checken met DeepL of Google Translate. Hoe kan deze keuze verklaard worden?
Neurale netwerken
Sinds 2016 zijn de vertaalsystemen neuraal. Die bestaan uit twee componenten: een encoder en decoder. Een encoder-decoder-systeem kan je best vergelijken met een soort boodschappendienst. De encoder is de bezorger van de boodschap, in de vorm van een tekst in een brontaal. Hij brengt de boodschap naar de ontvanger, decoder, maar onderweg versleutelt hij de boodschap in een gemeenschappelijke taal die zowel hij, als de decoder begrijpt, namelijk in een hele reeks cijfers of codes of tokens. De decoder ontcijfert de codes en vertaalt die tot slot naar de doeltaal. De decoder geeft dus de originele inhoud van de boodschap weer, maar in een andere taal.
Het bovenstaande lijkt heel eenvoudig, maar er zijn addertjes onder het gras, die je je leerlingen zelf kan laten ontdekken. Een aanpak voor een mogelijke oefening vind je hier.
Laat hen deze Nederlandstalige zinnen ook in vertaaltools stoppen. Wat valt op? Verrassend genoeg worden de zinnen correct vertaald omdat de neurale modellen over bijzondere mechanismes, zoals de transformer, beschikken ...
I prayed for a hot bath.
The laundry was drying.
Due to a hangover, I stumble over the black tomcat.
Transformer
Computers begrijpen taal dus niet zoals mensen. Daarom vertaalt een AI-model woorden eerst naar getallen in twee stappen. Eerst wordt een zin in stukjes gehakt, waarbij elk stukje een uniek getal of token krijgt.
Maar een computer moet er ook rekening mee houden dat woorden een betekenis hebben en met elkaar verbonden zijn. Zo zijn hond, kat, tijger en gorilla allemaal dieren en liggen ze dichter bij elkaar dan bijvoorbeeld hond en bloem. Om dit vast te leggen, zet het model de tokens om in zogenaamde token embeddings. Dat zijn reeksen getallen die je kunt zien als coördinaten op een enorme landkaart van taal en worden ook vectoren genoemd. Op die kaart liggen woorden die op elkaar lijken, zoals hond en kat, dicht bij elkaar, terwijl woorden die weinig gemeen hebben, denk maar aan hond en bloem, verder uit elkaar staan.
Vanaf 2024 werkt het model met een transformer. Die kijkt niet langer woord voor woord, maar bekijkt de hele zin tegelijk. Het bepaalt welke woorden belangrijk zijn voor elkaar en welke minder. Op basis daarvan voorspelt het model welke woorden het meest passen in de context.
Door deze transformer worden bad, kater en was in de vorige Engelstalige zinnen correct vertaald.
Meer zelfs, ook lidwoorden vormen zo geen struikelblok voor een AI-model. Stel dat de leerlingen de zin The cat ate the mouse willen omzetten in het Frans, uit hoeveel mogelijke Franse lidwoorden kunnen ze dan kiezen en hoe weten ze welk lidwoord het precies moet zijn?
Het daaropvolgende woord (chat en souris) en de relatie tussen het lidwoord en het zelfstandig naamwoord zorgen ervoor dat onze machine de correcte lidwoorden aanvult. Fantastisch, niet?
Het bovenstaande liet al duidelijk zien dat vertalen een heel ingewikkeld proces is, want woorden hebben een eigen betekenis en maken ook deel uit van een specifieke zin, waardoor we op veel meer moeten letten dan het woord zelf. Niettemin worden taaltechnologen bij het najagen van hun vertaaldroom voor nog meer moeilijkheden geplaatst waar deze afbeeldingen iets mee te maken hebben.
Hier worden typisch Noorse, Duitse, Franse, Engelse en Nederlandstalige woorden uitgebeeld, als Utepils, seigneur-terrasse, Treppenwitz, uitwaaien.
Oplossingen
De bovenstaande, onvertaalbare woorden vormen een heuse uitdaging voor AI-modellen, net als spreekwoorden. Ook hier zijn vaak geen één-op-éénvertalingen of letterlijke vertalingen mogelijk, want spreekwoorden zijn soms eigen aan een cultuur. We moeten dan ook rekening houden met deze cultuur om ze correct te kunnen vertalen.
Jammer genoeg besefte minister van Defensie, Theo Francken, dit onvoldoende, want toen hij met de Israëlische televisie in gesprek ging, vormde hij wel een heel bijzondere uitdrukking. Zijn voorbeeld volgend brachten ook luisteraars van Qmusic opvallende uitdrukkingen aan. De leerlingen mogen hun originele vertalingen eerst aanvullen
Gelukt? Dan kan je samen met de leerlingen kijken hoe creatief vertaaltools zijn in het omzetten van de uitdrukkingen. Alvorens de leerlingen die laten vertalen, laat je hen het best kort reflecteren. Met welke uitdrukkingen zouden vertaalmachines het moeilijk kunnen hebben?
Vervolgens nemen je leerlingen per vier plaats aan één tafel:
Hun antwoorden noteren de leerlingen in de tabel. Vervolgens leggen de leerlingen al hun resultaten samen. Welke verschillen springen in het oog? Welk model blijkt het best, sluit het dichtst aan bij de vertalingen uit de dikke Van Dale, zie laatste kolom?
Zijn je leerlingen klaar voor een grondiger onderzoek, dan kan je hen dezelfde spreekwoorden ook laten vertalen naar het Frans en eventueel het Duits.


