Lessuggestie: "Chasing AI Dreams"

Lessuggestie: "Chasing AI Dreams" Inhoudstafel

Het is eigen aan de mens om te dromen. Die dromen helpen ons ook, zo kunnen we hierdoor enerzijds emoties of herinneringen verwerken en anderzijds vooruitkomen. Elke mens heeft ambities en verlangens die we willen nastreven en dankzij artificiële intelligentie lijkt dat steeds beter te lukken. Deze suggestie focust op de droom van taaltechnologen om een universele vertaalmachine te ontwerpen.

Ain't no mountain high enough
sla link op in klembord
Kopieer

Taaltechnologen streefden decennialang een eigen droom na: een universele vertaalmachine ontwikkelen die in realtime kan vertalen tussen alle talen in de wereld en die er dus voor zorgt dat we alle talen van de wereld begrijpen.

Aan die droom begonnen technologen te bouwen na de Tweede Wereldoorlog: door politieke spanningen en een militaire dreiging tussen de Verenigde Staten en de Sovjet-Unie werd sterk ingezet op het vertalen van Russische teksten naar het Engels wat in 1954 voor het eerst lukte. Gewapend met zes taalkundige regels en 250 woorden kon een computersysteem enkele Russische zinnen omzetten.
Vandaag lijken 250 woorden erg weinig, maar dit systeem legde wel de basis voor verdere ontwikkelingen in de taaltechnologie.

Stap voor stap kan je de leerlingen meenemen in de geschiedenis van de taaltechnologie, waarbij elke mijlpaal geïllustreerd wordt met een bijbehorende opdracht.

Regelgebaseerde systemen

Rond 1980 - 1990 konden systemen zinnen automatisch vertalen door een uitgebreide set regels te volgen die voor elke mogelijke situatie zijn opgesteld. Net zoals jij een vreemde taal verwerft, baseerden deze systemen zich op woordenschatlijsten en grammaticaregels die door programmeurs ingevoerd werden. Kregen deze systemen de opdracht om een bronzin te vertalen, dan ontleedden ze die eerst volledig. Vervolgens zetten ze elk woord in een andere taal om en ze pasten daarbij enkele regels toe om de zin van de brontaal naar de doeltaal om te vormen.
De kwaliteit van de vertaling was dan ook afhankelijk van hoe uitvoerig en nauwkeurig de programmeurs de regels geprogrammeerd hadden. Voor een nauwkeurige vertaling waren deze regelgebaseerde systemen dus heel complex omdat er nu eenmaal heel veel uitzonderingen op regels en zelfs uitzonderingen op uitzonderingen zijn.

Je kan je leerlingen de complexiteit van een regelgebaseerd systeem zelf laten verkennen via een opdracht. Hier volgt een mogelijke aanpak.

Projecteer zinnen in het Frans of Engels op het bord, vb. Le petit garçon voit une voiture rouge, J’ai peur des chiens, I am cold, Where do you live? Onthul telkens slechts één woord van de zin.
Na elk getoond woord vertalen de leerlingen dit onmiddellijk naar het Nederlands. Ze noteren hun vertaling. Belangrijk: eenmaal een woord vertaald is, mag het niet meer aangepast worden.
Ga zo verder tot de volledige zin is onthuld.
Wanneer alle woorden getoond zijn, bekijken de leerlingen hun volledige vertaling. Ze vergelijken hun versie met de correcte, Nederlandse vertalingen op het scherm en geven aan op welke grammaticale regels en hindernissen ze botsen.

Correcte vertalingen:
Le petit garçon voit une voiture rouge - De kleine jongen ziet een rode auto
J'ai peur des chiens - Ik ben bang van honden
I am cold - Ik heb het koud
Where do you live? - Waar woon jij?

Datagebaseerde systemen

In 2000 overtroffen datagebaseerde vertaalsystemen de regelgebaseerde. Zij kregen geen regels, maar moesten zichzelf trainen via een corpus, een uitgebreide verzameling aan tekstmateriaal, waarna ze vooral leerden voorspellen wat het meest waarschijnlijke woord is. Een datagebaseerd systeem bestaat uit twee modellen: een vertaal- en een taalmodel. Een vertaalmodel bevat alle info die nodig is om te kunnen vertalen van taal A naar taal B. Het taalmodel bevat alle kennis die nodig is om correcte, vlotte zinnen te kunnen bouwen in taal B of de doeltaal.

Via een nieuwe oefening leren de leerlingen redeneren als een datagebaseerd systeem. Neem je leerlingen ook hier stap voor stap mee door hen eerst de dataset voor te leggen, waarna ze mogen denken zoals het AI-systeem: wat is, op basis van deze voorbeelden, de meest waarschijnlijke vertaling?

Stel dat het systeem de volgende dataset kreeg ...
De jongen ziet de auto - Le garçon voit la voiture
De man ziet een auto - L’homme voit une voiture
De jongen koopt brood - Le garçon achète du pain
De vrouw koopt brood - La femme achète du pain
Kan het nu voorspellen hoe de vertaling luidt van De vrouw ziet de auto?

Ook het volgende blijkt al bekend ...
Ik hou van appels en bananen - I like apples and bananas
Ik ben bang van spinnen - I'm afraid of spiders
Hoe luidt de vertaling dan van Ik hou van spinnen?

Verder kent het systeem ...
Hij zag de vleermuis - He saw the bat
Hij sloeg de bal met de knuppel - He hit the ball with the bat
Welk probleem duikt dan op als de volgende zin vertaald moet worden: The bat was in the room?
Laat je leerlingen deze zin ook eens vertalen via AI-vertaaltools, als Google Translate of DeepL. Welke vertaling krijgen ze te zien?

Tot slot zijn de volgende data aangereikt ...
Mijn buurman is vriendelijk - My neighbour is friendly
Mijn buurman werkt bij de bank - My neighbour works at the bank
Mijn buurvrouw hielp mij - My neighbour helped me
Mijn buurman rijdt met een vrachtwagen - My neighbour drives a truck
Wat zou nu de meest waarschijnlijke vertaling zijn van He kisses his neighbour?

Je leerlingen mogen het gerust even checken met DeepL of Google Translate. Hoe kan deze keuze verklaard worden?

Neurale netwerken

Sinds 2016 zijn de vertaalsystemen neuraal. Die bestaan uit twee componenten: een encoder en decoder. Een encoder-decoder-systeem kan je best vergelijken met een soort boodschappendienst. De encoder is de bezorger van de boodschap, in de vorm van een tekst in een brontaal. Hij brengt de boodschap naar de ontvanger, decoder, maar onderweg versleutelt hij de boodschap in een gemeenschappelijke taal die zowel hij, als de decoder begrijpt, namelijk in een hele reeks cijfers of codes of tokens. De decoder ontcijfert de codes en vertaalt die tot slot naar de doeltaal. De decoder geeft dus de originele inhoud van de boodschap weer, maar in een andere taal.

Het bovenstaande lijkt heel eenvoudig, maar er zijn addertjes onder het gras, die je je leerlingen zelf kan laten ontdekken. Een aanpak voor een mogelijke oefening vind je hier.

Verdeel je klas in twee groepen: A- en B-leerlingen, waarna de B-leerlingen zich omdraaien zodat ze met hun rug naar het projectiescherm zitten.
Leerling A krijgt als encoder de Nederlandstalige zinnen, Ik bad om een warm bad, De was was aan het drogen, Door een kater val ik over de zwarte kater te zien. Die zinnen hakt hij in stukken en elk stukje zet hij om in een code met behulp van de eerste tabel. Aansluitend geeft hij enkel de codes door aan leerling B, waarbij hij er vooral op let dat de volgorde van de tokens of stukjes niet verandert.
Leerling B is de decoder. Van leerling A heeft hij zonet een hele reeks codes ontvangen. Die zet hij om naar Engelstalige woorden en zinnen via de tweede tabel.
Vervolgens leggen beide leerlingen hun zinnen naast elkaar en vergelijken die. Vraag hen of de vertalingen correct zijn en welke woorden problemen veroorzaken.

Laat hen deze Nederlandstalige zinnen ook in vertaaltools stoppen. Wat valt op? Verrassend genoeg worden de zinnen correct vertaald omdat de neurale modellen over bijzondere mechanismes, zoals de transformer, beschikken ...
I prayed for a hot bath.
The laundry was drying.
Due to a hangover, I stumble over the black tomcat.

Transformer

Computers begrijpen taal dus niet zoals mensen. Daarom vertaalt een AI-model woorden eerst naar getallen in twee stappen. Eerst wordt een zin in stukjes gehakt, waarbij elk stukje een uniek getal of token krijgt.
Maar een computer moet er ook rekening mee houden dat woorden een betekenis hebben en met elkaar verbonden zijn. Zo zijn hond, kat, tijger en gorilla allemaal dieren en liggen ze dichter bij elkaar dan bijvoorbeeld hond en bloem. Om dit vast te leggen, zet het model de tokens om in zogenaamde token embeddings. Dat zijn reeksen getallen die je kunt zien als coördinaten op een enorme landkaart van taal en worden ook vectoren genoemd. Op die kaart liggen woorden die op elkaar lijken, zoals hond en kat, dicht bij elkaar, terwijl woorden die weinig gemeen hebben, denk maar aan hond en bloem, verder uit elkaar staan.
Vanaf 2024 werkt het model met een transformer. Die kijkt niet langer woord voor woord, maar bekijkt de hele zin tegelijk. Het bepaalt welke woorden belangrijk zijn voor elkaar en welke minder. Op basis daarvan voorspelt het model welke woorden het meest passen in de context.

Door deze transformer worden bad, kater en was in de vorige Engelstalige zinnen correct vertaald.
Meer zelfs, ook lidwoorden vormen zo geen struikelblok voor een AI-model. Stel dat de leerlingen de zin The cat ate the mouse willen omzetten in het Frans, uit hoeveel mogelijke Franse lidwoorden kunnen ze dan kiezen en hoe weten ze welk lidwoord het precies moet zijn?

Het daaropvolgende woord (chat en souris) en de relatie tussen het lidwoord en het zelfstandig naamwoord zorgen ervoor dat onze machine de correcte lidwoorden aanvult. Fantastisch, niet?

Niet op ieder potje past één dekseltje
sla link op in klembord
Kopieer

Het bovenstaande liet al duidelijk zien dat vertalen een heel ingewikkeld proces is, want woorden hebben een eigen betekenis en maken ook deel uit van een specifieke zin, waardoor we op veel meer moeten letten dan het woord zelf. Niettemin worden taaltechnologen bij het najagen van hun vertaaldroom voor nog meer moeilijkheden geplaatst waar deze afbeeldingen iets mee te maken hebben.

Hier worden typisch Noorse, Duitse, Franse, Engelse en Nederlandstalige woorden uitgebeeld, als Utepils, seigneur-terrasse, Treppenwitz, uitwaaien.

Eerst mogen de leerlingen de betekenis van deze woorden proberen te achterhalen waarbij de afbeelding hen op weg kan helpen.
Aansluitend zetten ze een vertaaltool in om deze woorden naar de gevraagde taal om te zetten. Slaagt de tool erin om de vreemde woorden correct om te zetten of krijgen we foutieve Nederlandse vertalingen?

Oplossingen

Uitwaaien (Nederlands) - to get some fresh air
Utepils (Noors) - buiten in het zonnetje genieten van een pintje
Seigneur-terrasse (Frans) - caféganger die lang op een terras blijft zitten, maar weinig geld spendeert.
Erbsenerzähler (Duits) - iemand die geobsedeerd is met details en een beetje een controlfreak is
Treppenwitz (Duits) - een gevat weerwoord bedenken op het moment dat het net te laat is, pas bij het weglopen op het juiste antwoord komen
Kummerspeck (Duits) - overgewicht door emotie-eten.
Lifehack (Engels) - een slimme tip, een trucje of handigheidje dat je dagelijks leven makkelijker, sneller of efficiënter maakt

Lost in Translation
sla link op in klembord
Kopieer

De bovenstaande, onvertaalbare woorden vormen een heuse uitdaging voor AI-modellen, net als spreekwoorden. Ook hier zijn vaak geen één-op-éénvertalingen of letterlijke vertalingen mogelijk, want spreekwoorden zijn soms eigen aan een cultuur. We moeten dan ook rekening houden met deze cultuur om ze correct te kunnen vertalen.

Jammer genoeg besefte minister van Defensie, Theo Francken, dit onvoldoende, want toen hij met de Israëlische televisie in gesprek ging, vormde hij wel een heel bijzondere uitdrukking. Zijn voorbeeld volgend brachten ook luisteraars van Qmusic opvallende uitdrukkingen aan. De leerlingen mogen hun originele vertalingen eerst aanvullen

Hier staat ingevoegde content uit een social media netwerk dat cookies wil schrijven of uitlezen. Je hebt hiervoor geen toestemming gegeven.Klik hier om dit alsnog toe te laten.

Gelukt? Dan kan je samen met de leerlingen kijken hoe creatief vertaaltools zijn in het omzetten van de uitdrukkingen. Alvorens de leerlingen die laten vertalen, laat je hen het best kort reflecteren. Met welke uitdrukkingen zouden vertaalmachines het moeilijk kunnen hebben?

Vervolgens nemen je leerlingen per vier plaats aan één tafel:

de eerste leerling vertaalt via Google Translate de zinnen naar het Engels,
de tweede gebruikt DeepL,
de derde zet generatieve AI, zoals ChatGPT, aan het werk,
de laatste zoekt de uitdrukking op via de website Vertalen.nu.

Hun antwoorden noteren de leerlingen in de tabel. Vervolgens leggen de leerlingen al hun resultaten samen. Welke verschillen springen in het oog? Welk model blijkt het best, sluit het dichtst aan bij de vertalingen uit de dikke Van Dale, zie laatste kolom?

Zijn je leerlingen klaar voor een grondiger onderzoek, dan kan je hen dezelfde spreekwoorden ook laten vertalen naar het Frans en eventueel het Duits.

Inspirerend materiaal

Communicatiewetenschappen en taaltechnologie - 3de graad - D-finaliteit

Communicatiewetenschappen en taaltechnologie - 2de graad - D-finaliteit

Taalredactie en taaltechnologie S - 3de graad - D-finaliteit

Ain't no mountain high enough
sla link op in klembord
Kopieer

Regelgebaseerde systemen

Datagebaseerde systemen

Neurale netwerken

Transformer

Niet op ieder potje past één dekseltje
sla link op in klembord
Kopieer

Lost in Translation
sla link op in klembord
Kopieer

Snel naar

Contact

Nieuwsbrief

MIJN.

Inspirerend materiaal

Communicatiewetenschappen en taaltechnologie - 3de graad - D-finaliteit

Communicatiewetenschappen en taaltechnologie - 2de graad - D-finaliteit

Taalredactie en taaltechnologie S - 3de graad - D-finaliteit

Ain't no mountain high enoughsla link op in klembordKopieer

Regelgebaseerde systemen

Datagebaseerde systemen

Neurale netwerken

Transformer

Niet op ieder potje past één dekseltjesla link op in klembordKopieer

Lost in Translationsla link op in klembordKopieer

Snel naar

Contact

Nieuwsbrief

MIJN.

Welkom OnderwijsPro

Ain't no mountain high enough
sla link op in klembord
Kopieer

Niet op ieder potje past één dekseltje
sla link op in klembord
Kopieer

Lost in Translation
sla link op in klembord
Kopieer