Als taal technologie wordt ...

za 19 oktober 2024

Inleiding

sla link op in klembord

Kopieer

Als instap zou je je leerlingen kunnen vragen hoe groot de kans is dat ze vandaag al taaltechnologie of AI gebruikten? Het antwoord zal beslist bij de 100% aanleunen en misschien zullen sommigen wel vijf op vijf halen voor het volgende lijstje.

Het bovenstaande blijkt misschien niet zo spectaculair, maar artificiële intelligentie kan meer. Deze technologie helpt ons ons dagelijks leven te organiseren. Zo is er dankzij taaltechnologie een gps, een streamingapp die lijsten opstelt van onze favoriete keuzes, een bot die ons leert hoe we een foute bestelling bij bol.com kunnen annuleren, ...
 
Om dit alles goed te kunnen uitvoeren diende de computer eerst onze taal/ talen te leren.

Trip down memory lane

sla link op in klembord

Kopieer

Als mens spreken we vandaag één en veelal meerdere talen, die we natuurlijk eerst verworven hebben.
 
Leg je leerlingen de vraag voor hoe ze taal of talen geleerd hebben en verzamel hun antwoorden.
 
Moeilijk blijkt deze vraag niet: we leren taal op school, door contact met andere personen, ... Voor ons is het dan ook duidelijk, maar hoe leert een computer taal?
 
Experten hebben er lang over nagedacht en hebben uiteindelijk een antwoord gevonden dat dicht bij ons ligt: een computer leert taal op dezelfde wijze als de mens via twee opties. Volgt hij les zoals een leerling middelbaar onderwijs, dan spreken we over de regelgebaseerde aanpak, dompelen we hem onder in een taalbad, dan noemen we dit de datagebaseerde aanpak.
 
Bij een regelgebaseerde aanpak wordt taal geleerd via een verzameling aan regels die door experten geprogrammeerd wordt en dat stapsgewijs aan de computer doorgegeven wordt.
Bij een datagebaseerde aanpak worden heel veel data, teksten aan de computer aangeleverd waarmee hij zichzelf kan trainen om een taal te leren.

Regelgebaseerde aanpak

sla link op in klembord

Kopieer

Kiezen we voor de eerste aanpak, dan dienen we de computer expliciete instructies of regels te geven waarna hij via een soort flowchart of stroomdiagram een actie kan uitvoeren.
 
Welke regels moet een computer leren, welke info heeft hij zeker nodig om taal te verwerven?
 
Ongetwijfeld denken de leerlingen aan de woordenschat, regels voor de werkwoordvervoeging, de zinsbouw, maar ook de woordsoorten zijn cruciaal.
Een regelgebaseerd systeem zal een zin dan ook volledig taalkundig analyseren.
 
Wil je je leerlingen een glimp tonen van hoe een dergelijk systeem ontleedt, dan kies je voor de website demos.explosion.ai. Vinken de leerlingen hier displaCy Dependency Visualizer aan, dan kunnen ze in 22 talen verschillende zinnen invoeren die meteen syntactisch (zinsbouw) en morfologisch (woordsoorten) ontleed worden. Laat hen gerust experimenteren met korte zinnen zodat ze inzien hoe een computer taal stapsgewijs analyseert.
 
Enkele stappen die de leerlingen zeker zullen opmerken, zijn ...

  • Tokenisering: zinnen worden opgedeeld in kleinere eenheden, meer specifiek in afzonderlijke woorden, ook tokens genoemd.
  • Part-of-speech tagging: de grammaticale functie van elk woord wordt geïdentificeerd, zoals zelfstandig naamwoord of werkwoord (Part-of-speech is de Engelse term voor woordsoort).

Datagebaseerde aanpak

sla link op in klembord

Kopieer

Regels zijn eenvoudig te volgen, maar taal is meer dan een lijst van regels. Sommige woorden drukken een gevoel, een specifiek zintuig uit, maar een computer hoort, ziet en voelt niet… Hoe kan hij dan het verschil weten tussen warm en koud, zoet of zuur?
 
Om hem dit te leren moest de computer overstappen naar een database: hij las aanvankelijk 10% van het internet en hield voor elke woordvorm bij welke andere woordvormen in de context stonden.
 
Laat je leerlingen hier kort speculeren: welke woorden verwachten ze nog in zinnen waarin bier, eend of Frankrijk voorkomen?
 
Las de computer het internet, dan vond hij bij de bovenstaande begrippen onder meer deze termen: België, botsauto, croissant, friet, glas, kraam, wijn, zwaan.
 
Je kunt aan je leerlingen aansluitend vragen om deze begrippen via mindmaps bij bier, eend en Frankrijk te plaatsen, laat hen m.a.w. verbanden leggen. Gelukt? Laat hen dan hun resultaten met elkaar vergelijken en misschien zullen er verschillende relaties gevormd worden ...
 
Bepaalde combinaties, zoals friet en België, komen uiteraard vaker samen voor dan friet en glas. Friet is immers een typisch Belgische specialiteit, maar hoe kun je via een computer aangeven dat sommige woorden nauwer verwant zijn dan andere?
 
De oplossing was om te werken met woordvectoren of in het Engels word embeddings. Hier stellen we woorden in een ruimte met meerdere dimensies voor. Computers kunnen immers enkel getallen verwerken, geen letters of woorden, waardoor woorden via de vectoren coördinaten worden op assen.
 
Samen met je leerlingen kun je de volgende figuur bekijken, welk woord wordt bedoeld met de volgende coördinaten: [0,2 0,5]? Wat zijn de coördinaten van glas en Frankrijk?

Woordvectoren of word embeddings zijn wiskundige voorstellingen van woorden. Ze kunnen enkel gecreëerd worden door een specifiek woord te vergelijken met heel wat andere woorden. De exacte positie van een woord wordt weergegeven met coördinaten en zo ontstaat een geometrische voorstelling van de woorden.
 
Als je alle woorden in een taal op die manier voorstelt, ontstaat een taalmodel. Een taalmodel ziet eruit als een gigantisch web waarin alle woorden via draadjes met elkaar verbonden zijn. Dit model is heel krachtig omdat het door de vele woordverbindingen complexe structuren van een taal kan blootleggen.

Een taalmodel kan voorspellingen doen over natuurlijke taal. Zo weet het dat frietjes met bier een waarschijnlijkere combinatie is dan frietjes met botsauto. Telkens wanneer we een toepassing gebruiken met automatische aanvullingen of woordsuggesties, denk maar aan sms'jes, maken we gebruik van zo'n taalmodel.
 
Hier zou je de leerlingen kunnen laten experimenteren met de woordsuggesties. Laat hen via Whatsapp enkele alledaagse zinnen invoeren als 'Toen mijn glas brak, dronk ik bier uit ...', 'Ik kreeg wel frietjes, maar geen ...', 'Frits ziet zijn baasje en geniet van zijn ...'
 
De leerlingen zullen allen verschillende suggesties krijgen omdat WhatsApp telkens suggereert op basis van onze eerdere berichten. De eerste zin werd bijvoorbeeld bij een testpersoon aangevuld met 'Toen mijn glas brak, dronk ik bier uit het ziekenhuis', de tweede ging als volgt verder 'Ik kreeg wel frietjes, maar geen zorgen' en de derde luidde 'Frits ziet zijn baasje en geniet van zijn vader'.
 
Net zoals de regelgebaseerde systemen had ook de eerste generatie woordvectoren enkele beperkingen. Ze hadden het vooral moeilijk met dubbelzinnige woorden als 'bank', 'was', 'bad', 'pad'. Ze hielden geen rekening met de context van deze ambigue woorden en dezelfde woordvector verscheen telkens. Bovendien was er veel ruis: de programma's kenden relatief veel waarde toe aan onzinnige elementjes in de taal: de lidwoorden (de, het, een) werden op een vergelijkbare manier geanalyseerd als de zelfstandige en bijvoeglijke naamwoorden die veel betekenisvoller zijn.
 
Er moest nog een cruciaal element aan toegevoegd worden: de transformer die gebruikmaakt van het aandachtsmechanisme.
 
Wil je leerlingen laten aanvoelen waarom een transformer belangrijk is, dan kun je hen vragen hoe de derde zin van de vorige oefening alweer ging. Woordelijk zullen ze die wellicht niet kunnen herhalen, maar Frits en het baasje wel en wellicht zullen ze ook nog weten wie er aan het genieten was: Frits en niet zijn baasje.
 
Om een zin te begrijpen hoeven we als mens dus niet evenveel aandacht te schenken aan elk woord uit die zin. We mogen enkele woorden negeren zonder dat dit ten koste gaat van de context. 'Attention is all you need' is het motto, maar hoe trainen we computers hierop? Er is dan ook een techniek, het aandachtsmechanisme, dat transformers gebruiken om associaties tussen woorden te berekenen en na te gaan welke woorden belangrijker zijn dan andere. Zo ontstonden enorme taalmodellen of Large Language Models die een ware revolutie ontketend hebben binnen taaltechnologie, denk maar aan ChatGPT en de chatbots die onze vragen beantwoorden.
 
Als oefening laat je je leerlingen de zinnen uit de vorige opdracht nu invoeren in ChatGPT. Krijgen ze logischere oplossingen: waaruit drinkt men volgens ChatGPT het best bier, wat krijg je niet bij de frietjes, ...

Van regels naar data

sla link op in klembord

Kopieer

De evolutie van taaltechnologie en in het bijzonder het automatisch vertalen wordt heel aanschouwelijk voorgesteld in de volgende video.
 
Die kun je samen met de leerlingen bekijken en via enkele gerichte vragen kun je nagaan of de leerlingen de werking voldoende beheersen ...

  • Op welke grenzen botsten de eerste regelgebaseerde systemen?
  • Van welke data maken datagebaseerde systemen gebruik?
  • Uit hoeveel dimensies bestaan de huidige woordvectoren?
  • Wat zijn de grenzen van de huidige systemen?
  • ...

Hier staat ingevoegde content uit een social media netwerk dat cookies wil schrijven of uitlezen. Je hebt hiervoor geen toestemming gegeven.Klik hier om dit alsnog toe te laten.

Deze lessuggestie is gebaseerd op recente werken rond taaltechnologie en afkomstig uit een nascholing van Katholiek Onderwijs Vlaanderen. Ben je benieuwd naar de volledige suggestie, contacteer dan je pedagogisch begeleider communicatiewetenschappen en taaltechnologie.

Recent verwant nieuws

×
Kijkt als...
Niveau
Regio