‘Méér data werkt niet altijd beter’

Anderhalf jaar geleden waren taalmodellen nog iets voor een niche, inmiddels kan iedereen erover meepraten. Marianne de Heer Kloots onderzoekt of deze modellen taal anders verwerken dan ons brein.

21 maart 2024

Toen TaalTalent Marianne de Heer Kloots ruim een jaar geleden geïnterviewd werd over haar promotie-onderzoek, twijfelde ze nog of lezers het woord ‘taalmodel’ wel zouden herkennen. Inmiddels kan ze met haar kapper over kunstmatige intelligentie kletsen. De wereld heeft het afgelopen jaar veel geleerd over taalmodellen, maar wat heeft De Heer Kloots zelf allemaal ontdekt?

Krachten bundelen

“De grote vraag van mijn promotieonderzoek is eigenlijk of taalmodellen soortgelijke kennis over taal ontwikkelen als mensen. Ik ben begonnen met onderzoek waarin ik de hersenactiviteit van mensen die een tekst lezen vergeleek met interne toestanden van een taalmodel. Dat zijn dus gebeurtenissen die zich binnenin een mensenhoofd en binnenin het taalmodel afspelen – je kunt ze niet zien aan de buitenkant. Afgelopen tijd ben ik bezig geweest met een project waarin we juist kijken naar de uitkomst van die innerlijke gebeurtenissen: wat wéten mensen en modellen nu eigenlijk over taal?”

Kennis is natuurlijk ook onzichtbaar, maar die kun je wel zichtbaar maken. Bijvoorbeeld door te vragen naar grammaticaliteitsoordelen: opvattingen over de grammaticale juistheid van zinnen. Zo zul je als Nederlandstalige zeker kunnen beoordelen welke van deze twee zinnen juist is:

Er wordt veel gelachen door de vriendinnen.
Yara wordt veel gelachen door de vriendinnen.

In een nieuw experiment bekeek De Heer Kloots of taalmodellen ook in staat zijn om dit soort oordelen te geven, en in hoeverre die oordelen overeenkomen met die van mensen. Ze voerde het onderzoek uit met twee collega’s: Michelle Suijkerbuijk, zelf promovendus in Nijmegen, en onderzoeksassistente Zoë Prins.

Poppetje in de vorm van een cursor-handje met op de ene hand een groen vinkje en op de andere hand een rood kruis — Freepik

Hoe is het om dit onderzoek samen te doen? “Het is een heel interessante samenkomst van kennis,” vindt De Heer Kloots. “Michelle is psycholinguïste en doet dus vaker onderzoek naar mensen. Zij is dan ook bezig met zinsparen zoals 1) en 2) aan mensen voor te leggen en om hun oordeel te vragen. Zoë en ik zijn juist meer bezig met de AI-systemen. We bundelen onze krachten. Dat is nuttig maar vooral ook heel leuk. Want een promotietraject zelf is natuurlijk best wel eenzaam. Zeker als computationeel taalkundige zit je de hele dag alleen achter je scherm.”

Ook voor Suijkerbuijk is het een zinvolle ervaring. “Ik ben zelf niet opgeleid in taalmodellen. Ik gebruik ze wel maar ik zat steeds een beetje in mijn eentje uitvogelen hoe dat moest. Van Marianne hoor ik nu wat er nog meer allemaal mogelijk is, daar was ik zelf nooit achter gekomen.”

Oordelen

Het experiment begon met het maken van zinnen, heel veel zinnen. Suijkerbuijk ploegde door dikke boeken over de Nederlandse grammatica, en haalde daar 84 verschijnselen uit die kenmerkend zijn voor het Nederlands. Bij elk verschijnsel bedacht ze 10 zinsparen. Prins gebruikte vervolgens ChatGPT om daar per verschijnsel nog eens 90 paren bij te maken – zo veel paren zijn nodig om te kunnen beoordelen of een taalmodel een consistente voorkeur voor grammaticale zinnen vertoont.

Mensen gebruiken ChatGPT als kennisbank. Daar schrik ik van

— Marianne de Heer Kloots

Vervolgens legden de onderzoeksters de paren voor aan mensen en aan taalmodellen. De menselijke deelnemers kozen niet zomaar tussen ‘goed of fout’, maar gaven een gradueel oordeel: hoe goed is deze zin op een schaal van 1 tot 7? Suijkerbuijk: “Er is een vergelijkbare studie gedaan naar het Engels, en daar keken ze alleen naar goed/fout-oordelen. Zo staat het ook vaak in grammaticaboeken. Maar in ons experiment zagen we: mensen beoordelen theoretisch foute zinnen soms toch als goed, of in ieder geval beter dan andere foute zinnen. Wij willen natuurlijk weten of de computermodellen ook zulke gradaties tussen goed en fout laten zien.” De volgende stap was dan ook om de taalmodellen te laten berekenen hoe waarschijnlijk ze de zinnen vonden, ergens op een schaal van 0 (‘Superonwaarschijnlijk dat dit een zin van het Nederlands is’) tot 1 (‘Zeker weten een goede Nederlandse zin!’).

Klein maar fijn

Tijd voor de grote vraag: hoe brachten de taalmodellen het ervan af? Prins: “Best goed, de oordelen van de modellen kwamen meestal wel overeen met die van mensen, ook wat betreft die gradaties.” Dat is een belangrijke les voor taalkundigen: taalmodellen kunnen dus, net als mensen, op basis van data tot een genuanceerd oordeel komen. Voor de AI-experts is er een andere wijze les: “Er waren flinke verschillen tussen modellen onderling.”

Het onderzoeksteam testte negen taalmodellen, met vrolijke namen als ‘GEITje 7B’, ‘BERTje’ en ‘Llama 13B’. De modellen hebben gemeen dat ze een verzameling teksten hebben verwerkt, en op basis daarvan de waarschijnlijkheid kunnen inschatten van woorden die volgen op of voorkomen in een gegeven stukje tekst. Als ik bijvoorbeeld via een online interface de zin ‘Ik schrijf een [MASK] voor NEMO Kennislink’ invul in BERTje, denkt het model dat de woorden ‘column’, ‘artikel’ en ‘boek’ wel eens op de lege plek kunnen staan. Niet slecht! De onderzochte modellen verschilden wel in grootte: sommige zijn getraind op enorme hoeveelheden tekst (net als het taalmodel achter ChatGPT), andere (waaronder BERTje) hebben relatief weinig teksten verwerkt.

Bij het beoordelen van de zinsparen bleken de modellen die op heel veel data getraind waren het goed te doen. Maar tot verrassing van de onderzoeksters deden sommige kleine modellen, zoals BERTje, het ook heel aardig. Prins: “In de AI gaan we meestal uit van ‘hoe groter hoe beter’. Laten we maar nóg grotere modellen trainen en er nóg meer data in stoppen. Onze studie laat zien dat het voordelig kan zijn om iets te proberen met een kleiner model. Dat maakt het ook makkelijker voor mensen om zelf een model te gebruiken, want niet iedereen heeft ergens een supercomputer staan. En kleine modellen kosten veel minder energie.”

Blauw beeld van een kaal hoofd omringd met computercode — Freepik

Gemengde gevoelens

Het giga-taalmodel achter ChatGPT is dus niet voor alles de beste keuze, en al helemaal niet de enige. Toch gaat het in het publieke debat over kunstmatige intelligentie voortdurend over dat model. Hoe ervaart De Heer Kloots de hype rondom ChatGPT? “Het is best een bizarre ervaring dat iedereen inmiddels tot op zekere hoogte bekend is met taalmodellen. Wij gebruiken die modellen echt als wetenschappelijke tool. Nu zie je dat iedereen in de samenleving er zelf mee aan de haal gaat. Mensen gebruiken ChatGPT als kennisbank. Daar schrik ik van, want het genereren van een tekst over een bepaald onderwerp is niet hetzelfde als kennis hebben over dat onderwerp! Tegelijkertijd denk ik: wat leuk dat mijn vader nu opeens het woord GPT kent. Ik heb hier echt heel gemengde gevoelens over.” Prins vult aan: “Mensen hebben tegenwoordig ook gelijk een mening over AI, en vaak is die best negatief. Het is soms bijna alsof je vertelt dat je voor Shell werkt.”

Zou het beter zijn als we de taalmodellen voortaan aan AI-deskundigen overlaten? Dat gaat De Heer Kloots te ver. “Ik denk niet dat het aan AI-onderzoekers is om te bepalen waar je het wel of niet voor mag gebruiken, uiteindelijk moet iedereen het op basis van eigen ethische en praktische overwegingen doen. Er zijn allemaal toepassingen die ik zelf nooit had bedacht, maar die me supernuttig lijken. Ik hoorde dat modellen voor tweedetaalleerders voorbeeldzinnen kunnen genereren op een specifiek taalniveau. Dat klinkt heel goed en dat moeten taaldocenten en taalleerders gewoon zelf uitproberen.”

Toch maakt ze zich ook zorgen. “De ontwikkeling van deze technologie wordt gedomineerd door grote techbedrijven met een winstoogmerk. Terwijl, voor technologie die zo verweven is met de hele samenleving zou je liever willen dat die gemaakt wordt op basis van publieke waarden en democratische systemen. Op dit moment wordt een groot Nederlands taalmodel gebouwd, GPT-NL. De bedoeling is dat dat model volledig publiek beschikbaar en openbaar wordt, en getraind op ethisch verkregen data. Ik zou liever hebben dat we allemaal dát model gaan gebruiken, maar uiteindelijk is dat een politieke keuze. We kunnen alleen maar hopen dat Nederland daarvoor kiest.”

Mariannes promotietraject duurt nog ongeveer twee jaar. Zou ze daarna bij een techgigant willen werken? “Zelf heb ik daar geen interesse in. Ik ben vooral geïnteresseerd in modellen die interessant zijn voor de cognitiewetenschap, maar dat is misschien minder relevant voor bedrijven.” Toekomstplannen heeft ze intussen genoeg. “Hiervoor heb ik me beziggehouden met modellen die tekst verwerken, maar op dit moment werk ik met modellen die spraakgeluid als input krijgen. En daarnaast modellen die tekst en beeld combineren. Veel AI is gericht op het maken van een ultiem model dat alles kan. Voor de cognitiewetenschap kan denk ik juist het vergelijken van allerlei modellen heel erg nuttig zijn.”

Serie: Taaltalenten

26 februari 2016

Taaltalent Arnold Kochari onderzoekt hoe ons brein te betekenis van woorden als ‘groot’ en ‘weinig’ interpreteert

Hoe veel is ‘veel’? En hoe groot is ‘groot’? We gebruiken meestal geen exacte maten als we iets vertellen en toch begrijpen we elkaar prima. Promovendus Arnold Kochari onderzoekt hoe we dit doen. K...

3 maart 2016

Taaltalent James Trujillo zoekt het systeem in ons brein dat een communicatieve intentie herkent

Maakt iemand een toevallige beweging of probeert hij je iets duidelijk te maken? Promovendus James Trujillo zoekt naar het systeem in ons brein dat herkent dat achter een gebaar of een actie een co...

9 maart 2016

Taaltalent Shruti Ullas onderzoekt hoe ons brein zich aanpast aan uitspraakvariatie

Niemand spreekt precies hetzelfde Nederlands. Sommige mensen spreken met een regionaal accent, anderen slissen misschien een beetje. En toch kunnen we iedereen verstaan. Promovenda Shruti Ullas ond...

23 mei 2016

Taaltalent Lot Snijders Blok kijkt in het DNA van kinderen met een taalspraakstoornis

Stoornissen in taal en spraak lijken vaak genetisch bepaald, maar welke genen daar precies verantwoordelijk voor zijn, is nog een raadsel. Promovenda Lot Snijders Blok probeert de komende jaren het...

25 oktober 2016

Promovendus James Trujillo onderzoekt hoe we herkennen dat een gebaar betekenis heeft

Het plan was om afgelopen zomer al proefpersonen in de hersenscanner te leggen. Maar de resultaten van zijn eerste experimenten stuurden James Trujillo in een andere richting. NE...

10 februari 2017

Arnold Kochari onderzoekt hoe we vage taal begrijpen

Om te kunnen begrijpen hoe we vage woorden als ‘veel’ of ‘meeste’ begrijpen, heeft Arnold Kochari taal juist even moeten loslaten. Door breder naar het onderwerp te kijken, krijgt hij nieuwe inzich...

20 februari 2017

Shruti Ullas onderzoekt hoe ons brein zich aanpast aan uitspraakvariatie

De proefpersonen van Shruti Ullas deden heel netjes wat ze verwachtte. Maar eenmaal in de hersenscanner levert dezelfde taak ineens heel andere resultaten op. Hoe kan dat? NEMO

8 juni 2017

Taaltalent Lot Snijders Blok zoekt genen die verantwoordelijk zijn voor taal- en spraakstoornissen

Promovendus Lot Snijders Blok speurt in het DNA van kinderen met ernstige taalproblemen naar de genen die hier verantwoordelijk voor zijn. Een diagnose geeft de ouders van...

13 maart 2018

Promovendus James Trujilllo onderzoekt hoe we herkennen dat een gebaar betekenis heeft

Het eind van het promotietraject van James Trujillo komt in zicht. Ligt de promovendus een beetje op schema? En is er nog tijd voor dat ene laatste experiment? NEMO Kennis...

18 april 2018

Promovendus Arnold Kochari neemt tijdelijk zijspoor in zijn onderzoek

Tijdens conferenties deed promovendus Arnold Kochari veel inspiratie op voor zijn onderzoek naar woorden als 'lang' en 'weinig'. Ondertussen mengt hij zich ook in een verhitte discussie over een taalp...

13 september 2018

Shruti Ullas onderzoekt hoe je brein went aan een accent

Nog een paar maanden en dan zit het promotietraject van Shruti Ullas erop. NEMO Kennislink volgde haar tijdens haar onderzoek. Hoe past ons brein zich aan aan variatie in ...

5 maart 2019

Taaltalent Lot Snijders Blok speurt ook in haar laatste promotiejaar nog naar taal- en spraakgenen

De laatste maanden waren druk voor promovendus Lot Snijders Blok, die speurt naar genen die betrokken zijn bij taal- en spraakproblemen. Onlangs publiceerde ze met collega’s een artikel over het to...

13 juli 2020

Taaltalent Marlou Rasenberg onderzoekt hoe mensen in sociale interactie op één lijn komen

Samen een tent opzetten is voor velen de ultieme relatietest. Hoe maak je de ander duidelijk waar die ene stok moet? Marlou Rasenberg onderzoekt hoe mensen met woord en gebaar op één lijn zitten.

4 september 2020

Taaltalent Marianne: taalmodellen toetsen

Anderhalf jaar geleden waren taalmodellen nog iets voor een niche, inmiddels kan iedereen erover meepraten. Marianne de Heer Kloots onderzoekt of deze modellen taal anders verwerken dan ons brein.<...

Krachten bundelen

Oordelen

Klein maar fijn

Gemengde gevoelens

'Hoe kan het toch dat we elkaar begrijpen?'

Taaltalent Arnold Kochari onderzoekt hoe ons brein te betekenis van woorden als ‘groot’ en ‘weinig’ interpreteert

'Hoe weet je dat een gebaar iets betekent?'

Taaltalent James Trujillo zoekt het systeem in ons brein dat een communicatieve intentie herkent

'Hoe wennen we aan een accent?'

Taaltalent Shruti Ullas onderzoekt hoe ons brein zich aanpast aan uitspraakvariatie

'Welke genen zorgen voor taal- en spraakstoornissen?'

Taaltalent Lot Snijders Blok kijkt in het DNA van kinderen met een taalspraakstoornis

'Onverwachte resultaten houden het spannend'

Promovendus James Trujillo onderzoekt hoe we herkennen dat een gebaar betekenis heeft

'Met kleine stapjes naar het grotere plaatje'

Arnold Kochari onderzoekt hoe we vage taal begrijpen

'Bijzonder om zo gedetailleerd in het brein te kijken'

Shruti Ullas onderzoekt hoe ons brein zich aanpast aan uitspraakvariatie

'De genetica wordt soms ingehaald door Facebook'

Taaltalent Lot Snijders Blok zoekt genen die verantwoordelijk zijn voor taal- en spraakstoornissen

'Begrijpen autisten gebaren op dezelfde manier?'

Promovendus James Trujilllo onderzoekt hoe we herkennen dat een gebaar betekenis heeft

'Leuk om bij te dragen aan een actuele discussie'

Promovendus Arnold Kochari neemt tijdelijk zijspoor in zijn onderzoek

'Bag ik een bandarijntje?'

Shruti Ullas onderzoekt hoe je brein went aan een accent

'Ik hoop dat deze kinderen nu sneller herkend worden'

Taaltalent Lot Snijders Blok speurt ook in haar laatste promotiejaar nog naar taal- en spraakgenen

'Neehee, die tentstok moet dáár!'

Taaltalent Marlou Rasenberg onderzoekt hoe mensen in sociale interactie op één lijn komen

'Via een scherm zijn hoogleraren minder intimiderend'

Taaltalent Shruti Ullas verdedigde haar proefschrift online

Huh? Wat bedoel je?

Problemen in een gesprek herstel je samen, met woorden en gebaren

'Communiceren is enorm efficiënt samenwerken'

Marlou Rasenberg rondt promotieonderzoek naar sociale interactie af

'Verwerken computers en ons brein taal op dezelfde manier?'

Marianne de Heer Kloots vergelijkt taalmodellen met hersenactiviteit

‘Méér data werkt niet altijd beter’

Taaltalent Marianne: taalmodellen toetsen

Onze leestips

Oppositie in de Kamer