Computers eerste woordjes

Een bed is iets heel anders dan een bad, maar is bijna synoniem met ledikant. Voor een zoekprogramma als Google en vragendiensten als Al@din is het van levensbelang dat ze deze relaties herkennen. Promovenda Lonneke van der Plas van de Rijksuniversiteit Groningen ontwikkelde een systeem waarmee computers automatisch de relaties tussen woorden kunnen leren. Het resultaat van haar onderzoek vatte zij samen op een interactieve website.

De woorden ‘herfst’ en ‘najaar’ hebben dezelfde betekenis, ‘Parijs’ verwijst naar een stad en het woord ‘feest’ roept bij mensen woorden als ‘wijn’ en ‘plezier’ op. Mensen verwerven dit soort van informatie, zoals synoniemen, eigennamen en assocaties, gedurende hun leven simpelweg door taal te gebruiken. Ook voor een computersysteem is het mogelijk om relaties tussen woorden, zoals synoniemie (herfst-najaar) en co-hyponiemie (appel-sinaasappel) automatisch uit tekst te leren. De soort van informatie die opgeleverd wordt hangt wel af van de methode die gebruikt wordt. Promovenda Lonneke van der Plas deed onderzoek naar dergelijke systemen.

‘Frankrijk’ en ‘wijn’ horen in ons hoofd bij elkaar. Nieuw onderzoek leert computers ook om deze twee woorden aan elkaar te koppelen, bijvoorbeeld doordat ze vaak naast elkaar in een tekst staan.

500 miljoen woorden

Van der Plas gebruikt in haar methode drie manieren om lexicaal-semantische informatie te vergaren: een op syntaxis gebaseerde methode, die woorden als baby en zoon aan elkaar koppelt, een meertalige op vertaalrelaties gebaseerde methode, die woorden als baby en kind aan elkaar koppelt, en een methode waarbij gekeken wordt naar de nabijheid van woorden in een tekst. De laatste verbindt woorden als baby en huilen met elkaar. Om de methode te ontwikkelen liet Van der Plas haar computers onder meer een Nederlandse krantendatabase van meer dan 500 miljoen woorden scannen. De drie methoden zijn bedoeld om elkaar aan te vullen wat betreft het soort data dat gebruikt wordt en het type informatie dat ze opleveren.

Voor veel computerapplicaties die taal gebruiken, zoals zoekmachines en programma’s die vragen van gebruikers beantwoorden, is informatie over relaties tussen woorden erg belangrijk. Bijvoorbeeld om te herkennen dat een bepaalde betekenis kan worden afgeleid uit verschillende tekstvarianten. Wanneer een gebruiker het woord ‘rijwiel’ als zoekterm intypt in een zoekmachine als Google, is een uitbreiding met een synoniem als ‘fiets’ noodzakelijk om niet het merendeel van de gewenste informatie te missen.

Kijk en vergelijk

Het resultaat van het onderzoek van Van der Plas is terug te zien in een demo op het internet, waar de gebruiker een woord kan intypen. Het systeem geeft de gebruiker een lijst van gelijkende woorden, die het automatisch geleerd heeft door de syntactische contexten van woorden te vergelijken. Met andere woorden: kijk en vergelijk.

Gepubliceerd door

Rijksuniversiteit Groningen (RUG)


Publicatiedatum

woensdag, 15 oktober 2008 10 oktober 2010


Kernwoorden


Deel deze publicatie

Meer Taal & Spraak

Dit is een nieuwsbericht van Rijksuniversiteit Groningen (RUG).


© Rijksuniversiteit Groningen (RUG), alle rechten voorbehouden.

Volg ons op twitter Word onze fan op facebook