Mens en computer ontleden even goed

Zinsontleden is voor veel mensen een lastige klus. Zelfs deskundigen zijn het in zo’n 6% van de zinnen niet met elkaar eens wat nu de juiste ontleding is. ‘Alpino’, de automatische zinsontleder van de Rijksuniversiteit Groningen, heeft onlangs de magische grens van 90% foutloos ontleden bereikt; ongeveer even goed als de beste mensen dus. En in de toekomst wordt hij waarschijnlijk nog beter.

door

Gertjan van Noord, hoogleraar Taaltechnologie aan de Rijksuniveriteit Groningen (RUG) is als initiatiefnemer al enkele jaren bezig met de ontwikkeling van ‘Alpino’. “Lang geleden begonnen we met een percentage van bijna 80 procent, maar toen deden we alleen zinnen die korter waren dan 20 woorden”, vertelt hij. “Voor deze test was dat het gemiddelde aantal woorden per zin.” Sinds de start zijn de prestaties van de automatische zinsontleder echter gestaag verbeterd.

Wie drinkt wie?

En nu is dan eindelijk de ‘magische grens’ van 90 procent correcte ontleding bereikt. Dat komt erg dicht in de buurt van 94 procent, de gemiddelde overeenstemming die deskundigen hebben. “Deze prestatie is te danken aan heel veel kleine verbeteringen”, verklaart Van Noord. “Bijvoorbeeld verbeteringen in het woordenboek en in de grammaticaregels, maar ook in het statistische model dat het systeem gebruikt om uit alle mogelijke ontledingen de meest geschikte te kiezen.”

128px-sidecar-cocktail

Neem bijvoorbeeld de zin ‘Campari moet u gedronken hebben’. Voor een computer kan zowel ‘Campari’ als ‘u’ het onderwerp van deze zin zijn. Maar door heel veel Nederlandse teksten, onder andere van Wikipedia, te analyseren, weet Alpino nu welke woorden typisch als een onderwerp of als een lijdend voorwerp bij een werkwoord voorkomen. ‘Campari’ zal in combinatie met het werkwoord ‘drinken’ eerder het lijdend voorwerp zijn, dus moet ‘u’ het onderwerp van deze zin zijn.

Wereldkennis

Foutloos zal Alpino nooit zijn, want zelfs de deskundigen zijn het er niet altijd over eens hoe een zin het beste ontleed kan worden. In ongeveer 3 op de 50 zinnen verschillen zij hierover van mening. Dit ligt niet aan hun taalkundige kennis, maar aan de inhoud van de zin. Neem bijvoorbeeld de volgende zin:

FARC-woordvoerder Raul Reyes heeft in april 2000 een akkoord gesloten met de Colombiaanse regering om de Copa te respecteren.

Bij welk woord hoort de woordgroep ‘om de Copa te respecteren’, bij ‘een akkoord’ of bij ‘sluiten’? Is het respecteren van de Copa de inhoud of het doel van het akkoord? “In dit soort gevallen moet je bij wijze van spreke een specialist zijn in de geschiedenis van Colombia om de juiste ontleding te kunnen kiezen”, aldus Van Noord.

Man-vs-machine

Een computer moet dezelfde keuze maken en heeft daarbij minstens dezelfde problemen door ontoereikende kennis van de wereld. Maar daarnaast kan hij ook nog tegen andere problemen oplopen. Zo maakt een tekort aan taalkundige kennis de volgende zin moeilijk voor Alpino:

Er stonden nog lange rijen voor het theater toen het bordje zaal uitverkocht verscheen.

“Het programma had hier nog wat moois van kunnen maken als er aanhalingstekens waren gebruikt om de woorden ‘zaal uitverkocht’”, verklaart Van Noord. “Alpino heeft veel meer moeite dan deskundigen met zinnen waarin spelfouten of grammaticale fouten voorkomen, of waarin anderszins iets merkwaardigs aan de hand is.”

Tweets

De praktische toepassingen voor een automatische zinsontleder als Alpino zijn talloos. Overal waar automatisch informatie uit teksten gefilterd moet worden – en dat is steeds vaker in dit digitale tijdperk – kan Alpino ingezet worden. Denk bijvoorbeeld aan automatische vertalers, samenvatters of vraag-antwoordsystemen.

Hoewel Alpino nu ongeveer even goed uit de test komt als de deskundigen, blijven Van Noord en zijn team sleutelen aan het systeem. “Het verschil tussen 90 en 94 procent is in de praktijk nog niet zo klein, dus daar willen we zeker wat aan doen.” Daarnaast is Alpino nu alleen getest met geschreven teksten. In de toekomst hoopt Van Noord ook tweets en uitgeschreven gesproken taal automatisch te ontleden met zijn systeem.

Zie ook: