Oude bijbels nu ook digitaal doorzoekbaar

Deze week wordt in Leiden de Digitale Statenvertaling 1637 gepresenteerd. 135 vrijwilligers zijn een jaar lang bezig geweest de originele Nederlandse bijbelvertaling over te typen, omdat automatische tekstherkenning niet mogelijk was. De nieuwe digitale versie is op woordniveau te doorzoeken en biedt zo veel mogelijkheden voor toekomstig onderzoek.

door

Donderdag 22 mei wordt de Digitale Statenvertaling 1637 in Leiden gepresenteerd door prof.dr. Frits van Oostrom. Al langere tijd waren digitale versies van deze bijbel te vinden op internet, maar deze bestanden waren slechts fotokopieën en daardoor niet te doorzoeken op woordniveau. Bij de nieuwe digitale versie kan dit wel, waardoor veel meer onderzoek mogelijk wordt.

De Statenvertaling is de eerste officiële bijbelvertaling in het Nederlands die rechtstreeks is gemaakt vanuit de oorspronkelijke talen Hebreeuws (Oude Testament) en Grieks (Nieuwe Testament). Klik op de afbeelding voor een grotere versie.

Een jaar geleden besloot initiatiefneemster dr. Nicoline van der Sijs dat het tijd werd voor een gedigitaliseerde versie van de Statenvertaling. Doordat het 17e-eeuwse drukwerk soms moeilijk leesbaar is, was het niet mogelijk om gebruik te maken van tekstherkenningssoftware. De hele tekst moest dus handmatig overgetypt worden. Van der Sijs deed een oproep in de media, waarop vele vrijwilligers zich melden om deze tijdrovende klus op zich te nemen.

Tekstherkenningssoftware

Met behulp van tekstherkenningssoftware kan een computer tekst herkennen in een plaatje. Meestal is dit plaatje een scan die is gemaakt van bijvoorbeeld een pagina uit een boek. Je kan de tekst op de pagina dan wel lezen, maar niet doorzoeken of veranderen. De OCR-software ( Optimal Character Recognition) herkent door middel van patroonherkenning alle tekens en zet deze om naar tekst. Deze tekst is vervolgens wel doorzoekbaar en te veranderen.

Het resultaat van OCR is van verschillende factoren afhankelijk. Zo moet de scan van een hoge kwaliteit zijn, anders zijn sommige letters voor de software onherkenbaar of worden vlekken juist wel als letters herkend. Ook de opmaak van het plaatje heeft invloed. Sommige teksten staan scheef, worden onderbroken door foto’s of zijn gedrukt in een onbekend lettertype. Vaak kan de software getraind worden op bepaalde lettertypes zodat een optimaal resultaat bereikt kan worden.

Na één jaar is de nieuwe digitale versie van de bijbel klaar voor presentatie. De Delftse bijbel uit 1477 – het oudste gedrukte Nederlandstalige boek – is intussen zo ver klaar dat hij op internet geplaatst kan worden, de Leuvense bijbel uit 1548 wordt nu voor de tweede maal gecorrigeerd en van de Lutherse bijbel uit 1648 is de eerste correctie begonnen. Andere Bijbels zoals de Deux-Aesbijbel uit 1562 en de Liesveltbijbel uit 1526 zullen volgen. Verder wordt er gewerkt aan de digitale versie van de tweede druk van de Statenvertaling uit 1657.

Nuttig voor de wetenschap

De nieuwe verzameling bijbels is vooral van grote waarde voor de wetenschap. Van der Sijs: ‘Met name het taalkundig onderzoek naar de geschiedenis van het Nederlands kan er enorm van profiteren. De Bijbelvertalingen dateren uit de tweede helft van de vijftiende eeuw tot halverwege de zeventiende eeuw, een periode waaruit maar weinig tekstbestanden beschikbaar zijn en waarin ook de historische woordenboeken een grote lacune vertonen; wat er wél is, zijn voornamelijk literaire teksten uit de eerste helft van de zeventiende eeuw. De verzameling Bijbelteksten, het ’Bijbelcorpus’, vormt hier een welkome aanvulling op, en kan onze kennis van de ontwikkeling van de Nederlandse standaardtaal danig uitbreiden.’

Met deze nieuwe kennis kunnen ook andere oude teksten uit dezelfde periode beter geanalyseerd worden. Van der Sijs: ‘Op basis van de frequentie van woordvormen en lemma’s in het Bijbelcorpus kan er een spellingchecker of een spellinglijst worden samengesteld ter controle van weer andere teksten uit de vijftiende, zestiende en zeventiende eeuw, en als hulpmiddel bij het scannen van teksten uit die periode. De eerste resultaten van speurwerk in het Bijbelcorpus bewijzen al dat onderzoekers er nog veel plezier aan kunnen beleven, en dat het materiaal ook praktische toepassingen in woordenboeken en woordenlijsten kan krijgen.’

De statenvertaling bestaat uit bijna 2,6 miljoen woorden en bijna 70.000 kanttekeningen. Deze kanttekeningen bevatten gemiddeld 2,5 keer méér woorden dan de bijbeltekst. De meest voorkomende woorden zijn ende, de, van, het en in.

De bijbels zijn via verschillende websites te bekijken, ieder met hun eigen zoekmogelijkheden. ‘Uiterst interessant voor zowel taalkundig als theologisch onderzoek is de mogelijkheid die de website van het Nederlands Bijbelgenootschap biedt om de verschillende oude en moderne Bijbelvertalingen naast elkaar te zetten en met elkaar te vergelijken.’, aldus Nicoline van der Sijs.