DPG Media werkt samen met het Instituut voor de Nederlandse Taal

08/03/2023

Om ontwikkelingen in het hedendaagse Nederlands in kaart te brengen hebben het Instituut voor de Nederlandse Taal (INT) en DPG Media een overeenkomst gesloten. Met deze overeenkomst stelt DPG Media alle teksten uit het AD, de Volkskrant, Trouw, Het Parool, Het Laatste Nieuws en De Morgen beschikbaar voor het 'Corpus Hedendaags Nederlands'.

Om te zorgen dat de meest recente kranten direct gebruikt kunnen worden, wordt het krantenmateriaal continu aangeleverd. DPG Media hoopt dat de beschikbaarheid van de teksten een bijdrage kan leveren aan wetenschappelijk taalonderzoek. Zakelijk directeur Bart Verkade: "De Nederlandse taal is voortdurend in ontwikkeling. Dit wordt weerspiegeld in de teksten in dagbladen en op hun sites. Nieuwe woorden en veranderend taalgebruik komen daar snel tevoorschijn. Wij zijn blij dat we taalwetenschappers kunnen helpen met de taal uit onze media."

Belang van data
Het INT wil als kennisinstituut voor het Nederlands over de grootst mogelijke datacollectie beschikken om op deze wijze te kunnen bijdragen aan onderzoek en onderwijs. Directeur Frieda Steurs: "Zo is de recente hype rond ChatGPT en generatieve AI een goede reden om ook voor het Nederlands een zo krachtig mogelijk taalmodel te bouwen."

Wetenschappelijk onderzoek
Het Corpus Hedendaags Nederlands (CHN) is gratis toegankelijk voor wetenschappelijk onderzoek. Met het oog op auteursrechten is een gebruikersnaam en wachtwoord vereist. De aanwezigheid van metadata bij de teksten (titel, auteur, taal, publicatiejaar, medium) zorgt ervoor dat er gericht gezocht kan worden. Wie bijvoorbeeld alleen in krantenteksten van de laatste tien jaar wil zoeken, kan dat eenvoudig doen. Inmiddels bevat het CHN bijna 3 miljoen teksten uit kranten, tijdschriften, journaaluitzendingen, blogs, websites en romans.