AI en standaardtaalvarianten in het Nederlands

Onderzoek naar de herkenning van standaardtaalvarianten door AI-toepassingen in Vlaanderen en Nederland

Inleiding

Wie beroepshalve niet met taal bezig is, is niet altijd gevoelig voor welke woorden en uitdrukkingen er typisch voor de standaardtaal in Vlaanderen en in Nederland zijn. Half augustus 2024 deed ik met een korte tekst een steekproef of de AI-toepassingen ChatGPT (OpenAI) en Copilot (Microsoft) die twee standaardtaalvarianten uit elkaar kunnen houden.

Koen Van Cauwenberge – Project X 2002 - 10/08/2024

Steekproef en resultaten

In de volgende korte tekst zitten er enkele typische voorbeelden van Belgisch-Nederlands en al dan niet taalfouten (vaak discussie over) in Vlaanderen.

We weten nog niet wie de Belgische koning als nieuwe ministers zal aanduiden maar Bart De Wever blijft momenteel de regeringsonderhandelingen verderzetten. Bart De Wever is in Vlaanderen gekend als een politieke meesterstrateeg. Hij is altijd netjes gekleed. Meestal draagt hij een wit hemd met een das. Verleden week moesten de onderhandelingen even stopgezet worden toen hij gekwetst raakte in een marathon. Toen hij op volle snelheid naar de finish liep stapte hij in een duimspijker.

Taalverschillen tussen de standaardtaal in Vlaanderen en in Nederland

  • Aanduiden: Enkel in België standaardtaal in de betekenis van iemand benoemen. In Nederland gebruiken ze het woord ‘aanstellen’ of ‘benoemen’.
  • Verderzetten: Enkel in België standaardtaal. In Nederland gebruiken ze het woord ‘voortzetten’, ‘vervolgen’, ‘verdergaan met’ of ‘doorgaan met’.
  • Gekend: Wordt in Vlaanderen gebruikt in de betekenis van ‘beroemd’ maar dit gebruik is omstreden.
  • Hemd: In Nederland spreken ze van een ‘overhemd’ en is een hemd een ‘onderhemd’ in Vlaanderen.
  • Gekwetst: In Vlaanderen vaak in de betekenis van ‘fysiek gewond’ gebruikt maar niet erkend als standaardtaal in Vlaanderen. In het A.N. betekent ‘gekwetst’ enkel “beledigd, gekrenkt”.
  • Liep: In Nederland gebruiken ze ‘lopen’ in de betekenis van ‘gaan’ in Vlaanderen. Het ‘lopen’ in Vlaanderen komt overeen met ‘rennen’ in Nederland.
  • Duimspijker: Enkel in België standaardtaal. In Nederland gebruiken ze het woord ‘punaise’.

Ik heb steeds de volgende prompts gebruikt:

  1. Prompt 1: “Goeiemorgen je bent een taaldeskundige. Ik moet een artikel schrijven voor de Nederlandse krant Trouw. Kijk je mijn tekst even na op taalfouten.”
  2. Prompt 2: “Goeiemorgen je bent een taaldeskundige. Ik moet een artikel schrijven voor de Vlaamse krant Het Laatste Nieuws. Kijk je mijn tekst even na op taalfouten.”
  3. Prompt 3: “Goeiemorgen je bent een taaldeskundige. Ik moet een artikel schrijven voor de de site van de Nederlandse Taalunie. Deze site wordt zowel door Vlamingen, Surinaamse Nederlandstaligen als Nederlanders gelezen. Kijk je mijn tekst even na op taalfouten.”
  4. Prompt 4: “Goeiemorgen je bent een taaldeskundige. Ik moet een artikel schrijven. Kijk je mijn tekst even na op taalfouten.”

Resultaten met ChatGPT 4o (OpenAI)

Ga naar Bijlage 1 om de concrete teksten en tips te zien die ChatGPT4o als antwoord gaf op de vier prompts. De volgende tabel toont een samenvatting van de resultaten per prompt.

ChatGPT Nederland België Taalunie Geen doelpubliek
Prompt 1 Prompt 2 Prompt 3 Prompt 4
aanduiden
verderzetten X
gekend X X X X
hemd X
gekwetst X X X X
lopen
duimspijker X X X
Totaal: 3/7 4/7 4/7 2/7
Aantal andere aanpassingen: 3 3 0 2

Zoals verwacht duidt de prompt die geen publiek vermeldt de minste taalvariantverschillen aan. Bij de vier prompts worden ‘gekwetst’ en ‘gekend’ als taalfout aangeduid. Dat is geen toeval, want zij zijn geen standaardtaal zelfs niet in het Belgisch-Nederlands.

Hoewel de tekst veel Belgisch-Nederlands bevatte glipte die allemaal door de mazen van het net toen de prompt vroeg om te herschrijven voor een lezerspubliek in Nederland. Ironisch genoeg vroeg ChatGPT om het Belgisch-Nederlandse ‘verderzetten’ aan te passen bij de op Vlaanderen gerichte prompt en niet bij de op Nederland gericht prompt. In dit voorbeeld kon ChatGPT het Belgisch-Nederlands alvast niet herkennen.

Resultaten met Copilot (Microsoft)

Ga naar Bijlage 2 om de concrete teksten en tips te zien die Copilot als antwoord gaf op de vier prompts. De volgende tabel toont een samenvatting van de resultaten per prompt.

Nederland België Taalunie Geen doelpubliek
Prompt 1 Prompt 2 Prompt 3 Prompt 4
aanduiden
verderzetten X
gekend X X X X
hemd
gekwetst X X X X
lopen
duimspijker X X X X
Totaal: 4/7 3/7 3/7 3/7
Aantal andere aanpassingen: 1 1 1 2

Met uitzondering van ‘verderzetten’ voor een tekst gericht op taalgebruikers in Nederland geeft Copilot steeds hetzelfde advies. De opgave van een taalregio lijkt geen effect te hebben. Net zoals ChatGPT duidt Copilot ‘gekwetst’ en ‘gekend’ consequent als taalfouten aan met de extra van ‘duimspijker’ in de vier gevallen, terwijl de taaladviessites ‘duimspijker’ als standaardtaal in Vlaanderen zien.

Schrijfassistent Nederlands

De website Schrijfassistent Nederlands (https://schrijfassistent.be/splash.php) is een gespecialiseerde website die je kan gebruiken om teksten na te lezen. Bij Taaltips kan je specifiek laten zoeken op Belgisch-Nederlandse woorden en uitdrukkingen in een tekst (voor standaardtaal die specifiek voor Nederland is ontbreekt die zoekfunctie). Deze site duidt de volgende woorden als mogelijks Belgisch-Nederlands aan.

We weten nog niet wie de Belgische koning als nieuwe ministers zal aanduiden maar Bart De Wever blijft momenteel de regeringsonderhandelingen verderzetten. Bart De Wever is in Vlaanderen gekend als een politieke meesterstrateeg. Hij is altijd netjes gekleed. Meestal draagt hij een wit hemd met een das. Verleden week moesten de onderhandelingen even stopgezet worden toen hij gekwetst raakte in een marathon. Toen hij op volle snelheid naar de finish liep stapte hij in een duimspijker.

Het werkwoord ‘moesten’ werd ook aangeduid, maar de uitleg toont aan dat het om ‘moesten’ in een andere betekenis (hypothese aanduiden) gaat.

A.N. Geen prompt
aanduiden
verderzetten
gekend X
hemd
gekwetst X
lopen X
duimspijker X
Totaal: 4/7
Aantal andere aanpassingen: 1

Conclusie

Deze steekproef is uiteraard veel te klein om de resultaten te kunnen veralgemenen. In deze voorbeeldtekst konden ChatGPT en Copilot woorden en uitdrukkingen die niet standaardtaal zijn uit de tekst vissen. Niettemin slagen noch ChatGPT noch Copilot erin om specifieke standaardtaal voor Vlaanderen te herkennen. Ze zijn dan ook niet betrouwbaar om teksten te laten herschrijven voor een specifiek publiek in Vlaanderen of Nederland.

Een aantal nuanceringen die taaladviessites zoals Vlaanderen.be/team-taaladvies en Taaladvies.net geven blijven ook onzichtbaar en dat zelfs op een gespecialiseerde site als Schrijfassistent Nederlands. Uiteindelijk zal je momenteel nog een moedertaalspreker nodig hebben om teksten specifiek te herschrijven voor een lezerspubliek in Vlaanderen of in Nederland.

Lesidee

Zet je leerlingen aan het werk. Laat ze zelf eventueel voor een eindwerk onderzoeken in hoeverre AI-toepassingen zoals ChatGPT en Copilot een onderscheid kunnen maken tussen de standaardtaal in België (Belgisch-Nederlands) en de standaardtaal in Nederland.

Bijlagen

Bijlage 1: Resultaten met ChatGPT 4o

1.1 Publiek uit Nederland

We weten nog niet wie de Belgische koning als nieuwe ministers zal aanduiden maar Bart De Wever zet de regeringsonderhandelingen momenteel verder. Bart De Wever staat in Vlaanderen bekend als een politieke meesterstrateeg. Hij is altijd netjes gekleed en draagt meestal een wit hemd met een das. Vorige week moesten de onderhandelingen even stopgezet worden toen hij gewond raakte tijdens een marathon. Terwijl hij op volle snelheid naar de finish liep stapte hij op een punaise.

Ik heb de volgende aanpassingen gemaakt:

  • "blijft momenteel de regeringsonderhandelingen verderzetten" naar "zet de regeringsonderhandelingen momenteel verder" – Deze wijziging zorgt voor een natuurlijkere zinsbouw.
  • "gekend als" naar "bekend als" – "Bekend" is de standaard Nederlandse vorm.
  • "Verleden week" naar "Vorige week" – Dit is een gebruikelijkere manier om naar de afgelopen week te verwijzen.
  • "gekwetst" naar "gewond" – In Nederland is "gewond" de meer gebruikelijke term.
  • "in een marathon" naar "tijdens een marathon" – "Tijdens" geeft beter aan dat het gebeurde gedurende de marathon.
  • "in een duimspijker" naar "op een punaise" – "Punaise" is de gangbare term in Nederland.

1.2 Publiek uit Vlaanderen

We weten nog niet wie de Belgische koning als nieuwe ministers zal aanduiden maar Bart De Wever zet momenteel de regeringsonderhandelingen voort. Bart De Wever staat in Vlaanderen bekend als een politieke meesterstrateeg. Hij is altijd netjes gekleed en draagt meestal een wit hemd met een das. Verleden week moesten de onderhandelingen even worden stopgezet toen hij gewond raakte tijdens een marathon. Terwijl hij op volle snelheid naar de finish liep stapte hij op een punaise.

1. "verderzetten" naar "voortzetten": Het werkwoord "voortzetten" is gebruikelijker in de context van het doorgaan met onderhandelingen in het Nederlands. "Verderzetten" is Belgisch Nederlands en hoewel het begrijpelijk is wordt "voortzetten" vaker gebruikt in officiële teksten.

2. "is in Vlaanderen gekend" naar "staat in Vlaanderen bekend": "Gekend" is Belgisch Nederlands maar in een formele context wordt "bekend staan als" vaker gebruikt. Het is ook breder begrijpelijk in andere varianten van het Nederlands.

3. Verbindingswoord "en" toegevoegd tussen "netjes gekleed" en "draagt meestal": Het gebruik van "en" verbindt de twee eigenschappen van Bart De Wever beter waardoor de zin vloeiender leest.

4. "moesten de onderhandelingen even stopgezet worden" naar "moesten de onderhandelingen even worden stopgezet": Deze omkering van de woordvolgorde is gebruikelijker in het Standaardnederlands vooral in formele teksten.

5. "toen hij gekwetst raakte" naar "toen hij gewond raakte": "Gewond" is een algemener en formeler woord voor letsel in het Nederlands. "Gekwetst" wordt ook gebruikt maar "gewond" is meer gangbaar in formele contexten.

6. "in een marathon" naar "tijdens een marathon": "Tijdens" is een duidelijkere keuze om aan te geven dat het gebeurde terwijl de marathon bezig was.

7. "stapte hij in een duimspijker" naar "stapte hij op een punaise": "Duimspijker" is begrijpelijk maar "punaise" is preciezer en algemener gebruikt in Vlaanderen en in Nederland om naar een klein scherp voorwerp te verwijzen. "Op een punaise" is ook de correcte voorzetselcombinatie in deze context.

1.3 Publiek hele taalgebied

We weten nog niet wie de Belgische koning als nieuwe ministers zal aanduiden maar Bart De Wever zet de regeringsonderhandelingen momenteel voort. Bart De Wever is in Vlaanderen bekend als een politieke meesterstrateeg. Hij is altijd netjes gekleed. Meestal draagt hij een wit overhemd met een das. Verleden week moesten de onderhandelingen even worden stopgezet toen hij gewond raakte tijdens een marathon. Toen hij op volle snelheid naar de finish liep stapte hij op een punaise.

Aanpassingen:

  • "gekend" naar "bekend": In deze context is "bekend" de juiste keuze.
  • "hemd" naar "overhemd": Beide termen worden gebruikt maar "overhemd" is iets formeler.
  • "gekwetst" naar "gewond": "Gewond" is de gangbare term in Nederlandstalige teksten voor fysieke letsels.
  • "stapte hij in een duimspijker" naar "stapte hij op een punaise": "Punaise" is een meer gangbare term voor "duimspijker" en "op" is de juiste voorzetsel in deze context.

1.4 Geen opgegeven leespubliek

We weten nog niet wie de Belgische koning als nieuwe ministers zal aanduiden maar Bart De Wever blijft voorlopig de regeringsonderhandelingen verderzetten. Bart De Wever is in Vlaanderen bekend als een politieke meesterstrateeg. Hij is altijd netjes gekleed. Meestal draagt hij een wit hemd met een das. Vorige week moesten de onderhandelingen even worden stopgezet toen hij gewond raakte tijdens een marathon. Terwijl hij op volle snelheid naar de finish liep stapte hij op een punaise.

Hier zijn de wijzigingen die ik heb aangebracht:

  • "gekend" vervangen door "bekend": In de context van bekendheid van personen wordt "bekend" vaker gebruikt dan "gekend."
  • "Verleden week" vervangen door "Vorige week": In de context van het verwijzen naar een recente gebeurtenis is "vorige week" gebruikelijker.
  • "kwetst raakte" vervangen door "gewond raakte": "Gewond" is een gangbaarder woord in deze context.
  • "toen hij op volle snelheid naar de finish liep stapte hij in een duimspijker" vervangen door "terwijl hij op volle snelheid naar de finish liep stapte hij op een punaise": Het gebruik van "terwijl" maakt de zin vloeiender en "punaise" is een meer gebruikelijke term in plaats van "duimspijker."

Bijlage 2: Resultaten met Copilot

2.1 Publiek uit Nederland

Verbeterde tekst:

We weten nog niet wie de Belgische koning als nieuwe ministers zal aanduiden maar Bart De Wever zet momenteel de regeringsonderhandelingen voort. Bart De Wever staat in Vlaanderen bekend als een politieke meesterstrateeg. Hij is altijd netjes gekleed en draagt meestal een wit hemd met een das. Verleden week moesten de onderhandelingen even worden stopgezet toen hij gewond raakte tijdens een marathon. Terwijl hij op volle snelheid naar de finish liep stapte hij op een punaise.

Hier zijn de belangrijkste aanpassingen:

  • “blijft momenteel de regeringsonderhandelingen verderzetten” is veranderd naar “zet momenteel de regeringsonderhandelingen voort” voor een vloeiendere zin.
  • “gekend” is veranderd naar “bekend” omdat dit gebruikelijker is in het Nederlands.
  • “Hij is altijd netjes gekleed. Meestal draagt hij een wit hemd met een das.” is samengevoegd tot “Hij is altijd netjes gekleed en draagt meestal een wit hemd met een das.” voor een betere samenhang.
  • “gekwetst” is veranderd naar “gewond” omdat dit beter past in de context.
  • “in een duimspijker” is veranderd naar “op een punaise” omdat dit gebruikelijker is in het Nederlands.

2.2 Publiek uit Vlaanderen

We weten nog niet wie de Belgische koning als nieuwe ministers zal aanduiden maar Bart De Wever blijft momenteel de regeringsonderhandelingen verderzetten. Bart De Wever is in Vlaanderen bekend als een politieke meesterstrateeg. Hij is altijd netjes gekleed. Meestal draagt hij een wit hemd met een das. Verleden week moesten de onderhandelingen even stopgezet worden toen hij gewond raakte tijdens een marathon. Toen hij op volle snelheid naar de finish liep stapte hij op een punaise.

Hier zijn de belangrijkste aanpassingen:

  • “gekend” vervangen door “bekend” (gebruikelijker in deze context).
  • “gekwetst” vervangen door “gewond” (past beter bij de context van een blessure).
  • “in een marathon” vervangen door “tijdens een marathon” (beter Nederlands).
  • “duimspijker” vervangen door “punaise” (meer gangbaar in Vlaanderen).

2.3 Publiek hele taalgebied

We weten nog niet wie de Belgische koning als nieuwe ministers zal aanduiden maar Bart De Wever blijft momenteel de regeringsonderhandelingen verderzetten. Bart De Wever is in Vlaanderen bekend als een politieke meesterstrateeg. Hij is altijd netjes gekleed. Meestal draagt hij een wit hemd met een das. Vorige week moesten de onderhandelingen even stopgezet worden toen hij gewond raakte tijdens een marathon. Toen hij op volle snelheid naar de finish liep stapte hij op een punaise.

Verbeteringen:

  • gekend -> bekend: “Bekend” is de standaardtaal in zowel Nederland als Vlaanderen.
  • Verleden week -> Vorige week: “Vorige week” is gebruikelijker in de standaardtaal.
  • gekwetst raakte -> gewond raakte: “Gewond” is de standaardterm in dit geval.
  • in een duimspijker -> op een punaise: “Punaise” is een meer gangbare term.

2.4 Geen opgegeven leespubliek

We weten nog niet wie de Belgische koning als nieuwe ministers zal aanduiden maar Bart De Wever blijft momenteel de regeringsonderhandelingen verderzetten. Bart De Wever is in Vlaanderen bekend als een politieke meesterstrateeg. Hij is altijd netjes gekleed. Meestal draagt hij een wit hemd met een das. Vorige week moesten de onderhandelingen even stopgezet worden toen hij gewond raakte tijdens een marathon. Toen hij op volle snelheid naar de finish liep stapte hij op een punaise.

Hier zijn de aanpassingen die ik heb gemaakt:

  • gekend -> bekend: “Bekend” is de correcte vorm in deze context.
  • Verleden week -> Vorige week: “Vorige week” is gebruikelijker in deze context.
  • gekwetst -> gewond: “Gewond” is de juiste term voor fysieke verwondingen.
  • in een marathon -> tijdens een marathon: “Tijdens” is hier beter passend.
  • in een duimspijker -> op een punaise: “Punaise” is een meer gangbare term in het Nederlands.