Wat mogen AI-chatbots met jouw website doen? Gebruik het nieuwe llms.txt-bestand

AI-chatbots zoals ChatGPT, Gemini en Claude trainen hun taalmodellen met miljarden webpagina’s, mogelijk ook met teksten van jouw website. Maar wat gebeurt er als jouw teksten worden gebruikt om AI te trainen? Wil je dat? Gelukkig kun je dat beïnvloeden. Ik vertel je graag hoe dat werkt.

Auteursrechten en AI: wat gebeurt er als chatbots je teksten scrapen?

AI-chatbots leren van enorme hoeveelheden tekst. Die teksten worden verzameld door AI-crawlers. Dat zijn automatische programma’s die websites “scrapen”, oftewel kopiëren en analyseren.

Maar dat is heel vervelend als die teksten zijn beschermd door auteursrecht. Dat betekent dat jij als maker of organisatie het exclusieve recht hebt om te bepalen wie jouw teksten mag gebruiken, kopiëren of aanpassen.

Tot nu toe gebeurt dat scrapen grotendeels zonder toestemming of zelfs zonder dat webbeheerders het weten. AI-systemen gebruiken webcontent als trainingsmateriaal, waarbij individuele bronnen onzichtbaar blijven. Daardoor ontstaat een grijs gebied tussen open teksten en ongeoorloofd hergebruik. Juridisch zijn er nog steeds veel open vragen, vooral rond wat wel/niet mag met webcontent. Met name de Europese AI Act kan op termijn invloed hebben op wat is toegestaan.

Met het nieuwe llms.txt protocol komt daar een stukje duidelijkheid in. Je geeft hiermee expliciet aan wat AI-bots wél mogen gebruiken van jouw website. In combinatie met je robots.txt helpt het om je auteursrechten te beschermen, en ook om later misbruik aan te kunnen tonen. Wie nu duidelijk vastlegt wat er met zijn content mag gebeuren, staat sterker als er in de toekomst discussie ontstaat over bronvermelding of ongeoorloofd gebruik.

Wat is llms.txt?

LLMS staat voor Large Language Model Systems. llms.txt is een klein tekstbestand dat je in de root van je website plaatst. Het dient als instructie voor AI-crawlers en vertelt hen welke delen van je site ze mogen gebruiken voor het trainen van hun modellen.

Je kunt het zien als de AI-variant van het bekende robots.txt-bestand dat zoekmachines gebruiken. In een robots.txt kun je kwijt wat niet mag (‘Disallow’).

Voorbeeld: zo geef je AI duidelijke instructies

Zo’n llms-tekstbestand kan er zo uitzien (fictief voorbeeld):

# llms.txt voor isimedia.nl
User-agent: *
Allow: /nieuws/
Contact: info@isimedia.nl
Policy: https://isimedia.nl/ai-policy
Versie: datum van publicatie beleid en llms.txt

Met deze regels zeg je:

  • alle AI-chatbots (User-agent: *) mogen leren van de pagina /nieuws
  • daarnaast geef je contactinformatie en
  • verwijs je naar jouw AI-beleid, met datum van publicatie.

Waarom is dit llms.txt-bestand belangrijk?

Met een llms.txt neem je meer controle over je content. Je bepaalt zelf of AI-systemen jouw teksten mogen gebruiken. Dat is belangrijk voor auteursrecht, privacy en reputatiebeheer.

Daarnaast toon je transparantie en digitale verantwoordelijkheid: je laat zien dat jouw organisatie zorgvuldig omgaat met technologie en data. Dat straalt vertrouwen uit, juist in een tijd waarin steeds meer communicatie via AI-systemen verloopt.

Het gebruik van een llms.txt is vrijwillig en let op: (nog?) niet alle LLM’s gebruiken het bestand.  Toch hebben grote AI-bedrijven, waaronder OpenAI, Google en Anthropic, aangekondigd dat ze het llms.txt-bestand (gaan) respecteren.

Dus als je nu al toepast, loop je voorop.

Blokkeer je AI op je website of doe je mee?

Blokkeren kan een goede strategie zijn. Dat is natuurlijk afhankelijk van je content. Je kunt via een robots.txt crawlers uitsluiten.

Maar het is niet altijd de beste strategie. Als AI-chatbots jouw content mogen lezen, kan dat juist je zichtbaarheid, vindbaarheid en autoriteit versterken.

Wanneer iemand via ChatGPT een vraag stelt over jouw werkveld, kan jouw kennis (indirect) in het antwoord doorklinken. Zo bouw je mee aan de AI-kennisinfrastructuur, zonder je volledige controle te verliezen.

Het llms.txt-bestand maakt dat mogelijk: gericht meedoen.

De uitdaging van zero-click content en AI

Een belangrijke term in dit verband is zero-click content. Dat zijn antwoorden die je direct krijgt in een zoekmachine (zoals Gemini in Google) of via een chatbot zonder dat je nog hoef door te klikken naar de originele website.

Dat ziet er in Google bijvoorbeeld zo uit: 

Het gevolg van zero click content is dat het aantal bezoekers op je site daalt. Door slim te bepalen welke pagina’s AI mag gebruiken, kun je dit positief beïnvloeden.

Hulp nodig? ISI Media regelt het voor je

Het opzetten van een llms.txt-bestand en een robots.txt vraagt om doordachte keuzes. Welke content stel je open? Wat wil je beschermen? En hoe leg je dat goed vast?

Wil je op jouw website een instructie voor AI-systemen – blokkeren of (deels) toelaten, dan kunnen wij dat voor je regelen. Neem contact op als je meer informatie wil.