Dat wij dingen aan Google kunnen vragen, is omdat zijn "spiders" dag na dag het web afspeuren en alle mogelijke teksten en websites indexeren. Die spiders worden daarbij geholpen door de robots.txt, die webmasters op hun website zetten. Dat is een simpel tekstbestand waarin de webmaster zet welke pagina's van zijn website wel en niet geïndexeerd mogen worden. Pagina's die regelmatig ververst worden bijvoorbeeld wel, pagina's die bijna nooit veranderen niet bijvoorbeeld. Dat bespaart de server waarop de website staat computerkracht, en maakt het anderzijds voor de zoekmachines eenvoudiger om het web sneller en efficiënter te indexeren.
Uiteraard kan een zoekmachine die instructies negeren, maar robots.txt is uitgegroeid tot een soort van onofficiële overeenkomst tussen websites en zoekmachines: jij mag mijn content crawlen, en in ruil zend jij mij verkeer.
Maar met de opkomst van de Large Language Modellen, de basis voor de huidige AI-tools, werkt die overeenkomst niet meer. De meeste AI-bedrijven negeren gewoonweg die robots.txt. Het is immers geen wettelijk document. En wat meer is: waar de zoekmachines nog verkeer zenden naar de websites, doen de LLM's dat zelden of nooit.
Met andere woorden: moet er niets in de plaats komen van de robots.txt, dat uitgevers meer controle kan geven over wat geïndexeerd mag worden, en waarvoor het gebruikt mag worden? The Verge heeft hier een heel interessant artikel over;
https://www.theverge.com/24067997/robots-txt-ai-text-file-we ...
|