Het is al goed 25 jaar dat Google werkt met de robots.txt voor zijn zoekrobotten, die het web afspeuren. Dat is een protocol (officieel: Robots Exclusion Protocol of REP), dat aan de browser zegt: deze en die pagina van deze website moet je niet indexeren. Dat kan enerzijds zijn om te vermijden dat de site té vaak bezocht wordt door zoekrobots, en dat het andere verkeer hieronder gaat lijden. En anderzijds om te voorkomen dat afbeeldingen, video's en audiobestanden in de bijhorende zoekcategorieën van Google terechtkomen. De hele uitleg vind je bij Google zelf (1).
Nu is het wel zo dat haast alle websites met een robot.txt werken, maar dat dit eigenlijk geen officiële standaard is. Google heeft daarom de stap gezet om er toch een standaard van te maken: het Robots Exclusion Protocol. Het heeft daarvoor spedicaties opgesteld en die voorgelegd aan de Internet Engineering Task Force, met een verzoek tot commentaar hierop (Requet for Comments).
Concreet houdt het feit dat het nu een officieel protocol zou worden, geen verandering in. Voorlopig. Want wanneer het een officiële standaard is, kunnen ook anderen die verder ontwikkelen.
Meer hierover bij Search Engine Land. (2)
https://support.google.com/webmasters/answer/6062608?hl=en
https://searchengineland.com/google-posts-draft-to-formalize ...
|