Vandaag
Nieuws
Hardware
Software
Site
Tip
Oor
Archief nieuwsbrief
Abonneer
☰
Home
Vandaag
Nieuws |
Nieuwe woordjes leren: Common crawl
Gepubliceerd op: 2025-12-26
Common Crawl is een gratis, open schatkamer van het internet. Het is een non-profit organisatie die al sinds 2007 het web aftapt en opslaat voor iedereen.
Hoe werkt het?
Elke maand lopen robots (crawlers genaamd CCBot) het internet af. Ze bezoeken miljarden webpagina's: blogs, nieuws, winkels, forums... alles wat openbaar staat. Ze slaan die pagina's op in enorme bestanden (zo'n 100-400 terabyte per crawl, gecomprimeerd). Denk aan een soort gigantische Wayback Machine, maar dan ruwer en actueler.
Momenteel bevat Common Crawl meer dan 300 miljard pagina's uit 18 jaar internet. Elke maand komen er 2-3 miljard nieuwe bij. Het is één van de grootste open datasets ter wereld.
Wie gebruikt het?
- AI-bedrijven (zoals OpenAI, Anthropic) om ChatGPT-achtige modellen te trainen.
- Wetenschappers voor onderzoek naar taal, trends, nepnieuws of economie.
- Ontwikkelaars die zoekmachines, vertaaltools of analyses bouwen.
Het is helemaal gratis te downloaden via Amazon-cloud of rechtstreeks te doorzoeken.
Waarom is het belangrijk?
Zonder Common Crawl zouden veel AI-tools veel minder slim zijn. Het democratiseert het internet: niet alleen Google of Meta heeft toegang tot zo'n enorme hoeveelheid data, jij en ik ook. Het is echter niet zo eenvoudig als een gewone zoekopdracht ingeven op Google. Een duidelijke technische uitleg vind je bij Common Crawl zelf.
De methode van Common Crawl lag in 2025 wel onder vuur; toen waren er namelijk rapporten dat het ook content van nieuwssites bevatte die normaal gezien achter een betaalmuur staat. Er werden ook vragen gesteld over hoe het omgaat met verzoeken van uitgevers om content te verwijderen.
Toch blijft Common Crawl de openbare bibliotheek van het hele web – enorm, gratis en cruciaal voor moderne technologie.
(1)
https://commoncrawl.org/...
(2)
https://en.wikipedia.org/wiki/Common_Crawl...
(3)
https://commoncrawl.org/get-started...
Deel op
Deel per
Terug naar het overzicht
Nieuws
Kan een AI echt wraakzuchtig zijn?
OpenAI heeft twee nieuwe beveiligingsdingen toegevoegd aan ChatGPT
Telegram heeft een flinke update gekregen
Threads krijgt een handige nieuwe functie dankzij gebruikersklachten
TikTok US krijgt een 'Local Feed' voor dingen bij jou in de buurt
Google lanceert Waxal: AI beter maken voor Afrikaanse talen
Een groot illegaal streaming-rijk stort in
OpenAI test advertenties in ChatGPT
Discord gaat strenger controleren op leeftijd: het begin van het segmenteren van het internet?
Europa investeert fors in toekomstige chips
Naar het Nieuws-archief...
Hardware
Microsoft bouwt Sysmon standaard in Windows 11 in
AI-gesprekken niet beschermd door advocaat-cliënt privilege: een aardverschuiving in de advocat
Ferrari's eerste elektrische auto: de Luce
Elon Musk verandert van plan: SpaceX kiest eerst voor een maanstad, Mars komt later
Withings BeamO: meer dan een thermometer.
Russische satellieten bespioneren Europese satellieten
Google Home krijgt eindelijk knoppen
Xteink X4: De kleinste e-reader die in je zak past
China combineert AI met traditionele Chinese geneeskunde
Blinden kunnen eindelijk zien hoe zij eruit zien
Naar het Hardware-archief...
Oor
YouTube lanceert een handige AI-playlistmaker – maar alleen voor betalende gebruikers.
AI-datacenters in de ruimte: totale science-fiction of slim businessplan?
Spotify maakt songteksten nóg handiger
Deezer slaat alarm over AI-muziek en verkoopt nu zijn detectietool aan anderen
All-In podcast: over censuur
ElevenLabs lanceert The Eleven Album – een album gemaakt met AI en echte artiesten
Spotify test 'Page Match': sync je audiobook met je papieren boek
Bandcamp verbiedt AI-muziek: puur menselijk werk eerst
Universal Music Group en Nvidia werken samen aan AI voor muziek
Spotify brengt 'Listening Activity' naar je telefoon
Naar het Oor-archief...
Site
Lunar AI: verklarende video
Aeris: vluchten volgen in 3D
Internet Intro: ontdek nieuwe leuke websites
Timeline of Rome: tijdlijn
Indo-European Explorer: taal afstamming
The Office Lines: dialogen
MDash: Markdown editor
Split The Distance: halfweg
Hero Wars: online game
FLLAUNT: je cv uitbouwen
Naar het Site-archief...
Tip
Google Photos: herinneringen van bepaalde periodes uitsluiten
Google Photos: Automatische herinneringen
Activeer meldingen voor te hoge bloeddruk op je Apple Watch
Google Photos: verberg afbeeldingen van andere apps
Slimmer werken met Google Photos: sneller delen
Zo schrijf je een langer artikel op X
Microsoft Word maakt hyperlinks makkelijker en sneller
Tip: Gebruik de verborgen Reading Mode in Google Chrome voor rustiger lezen
Tips & Tricks: De supersnelle Excel-sneltoets Ctrl+1
Tips & Tricks: Controleer of je thuisnetwerk gehackt is
Naar het Tip-archief...
Software
UltraStar Deluxe (USDX)
Iriun Webcam: je smartphone als webcam
Tails: Linux op een stick
R'n'D Jue II: puzzelen
LDraw: virtuele Lego-modellen
TeamViewer: computer vanop afstand besturen
DinoTracker: geef een melding door van een spoor
InnoExtractor: bestanden extraheren
Task Coach: taken beheren
Yomio: slimmer geld besteden
Naar het Software-archief...
Bekijk hier de oudere artikels
Ons archief is wellicht het meest uitgebreide overzicht...
Alle rechten voorbehouden aan www.netties.be (c) 2026 - v50 - voor suggesties en vragen gebruik ons
contactformulier
.
Design en programmatie by PDL