12 miljoen historische afbeeldingen, vrij van auteursrechten, in een database stoppen die doorzocht kan worden. Dat is waarmee de Amerikaanse wetenschapper Kalev Leetaru zich bezig houdt. ER zijn leukere taken, maar het is wel in het belang van de gemeenschap :)
De foto's en afbeeldingen zijn afkomstig van meer dan 600 miljoen bibliotheekboeken, ingescand door de organisatie Internet Archive. Volgens Leetaru heeft men, bij het inscannen van boeken, tot nu toe altijd gekeken naar de tekst. Die werd doorzoekbaar gemaakt, maar de afbeeldingen in die boeken werden dat niet.
Leetaru geeft nu die afbeeldingen uit de boeken een tag en uploadt ze naar Flickr. Daarbij maakt hij gebruik van een eigen software. Het is namelijk zo, vertelt BBC (1), dat bij het origineel inscannen van de boeken OCR (optical character recognition) gebruikt wordt. Daarbij wordt de afbeelding van een woord omgezet in tekst. Het programma kan herkennen wanneer er een afbeelding op een pagina staat, en slaat die dan over.
Leetaru gebruikt nu dus die informatie, maar in plaats van de afbeeldingen over te slaan gaat hij op zoek naar de afbeeldingen. Hij heeft er al 2,6 miljoen door zijn handen zien gaan., en vindt het fascinerend om te zien hoe de afbeeldingen door de eeuwen heen (van 1500 tot 1922) veranderd zijn.
Meer over het project bij BBC en GigaOm. De beeldenbibliotheek vind je op de derde link.
http://www.bbc.com/news/technology-28976849
http://gigaom.com/2014/08/30/meet-the-computer-scientist-try ...
https://www.flickr.com/photos/internetarchivebookimages/with ...
|