Ik lees net een persbericht op het blog van Google dat men op dit moment gescande documenten kan indexeren door middel van Google’s Optical Character Recognition (OCR) technologie.
Het was altijd lastig om o.a. dit soort documenten te interpreteren aangezien er soms vouwen en koffiekringen op de gescande documenten zitten. Ook afbeeldingen gaven problemen:
To people reading these documents, the distinction between words and pictures of words makes little difference, but for a computer the picture is almost unintelligible. Consider a circle. Should it be read it as a zero, the letter ‘O’, just a circle, or the ring from my coffee cup?
Op mijn werk hebben we ook nog genoeg oude manuals met vlekken e.d. en deze kunnen we nu dus op een makkelijke manier naar HTML converten… Gewoon even een folder op de website openen en laten indexeren.. (Let wel… geen vertrouwelijke informatie)
Om te zien hoe het werkt heeft Google een aantal search queries vrijgegeven:
repairing aluminum wiring
spin lock performance
Mumps and Severe Neutropenia
Steady success in a volatile world
Klik op “HTML-versie” voor het OCR resultaat