Algemeen

OCR – Tekenherkenning

Door

23 november 2020

We hebben allemaal computers, dus waarom niet gebruik maken van een hoge kwaliteit scanner? Je hebt ook optische tekenherkenning (OCR)-technologie nodig. Voor vele doeleinden is OCR de meest kosteneffectieve en snelle methode die beschikbaar is om documenten naar tekst te converteren.

OCR is eigenlijk de tweede stap in het conversieproces. De eerste stap is om het document of boek in kwestie te scannen, net zoals u een foto zou scannen. De scanner converteert elke afgedrukte pagina naar een bitmap-bestand, een patroon van punten dat daadwerkelijk een elektronische afbeelding van de pagina omvat. Software die wordt geleverd met de scanner slaat het bestand op de harde schijf van de computer op in TIFF, JPG, of een ander afbeeldings formaat.

Vervolgens wordt gespecialiseerde optische tekenherkennings (OCR)-software gebruikt om elk woord van de afbeelding te onderzoeken en om te zetten in tekst. Oudere OCR-software zou de afzonderlijke letters in een opgeslagen afbeelding vergelijken met opgeslagen bitmaps van specifieke lettertypen. Deze patroonherkenningssystemen werkten goed met hoogwaardige gescande afbeeldingen van tekst die precies dezelfde lettertypen gebruikten als die welke door de software worden verwacht. Met andere woorden, het werkte maar zelden. Het was zeldzaam dat de gescande afbeeldingen precies overeenkwam met de opgeslagen bitmapafbeeldingen van de afzonderlijke tekens. Nog maar een paar jaar geleden had OCR een reputatie van onnauwkeurigheid.

De huidige OCR-programma’s hebben meerdere algoritmen met neurale netwerktechnologie toegevoegd om de lijnrand, de lijn van discontinuïteit tussen de tekst-tekens en de achtergrond te analyseren.

Ten slotte worden de afgeleide woorden en zinnen verzonden via spellingcontrole en syntaxisanalysatoren, die proberen de resterende tekens te vinden die onjuist zijn gedecodeerd. Deze analyzers controleren de context van de woorden in elke zin. De software gebruikt zijn opgeslagen kennis van delen van spraak en grammatica om individuele tekens te herkennen.

Tegenwoordig kan OCR-software een breed scala aan lettertypen herkennen, maar handschrift- en scriptlettertypen die handschriften nabootsen zijn nog steeds problematisch. Niemand heeft nog een commercieel succesvol OCR-product gemaakt voor het decoderen van handschriften.

Technologische vooruitgang heeft OCR betrouwbaarder gemaakt, maar nog steeds niet perfect. Zelfs met de beste software die vandaag beschikbaar is kunt u een minimum van 90% nauwkeurigheid verwachten voor documenten van gemiddelde kwaliteit. Ondanks de beweringen van leveranciers van het scannen met één knop, duurt het bereiken van 99% of een grotere nauwkeurigheid schone kopieer- en oefen-instellingsparameters. Het vereist ook dat u de OCR-software “traint” met uw documenten.

Een andere oorzaak van OCR onnauwkeurigheid is de kwaliteit van de scanner. Een 50 dollar scanner zal altijd resulteren in meer fouten dan een hogere kwaliteit scanner, ongeacht de OCR-software die gebruikt wordt. De kwaliteit van de lichtarrays van de scanner (het deel van de scanner dat lichte en donkere gebieden van de gescande pagina detecteert) zal van invloed zijn op de OCR resultaten. Hoe strakker deze arrays, hoe fijner het beeld en hoe meer verschillende kleuren de scanner kan detecteren. Dergelijke technologie kost geld. Goedkopere scanners hebben minder dicht verpakte lichtarrays, wat resulteert in een lagere kwaliteit scans.

Vlekken of achtergrondkleur kunnen de herkenningssoftware ook misleiden. Het scannen van een fotokopie of een herdruk van een oud boek zal ook leiden tot veel extra fouten. Het menselijk oog kan denken dat elk personage scherp en duidelijk is, maar de geringe “vaagheid” van elk personage in een foto-gereproduceerde pagina zal de microscopische “ogen” van de scanner hinderen. Een belangrijk resultaat is dat het scannen van een origineel boek altijd zal resulteren in een betere OCR-nauwkeurigheid dan het scannen van een kopie van hetzelfde boek.

Met de meeste merken scanners kan het aanpassen van de resolutie van de scan helpen het beeld te verfijnen en de herkenningssnelheid te verbeteren maar er zijn compromissen. In een afbeelding die is gescand met 24-bits kleuren met 1200 punten per inch (dpi), heeft elk van de 1200 pixels 24 bits aan kleurinformatie. Deze scan duurt langer dan een scan met een lagere resolutie en produceert een groter bestand, maar de OCR-nauwkeurigheid zal hoger zijn.

Een scan op 72 dpi zal sneller zijn en een kleiner bestand produceren – goed voor het plaatsen van een afbeelding van tekst op het web – maar de lagere resolutie zal waarschijnlijk een minder nauwkeurige OCR opleveren.

De meeste scanners van consumentenkwaliteit zijn geoptimaliseerd voor 300 dpi, maar scannen op een hoger aantal punten per inch verhoogt de nauwkeurigheid voor 6-punts lettertypen of kleiner. De meeste commerciële OCR-diensten scannen op veel hogere dichtheden dan 300 dpi.

Tekstdocumenten worden normaal gesproken gescand als alleen zwart-wit afbeeldingen. Welke methode effectiever zal zijn hangt af van het beeld dat wordt gescand. Een bi-level scan van een onduidelijke vergeelde pagina kan meer leesbare tekst opleveren. Maar als de te scannen pagina’s zijn veranderd in een sepia-kleur of als de tekst van een oud document is vervaagd zal de OCR-software moeite hebben om elke letter correct te identificeren.

OCR scannen is een groot gemak en zal uiteraard uw behoefte verminderen om documenten opnieuw te typen. Echter, de technologie is nog steeds niet perfect. Zelfs met een hoogwaardige scanner en de beste software van vandaag kunt u verwachten dat het scannen van oude boeken tal van fouten zal produceren. Belangrijke handmatige “clean-up” zal nodig zijn.

Enkele commerciële OCR-scanners zijn o.a. Abbyy FineReader 10 Professional Edition voor Windows: $ 199,99 op: http://finereader.abbyy.com. Er is ook een gratis proefversie beschikbaar. Abbyy FineReader Express Edition voor Macintosh: $119.99 at https://www.abbyy.com/en-us/finereader/pro-for-mac. Er is ook een gratis proefversie beschikbaar.
OmniPage door Nuance (nu een deel van Kofax): $149.99 aan $499.99, afhangend van de geselecteerde versie, bij https://www.kofax.com/Products/productivity?source=nuance. ReadIris 12 voor Windows en Macintosh: $ 99,99 tot $ 199, afhankelijk van de geselecteerde versie, op https://www.irislink.com/EN-US/c1810/IRIS—The-World-leader-in-OCR–PDF-and-Portable-scanner.aspx (Er is een gratis proefversie beschikbaar.). SimpleOCR Freeware (beperkte mogelijkheden, maar goed om te experimenteren en te leren: gratis bij http://www.simpleocr.com De bovenstaande prijzen zijn catalogusprijzen. Dezelfde producten worden soms verkocht tegen korting, een kwestie van zoeken.

Door de overgang van vrijstaande computers met programma’s geïnstalleerd om verschillende taken uit te voeren naar programma’s in de cloud is een nieuwe technologie ontstaan. Het is nu mogelijk om afbeeldingen van tekst te uploaden naar zeer krachtige computers in de cloud en deze computers de conversie voor u te laten uitvoeren. Dergelijke conversies zijn altijd goedkoper dan de aankoop en installatie van OCR-software voor alles wat nodig is voor een paar honderd documenten of minder. In veel gevallen kan de OCR conversie gratis worden uitgevoerd!

De cloud-gebaseerde Drive-service van Google biedt met gratis OCR-conversie voor iedereen (met maximaal vijf gigabyte opslagruimte). Drive converteert meerdere pagina’s of meerdere pagina’s tegelijk. Ga naar https://support.google.com/drive/answer/176692?hl= voor meer informatie over Google Drive.

Gratis Online OCR beweert PDF, GIF, BMP, JPEG, TIFF en PNG als input te kunnen ondersteunen. Uitvoeringen kunnen DOC, een PDF-tekstdocument, RTF en TXT zijn. In mijn korte experimenteren met de site, vond ik dat de resultaten middelmatig waren. Als u eenvoudig opgemaakte documenten wilt converteren naar PDF is dit een geweldig hulpmiddel. In termen van het omzetten naar DOC waren de resultaten niet zo goed als sommige van de andere diensten. zie: http://free-ocr.com.

LAAT EEN REACTIE ACHTER Annuleer reactie