Begin 2019 startte het Nationaal Archief een innovatief project om scans te kunnen transcriberen met automatische handschriftherkenning (Handwritten Text Recognition – HTR). Na bijna een jaar noeste arbeid is het voorwerk gedaan. De resultaten zijn boven verwachting. Meer dan 90% van de tekens wordt inmiddels correct herkend. We kunnen nu aan de slag om twee miljoen historische scans automatisch te transcriberen.
Om dit te bereiken zijn maar liefst 7.706 vaak moeilijk te lezen documenten uit VOC-archief (Nationaal Archief) en notarieel archief (Noord-Hollands Archief en overige regionale historische centra) met de hand ingetypt (getranscribeerd). En vervolgens ingezet voor het ontwikkelen en testen van verschillende HTR-modellen. “Eenvoudig gezegd hebben we de modellen geleerd om gescande handgeschreven teksten automatisch om te zetten in machineleesbare tekst.
Voor het trainen van de software is gebruikgemaakt van het programma Transkribus. Maar met dit geweldige resultaat zijn we er niet. Sterker nog, het creëert nieuwe uitdagingen. Het vinden van de juiste informatie is niet eenvoudig. Daarnaast zijn er transcriptiefouten, spellingsvarianten, oude taal en fouten in de herkenning van de lay-out.”
Om dit op te lossen heeft het Nationaal Archief vorig jaar september een aanbesteding uitgezet bij drie softwareontwikkelaars, het KNAW Humanities Cluster (HuC), Picturae en Clean Code, voor het bouwen van een slimme functionaliteit. Vervolgens kiest het Nationaal Archief welk van de drie prototypes verder wordt uitgewerkt. Begin volgend jaar levert dit uiteindelijk een online tool op die moet helpen om in handschriften te zoeken op bijvoorbeeld personen, plaatsnamen en gebeurtenissen.