Enhancing Text Recognition of Damaged Documents through Synergistic OCR and Large Language Models
Thomas Asselborn, Jens Dörpinghaus, Faraz Kausar, Ralf Möller, Sylvia Melzer
DOI: http://dx.doi.org/10.15439/2024F7400
Citation: Communication Papers of the 19th Conference on Computer Science and Intelligence Systems (FedCSIS), M. Bolanowski, M. Ganzha, L. Maciaszek, M. Paprzycki, D. Ślęzak (eds). ACSIS, Vol. 41, pages 29–36 (2024)
Abstract. Optical Character Recognition (OCR) remains a highly relevant area of research in pattern recognition. Its applications span various domains, including supporting reading for the visually impaired, interpreting Morse codes, capturing postal addresses, evaluating emails, scanning price tags and passports, and extracting text from digitised documents. As the volume of digitised data continues to grow, challenges arise in capturing the semantic structure of documents through logical structure analysis and providing data suitable for information retrieval to answer specific research questions. While classic OCR processes like Tesseract and OCRopus work well for contemporary digitised documents, there is room for improvement in text and word recognition of historical documents that are severely damaged. Large Language Models (LLMs) like GPT-4 can be effectively used for text recognition tasks, utilising their advanced natural language processing capabilities to interpret and reconstruct unclear or damaged text, offering potential for improving the overall text recognition process. However, challenges arise additionally when documents contain e.g. a mixture of single-column and double-column text, images and text, or words not known or blocked by the agents.
References
- Klassifikation der Berufe, K.: Band 1: Systematischer und alphabetischer Teil mit Erläuterungen (2010)
- Bliem, W., Petanovitsch, A., Schmid, K.: Success factors for the Dual VET System. Update (2015)
- Bojanowsky, A., Bross, D., Feuerstein, A., Häußler, J., Linde, F., Plattmann, U., Schenk, G., Tumfart, D.: Aktualisierte Ausbildungsplanempfehlungen Datenverarbeitungskaufmann Datenverarbeitungskauffrau. Kuratorium der Deutschen Wirtschaft für Berufsbildung, Adenauerallee 8a, 53113 Bonn (1995)
- Bunke, H., Wang, P.S.P. (eds.): Handbook of Character Recognition and Document Image Analysis. World Scientific, Singapore (May 1997). https://doi.org/10.1142/2757
- Clausner, C., Antonacopoulos, A., Pletschacher, S.: Efficient and effective OCR engine training. International Journal on Document Analysis and Recognition (IJDAR) 23, 73–88 (2020)
- DeepMind, G.: What is a long context window? Google Deep-Mind engineers explain (2024), https://blog.google/technology/ai/long-context-window-ai-models/, accessed: 2024-05-18
- Dittrich, M.: 25 Jahre Rechtschreibreform: Keiser, Schikoree und Grislibär (2023), https://www.deutschlandfunk.de/rechtschreibreform-deutsche-sprache-100.html, accessed: 2024-05-17
- Dobischat, R., Käpplinger, B., Molzberger, G., Münk, D.: Bildung 2.1 für Arbeit 4.0? Springer (2019)
- Geis, A.J., Hoffmeyer-Zlotnik, J.H.: Zur Vercodung von Beruf, Branche und Prestige für die DDR, vol. 5. Campus Verl. (1991)
- Gessler, M., Howe, F.: From the reality of work to grounded work-based learning in German vocational education and training: Background, concept and tools. International journal for research in vocational education and training 2(3), 214–238 (2015)
- Gewande, W.D.: Historische Entwicklung der staatlich anerkannten Ausbildungsberufe und ihrer Ordnungsmittel von 1934-1999: unter Berücksichtigung der mit deutschen Ausbildungsberufen gleichgestellten österreichischen Lehrberufe und gleichwertigen Facharbeiterberufen aus der ehemaligen DDR. Zentralamt der Bundesanst. für Arbeit, Geschäftsstelle für Veröff. (1999)
- Hamann, H.: The German federal courts dataset 1950–2019: From paper archives to linked open data. Journal of empirical legal studies 16(3), 671–688 (2019)
- Harney, K.: Entstehung und Transformation der beruflichen Bildung als Institution–Systemischer Rück-und Ausblick. Bildung und Erziehung 73(4), 346–357 (2020)
- Heliński, M., Kmieciak, M., Parkoła, T.: Report on the comparison of Tesseract and ABBYY FineReader OCR engines. online (2012)
- Herkner, V.: Grundzüge der Genese und Entwicklung einer korporatistischen Ordnung von Ausbildungsberufen. Berufsbildung in Wissenschaft und Praxis-BWP 42(3), 16–19 (2013)
- IBM: What Is Optical Character Recognition (OCR)? (2024), https://www.ibm.com/blog/optical-character-recognition/, accessed: 2024-05-17
- Koistinen, M., Kettunen, K., Kervinen, J.: How to improve optical character recognition of historical Finnish newspapers using open source Tesseract OCR engine. Proc. of LTC pp. 279–283 (2017)
- Kuppe, A.M., Lorig, B., Schwarz, H., Stöhr, A.: Ausbildungsordnungen und wie sie entstehen. Bundesinstitut für Berufsbildung (2015)
- Leeuwen, M.v., Maas, I., Miles, A.: HISCO: Historical international standard classification of occupations. Leuven UP (2002)
- Li, J., Zhou, H., Huang, S., Cheng, S., Chen, J.: Eliciting the translation ability of large language models via multilingual finetuning with translation instructions (2024), https://arxiv.org/abs/2305.15083
- Maier, T.: Die Anwendbarkeit des Erlernten in den wandelnden Bildungs-und Arbeitslandschaften der 1970er-bis 2000er-Jahre. Leverkusen: Verlag Barbara Budrich (2021)
- Mani, S.: gImageReader: A Gtk/Qt front-end to tesseract-ocr (2024), https://github.com/manisandro/gImageReader, accessed: 2024-05-18
- OCR-D project. https://ocr-d.de/en/, accessed: 2024-05-15
- OCR-D Glossary (2024), https://ocr-d.de/en/spec/glossary, accessed: 2024-05-17
- OCR4all Workflow (2024), https://www.ocr4all.org/guide/user-guide/workflow, accessed: 2024-05-23
- Oliver, D.: Complexity in vocational education and training governance. Research in Comparative and International Education 5(3), 261–273 (2010)
- OpenAI: Models (2024), https://platform.openai.com/docs/models, accessed: 2024-05-18
- OpenAI: Tokenizer (2024), https://platform.openai.com/tokenizer, accessed: 2024-05-18
- Protsch, P.: Zugang zu Ausbildung: Eine historisch vergleichende Perspektive auf den segmentierten Ausbildungsmarkt in (West-) Deutschland. Tech. rep., WZB Discussion Paper (2011)
- Reul, C., Christ, D., Hartelt, A., Balbach, N., Wehner, M., Springmann, U., Wick, C., Grundig, C., Büttner, A., Puppe, F.: OCR4all—An open-source tool providing a (semi-) automatic OCR workflow for historical printings. Applied Sciences 9(22), 4853 (2019)
- Silva, G.P.e., Lins, R.D.: An Automatic Method for Enhancing Character Recognition in Degraded Historical Documents. In: 2011 International Conference on Document Analysis and Recognition. pp. 553–557 (2011). https://doi.org/10.1109/ICDAR.2011.117
- Universität Hamburg: Research Data Repository. Available: https://www.fdr.uni-hamburg.de/ (2022), accessed: 2024-05-14
- VD16: VD 16 digital - Verzeichnis der im deutschen Sprachgebiet erschienenen Drucke des 16. Jahrhunderts der Bayerischen Staatsbibliothek. https://www.digitale-sammlungen.de/de/vd-16-digital-verzeichnis-der-im-deutschen-sprachgebiet/about, accessed: 2024-05-15
- VD17: VD 17 - Verzeichnis der im deutschen Sprachraum erschienenen Drucke des 17. Jahrhunderts. http://www.vd17.de/, accessed: 2024-05-15
- VD18: VD 18 digital - Verzeichnis der im deutschen Sprachraum erschienenen Drucke des 18. Jahrhunderts der Bayerischen Staatsbibliothek. https://vd18.gbv.de/viewer/index/, accessed: 2024-05-15
- Wang, Q.F., Yin, F., Liu, C.L.: Improving Handwritten Chinese Text Recognition by Unsupervised Language Model Adaptation. In: 2012 10th IAPR International Workshop on Document Analysis Systems. pp. 110–114 (2012). https://doi.org/10.1109/DAS.2012.46
- Wolf, S.: Past meets Present–the history of the German Vocational education and training model as a reflection frame to the prospect of the Egyptian model. Social Dimension and Participation in Vocational Education and Training p. 89 (2017)
- WordCounter: Words per Page (2024), https://wordcounter.net/words-per-page, accessed: 2024-05-18