Show simple item record

dc.contributor.advisorEstrella, Paula Susana
dc.contributor.authorPaliza, Pablo Andrés
dc.date.accessioned2017-11-21T16:26:10Z
dc.date.available2017-11-21T16:26:10Z
dc.date.issued2016-12-07
dc.identifier.urihttp://hdl.handle.net/11086/5587
dc.descriptionTesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016.es
dc.description.abstractEn este trabajo se presenta la tarea realizada para corregir automáticamente texto generado por un OCR desde un archivo digital realizado para preservar documentos creados durante la dictadura militar en Argentina entre los años 1976 y 1983, también conocido como el Proceso de Reorganización Nacional. Estos documentos son bastantes únicos en su estructura, contenido y estado de conservación, haciéndolos una colección desafiante. Se adoptó un enfoque de post-procesamiento, en el que se creó un diccionario especifico y la corrección del texto de salida del OCR se basó en distancias de edición y características tipográficas. En un conjunto de test representativo se logró corregir aproximadamente el 30% de los errores.es
dc.description.abstractThis paper presents the work done to automatically correct OCRed text from a digital archive setup to preserve documents created during Argentina’s 1976-1983 dictatorship, also known as the National Reorganization Process (Proceso de Reorganización Nacional). These documents are quite unique in their structure, content and state of preservation, making it a challenging corpus. A postprocessing approach was adopted, in which a specific dictionary was created and the correction of the OCRed text was based on edit distances and typographical characteristics of the text. On a representative test set the correction of about 30\% of the OCR errors was achieved.en
dc.language.isospaes
dc.rightsAtribución 2.5 Argentinaes
dc.rights.urihttps://creativecommons.org/licenses/by/2.5/ar/
dc.subjectComputing Methodologieses
dc.subjectDocument and Text Processinges
dc.subjectOptical Character Recognitiones
dc.subject.otherOCR
dc.subject.otherConstrucción de diccionarioses
dc.subject.otherArchivos digitaleses
dc.titleCorrección automática de errores de OCR en documentos semi-estructuradoses
dc.typebachelorThesises


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Atribución 2.5 Argentina
Except where otherwise noted, this item's license is described as Atribución 2.5 Argentina