#ESimple

OCR (Optical Character Recognition)

OCR es un software que permite el reconocimiento óptico de los caracteres contenidos en una imagen (documento escaneado o fotografía), de forma que estos se vuelven comprensibles o reconocibles para un ordenador.

Es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos. De esta forma es posible editarlos, buscarlos, almacenarlos de forma más compacta, traducción automática, etc.

El proceso de OCR puede ser dividido en 3 partes fundamentales:

Aunque estos métodos se complican más en textos manuscritos donde las mayúsculas algunas veces se sobreponen con letras de otras líneas o existen distintos ángulos de inclinación y distancias entre las palabras.

Otra parte del proceso consiste en convertir las imágenes con binarización, es decir, de dos colores, generalmente dentro de la escala de grises. Además se debe hacer una eliminación de manchas. También hace reconocimiento de guiones y signos que no pertenezcan específicamente al alfabeto.

Crowdsourcing como apoyo al proceso

El crowdsourcing de humanos para realizar el reconocimiento de caracteres puede procesar rápidamente imágenes como OCR controlado por computadora. Pero con mayor precisión para reconocer imágenes que la que se obtiene con las computadoras.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *