OCR (Optical Character Recognition)
OCR es un software que permite el reconocimiento óptico de los caracteres contenidos en una imagen (documento escaneado o fotografía), de forma que estos se vuelven comprensibles o reconocibles para un ordenador.
Es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos. De esta forma es posible editarlos, buscarlos, almacenarlos de forma más compacta, traducción automática, etc.
El proceso de OCR puede ser dividido en 3 partes fundamentales:
- Segmentación de líneas: un bloque de texto se toma como entrada y se escanea horizontalmente. La frecuencia de los píxeles negros es detectada con el objetivo de construir una línea y definir así la cabecera y la base de cada línea. En documentos manuscritos esto puede ser muy variable y por tanto complejo.
- Segmentación de palabras: cuando se detecta una linea, se escanea entonces verticalmente. Se calcula el número de píxeles negros en cada columna, cuando no hay ninguno en la columna se considera que probablemente exista un espacio entre 2 palabras. Se ha estimado que este espacio está dado por 3 columnas de píxeles consecutivos vacíos.
- Segmentación de caracteres: la palabra se separa en caracteres individuales.
Aunque estos métodos se complican más en textos manuscritos donde las mayúsculas algunas veces se sobreponen con letras de otras líneas o existen distintos ángulos de inclinación y distancias entre las palabras.
Otra parte del proceso consiste en convertir las imágenes con binarización, es decir, de dos colores, generalmente dentro de la escala de grises. Además se debe hacer una eliminación de manchas. También hace reconocimiento de guiones y signos que no pertenezcan específicamente al alfabeto.
Crowdsourcing como apoyo al proceso
El crowdsourcing de humanos para realizar el reconocimiento de caracteres puede procesar rápidamente imágenes como OCR controlado por computadora. Pero con mayor precisión para reconocer imágenes que la que se obtiene con las computadoras.