UneDose | Cómo funciona la imagen a texto (también conocido como reconocimiento óptico de caracteres)

Lesley Fowler
0
3927
78

Anuncio

Sacar texto de las imágenes nunca ha sido más fácil de lo que es hoy gracias a la tecnología de reconocimiento óptico de caracteres (OCR).

OCR nos permite hacer todo tipo de cosas útiles, como buscar imágenes usando consultas de texto, reproducir documentos sin escribirlos a mano e incluso convertir texto escrito a mano en texto digital Cómo convertir una imagen con escritura manual a texto usando OCR Cómo convertir una imagen con escritura manual en texto usando OCR Para convertir una imagen de texto escrito a mano en texto digital que puede editar y buscar, necesita una herramienta OCR (reconocimiento óptico de caracteres). Pruebe una de estas herramientas de OCR para digitalizar la escritura a mano.. .

Pero, ¿qué es el reconocimiento óptico de caracteres? ¿Cómo funciona realmente? Puede parecer magia negra para ti, pero al final de este artículo, tendrás una comprensión sólida de cómo las computadoras pueden reconocer letras y palabras.

Cómo funciona el reconocimiento óptico de caracteres

Para entender cómo se extrae el texto de una imagen, primero tenemos que entender qué son las imágenes y cómo se almacenan en las computadoras.

UNA píxel es un solo punto de un color particular. Un imagen Es esencialmente una colección de píxeles. Cuantos más píxeles haya en una imagen, mayor será su resolución. Una computadora no sabe que la imagen de una señal es realmente una señal, solo sabe que el primer píxel es de este color, el siguiente píxel es ese color y muestra todos sus píxeles para que los vea..

Esto significa que el texto y el no texto no son diferentes a una computadora, y es por eso que el reconocimiento óptico de caracteres es tan difícil. Con eso en mente, así es como funciona.

Paso 1: preprocesamiento de la imagen

Antes de que se pueda extraer el texto, la imagen debe masajearse de ciertas maneras para que la extracción sea más fácil y más probable que tenga éxito. Esto se llama preprocesamiento, y las diferentes soluciones de software utilizan diferentes combinaciones de técnicas..

Las técnicas de preprocesamiento más comunes incluyen:

Binarización
Cada píxel de la imagen se convierte en blanco o negro. El objetivo es dejar en claro qué píxeles pertenecen al texto y qué píxeles pertenecen al fondo, lo que acelera el proceso real de OCR.

Torcer
Dado que los documentos rara vez se escanean con una alineación perfecta, los caracteres pueden terminar inclinados o incluso al revés. El objetivo aquí es identificar líneas de texto horizontales y luego rotar la imagen para que esas líneas sean realmente horizontales.

Despeckle
Ya sea que la imagen haya sido binarizada o no, puede haber ruido que pueda interferir con la identificación de los caracteres. Despeckling elimina ese ruido e intenta suavizar la imagen..

Remoción de línea
Identifica todas las líneas y marcas que probablemente no sean caracteres, luego las elimina para que el proceso de OCR real no se confunda. Es especialmente importante al escanear documentos con tablas y cajas.

Zonificación
Separa la imagen en distintos fragmentos de texto, como identificar columnas en documentos de varias columnas..

Crédito de la imagen: WayneRay / Wikimedia

Paso 2: Procesando la imagen

Lo primero es lo primero, el proceso OCR intenta establecer la línea base para cada línea de texto en la imagen (o si se dividió en zonas en el preprocesamiento, funcionará a través de cada zona de una en una). Cada línea de caracteres identificada se maneja una por una.

Para cada línea de caracteres, el software OCR identifica el espacio entre caracteres al buscar líneas verticales de píxeles que no son de texto (lo que debería ser obvio con la binarización adecuada). Cada fragmento de píxeles entre estas líneas que no son de texto se marca como un “simbólico” eso representa un personaje. Por lo tanto, este paso se llama tokenización.

Una vez que todos los caracteres potenciales de la imagen se tokenizan, el software OCR puede usar dos técnicas diferentes para identificar qué caracteres son en realidad esos tokens:

Reconocimiento de patrones
Cada ficha se compara píxel a píxel con un conjunto completo de glifos conocidos, incluidos números, signos de puntuación y otros símbolos especiales, y se elige la coincidencia más cercana. Esta técnica también se conoce como matriz de correspondencia.

Hay varios inconvenientes aquí. Primero, las fichas y los glifos deben ser de un tamaño similar o, de lo contrario, ninguno de ellos coincidirá. En segundo lugar, los tokens deben estar en una fuente similar a los glifos, lo que descarta la escritura a mano. Pero si se conoce la fuente del token, el reconocimiento de patrones puede ser rápido y preciso.

Extracción de características
Cada ficha se compara con diferentes reglas que describen qué tipo de personaje podría ser. Por ejemplo, es probable que dos líneas verticales de igual altura conectadas por una sola línea horizontal sean H mayúscula.

Esta técnica es útil porque no se limita a ciertas fuentes o tamaños. También puede ser más matizado al reconocer las sutiles diferencias entre una I mayúscula, una L minúscula y el número 1. ¿La desventaja? Programar las reglas es mucho más complejo que simplemente comparar los píxeles en un token con los píxeles en un glifo.

Paso 3: procesamiento posterior de la imagen

Una vez que finaliza toda la coincidencia de tokens, el software OCR podría simplemente llamarlo un día y presentarle los resultados. Pero, por lo general, se debe hacer un poco más de falsificación para asegurarse de no poner los ojos en blanco ante los resultados incoherentes.

Restricción léxica
Todas las palabras se comparan con un léxico de palabras aprobadas, y las que no coinciden se reemplazan con la palabra más adecuada. Un diccionario es un ejemplo de un léxico. Esto puede ayudar a corregir palabras con caracteres erróneos, como “espina” en vez de “th0rn”.

Optimizaciones específicas de la aplicación
Cuando el OCR se usa en entornos específicos, como documentos médicos o legales, se puede usar un tipo especial de OCR especialmente diseñado para ese entorno. En estos casos, el software OCR puede buscar ecuaciones matemáticas, términos específicos de la industria, etc..

Lenguaje natural
Esta técnica avanzada corrige oraciones mediante el uso de un modelo de lenguaje que describe la probabilidad de que ciertas palabras sean seguidas por otras palabras. Es similar a la tecnología que predice qué palabra desea escribir a continuación en un teclado móvil.

Cuando se hace bien, esto puede dar como resultado un texto notablemente legible.

Herramientas de reconocimiento óptico de caracteres recomendadas

Ahora que sabe cómo funciona OCR, debería ser fácil ver que no todas las herramientas de OCR son iguales. La precisión de sus resultados dependerá en gran medida de qué tan bien el software implemente las diversas técnicas de OCR discutidas en este artículo..

Recomendamos OneNote para esto, que es solo una de las razones por las que supera a Evernote por tomar notas Evernote vs. OneNote: ¿Qué aplicación de toma de notas es la adecuada para usted? Evernote vs. OneNote: ¿Qué aplicación para tomar notas es la adecuada para usted? Evernote y OneNote son increíbles aplicaciones para tomar notas. Es difícil elegir entre los dos. Comparamos todo, desde la interfaz hasta la organización de notas para ayudarlo a elegir. Que funciona mejor para usted? . Si está dispuesto a pagar por una solución premium, considere OmniPage. Vea nuestra comparación de OneNote vs. OmniPage para OCR Software de OCR gratuito versus pago: Microsoft OneNote y Nuance OmniPage Comparado Software de OCR gratuito versus pago: El software de escáner OCR Microsoft OneNote y Nuance OmniPage Compared le permite convertir texto en imágenes o PDF en texto editable documentos. ¿Es una herramienta OCR gratuita como OneNote lo suficientemente buena? ¡Vamos a averiguar! . Para documentos móviles, querrá consultar estas aplicaciones de OCR para dispositivos Android. 6 Las mejores aplicaciones de Android OCR para extraer texto de imágenes 6 Las mejores aplicaciones de Android OCR para extraer texto de imágenes ¿Necesita digitalizar cualquier texto impreso para poder mantener un copia suave de la misma? Si es así, todo lo que necesita es una herramienta de reconocimiento óptico de caracteres (OCR). .

¿Cómo se usa OCR? ¿Tiene alguna herramienta de OCR favorita que no mencionamos? Háganos saber en los comentarios a continuación!