Tutorial

C贸mo escanear documentos en Linux

Un tutorial paso a paso para ver c贸mo escanear documentos y pasarlos a texto

En oficinas se pueden encontrar equipos llamados scanners, aparatos que sirven para escanear documentos, su contenido en papel, y pasarlo a un formato electr贸nico.

Tambi茅n podemos encontrar este aparato para escanear documentos en las impresoras multifunci贸n. Si es as铆 simplemente podemos poner el documento que queremos escanear y seguimos las instrucciones del equipo escaner que estemos usando (eso var铆a dependiendo de la marca y tipo de fabricante).

Pero si no tenemos ese tipo de equipo, podemos usar nuestro tel茅fono m贸vil o tablet, incluso una c谩mara de fotos o la webcam.

驴C贸mo hacemos eso?

Bastar谩 con que pongamos el documento sobre una mesa, abramos la c谩mara del m贸vil y tomemos una foto lo m谩s n铆tida posible del documento. Guardamos la foto y la transferimos a nuestro ordenador.

El resultado va a ser un archivo de imagen. Ahora lo que queremos es poder extraer el texto que contiene esa imagen. Es decir el contenido del documento original.

Para esto vamos a echar mano de un software en Linux que nos permiten escanear documentos a trav茅s de un reconocimiento de texto.

La primer aplicaci贸n es gscan2pdf. Esta abre el documento en formato imagen y lo convierte al formato PDF que luego podemos leer usando alguna de las sugerencias que mostramos en el art铆culo: 芦5 excelentes aplicaciones para leer libros electr贸nicos en Ubuntu禄.

Para instalar gscan2pdf vamos a abrir una terminal y en ella escribiremos el siguiente comando:

sudo apt install gscan2pdf

Dependiendo de la distro de Linux que tengamos puede pesar m谩s o menos MB. En el caso de KDE Neon el software (unos 239 MB) se instala con muchas dependencias necesarias para trabajar sin preocuparnos por nada m谩s.

Lo segundo que necesitamos instalar es el controlador de reconocimiento de textos en espa帽ol. Para esto vamos a escribir en la terminal:

sudo apt install tesseract-ocr-spa

Bien ya estamos equipados para comenzar con la tarea de escanear documentos en Linux.

Para el ejemplo, tom茅 una foto de una p谩gina de un libro. El texto est谩 en espa帽ol. La transfer铆 a mi laptop y ahora vamos a ver c贸mo extraer el texto de la imagen.

Abrimos gscan2pdf y usamos la opci贸n para abrir la imagen, como se ve aqu铆:

Una vez que el software nos muestra en pantalla la imagen seleccionada, ahora tenemos que indicarle que queremos extraer el texto. Para esto vamos al men煤 superior, elegimos 芦Tools禄, y en el desplegable haremos clic en 芦OCR禄.

Tenemos que esperar unos segundos (esto depende de la cantidad de im谩genes que hayamos abierto). A continuaci贸n tenemos que hacer clic en la pesta帽a 芦OCR Output禄, y all铆 vamos a tener disponible una presentaci贸n del texto capturado del documento.

Gscan2pdf nos permite corregir ese texto si vemos que hay algo que no est谩 correctamente escrito. Para eso haremos clic en la(s) palabra(s) que deseemos corregir, y escribimos el texto correcto.

驴Estamos satisfechos con el resultado? Entonces podemos guardar el archivo en el formato que necesitemos. Los dos m谩s comunes son: PDF y TXT (entre otros tantos).

Hay otras opciones para realizar escaneo de documentos y pasarlos a texto. Pero lo bueno de Gscan2pdf es que est谩 disponible en casi la totalidad de las distribuciones de Linux.

Esta web utiliza cookies propias con finalidad funcional y de terceros para realizar el an谩lisis de la navegaci贸n de los usuarios, mejorar mis servicios y mostrarte publicidad relacionada con tus preferencias mediante el an谩lisis de tus h谩bitos de navegaci贸n. Si contin煤a navegando, se considera que acepta su uso.

Leer m谩s