Tutorial

Cómo escanear documentos en Linux

Un tutorial paso a paso para ver cómo escanear documentos y pasarlos a texto

En oficinas se pueden encontrar equipos llamados scanners, aparatos que sirven para escanear documentos, su contenido en papel, y pasarlo a un formato electrónico.

escanear documentos Linux

También podemos encontrar este aparato para escanear documentos en las impresoras multifunción. Si es así simplemente podemos poner el documento que queremos escanear y seguimos las instrucciones del equipo escaner que estemos usando (eso varía dependiendo de la marca y tipo de fabricante).

Pero si no tenemos ese tipo de equipo, podemos usar nuestro teléfono móvil o tablet, incluso una cámara de fotos o la webcam.

¿Cómo hacemos eso?

Bastará con que pongamos el documento sobre una mesa, abramos la cámara del móvil y tomemos una foto lo más nítida posible del documento. Guardamos la foto y la transferimos a nuestro ordenador.

El resultado va a ser un archivo de imagen. Ahora lo que queremos es poder extraer el texto que contiene esa imagen. Es decir el contenido del documento original.

Para esto vamos a echar mano de un software en Linux que nos permiten escanear documentos a través de un reconocimiento de texto.

La primer aplicación es gscan2pdf. Esta abre el documento en formato imagen y lo convierte al formato PDF que luego podemos leer usando alguna de las sugerencias que mostramos en el artículo: «5 excelentes aplicaciones para leer libros electrónicos en Ubuntu».

Para instalar gscan2pdf vamos a abrir una terminal y en ella escribiremos el siguiente comando:

sudo apt install gscan2pdf

Dependiendo de la distro de Linux que tengamos puede pesar más o menos MB. En el caso de KDE Neon el software (unos 239 MB) se instala con muchas dependencias necesarias para trabajar sin preocuparnos por nada más.

Lo segundo que necesitamos instalar es el controlador de reconocimiento de textos en español. Para esto vamos a escribir en la terminal:

sudo apt install tesseract-ocr-spa

Bien ya estamos equipados para comenzar con la tarea de escanear documentos en Linux.

Para el ejemplo, tomé una foto de una página de un libro. El texto está en español. La transferí a mi laptop y ahora vamos a ver cómo extraer el texto de la imagen.

Abrimos gscan2pdf y usamos la opción para abrir la imagen, como se ve aquí:

Gscan2pdf software

Una vez que el software nos muestra en pantalla la imagen seleccionada, ahora tenemos que indicarle que queremos extraer el texto. Para esto vamos al menú superior, elegimos «Tools», y en el desplegable haremos clic en «OCR».

Tenemos que esperar unos segundos (esto depende de la cantidad de imágenes que hayamos abierto). A continuación tenemos que hacer clic en la pestaña «OCR Output», y allí vamos a tener disponible una presentación del texto capturado del documento.

Gscan2pdf ocr

Gscan2pdf nos permite corregir ese texto si vemos que hay algo que no está correctamente escrito. Para eso haremos clic en la(s) palabra(s) que deseemos corregir, y escribimos el texto correcto.

¿Estamos satisfechos con el resultado? Entonces podemos guardar el archivo en el formato que necesitemos. Los dos más comunes son: PDF y TXT (entre otros tantos).

Te recomendamos la lectura:  Cómo revisar los registros del sistema en Linux

Hay otras opciones para realizar escaneo de documentos y pasarlos a texto. Pero lo bueno de Gscan2pdf es que está disponible en casi la totalidad de las distribuciones de Linux.

Carlos Coria

Soy usuario de GNU/Linux desde el año 2000 cuando instalé por primera vez Debian. En 2004 recibí mi primer CD con Ubuntu 4.10 y desde allí esta es mi distro favorita.

Publicaciones relacionadas

Deja una respuesta

Los datos de carácter personal que nos facilite mediante este formulario quedarán registrados en un fichero de Miguel Ángel Navas Carrera, con la finalidad de gestionar los comentarios que realizas en este blog. La legitimación se realiza a través del consentimiento del interesado. Si no se acepta no podrás comentar en este blog. Puedes consultar mi política de privacidad. Puede ejercitar los derechos de acceso, rectificación, cancelación y oposición en [email protected].

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Acepto la política de privacidad *

Botón volver arriba