02 septiembre 2013

Como extraer imágenes y textos de un fichero PDF

Los ficheros PDF (Portable DocumentFormat) son de uso diario para muchas personas. Son muy utilizados en informes, revistas, libros digitales y todo tipo de documentos que suelen estar en ese formato de Adobe. La aplicación lectora Adobe Acrobat Reader es gratuita y se puede instalar en computadoras, smartphones y tabletas, pero a menudo no basta con poder leerlos. Muchas veces lo que nos interesa es poder extraer ciertos datos como imágenes o texto e incluso tipos de letra. Existen diversas herramientas disponibles para poder extraer esta información. Estas herramientas están en forma de aplicaciones o de servicios en línea; muchas de ellas son gratis. Entre las herramientas gratuitas destaca especialmente ExtractPDF, porque es muy completo y no sólo sirve para extraer textos, tipos de letra e imágenes de ese formato de archivo, sino que además es posible extraer información adicional como los metadatos asociados.

ExtractPDF funciona por Internet. El usuario puede realizar la operación de dos maneras. La primera es subir el fichero PDF al sitio, y la segunda consiste en introducir la dirección de Internet (URL) de donde se encuentra alojado el archivo que desea tratar. La interfaz es muy simple y está disponible en dos idiomas: inglés y alemán. No hace falta registrase para utilizarlo, ni tampoco hace falta realizar ninguna clases de verificación por correo electrónico. El servicio no accede al contenido de los archivos subidos, y borran los ficheros después de terminar de procesarlos.

Si el usuario opta por subir el fichero, el tamaño máximo del PDF está limitado a 10 MB (megabytes). Una vez subido el PDF, el usuario debe hacer clic en el botón de “Enviar fichero”, después de muy poco tiempo obtiene los resultados. En la página que recoge los resultados del proceso hay cuatro apartados: imágenes, textos, fuentes y metadatos. El usuario sólo debe elegir la pestaña correspondiente para descargar los contenidos, por ejemplo, la de imágenes. Otra de sus ventajas es que las imágenes, los textos y demás se bajan comprimidos en ZIP, para que ocupen menos espacio y la operación tarde poco.

La herramienta ExtractPDF extrae las imágenes originales empleadas en el PDF. Sin embargo, ignora cualquier transformación posterior como las rotaciones o las inversiones de color. Con respecto a las fuentes, el servicio advierte que los tipos de letra extraídos son aquellos que figuran dentro del documento PDF original.

El servicio ExtractPDF es gratuito y no existe ninguna limitación respecto al número de ficheros que se pueden procesar al día.

Enlace al sitio de ExtractPDF:

http://www.extractpdf.com/

No hay comentarios:

Publicar un comentario