antivirus
Óptima protección antivirus: Soluciones de seguridad en Internet de G Data para PC.

martes, 8 de junio de 2010

OCR directamente sobre un archivo PDF

Hace un tiempo hablamos de la utilidad OCR de google:
    http://algunostutoriales.blogspot.com/2009/10/ocr-en-google-docs.html

Pues he encontrado en:
    http://sliceoflinux.com/2010/06/08/pdfocr-reconocimiento-de-caracteres-para-archivos-pdf/
una utilidad para Linux llamada pdfocr que toma un archivo pdf compuesto por imágenes (de las que no podríamos marcar texto) y genera un nuevo archivo pdf en el que ha añadido una capa de texto que podemos seleccionar. De esta forma, si lo imprimimos, lo veremos idéntico al original, pero si quisiéramos marcar el texto que hay representado en las imágenes incluidas en el pdf, podremos hacerlo sin problemas.


No hay comentarios:

Publicar un comentario en la entrada