Hace un tiempo hablamos de la utilidad OCR de google:
http://algunostutoriales.blogspot.com/2009/10/ocr-en-google-docs.html
Pues he encontrado en:
http://sliceoflinux.com/2010/06/08/pdfocr-reconocimiento-de-caracteres-para-archivos-pdf/
una utilidad para Linux llamada pdfocr que toma un archivo pdf compuesto por imágenes (de las que no podríamos marcar texto) y genera un nuevo archivo pdf en el que ha añadido una capa de texto que podemos seleccionar. De esta forma, si lo imprimimos, lo veremos idéntico al original, pero si quisiéramos marcar el texto que hay representado en las imágenes incluidas en el pdf, podremos hacerlo sin problemas.
martes, 8 de junio de 2010
Suscribirse a:
Enviar comentarios (Atom)
No hay comentarios:
Publicar un comentario