jueves, 26 de febrero de 2009

Tip: Como extraer los caracteres de un archivo pdf

Les dejo este tipo acerca de como extraer los caracteres de un archivo pdf.

import com.lowagie.text.pdf.PRTokeniser;
import com.lowagie.text.pdf.PdfReader;
import java.io.InputStream;
...
InputStream stream = ...;
PdfReader pdfReader = new PdfReader(stream);
try{
int numberOfPages = pdfReader.getNumberOfPages();
for(int page = 1; page <= numberOfPages; page++){
PRTokeniser tokeniser = new PRTokeniser(pdfReader.getPageContent(page));
while(tokeniser.nextToken()){
if (tokeniser.getTokenType() == PRTokeniser.TK_STRING) {
System.out.println("Pagina: " + page);
System.out.println("Parrafo: " + tokeniser.getStringValue());
System.out.println("---------------------------------------");
}
}
}
}finally{
pdfReader.close();
}

No hay comentarios:

Publicar un comentario