# Pdf Dateien mit Java lesen



## Thomas Darimont (5. April 2003)

Servus Leute!

Hab vor einiger Zeit das Problem gehabt, dass ich Pdf Dateien nach einer bestimmten Zeichenfolge durchsuchen musste...

Bsp.:
RechnungsNr: 893383838

das Ganze sollte in Java geschehen und möglichst nichts Kosten...
ich habe ne ganze Weile gesucht und auch einige kommerzielle Anbieter gefunden die aber leider alle nicht ganz umsonst waren (450$ - 900$) nur für die Lib, doch dann bin ich hieruf gestossen:

http://jrsvp.sourceforge.net/

ist soweit ich gesehen hab GPL und darf somit auch modifiziert werden...
Da es nur für den internen Gebrauch benutzt wird, muss ich mir nun auch keine Gedanken darüber machen, dass meine Software dadurch automtisch auch unter GPL gestellt wird...

Gruss Tom


----------



## axid (18. Juli 2005)

ich hab das posting von dir  mit dem auslesen in java gefunden und ich bräuchte das unbedingt 

kannst du mir vielleicht helfen warum es bei mir nicht geht?

also
der source:

	public void testMain(Object[] args) throws Exception
	{
		// UNERLEDIGTE AUFGABE: Code hier einfügen
		File f = new File("C:\\a.pdf");
		TextReader tr = new TextReader();
		//System.out.println(tr.canHandleType(f));		
		WordFieldVector wv = tr.read(f);

		String s = tr.read(f).getSentence(3);

		//String s1 = new String(s.getBytes("UTF16"), "ISO8859_1");

		System.out.println(tr.read(f).toString());
		System.out.println(s);
	}

ich bekomme immer einen kryptischen fehlercode, jedoch mit tr.canHandleType kommt true raus - also ist das pdf nicht defekt - oder 
würd mich echt auf eine antwort von dir freuen anbei so wies bei mir ausschaut:

http://www.narf.at/~axid/rational.PNG

p.s.: ned erschrecken rational ist das gleiche wie eclipse 3.0
danke


----------



## Thomas Darimont (18. Juli 2005)

Hallo!

 In den letzten 2 Jahren hat sich da eine ganze Menge getan:
http://schmidt.devlib.org/java/libraries-pdf.html

 Mit der PDFBox kann man beispielsweise so den textuellen Inhalt eines PDF Dokuments auslesen:

```
/**
  * 
  */
 package de.tutorials;
 
 import java.io.File;
 import java.io.FileInputStream;
 
 import org.pdfbox.pdfparser.PDFParser;
 import org.pdfbox.pdmodel.PDDocument;
 import org.pdfbox.util.PDFTextStripper;
 
 /**
  * @author Tom
  * 
  */
 public class PdfBoxExample {
 
 	/**
 	 * @param args
 	 */
 	public static void main(String[] args) throws Exception {
 		PDFParser parser = new PDFParser(new FileInputStream(new File(
 				"c:/jdi.pdf")));
 		parser.parse();
 		PDDocument doc = parser.getPDDocument();
 
 		PDFTextStripper stripper = new PDFTextStripper();
 		String textContent = stripper.getText(doc);
 		
 		System.out.println(textContent);
 		
 		doc.close();
 	}
 }
```
 
 Gruß Tom


----------



## torsch2711 (19. Juli 2005)

Hmm, schau ich mir mal bei gelegenheit an. Danke für den Tipp, hab bis jetzt immer nur mit iText gearbeitet um PDF dateien zu erstellen, verändern und auszulesen.

 Gruss,

 Torsten


----------

