Mit PHP Text aus einer PDF-Datei auslesen

Flo<H> · 10. Oktober 2008

Hallo!
Ich weiß dass dieses Thema schon ein paar mal hier im Forum war, nur gab es dazu nie eine Lösung.
Es geht darum Text aus einer PDF-Datei auszulesen damit ich diesen anschließend weiterverarbeiten kann. Ich habe im Netz verschiedene Ansätze (z.B. hier) gefunden, die bei mir (bisher) leider nicht funktionieren.
Die PDF's die ich bearbeiten muss beginnen wie folgt:

Code:

%PDF-1.3
%ª«¬
4 0 obj
<< /Type /Info
/Producer (null) >>
endobj
5 0 obj
<< /Length 3030 /Filter /FlateDecode
 >>
stream

Anschließend kommt der Inhalt, welcher wohl FlateDecode komprimiert ist. Irgendwo habe ich gelesen dass man diesen mit gzuncompress dekomprimieren kann, ich erhalte dabei jedoch kein Ergebnis.

Also vielleicht hat ja jemand mittlerweile eine Lösung, ansonsten bleibt mir nur der Umweg über einen anderen Server, wo ich das PDF erstmal per Systemcall in eine HTML-Datei umwandle...

mfg flo

[EDIT]
Also ich habe jetzt noch weiter mit den Programm von obigen Link rumexperimentiert.
Hatte leider vergessen mir Fehler nicht nur im Log auszugeben sondern auch anzuzeigen. Nachdem ich das geändert hatte habe ich folgende Fehlermeldung erhalten:

Code:

Warning: gzuncompress() [function.gzuncompress]: data error in /home/knogi/public_html/phptest/pdfreader.php on line 58

Also dafür eine Lösung gesucht und folgendes gefunden:

Code:

function gzuncompress_crc32($data) 
{	
	$f = tempnam('/tmp', 'gz_fix');
	//
	file_put_contents($f, "\x1f\x8b\x08\x00\x00\x00\x00\x00" . $data);
	echo "f".$f."<br />";
	$t = file_get_contents('compress.zlib://' . $f);
	echo $t;
	return file_get_contents('compress.zlib://' . $f);
}

Jetzt läuft es ohne Fehler durch, aber angezeigt wird trotzdem nichts.
Ich habe versucht das temp-File das dabei erstellt wird zu entpacken, es wurde zwar richtig als gzip erkannt aber beim Entpacken gab es eine Fehlermeldung:

[knogi@tux Desktop]$ gzip -d gz_fixhSkKXx
gzip: gz_fixhSkKXx: unknown suffix -- ignored

[/EDIT]

Mit PHP Text aus einer PDF-Datei auslesen

Flo<H>

Erfahrenes Mitglied

Neue Beiträge