PDF's via PHP durchsuchen

scanline

Erfahrenes Mitglied
Huhu,

ich suche eine Möglichkeit, PDF's, die auf dem Server abgelegt sind, zu durchsuchen.
Ich weiß, dass das auf Microsoft-Servern mit entsprechenden Features geht, da diese PDF's autom. indizieren, aber diese Lösung ist auch unbezahlbar.

Gibt es eine saubere Lösung via PHP, oder gar noch einen anderen Weg?

Gruß
Micha
 
Ich mache es mir da sehr einfach, ich nehme pdf2txt unter Linux und durchsuche dann das Textfile. Verraussetzung ist natürlich, das Du Zugriff auf dem Server hast und er unter Linux läuft.

Cu Major
 
...

danke für die schnelle Antwort erstmal.
- Eine Umstellung auf Linux wäre möglich
- was ist pdf2txt?
- gibt es in diesem Zusammmenhang die Möglichkeit, PDF's zu indizieren und diesen Index in eine DB zu spielen?

Es werden innerhalb kürzester Zeit tausende von PDF's hochgespielt, Innerhalb aller PDFS soll eine Suche möglich sein. Das macht dann das Indizieren erforderlich.

Gruß
Micha
 
pdftotext(so ist es richtig geschrieben) wandelt die PDF-Files in Textdateien um und das ziemlich gut und schnell und die kann man dann auch ziemlich einfach indizieren. Ich habe damals keine Möglichkeit gefunden, PDF's direkt zu indizieren.

Du kannst ja hier noch einmal nachschauen, ob es Dir was bringt:

http://www.adobe.com/support/techdocs/12b42.htm

Cu Major
 
Zurück