PDFs auswerten?

BeaTBoxX

Erfahrenes Mitglied
Hiho zusammen,

an mich ist im Zuge eines Projekts hier bei meinem Prakiktum der Wunsch herangetragen worden, per Script (php) PDF Dateien nach Stichwoertern zu druchsuchen. Ist sowas direkt mit Funktionen in PHP machbar? Ich hab mir mal die Referenz angesehen, aber es scheint da nur Funktionen zum Erstellen von PDFs zu geben.
Ich hab ein Kommandozeilentool gefunden, was aus PDFs HTML Seiten macht. Notfalls würde ich diesen Umweg gehen und EINmal alle pdfs in Klartext wandeln (sofern möglich) und dann diesen durchsuchen.
Aber evlt kann mir jemand von euch sagen, ob das auch einfacher geht?

Danke schonmal

Gruß
Frank

Btw: Kann mich bitte wer (am Rande) mal aufklaeren, was pdf genau fuer ein format ist? Dachte lange zeit, das waere eine Art Pixelgrafik. Aber dem is ja wohl nicht so.Kann man das irgendwie einordnen ? :D
 
PDF steht für (Adobe?) Portable Document File. Es handelt sich dabei, solange du vom reinen Text sprichst, um vektorbasierte Dateien zum Plattform unabhängigen Transfer von Dokumenten im Read-Only Modus.

Zum Auslesen fällt mir jetzt spontan auch nichts ein, es wird aber sicherlich irgendeine Möglichkeit geben.
 
Zurück