Ich habe diverse PDF-Dateien und möchte aus diesen den Text extrahieren und in einer Tabellenspalte einer Datenbank ablegen. Da die verfügbaren Libraries in php eine Stange Geld kosten, wollte ich das C-Programm pdftotext verwenden. Leider habe ich Probleme, dieses zu starten.
Wenn ich das Programm von Hand starte funktioniert es einwandfrei. Genau den selben Befehl gebe ich an exec() weiter. Dies ist der entsprechende Codeabschnitt:
Ausgabe:
Fehler: 99
Ret: Array
Wenn ich das Programm lokal per Hand starte, tu ich das so:
Funktioniert einwandfrei... Nur die Zahlencodes, die in $error stehen, verstehe ich nicht.
System: Windows XP
Wenn ich das Programm von Hand starte funktioniert es einwandfrei. Genau den selben Befehl gebe ich an exec() weiter. Dies ist der entsprechende Codeabschnitt:
PHP:
<?php
$file = $_SERVER['DOCUMENT_ROOT']."/test/pdftotext/Test.pdf";
$txtfile = $file.".txt";
$res = exec("\"".$_SERVER['DOCUMENT_ROOT']."/test/pdftotext/pdftotext\" -htmlmeta ".escapeshellarg($file)." ".escapeshellarg($txtfile), $ret, $error);
echo "Fehler: ".$error."<br>";
echo "Ret: ".$ret." <br>";
?>
Fehler: 99
Ret: Array
Wenn ich das Programm lokal per Hand starte, tu ich das so:
Code:
C:\>"d:/Apache Group/Apache2/htdocs/test/pdftotext/pdftotext" -htmlmeta "d:/Apache Group/Apache2/htdocs/test/pdftotext/Test.pdf" "d:/Apache Group/Apache2/htdocs/test/pdftotext/Test.pdf.txt"
System: Windows XP