Word Dokument einlesen - nicht COM

tobee

Erfahrenes Mitglied
Hallo,

ich bin gerade dabei mir eine kleine Klasse für einen Word Dokument Import zu schreiben. Wenn ich die Datei ausgeben lasse bekomme ich leider nur irgendwelche komische Zeichen
PHP:
var_dump(file("1.doc"));
Code:
"ÐÏࡱá????????????????>??þÿ ???????????????ˆ??????????Š??????þÿÿÿ????†???‡???ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿì¥Á?%` ??ø¿?????????????šd???bjbjNàNà???????????????????\l??,Š?,Š?î??????A??????????????????????ÿÿ?????????ÿÿ?????????ÿÿ?????????????????¤?????Ü??????Ü??Ü??????Ü??????,??????,??????,??$???????????P??????˜??????˜??????˜??P???è??d???L ??Ô???P??????‘:??j??,!??î???"??(???B"??????B"??????B"??????U#??8???#??$???±#?????Ô9?????Ö9??????Ö9??????Ö9??????Ö9??????Ö9??????Ö9??$???û;??h??c>??b???ú9??Q???????????????????,??????Å#??????????????????????Q#?????U#??????Å#??????Å#??????ú9??????????????Ü??????Ü??????B"??????????????B"????K:?????Ã&??????Ã&??????Ã&??????Å#??H??Ü??8???B"??????,??????B"??????Ô9??????????????Ã&??????????????????????????????????????????????????????Å#??????Ô9??????????????Ã&??????Ã&????? )??????????,??????????????????????????????????????????????????????????????ì)??????B"?????? !?????àEøýk“É????????˜?????? %??j???¸)??????????????8??Ô??a:??0???‘:??????À)??,???Å>??????w%??â???Å>?????ì)??????????????????????????????????????????????????????????????????????ì)?????Å>??????????????,???????*?????Å#??????Å#??????Ã&??????Å#??????Å#??????????????????????????????????????Å#??????Å#??????Å#??????ú9??????ú9??????????????????????????????????????Y&??j???????????????????????????????????Å#??????Å#??????Å#??????‘:??????Å#??????Å#??????Å#??????Å#??????????????P??????P??????P??¤ ??ô??¤??P??????P??????P??????ô??????P??????P??????P??????Ü??????Ü??????Ü??????Ü??????Ü??????Ü??????ÿÿÿÿ?????

Brauche ich dann noch die unpack Funktion?
Wenn ja, wie muss das Format heißen?

Und ja new COM("application.word") kenn ich.

Vielen Dank für Tipps und Tricks
 
Moin tobee,

so ein Word-Dokument ist ja keine ASCII-Datei, welche man so einfach ausliest.
Sofern das Dokument nicht mit einem neueren Word in dem MS-Word-XML-Standard erstellt wurde(wonach es in dem Beispiel nicht aussieht), wirst du da kaum etwas Sinnvolles auslesen können, befürchte ich.
 
Hi Sven,

Steht denn das ? denn nicht für ein Zeichen?
Oder ist das Fragezeichen durch eine Komprimierung enstanden?
 
Das, was du da öffnen willst, ist ein binäres Dateiformat...solche enthalten u.a. Steuerzeichen...welche man nicht darstellen kann.

Du öffnest ja auch nicht ein JPG in Notepad und erwartest, etwas Sinnvolles zu sehen...selbiges versuchst du aber mit dem .doc
 
Zuletzt bearbeitet:
Hi.

Word, Excel und sonstige Office-Dokumente werden im OLE2 (Container) Format gespeichert. Im Grunde ist das so aufgebaut wie ein Dateisystem (OpenOffice.org hat eine ganz gute Dokumentation dafür).

Der "echte" Text wird in einem Stream innerhalb der OLE Datei gespeichert. Das Format selbst ist allerdings ziemlich "strange" :)

Schau dir doch mal das PHP-OLE Paket an, das sollte solche Dateien lesen können.

Gruß
 
Zurück