URLs per Bot spidern

Ruediger

Erfahrenes Mitglied
Morgen zusammen,

ich habe folgendes Skript, das den Inhalt verschiedener Dateien im Netz (meist CSV oder TXT) spidert.

PHP:
$datei = file("http://domain.de/text.txt");
$datei = implode("", $datei);
$datei = explode("\n", $datei);

Das klappt auch alles wunderbar. Allerdings habe ich in folgenden Fällen Probleme, vielleicht kann mir jemand erklären, wie ich das fixen kann.

1.) *.txt.gz - Datei. Wenn ich die auslese erhalte ich nur kryptische Zeichen?!?!?

2.) Datei der per htaccess geschützt ist. Kann ich in mein Skript user und passwort irgendwie angeben?

3.) *.zip Dateien. Kann ich die Datei temporär irgendwo entpacken und dann auslesen lassen?

Übrigens werden alle Dateien von einem Bot in einem Cronjob gespidert.

Vielen Dank für die Hilfe.

Gruß
Rue
 
zu
1) die dateien sind gepackt - entpacken
auf stdout so: gunzip -c dateiname
2) username:password@www.domain.de
3) unzip -c dateiname auch ausgabe auf stdout
 
Hi Melmager,

sorry, dass ich mich jetzt erst melde.

ich kapiere die Anwendung von stdout nicht ganz. Kannst Du mir dazu ein kurzes Beispiel posten?

Ich möchte eine gz oder eine zip Datei entpacken.


danke dir
rue
 
Zurück