Seiteninhalt crawlen und in Array schreiben

DerUnsympath

Mitglied
Hallo Leute,

ich habe ein kleines Ideenproblem: Ich möchte gerne nach Eingabe einer URL in ein Eingabefeld diese Seite durchsuchen bzw. alle dort vorhandenen Wörter crawlen und in einen Array schreiben. Leider fehlt mir da gerade jedweder theoretische Ansatz, wie ich das mit PHP bewerkstelligen könnte. :(

Würde mich daher freuen, wenn ihr mir da helfen könntet. :)

Gruß
 
Welchen Typs ist denn die Ressource und was genau verstehst du in diesem Zusammenhang den Begriff Wörter? Und was hast du damit überhaupt vor?
 
Hallo,
ich will mit PHP einfach nur den Text, der auf einer bestimmten Internet-Seite steht formatierungslos auslesen (im Grunde wie eine Suma). Steht auf einer Seite zum Beispiel
Welchen Typs ist denn die Ressource und was genau verstehst du in diesem Zusammenhang den Begriff Wörter? Und was hast du damit überhaupt vor?
so soll er all diese Wörter erfassen und in einen Array schreiben. ;)

Im Grunde wie dieses Tool, nur der Hintergrund ist ein anderer.

Gruß
 
Dumme Frage, aber gibt der von dir angegebene Link nicht schon genug "theoretische Ansätze"? Ist doch wunderbar bebildert, welche Informationen du wo raussaugen könntest (mit regulären Ausdrücken z.B.). Und den String, den du dann erhältst, mit explode() in einem Array zu verpacken, ist dann auch nicht mehr so wild.
 
Also mit file_get_contents() kannst du den Inhalt einer beliebingen Datei (auch auf anderen Servern) als Text bekommen. Jetzt brauchst du eingetlich nurnoch mit match() arbeiten und vielleicht die Tags vorher strippen. Ich versehen auch nicht, was daran so schwer ist.
 
file_get_contents() funktioniert aber auch nur mit URLs wenn allow_url_fopen=on ist.
Damit das Script portabel bleibt sollte also fsockopen() genutzt werden, ansonsten kann man bei einem Server-Umzug unter Umstaenden ploetzlich ganz bloed aus der Waesche gucken. :-)
Die meisten Hoster lassen ja fsockopen() zu, aber die Zahl derer bei denen allow_url_fopen=on ist ist wahrscheinlich (und hoffentlich) weitaus geringer.
 
Dennis Wronka hat gesagt.:
file_get_contents() funktioniert aber auch nur mit URLs wenn allow_url_fopen=on ist.
Damit das Script portabel bleibt sollte also fsockopen() genutzt werden, ansonsten kann man bei einem Server-Umzug unter Umstaenden ploetzlich ganz bloed aus der Waesche gucken. :-)
Die meisten Hoster lassen ja fsockopen() zu, aber die Zahl derer bei denen allow_url_fopen=on ist ist wahrscheinlich (und hoffentlich) weitaus geringer.
Danke für deinen Hinweis.

Für meine Zwecke da mein Hoster dies aktiviert hat und da dies nur temporär gebraucht wird, macht file_get_contents() (Dank an con-f-use) aber genau das was es soll und verrichtet gute Dienste.

Ich bedanke mich! :)

Gruß
 
Zurück