Parantatatam
mag Cookies & Kekse
Hallo Tutorianer,
ich bastle gerade an einem Webcrawler, der in der Lage sein soll von duden.de Wörter auszulesen. Dazu wird versucht solange ein Wort zu generieren bis die Suchanfrage fehlschlägt (0 Suchtreffer). Problem dabei ist, dass ich auch die Umlaute ä, ö und ü brauche. Dabei unterscheidet duden.de zwischen kodierten (%FC) und unkodierten (ü) Umlauten. Ich brauche letzteres. Das Problem ist, wenn ich ersteres nehme, dann sieht er es quasi als leeres Zeichen an und sucht dann nur noch dem, was davor kam. Nehme ich letzteres, dann scheint er es auch zu kodieren, da dabei auch gleiches passiert. Gibt es eine Möglichkeit das Ganze unkodiert mit file_get_contents zu senden?
Beispiel:
Er findet das Wort aad und sucht deshalb nach Wörtern, die mit aad anfangen und danach weitere Buchstaben haben. Deshalb sieht das, was er findet, so aus:
Das Ganze verläuft sich also in einer endlosen Zeichenkette. Er kürzt die Kette leider erst, wenn er als letzen Buchstaben ein ü hat und dafür keine Suchtreffer bekommt. Ich brauche also wirklich die Umlaute ä, ö und ü unkodiert.
ich bastle gerade an einem Webcrawler, der in der Lage sein soll von duden.de Wörter auszulesen. Dazu wird versucht solange ein Wort zu generieren bis die Suchanfrage fehlschlägt (0 Suchtreffer). Problem dabei ist, dass ich auch die Umlaute ä, ö und ü brauche. Dabei unterscheidet duden.de zwischen kodierten (%FC) und unkodierten (ü) Umlauten. Ich brauche letzteres. Das Problem ist, wenn ich ersteres nehme, dann sieht er es quasi als leeres Zeichen an und sucht dann nur noch dem, was davor kam. Nehme ich letzteres, dann scheint er es auch zu kodieren, da dabei auch gleiches passiert. Gibt es eine Möglichkeit das Ganze unkodiert mit file_get_contents zu senden?
Beispiel:
Er findet das Wort aad und sucht deshalb nach Wörtern, die mit aad anfangen und danach weitere Buchstaben haben. Deshalb sieht das, was er findet, so aus:
Code:
a
aa
aad
aadä (aad?)
aadäa (aad?a)
aadäan (aad?an)
aadäand (aad?and)
aadäandä (und ab hier immer wieder die Folge äand)