# Links einer Website durchsuchen



## Romeo-G (19. März 2005)

Hallo,
wenn ihr den Film "40 Tage 40 Nächte" kennt, dann wisst ihr was ich im kleinen programmieren will. Es geht darum ein Programm zu schreiben, dass Websites aufruft und die links auf der Site nach bestimmten Mustern analysiert.

Wenn da also z.B. in einem link "Kinderporno" etc. steht dann soll ne Meldung gemacht werden. 

Mit Javascript habe ich ne Linksuche mal gemacht, was ja mit "document.links" sehr einfach geht aber wie geht das in Java?
Also nochmal zusammengefasst.

Wie ruft man mit Java eine Website auf und durchsucht diese nach Links?

Danke
Romeo-G


----------



## masmin (21. März 2005)

weiß das hier wirklich niemand? mich würde das nämlich auch mal interessieren. Mit StringTokenizer wäre das Ganze doch ziemlich umständlich, oder?


----------



## Thomas Darimont (21. März 2005)

Hallo!

http://java.sun.com/developer/technicalArticles/ThirdParty/WebCrawler/
http://java-source.net/open-source/crawlers/java-web-crawler
http://www.robotstxt.org/wc/active/html/JBot.html

Gruß Tom


----------



## masmin (21. März 2005)

cool, danke Tom. Da wird bestimmt was dabei sein...


----------



## torsch2711 (23. März 2005)

Hmm prinzipiell würde ich folgendes vorschlagen:

 Du holst dir die webseite in nem Stream und analysierst jede Codezeile.
 Sprich du wirst um regular expressions nicht herum kommen. Sprich du gibst ein Suchmuster vor und lässt es dann auswerten.

 Viel Spass dabei. Ne idee hätte ich schon wie das funktioniert aber wie Tom es ja gepostet hat, gibt es solche Sourcen ja schon.


 Gruss
 Torsten


----------



## lockenator (7. November 2007)

Hi,

die Sache mit den Link-Suche ist so eine Sache  Na klar kann ich die URL öffnen und den Content einlesen- so z.B. bei "http://www.web.de"

Allerdings geht das auch u. U., wenn ich  "http://www.435435435web.de" benutzem,

z.B. wenn ich über einen openDNS auflösen lasse. Vermutlich kann man da nicht viel machen, oder habe ich da was übersehen ?

Viele Grüße

Jan


----------

