Empfangene Internetseiten parsen

dot-paul

Grünschnabel
Hallo allerseits,

Ich möchte gerne eine Java-Applikation entwickeln, mit der ich empfangene Internetseiten parsen kann.

Diese Applikation soll beim Empfang einer neuen Website diese nach bestimmten Schlüsselwörtern durchsuchen.

Das parsen etc. ist kein Problem, nur wie komme ich an die Websites ran? Dazu hab ich leider nicht die geringste idee... Die Temporären Internetdateien Durchsuchen wäre zwar schon ein Anfang, aber diese jedesmal zu durchsuchen ist zu Zeitaufwändig...


Hat da vielleicht jemand einen Tipp?

mfg
--dot-paul
 
Zuletzt bearbeitet:
Such dir die HTTP-Klassen bei Java raus. Ein bischen Info über HTTP wäre auch nicht schlecht. Dann nur noch URL eingeben und dem Protokoll folgen.

http://en.wikipedia.org/wiki/HTTP

Da kannst du stöbern und findest alles wichtige. In der Java Api Doc gibt es Klassen die mit HTTP beginnen, das ist auch ein Anfang. In Java ist auch eine Insel (link fliegt irgendwo im Forum herum) ist auch ein Abschnitt über HTTP.
 
Danke für die schnellen Antworten.

Ich glaub ich hab mein Problem falsch beschrieben.

Die Internetseiten sollen nicht von der Java-Anwendung empfangen werden, sondern es sollen die empfangenen Seiten von einem Browser durchsucht werden.

Damit möchte ich von z.B. bei einem Online Katalog informationen sammeln und in eine Datenbank eintragen.

Wenn ich klicke, dann soll die Site im Browser ganz normal angezeigt werden, und das Programm soll sich praktisch gleichzeitig die Site vornehmen und verarbeiten.

Nur weiss ich nicht, wie ich eine Schnittstelle zum Browser basteln kann.
 
Dann musst du dich mit der Schnittstellen beschreibung deines Browsers auseinandersetzen. Nur so ein kleiner tipp. Und ausserdem war die Frage dann wirklich nicht 100% Eindeutig, noch nicht mal 50 %. Bitte demnächst besser auf den Punkt kommen.

Wie gesagt, schau dich bei deiner Browser Applikation um. z.B.: Mozilla bietet auch Mozilla bzw. Netscape eine API für so etwas.
 
Hi,

sorry, war mein Fehler...

Bin jetzt auf einen anderen Gedanken gekommen...

Hab einen neuen Thread aufgemacht. Müsste eigentlich auch über einen Proxyserver funktionieren, wenn ich die Sites parse, die über den Proxy "wandern"...
 
Zurück