Nachdem du ja nur die Zieladresse brauchst musst du nur den fett markierten Teil vom Link auslesen: <a href="
zieladresse" sonstwas>...</a>
Du suchst also nach dem <a>-Tag, dann innerhalb nach "href=" und was dann zwischen den Hochkommata steht ist die Zieladresse (Anfang und Abschluss sind Hochkommata).
Sozusagen ein kleiner HTML-Parser.
Wenn du z.B. nur Textdateien suchst könntest du dann die gefundene Zieladresse auf ".txt" am Ende prüfen.
Mögliche Protokollangaben für Adressen:
http für Internetseiten
ftp für FTP
mailto für E-Mail Links
gibt noch ne Reihe anderer
Nach diesen Angabenb zu suchen ist allerdings nicht immer Möglich da es auch relative Pfadangaben gibt und das Protokoll manchmal weggelassen werden kann (
http://www.seite.de oder
http://www.seite.de verweisen auf das selbe Ziel).
Beispiel:
Angabe der vollständigen Adresse:
<a href="www.meineseite.de/meinordner/meineunterordner/meinedatei"></a>
Wenn die HTML-Datei die diesen Link enthält aber in "meinordner" liegt würde auch folgendes reichen:
<a href="meineunterordner/meinedatei"></a>
Damit kannast du nicht mehr nach www oder http suchen.
siehe auch
HTML Referenz (Selfhtml)
//Edit:
Gerade verstanden das du mit "Internet-Link" in Textdateien einfach Adressangaben meinst.
Da solltest du nach bestimmten Mustern suchen:
Was mit
http:// oder einem der anderen Protokolle anfängt ist schon mal vielversprechend.
www ist zwar in vielen Adressen enthalten aber nicht zwingend notwendig.
Ein für die Suche geeignetes Muster wäre z.B.
Subdomain.Domain.Kürzel
optional dann noch mit "/" als Trennzeichen angehängte Verzeichnisse und Dateien.
Beispiele für gültige Adressen:
http://seite.de
http://www.seite.de/datei.html
bla.seite.de
http://www.seite.info
...
Einen eindeutigen Abschluss für solche Adressen gibt es nicht, da am Ende z.B. ein .de oder ein /datei.bla oder so stehen kann.