RegExp + Text nach URLs (href + src) durchsuchen

shorty

Erfahrenes Mitglied
Guten morgen,

ich bin gerade dabei ein Skript zu programmieren, welches mir anhand eines HTML-Codes aus einer bestehenden MySQL-Datenbank die einzelnen Verweise (Links oder Verweise zu Bildern) heraussucht und ausgibt.

Ich habe hierbei mit der Funktion preg_match_all() und einem regulären Ausdruck versucht oben Genanntes zu realisieren, scheitere jedoch am regulären Ausdruck.

mein regulärer Ausdruck sieht folgendermaßen aus:
Code:
"/\/[a-zA-Z0-9|.|\/|-|_]{1,}\/[a-zA-Z0-9|\/|_]{1,}\.[a-zA-Z0-9]{1,4}/"

Als Ausgabe erhalte ich:

PHP:
Array
(
    [0] => /00ordner/test/cms/upload/bild.gif
    [1] => /../test/00_datei.php // <-- Hier ist der Fehler: vor dem "/../" fehlen noch ".."
    [2] => /00ordner/test/website/cms/programm/datei.php
)

Hier ein kleiner Beispiel HTML-Code
HTML:
Latin words, consectetur, from a Lorem Ipsum passage <img style="margin: 0px;" width="185" height="118" title="" alt="" src="/00ordner/test/cms/upload/bild.gif" />,
and going through the cites of the word in classical literature, discovered the <a href="../../test/00_datei.php">undoubtable source</a>.
Lorem Ipsum comes from sections 1.10.32 and 1.10.33 of "de Finibus Bonorum et Malorum" (The Extremes of Good and Evil) by Cicero, written in 45 BC. <a href="/00ordner/test/website/cms/programm/datei.php">This book</a>
is a treatise on the theory of ethics, very popular during the Renaissance. The first line of Lorem Ipsum,
"Lorem ipsum dolor sit amet..", comes from a line in section

Hat jemand von euch eine Möglichkeit, wie ich absolute Pfade und relative Pfade mit einem regulären Ausdruck oder vllt. einer anderen Idee herausfiltern kann?

Danke schonmal im Voraus für jegliche Hilfe!
 
Zuletzt bearbeitet:
Zurück