Von HTML Datei Links und Text auslesen...

Darian

Erfahrenes Mitglied
Hallo Leute,

dieses Thread ist der Nachfolger von diesem Beitrag

Da es eine anderes Thema ist, dachte ich erstelle besser einen neuen Thread.

Ich versuche jetzt aus den ganzen HTML irgendwie die Links und den dazugehörigen Text auszulesen, und in eine Datenbank zu speichern. Dabei gibt es zwei Ebenen. (siehe Anhang)
Erste Ebene in eine Tabelle, und die Zweite Ebene (jeweils Link und Text) in die andere, und natürlich per Fremdschlüssel verknüpfen.

Habe jetzt probiert das ganze irgendwie mit xml zu machen, leider ist das überhaupt nicht xml fähig (zumindest sagt das das Validation Tool von w3c)

Wie würdet ihr das angehen, und die Sache auspasen, und mit einem Skript weiter machen. Das mit dem Kopieren in Excel habe ich schon probiert, hat aber nicht die nötigen Ergebnise erzielt.

Vielleicht würde es irgendwie gehen wenn ich jeden Abteilung der Tabelle einzeln mache, auch das wäre schon ein guter Fortschritt.

Hier nun noch ein Auszug von HTML:

HTML:
<?xml version="1.0"?>
      <table align="center" border="0" cellpadding="0" cellspacing="0" width="474">
            <tbody>
              <tr>
                <td bgcolor="#810702" valign="top"></td>
                <td width="443" height="8" valign="top" bgcolor="#810702"></td>
                <td rowspan="61" bgcolor="#810702" valign="top" width="13">&nbsp;</td>
              </tr>
              <tr>
                <td width="18" valign="top" bgcolor="#990000" class="Barras"><div class="style4" align="center"></div></td>
                <td valign="top"><p><span class="normal_text"><img src="bullet_large_format_site_01.jpg" height="11" width="14"><a href="http://www.large-format-printers.org/price_comparisons_UV-cured_roll-to-roll_reel-fed_wide-format_printers_reviews_banners_vinyl_signs/3M_Piezo_Ink_Jet_Ink_Series_2700UV_UV-curable_flexible_ink_vehicle_wrap_bus_wrap_Durst_Rho_160R.php" class="index_bold"> 3M flexible UV Tinte </a><br>
                  <img src="bullet_large_format_site_01.jpg" height="11" width="14"><a href="3Pinkjettextilesmedia/3Pinkjettextiles.htm" class="index">3P Tintenstrahltextilien </a></span><br>
                </p></td>
              </tr>
              <tr>
                <td height="8" bgcolor="#820803" class="Barras"></td>
                <td bgcolor="#810702" height="8"><div class="menu_principal" align="left"> </div></td>
              </tr>
              <tr>
                <td valign="top" bgcolor="#990000" class="Barras"><div align="center"><span class="style4">A<a name="A"></a></span></div></td>
                <td valign="top" class="normal_text"><p><img src="bullet_large_format_site_01.jpg" height="11" width="14"><span class="index"><a href="Center_for_Advanced_Imaging_CAI/Center_for_AdvancedImaging.html">Advance Imaging</a> <br>
                    </span><img src="bullet_large_format_site_01.jpg" height="11" width="14"><span class="index_background">Agfa : </span><br>
                    <img src="bullet_large_format_site_03.png" height="11" width="50"><a href="/UVflatbedprinterreviewsratingscomparativepriceevaluations/Agfa_Anapurna_100_Mutoh_Cobra_100W_UVcuredinkflatbed.htm" class="index"> Anapurna 100 (<strong>der originale </strong>, FESPA 2005, gemacht von Mutoh)</a><br>
                    <img src="bullet_large_format_site_03.png" height="11" width="50"><a href="http://www.large-format-printers.org/UV-curable_flatbed_roll-fed_hybrid_combo_wide-format_inkjet_printer_reviews_prices_comparisons/Agfa-Anapurna-100uv-printer-reviews_compare-prices_vinyl-signage-POP-POS-banners.php" class="index_bold">Anapurna XLS, Ersatz f&uuml;r den alten Anapurna 100</a><br>
                    <img src="bullet_large_format_site_03.png" height="11" width="50"><span class="index"><a href="Mutoh_large_format_inketprinter/Mutoh_large_format_printer.html" class="index">AGFA</a> (OEM von Mutoh)</span><br>
                    <img src="bullet_large_format_site_03.png" height="11" width="50"><a href="/UV-curable_flatbed_roll-fed_hybrid_combo_wide-format_inkjet_printer_reviews_prices_comparisons/Agfa_Anapurna_M_UV-cured_combination_flatbed_printer_reviews.php" class="index_bold">Agfa :Anapurna M UV-h&auml;rtender Flachbett </a><br>
                    <img src="bullet_large_format_site_03.png" height="11" width="50"><a href="UV-curable_flatbedprinterreviewsratingscomparativepriceevaluatio/Agfa_Anapurna_X_XL_UV-curable_inkjet_printers.php" class="index_bold">Anapurna X and XL</a><br>
                    <img src="bullet_large_format_site_03.png" height="11" width="50"><a href="http://www.large-format-printers.org/UV-curable_flatbed_roll-fed_hybrid_combo_wide-format_inkjet_printer_reviews_prices_comparisons/Agfa-Anapurna-XLS_fast-high-speed-high-resolution_price-comparisons_signage_foamcore_vinyl.php" class="index_bold">Agfa :Anapurna XLS</a><br>
                    <img src="bullet_large_format_site_03.png" height="11" width="50"><a href="UVflatbedprinterreviewsratingscomparativepriceevaluations/AgfaDotrixlabelprinter.htm" class="index">Dotrix label Drucker </a><br>
                    <img src="bullet_large_format_site_03.png" height="11" width="50"><span class="index_bold"><a href="http://www.large-format-printers.org/eco-solvent_bio-solvent_mild-solvent_lite-solvent_low-solvent_solvent-based_wide-format_inkjet_printers_outdoor_vinyl_reviews/evaluations_tests_reviews_compare_price_comparisons_ratings_Agfa_Grand_Sherpa_Universal_AM.php" class="style72">Grand Sherpa Eco-Solvent Drucker </a></span><a href="http://www.large-format-printers.org/eco-solvent_bio-solvent_mild-solvent_lite-solvent_low-solvent_solvent-based_wide-format_inkjet_printers_outdoor_vinyl_reviews/evaluations_tests_reviews_compare_price_comparisons_ratings_Agfa_Grand_Sherpa_Universal_AM.php" class="style72"><br>

Ich hoffe dass mir hier jemand helfen kann, und ich bei diesem Problem weiter komme. :-)

mfg aus Guatemala
Darian
 

Anhänge

  • bild.jpg
    bild.jpg
    24,6 KB · Aufrufe: 8
Zuletzt bearbeitet:
Hallo Darian,

ich bin gerade an einer ähnlichen Sache dran. Ich versuche Text aus einem HTML-Quellcode zu lesen. Klappt auch, nur wird bei mir bereits am nächsten HTML-Tag die Suche beendet, obwohl ich ein anderes Ende definiert habe. Mein Beitrag ist zwei Stunden jünger und findest du unter "Quellcode von externen Webseiten auslesen". Vielleicht kannst Du etwas mit dem Code anfangen, bei mir funktioniert er einwandfrei, bis auf die beschriebene Einschränkung.
Gruß nach Guatemala.

mfg
Julia
 
Hallo,

also ich würde mal sagen er hat mich schon inspiriert, und so sehe ich wieder ein Licht am Ende des Tunnels. Muss das Morgen in der Arbeit mal gleich probieren, ob das vielleicht eine Möglichkeit wäre.

Meine Gefühl ist gut, und denke das könnte was werden.

Jedenfalls erst einmal danke für die Infos.

lg Darian
 
Zurück