hallo.
Allgemein versuche ich alle Wörter, Überschrifften und Links aus einer HTML-Datei zu extrairen und mit Links
HTML:
zu versehen.
um die aufgebe zu erleichtern habe ich HTMLeditorKit.Parser+Callback dazu verwendet den Text und die Position zu bestimmen.
Problem 1:
der Parser macht aus dem text:
Zitat:
folgendes:
Zitat:
leider kann ich <HTML>Äpfel nicht im original wiederfinden und die anzahl der zeichen stimmt nicht mehr überein.
Problem 2:
in html (und xhml) sind folgende verschachtelungen erlaubt:
Zitat:
beides führt dazu dass der parser die Überschrifft und den Link in mehrere teile zerstückelt. was ich nachhinein sehr schlecht weiter verarbeiten kann.
hoffe jemand kann mir helfen.
Allgemein versuche ich alle Wörter, Überschrifften und Links aus einer HTML-Datei zu extrairen und mit Links
HTML:
HTML:
<a name="" id=""> word<a/>
um die aufgebe zu erleichtern habe ich HTMLeditorKit.Parser+Callback dazu verwendet den Text und die Position zu bestimmen.
Problem 1:
der Parser macht aus dem text:
Zitat:
HTML:
<HTML>Äpfel
folgendes:
Zitat:
HTML:
<HTML>Äpfel
leider kann ich <HTML>Äpfel nicht im original wiederfinden und die anzahl der zeichen stimmt nicht mehr überein.
Problem 2:
in html (und xhml) sind folgende verschachtelungen erlaubt:
Zitat:
HTML:
<h2> das <a href="">ist</a> eine Überschrift</h2>
<a href=""> das<br> ist<br> ein<br> link</a>
beides führt dazu dass der parser die Überschrifft und den Link in mehrere teile zerstückelt. was ich nachhinein sehr schlecht weiter verarbeiten kann.
hoffe jemand kann mir helfen.