HTML Index generator ( Parser-Problem)

alex001

Grünschnabel
hallo.
Allgemein versuche ich alle Wörter, Überschrifften und Links aus einer HTML-Datei zu extrairen und mit Links
HTML:
HTML:
<a name="" id=""> word<a/>
zu versehen.

um die aufgebe zu erleichtern habe ich HTMLeditorKit.Parser+Callback dazu verwendet den Text und die Position zu bestimmen.

Problem 1:
der Parser macht aus dem text:
Zitat:
HTML:
&lt;HTML&gt;&Auml;pfel

folgendes:
Zitat:
HTML:
<HTML>Äpfel

leider kann ich <HTML>Äpfel nicht im original wiederfinden und die anzahl der zeichen stimmt nicht mehr überein.

Problem 2:
in html (und xhml) sind folgende verschachtelungen erlaubt:
Zitat:
HTML:
<h2> das <a href="">ist</a> eine Überschrift</h2>
<a href=""> das<br> ist<br> ein<br> link</a>


beides führt dazu dass der parser die Überschrifft und den Link in mehrere teile zerstückelt. was ich nachhinein sehr schlecht weiter verarbeiten kann.

hoffe jemand kann mir helfen.
 
Zurück