REGEX zum bereinigen von MS Word Tags ""

Andyx1975

Mitglied
Hallo,

ich habe ein Problem mit HTML Tags von Word...ich habe das Problem dass einige Tag Attribute in beliebig vielen Anführungszeichen oder '"' stehen können. Desweiteren kann die Anzahl und die Kombination aus Anfürungszeichen und '"' beliebig sein.

Muster Tag => border="1"
falscher Tag Beispiel 1 => border=""1"
falscher Tag Beispiel 2 => border=""1""
falscher Tag Beispiel 3 => border=""1"";


Ich suche jetzt eine Regex ausdruck der die '"' und anführungszeichen durch ein Anführungszeichen ersetzt. Kann jemand weiterhelfen?

Danke
Andy
 
Huhu,

ich kanns bei mir leider nicht testen, aber ich würde es so oder so ähnlich machen (Java String)

"(?<=border=.{0,50})[\"(&quot;)]{2,}"

Ich habe hier vorsichtshalber statt dem non-greedy operator .*? .{0,50} festgelegt, weil ich glaube, dass es ohne eine Maximallänge nicht compiliert wird.
 
Zuletzt bearbeitet:
moment mal ... MS Word und HTML .... WARUM BITTE ? ...
jetzt sag mir bitte nicht du hast office und word wurde mit html auto-verknüpft *als Öffnen mit ...* und du nutzt das jetzt ...

Word ist KEIN HTML-editor ...
also gewöhn dir das ganz schnell ab bevor du da jetzt noch mit jave in irgendwelchen files rumpfuschen willst ...
nutz dazu *wenn es schon office sein muss* Frontpage ... der hat gleich n live-modus *du siehst die seite also dierekt in frontpage und musst sie nich jedesmal im browser laden* ... n editor mit syntax-highligthning ... und tools die im hintergrund die validität des source checken ...

alternativ wenn du alles dierekt im source machen willst > Notepad2 ...
 
Naja, wenn man lange Texte vorformatiert bekommen hat, will man nur ungern die ganze Arbeit noch mal machen. Und es gibt immer noch ( ;) ) Menschen, die keinen HTML-Code schreiben können, sondern Texte IMMER mit Word erstellen.
Die Saubere Lösung wäre natürlich dass du den Text kopierst und die Formatierung neu baust (spart erfahrungsgemäß 50% Platz und führt auch teilweise zur besseren Darstellung in Browsern). Aber das ist Arbeit, die man kaum automatisieren kann.
 
naja die einfache lösung dazu wäre in dem fall wenn man wirklich Fronpage nutz ...
ich weis nicht ob du schonmal damit gearbeitet hast ... aber du kannst in Frontpage auch texte und ganze seiten so formatieren wie du es in word tust ... und dabei wird SOFORT richtiger HTML-code erzeugt ...
das Word aus seinen eigenen formatierungen *hat M$ auch nur vom OpenSource RichTextFormat geklaut ... wie so vieles anderes auch wofür nun geld verlangt wird* nie im leben valides HTML erzeugen kann wird einem schon klar wenn man sich mal ankuggt wie sehr sich der IE an das W3C hält ... nur mal soviel zu dem punkt ^^
 
Zurück