Dublettenabgleich von csv Dateien

patricodi · 2. Mai 2008

Hallo,

ich soll ein Programm für unsere Firma schreiben was doppelte Adressen aus einer trennzeichen (

gespeichertern csv Datei rausfiltert (Dublettenabgleich) und entweder löscht oder seperat die doppelten in eine andere Datei schreibt.

Ich habe auch schon angefangen und es funktioniert auch zwar was, aber denke das es noch nicht so der richtige weg ist.

Mein Programm funktioniert wie folgt:

Stammdatei einlesen.
einzelne Felder die per ; getrennt sind in arrays speichern z.B: strasse[ i ], plz[ i ] und ort[ i ].
danach eine for schleife die einen vorgabewert nachdem gesucht wird ausgelesen wird und in dieser for schleife folgt direkt eine weitere for schleife wo dann der vorgabewert mit den tabellenwert verglichen wird.
Wenn dann z.B. der Name, strasse, plz und ort gleich sind wird diese zeile von dem array in eine andere csv (doppelte.csv) gespeichert.
Wenn keine doppelten da sind wird diese auch in eine andere gepsichert (fertig.csv)

Mein Problem nun. Es kommt ja natürlich vor das die Adressen mehr als zwei mal vorkommen z.B. 20 mal, somit speichert das Programm natürlich 20 mal die adresse in die doppelte.csv und natürlich die eigene zeile auch gleich.

Meine Frage nun, wie ist der logische Aufbau von dem Abgleich? Ich will kein fertiges Programm oder so, sondern einfach nur den logischen Aufbau, da ich glaube das meiner ziemlich falsch ist ;-)

Dankeschön!
Patrick

Dublettenabgleich von csv Dateien

patricodi

Neue Beiträge