...
Hierzu wird eine Ähnlichkeit der Adressfelder Name, Straße und Ort ermittelt. Hierbei werden nur die Zeichen berücksichtigt, die Semantik bleibt unberücksichtigt. Die relevanten Adressinformationen durchlaufen Verallgemeinerungsfunktionen, die im Anschluss einen Vergleich aller ähnlichen Textanteile erlaubt. Das Ergebnis ist ein Ähnlichkeitscode, der in die Adresse zurückgeschrieben wird. Wenn die Ähnlichkeitscodes identisch sind, dann handelt es sich um ein Duplikatwerden die Datensätze im Rahmen der Ähnlichkeitsprüfung gefunden.
Die Verallgemeinerungsfunktion eliminiert unerwünschte Wortteile und erlaubt den so erhaltenen Text über Klangindex-Verteilungsstatistiken der Adressbestandteile den benötigten Ähnlichkeitscode zu erstellen.
...