l-ray.de: Vorgehen

Vorgehen

Die bisher beschriebenen Techniken dienen dazu, Domänenwissen miteinander zu vereinen. Dadurch entstandene Konzeptsammlungen sind auch im Bereich der ontologischen Anpassung von Begrifflichkeiten und Instanzen nutzbar. Grundsätzlich sollen hier semantische Abweichungen erkannt und durch einheitliche, auf syntaktischer Ebene vergleichbare Zeichenketten ersetzt werden. Dazu kommen die folgenden Methoden zur Anwendung.

Mit Morphzerlegung oder Stemming [Ferber03] wird ein Vorgang bezeichnet, bei dem Worte auf ihre grammatikalischen Grundformen oder kleinsten bedeutungstragenden Bausteine reduziert werden. Nach [SprachSynth06] werden Wortformen, welche durch Konjugation, Deklination oder Steigerung enstanden sind (Flexionsformen), auf ihre Grundform zurückgesetzt.

In der Derivatsanalyse werden komplexe Wörter, welche durch Anhängen von Suffixen oder Prefixen an ein lexikalisches Grundwort entstanden sind, zerlegt. Semantische Änderungen wie bei „unfruchbar“, welches aus „un“ und „fruchtbar“ zusammengesetzt wurde, werden mit einem entsprechenden Negations-Flag gekennzeichnet.

Die Struktur von Wortzusammensetzungen unterliegt nun der Kontrolle, so zum einen die Aufspaltung von Grund- und Bestimmungsworten (Bier+Fass -> Bierfass), zum anderen grammatikalisch und semantisch gleichberechtigte Bestandteile, wie bei „Schnee“+“Regen“.

Diese Analysen können durch lokale Synthesen asugehend von Grundformenlexika und Generierungsregeln erfolgen. Weiterhin wird im Ontologie-Umfeld oftmals die Online-Analyse über Dienste wie „WordNet“ [wordnet06] oder „OpenThesaurus“ [openthesaurus06] genutzt.

Unterstützende kommen Korrekturlisten von zu ersetzenden Zeichenketten zum Einsatz, welche bestimmte Wörter, Abkürzungen und Einzelzeichen eliminieren oder durch Synonyme ersetzen.

Zum Beispiel können Variationen von „-straße“ durch „-strasse“, „-str“ oder „Str.“ dargestellt sein und in diesem Schritt durch eine einheitliche Schreibweise repräsentiert werden.

Dabei ist zu beachten, dass diese Ersetzung kontextabhängig ist, als Eigenname (bsp. „Joseph Strasse“) darf dies nicht verändert werden. Jeder Eintrag einer solchen Liste besteht aus einem String (welcher einen oder mehrere Wörter oder ein einfaches Zeichen darstellt) und einem korrespondierenden Ersetzungsstring. Der Eingabestring (die Source) wird nach jedem Eintrag in dieser Liste durchsucht und falls ein Originalstring gefunden wird, durch die korrespondierende Ersetzung ersetzt.

Korrekturlisten sollten dabei nach Originalstring-Länge sortiert und abgearbeitet werden, sodaß lange Zeichenketten zuerst gefunden und ersetzt werden. (genauste Regel zuerst). Ebenfalls ist auf Leerzeichen vor und nach der jeweiligen Ersetzung zu achten. Sie sind wichtig, da ansonsten auch Zeichenketten innerhalb von Eigennamen verändert werden könnten („bsp“ innerhalb „Abspiel“ nicht durch „abeispieliel“ ersetzen).

Das Endprodukt der Datenreinigung ist ein neuer String, in welchem jedes Auftreffen eines in der Korrekturliste gefundenen Substrings durch einen entsprechenden Ersatzstring ersetzt wurde.

Falls nicht bereits mit dem Schema geliefert, ist ein Tagging durchgeführt, wobei der Eingabestring an Leerzeichen in Einzelstrings aufgeteilt in eine Liste Wörter, Nummern und möglichen Trennzeichen wird. Einzelnen Wortbestandteilen werden Bezeichner zugeordnet. Dieser Schritt wird oftmals parallel zu Morphemzerlegung und Korrekturlisten durchgeführt, da das Tagging die Einordnung in verschiedene ontologische Gattungen beinhaltet und damit eine Korrekturlisten-Abarbeitung gestattet.

Aus „Prof. Dr.-Ing. habil. Erwin P. Stoschek“ wird demnach ['Prof.','Dr.-ing.','habil.','Erwin','P.','Stoschek']. Über Nachschlagetabellen und Regeln wird jedes Element der Liste mit einem oder mehreren Tags versehen (Bsp.: Vorname, Nachname, Postleitzahl, etc). [Febrl05] geht an dieser Stelle soweit, spezielle Teile durch verallgemeinerungen zu ersetzen, bspw. „Dr“, „Doktor“, „doc“, „Phd“ und „md“ einheitlich durch „dr“. Die getaggten Zeichenketten werden nun in die entsprechend korrekten Ausgabefelder segmentiert (Mit „Strassennamen“ getaggte Zeichenketten in das DB-Feld für „Straße“).

Nach einer ontologischen Analyse können bisweilen vertauschte Wortfelder („Swapping“ [Tailor02]) identifiziert und korrigiert werden.

Die bisher beschriebenen Techniken dienen dazu, Domänenwissen miteinander zu vereinen. Dadurch entstandene Konzeptsammlungen sind auch im Bereich der ontologischen Anpassung von Begrifflichkeiten und Instanzen nutzbar. Grundsätzlich sollen hier semantische Abweichungen erkannt und durch einheitliche, auf syntaktischer Ebene vergleichbare Zeichenketten ersetzt werden. Dazu kommen die folgenden Methoden zur Anwendung.

Morphemzerlegung

Mit Morphzerlegung oder Stemming [Ferber03] wird ein Vorgang bezeichnet, bei dem Worte auf ihre grammatikalischen Grundformen oder kleinsten bedeutungstragenden Bausteine reduziert werden. Nach [SprachSynth06] werden Wortformen, welche durch Konjugation, Deklination oder Steigerung enstanden sind (Flexionsformen), auf ihre Grundform zurückgesetzt.

In der Derivatsanalyse werden komplexe Wörter, welche durch Anhängen von Suffixen oder Prefixen an ein lexikalisches Grundwort entstanden sind, zerlegt. Semantische Änderungen wie bei „unfruchbar“, welches aus „un“ und „fruchtbar“ zusammengesetzt wurde, werden mit einem entsprechenden Negations-Flag gekennzeichnet.

Die Struktur von Wortzusammensetzungen unterliegt nun der Kontrolle, so zum einen die Aufspaltung von Grund- und Bestimmungsworten (Bier+Fass -> Bierfass), zum anderen grammatikalisch und semantisch gleichberechtigte Bestandteile, wie bei „Schnee“+“Regen“.

Diese Analysen können durch lokale Synthesen asugehend von Grundformenlexika und Generierungsregeln erfolgen. Weiterhin wird im Ontologie-Umfeld oftmals die Online-Analyse über Dienste wie „WordNet“ [wordnet06] oder „OpenThesaurus“ [openthesaurus06] genutzt.

Korrekturlisten

Unterstützende kommen Korrekturlisten von zu ersetzenden Zeichenketten zum Einsatz, welche bestimmte Wörter, Abkürzungen und Einzelzeichen eliminieren oder durch Synonyme ersetzen.

Zum Beispiel können Variationen von „-straße“ durch „-strasse“, „-str“ oder „Str.“ dargestellt sein und in diesem Schritt durch eine einheitliche Schreibweise repräsentiert werden.

Dabei ist zu beachten, dass diese Ersetzung kontextabhängig ist, als Eigenname (bsp. „Joseph Strasse“) darf dies nicht verändert werden. Jeder Eintrag einer solchen Liste besteht aus einem String (welcher einen oder mehrere Wörter oder ein einfaches Zeichen darstellt) und einem korrespondierenden Ersetzungsstring. Der Eingabestring (die Source) wird nach jedem Eintrag in dieser Liste durchsucht und falls ein Originalstring gefunden wird, durch die korrespondierende Ersetzung ersetzt.

Korrekturlisten sollten dabei nach Originalstring-Länge sortiert und abgearbeitet werden, sodaß lange Zeichenketten zuerst gefunden und ersetzt werden. (genauste Regel zuerst). Ebenfalls ist auf Leerzeichen vor und nach der jeweiligen Ersetzung zu achten. Sie sind wichtig, da ansonsten auch Zeichenketten innerhalb von Eigennamen verändert werden könnten („bsp“ innerhalb „Abspiel“ nicht durch „abeispieliel“ ersetzen).

Das Endprodukt der Datenreinigung ist ein neuer String, in welchem jedes Auftreffen eines in der Korrekturliste gefundenen Substrings durch einen entsprechenden Ersatzstring ersetzt wurde.

Tagging

Falls nicht bereits mit dem Schema geliefert, ist ein Tagging durchgeführt, wobei der Eingabestring an Leerzeichen in Einzelstrings aufgeteilt in eine Liste Wörter, Nummern und möglichen Trennzeichen wird. Einzelnen Wortbestandteilen werden Bezeichner zugeordnet. Dieser Schritt wird oftmals parallel zu Morphemzerlegung und Korrekturlisten durchgeführt, da das Tagging die Einordnung in verschiedene ontologische Gattungen beinhaltet und damit eine Korrekturlisten-Abarbeitung gestattet.

Aus „Prof. Dr.-Ing. habil. Erwin P. Stoschek“ wird demnach ['Prof.','Dr.-ing.','habil.','Erwin','P.','Stoschek']. Über Nachschlagetabellen und Regeln wird jedes Element der Liste mit einem oder mehreren Tags versehen (Bsp.: Vorname, Nachname, Postleitzahl, etc). [Febrl05] geht an dieser Stelle soweit, spezielle Teile durch verallgemeinerungen zu ersetzen, bspw. „Dr“, „Doktor“, „doc“, „Phd“ und „md“ einheitlich durch „dr“. Die getaggten Zeichenketten werden nun in die entsprechend korrekten Ausgabefelder segmentiert (Mit „Strassennamen“ getaggte Zeichenketten in das DB-Feld für „Straße“).

Nach einer ontologischen Analyse können bisweilen vertauschte Wortfelder („Swapping“ [Tailor02]) identifiziert und korrigiert werden.

Die bisher beschriebenen Techniken dienen dazu, Domänenwissen miteinander zu vereinen. Dadurch entstandene Konzeptsammlungen sind auch im Bereich der ontologischen Anpassung von Begrifflichkeiten und Instanzen nutzbar. Grundsätzlich sollen hier semantische Abweichungen erkannt und durch einheitliche, auf syntaktischer Ebene vergleichbare Zeichenketten ersetzt werden. Dazu kommen die folgenden Methoden zur Anwendung.

Morphemzerlegung

Mit Morphzerlegung oder Stemming [Ferber03] wird ein Vorgang bezeichnet, bei dem Worte auf ihre grammatikalischen Grundformen oder kleinsten bedeutungstragenden Bausteine reduziert werden. Nach [SprachSynth06] werden Wortformen, welche durch Konjugation, Deklination oder Steigerung enstanden sind (Flexionsformen), auf ihre Grundform zurückgesetzt.

In der Derivatsanalyse werden komplexe Wörter, welche durch Anhängen von Suffixen oder Prefixen an ein lexikalisches Grundwort entstanden sind, zerlegt. Semantische Änderungen wie bei „unfruchbar“, welches aus „un“ und „fruchtbar“ zusammengesetzt wurde, werden mit einem entsprechenden Negations-Flag gekennzeichnet.

Die Struktur von Wortzusammensetzungen unterliegt nun der Kontrolle, so zum einen die Aufspaltung von Grund- und Bestimmungsworten (Bier+Fass -> Bierfass), zum anderen grammatikalisch und semantisch gleichberechtigte Bestandteile, wie bei „Schnee“+“Regen“.

Diese Analysen können durch lokale Synthesen asugehend von Grundformenlexika und Generierungsregeln erfolgen. Weiterhin wird im Ontologie-Umfeld oftmals die Online-Analyse über Dienste wie „WordNet“ [wordnet06] oder „OpenThesaurus“ [openthesaurus06] genutzt.

Korrekturlisten

Unterstützende kommen Korrekturlisten von zu ersetzenden Zeichenketten zum Einsatz, welche bestimmte Wörter, Abkürzungen und Einzelzeichen eliminieren oder durch Synonyme ersetzen.

Zum Beispiel können Variationen von „-straße“ durch „-strasse“, „-str“ oder „Str.“ dargestellt sein und in diesem Schritt durch eine einheitliche Schreibweise repräsentiert werden.

Dabei ist zu beachten, dass diese Ersetzung kontextabhängig ist, als Eigenname (bsp. „Joseph Strasse“) darf dies nicht verändert werden. Jeder Eintrag einer solchen Liste besteht aus einem String (welcher einen oder mehrere Wörter oder ein einfaches Zeichen darstellt) und einem korrespondierenden Ersetzungsstring. Der Eingabestring (die Source) wird nach jedem Eintrag in dieser Liste durchsucht und falls ein Originalstring gefunden wird, durch die korrespondierende Ersetzung ersetzt.

Korrekturlisten sollten dabei nach Originalstring-Länge sortiert und abgearbeitet werden, sodaß lange Zeichenketten zuerst gefunden und ersetzt werden. (genauste Regel zuerst). Ebenfalls ist auf Leerzeichen vor und nach der jeweiligen Ersetzung zu achten. Sie sind wichtig, da ansonsten auch Zeichenketten innerhalb von Eigennamen verändert werden könnten („bsp“ innerhalb „Abspiel“ nicht durch „abeispieliel“ ersetzen).

Das Endprodukt der Datenreinigung ist ein neuer String, in welchem jedes Auftreffen eines in der Korrekturliste gefundenen Substrings durch einen entsprechenden Ersatzstring ersetzt wurde.

Tagging

Falls nicht bereits mit dem Schema geliefert, ist ein Tagging durchgeführt, wobei der Eingabestring an Leerzeichen in Einzelstrings aufgeteilt in eine Liste Wörter, Nummern und möglichen Trennzeichen wird. Einzelnen Wortbestandteilen werden Bezeichner zugeordnet. Dieser Schritt wird oftmals parallel zu Morphemzerlegung und Korrekturlisten durchgeführt, da das Tagging die Einordnung in verschiedene ontologische Gattungen beinhaltet und damit eine Korrekturlisten-Abarbeitung gestattet.

Aus „Prof. Dr.-Ing. habil. Erwin P. Stoschek“ wird demnach ['Prof.','Dr.-ing.','habil.','Erwin','P.','Stoschek']. Über Nachschlagetabellen und Regeln wird jedes Element der Liste mit einem oder mehreren Tags versehen (Bsp.: Vorname, Nachname, Postleitzahl, etc). [Febrl05] geht an dieser Stelle soweit, spezielle Teile durch verallgemeinerungen zu ersetzen, bspw. „Dr“, „Doktor“, „doc“, „Phd“ und „md“ einheitlich durch „dr“. Die getaggten Zeichenketten werden nun in die entsprechend korrekten Ausgabefelder segmentiert (Mit „Strassennamen“ getaggte Zeichenketten in das DB-Feld für „Straße“).

Nach einer ontologischen Analyse können bisweilen vertauschte Wortfelder („Swapping“ [Tailor02]) identifiziert und korrigiert werden.

Die bisher beschriebenen Techniken dienen dazu, Domänenwissen miteinander zu vereinen. Dadurch entstandene Konzeptsammlungen sind auch im Bereich der ontologischen Anpassung von Begrifflichkeiten und Instanzen nutzbar. Grundsätzlich sollen hier semantische Abweichungen erkannt und durch einheitliche, auf syntaktischer Ebene vergleichbare Zeichenketten ersetzt werden. Dazu kommen die folgenden Methoden zur Anwendung.

Morphemzerlegung

Mit Morphzerlegung oder Stemming [Ferber03] wird ein Vorgang bezeichnet, bei dem Worte auf ihre grammatikalischen Grundformen oder kleinsten bedeutungstragenden Bausteine reduziert werden. Nach [SprachSynth06] werden Wortformen, welche durch Konjugation, Deklination oder Steigerung enstanden sind (Flexionsformen), auf ihre Grundform zurückgesetzt.

In der Derivatsanalyse werden komplexe Wörter, welche durch Anhängen von Suffixen oder Prefixen an ein lexikalisches Grundwort entstanden sind, zerlegt. Semantische Änderungen wie bei „unfruchbar“, welches aus „un“ und „fruchtbar“ zusammengesetzt wurde, werden mit einem entsprechenden Negations-Flag gekennzeichnet.

Die Struktur von Wortzusammensetzungen unterliegt nun der Kontrolle, so zum einen die Aufspaltung von Grund- und Bestimmungsworten (Bier+Fass -> Bierfass), zum anderen grammatikalisch und semantisch gleichberechtigte Bestandteile, wie bei „Schnee“+“Regen“.

Diese Analysen können durch lokale Synthesen asugehend von Grundformenlexika und Generierungsregeln erfolgen. Weiterhin wird im Ontologie-Umfeld oftmals die Online-Analyse über Dienste wie „WordNet“ [wordnet06] oder „OpenThesaurus“ [openthesaurus06] genutzt.

Korrekturlisten

Unterstützende kommen Korrekturlisten von zu ersetzenden Zeichenketten zum Einsatz, welche bestimmte Wörter, Abkürzungen und Einzelzeichen eliminieren oder durch Synonyme ersetzen.

Zum Beispiel können Variationen von „-straße“ durch „-strasse“, „-str“ oder „Str.“ dargestellt sein und in diesem Schritt durch eine einheitliche Schreibweise repräsentiert werden.

Dabei ist zu beachten, dass diese Ersetzung kontextabhängig ist, als Eigenname (bsp. „Joseph Strasse“) darf dies nicht verändert werden. Jeder Eintrag einer solchen Liste besteht aus einem String (welcher einen oder mehrere Wörter oder ein einfaches Zeichen darstellt) und einem korrespondierenden Ersetzungsstring. Der Eingabestring (die Source) wird nach jedem Eintrag in dieser Liste durchsucht und falls ein Originalstring gefunden wird, durch die korrespondierende Ersetzung ersetzt.

Korrekturlisten sollten dabei nach Originalstring-Länge sortiert und abgearbeitet werden, sodaß lange Zeichenketten zuerst gefunden und ersetzt werden. (genauste Regel zuerst). Ebenfalls ist auf Leerzeichen vor und nach der jeweiligen Ersetzung zu achten. Sie sind wichtig, da ansonsten auch Zeichenketten innerhalb von Eigennamen verändert werden könnten („bsp“ innerhalb „Abspiel“ nicht durch „abeispieliel“ ersetzen).

Das Endprodukt der Datenreinigung ist ein neuer String, in welchem jedes Auftreffen eines in der Korrekturliste gefundenen Substrings durch einen entsprechenden Ersatzstring ersetzt wurde.

Tagging

Falls nicht bereits mit dem Schema geliefert, ist ein Tagging durchgeführt, wobei der Eingabestring an Leerzeichen in Einzelstrings aufgeteilt in eine Liste Wörter, Nummern und möglichen Trennzeichen wird. Einzelnen Wortbestandteilen werden Bezeichner zugeordnet. Dieser Schritt wird oftmals parallel zu Morphemzerlegung und Korrekturlisten durchgeführt, da das Tagging die Einordnung in verschiedene ontologische Gattungen beinhaltet und damit eine Korrekturlisten-Abarbeitung gestattet.

Aus „Prof. Dr.-Ing. habil. Erwin P. Stoschek“ wird demnach ['Prof.','Dr.-ing.','habil.','Erwin','P.','Stoschek']. Über Nachschlagetabellen und Regeln wird jedes Element der Liste mit einem oder mehreren Tags versehen (Bsp.: Vorname, Nachname, Postleitzahl, etc). [Febrl05] geht an dieser Stelle soweit, spezielle Teile durch verallgemeinerungen zu ersetzen, bspw. „Dr“, „Doktor“, „doc“, „Phd“ und „md“ einheitlich durch „dr“. Die getaggten Zeichenketten werden nun in die entsprechend korrekten Ausgabefelder segmentiert (Mit „Strassennamen“ getaggte Zeichenketten in das DB-Feld für „Straße“).

Nach einer ontologischen Analyse können bisweilen vertauschte Wortfelder („Swapping“ [Tailor02]) identifiziert und korrigiert werden.

Die bisher beschriebenen Techniken dienen dazu, Domänenwissen miteinander zu vereinen. Dadurch entstandene Konzeptsammlungen sind auch im Bereich der ontologischen Anpassung von Begrifflichkeiten und Instanzen nutzbar. Grundsätzlich sollen hier semantische Abweichungen erkannt und durch einheitliche, auf syntaktischer Ebene vergleichbare Zeichenketten ersetzt werden. Dazu kommen die folgenden Methoden zur Anwendung.

Morphemzerlegung

Mit Morphzerlegung oder Stemming [Ferber03] wird ein Vorgang bezeichnet, bei dem Worte auf ihre grammatikalischen Grundformen oder kleinsten bedeutungstragenden Bausteine reduziert werden. Nach [SprachSynth06] werden Wortformen, welche durch Konjugation, Deklination oder Steigerung enstanden sind (Flexionsformen), auf ihre Grundform zurückgesetzt.

In der Derivatsanalyse werden komplexe Wörter, welche durch Anhängen von Suffixen oder Prefixen an ein lexikalisches Grundwort entstanden sind, zerlegt. Semantische Änderungen wie bei „unfruchbar“, welches aus „un“ und „fruchtbar“ zusammengesetzt wurde, werden mit einem entsprechenden Negations-Flag gekennzeichnet.

Die Struktur von Wortzusammensetzungen unterliegt nun der Kontrolle, so zum einen die Aufspaltung von Grund- und Bestimmungsworten (Bier+Fass -> Bierfass), zum anderen grammatikalisch und semantisch gleichberechtigte Bestandteile, wie bei „Schnee“+“Regen“.

Diese Analysen können durch lokale Synthesen asugehend von Grundformenlexika und Generierungsregeln erfolgen. Weiterhin wird im Ontologie-Umfeld oftmals die Online-Analyse über Dienste wie „WordNet“ [wordnet06] oder „OpenThesaurus“ [openthesaurus06] genutzt.

Korrekturlisten

Unterstützende kommen Korrekturlisten von zu ersetzenden Zeichenketten zum Einsatz, welche bestimmte Wörter, Abkürzungen und Einzelzeichen eliminieren oder durch Synonyme ersetzen.

Zum Beispiel können Variationen von „-straße“ durch „-strasse“, „-str“ oder „Str.“ dargestellt sein und in diesem Schritt durch eine einheitliche Schreibweise repräsentiert werden.

Dabei ist zu beachten, dass diese Ersetzung kontextabhängig ist, als Eigenname (bsp. „Joseph Strasse“) darf dies nicht verändert werden. Jeder Eintrag einer solchen Liste besteht aus einem String (welcher einen oder mehrere Wörter oder ein einfaches Zeichen darstellt) und einem korrespondierenden Ersetzungsstring. Der Eingabestring (die Source) wird nach jedem Eintrag in dieser Liste durchsucht und falls ein Originalstring gefunden wird, durch die korrespondierende Ersetzung ersetzt.

Korrekturlisten sollten dabei nach Originalstring-Länge sortiert und abgearbeitet werden, sodaß lange Zeichenketten zuerst gefunden und ersetzt werden. (genauste Regel zuerst). Ebenfalls ist auf Leerzeichen vor und nach der jeweiligen Ersetzung zu achten. Sie sind wichtig, da ansonsten auch Zeichenketten innerhalb von Eigennamen verändert werden könnten („bsp“ innerhalb „Abspiel“ nicht durch „abeispieliel“ ersetzen).

Das Endprodukt der Datenreinigung ist ein neuer String, in welchem jedes Auftreffen eines in der Korrekturliste gefundenen Substrings durch einen entsprechenden Ersatzstring ersetzt wurde.

Tagging

Falls nicht bereits mit dem Schema geliefert, ist ein Tagging durchgeführt, wobei der Eingabestring an Leerzeichen in Einzelstrings aufgeteilt in eine Liste Wörter, Nummern und möglichen Trennzeichen wird. Einzelnen Wortbestandteilen werden Bezeichner zugeordnet. Dieser Schritt wird oftmals parallel zu Morphemzerlegung und Korrekturlisten durchgeführt, da das Tagging die Einordnung in verschiedene ontologische Gattungen beinhaltet und damit eine Korrekturlisten-Abarbeitung gestattet.

Aus „Prof. Dr.-Ing. habil. Erwin P. Stoschek“ wird demnach ['Prof.','Dr.-ing.','habil.','Erwin','P.','Stoschek']. Über Nachschlagetabellen und Regeln wird jedes Element der Liste mit einem oder mehreren Tags versehen (Bsp.: Vorname, Nachname, Postleitzahl, etc). [Febrl05] geht an dieser Stelle soweit, spezielle Teile durch verallgemeinerungen zu ersetzen, bspw. „Dr“, „Doktor“, „doc“, „Phd“ und „md“ einheitlich durch „dr“. Die getaggten Zeichenketten werden nun in die entsprechend korrekten Ausgabefelder segmentiert (Mit „Strassennamen“ getaggte Zeichenketten in das DB-Feld für „Straße“).

Nach einer ontologischen Analyse können bisweilen vertauschte Wortfelder („Swapping“ [Tailor02]) identifiziert und korrigiert werden.

Die bisher beschriebenen Techniken dienen dazu, Domänenwissen miteinander zu vereinen. Dadurch entstandene Konzeptsammlungen sind auch im Bereich der ontologischen Anpassung von Begrifflichkeiten und Instanzen nutzbar. Grundsätzlich sollen hier semantische Abweichungen erkannt und durch einheitliche, auf syntaktischer Ebene vergleichbare Zeichenketten ersetzt werden. Dazu kommen die folgenden Methoden zur Anwendung.

Morphemzerlegung

Mit Morphzerlegung oder Stemming [Ferber03] wird ein Vorgang bezeichnet, bei dem Worte auf ihre grammatikalischen Grundformen oder kleinsten bedeutungstragenden Bausteine reduziert werden. Nach [SprachSynth06] werden Wortformen, welche durch Konjugation, Deklination oder Steigerung enstanden sind (Flexionsformen), auf ihre Grundform zurückgesetzt.

In der Derivatsanalyse werden komplexe Wörter, welche durch Anhängen von Suffixen oder Prefixen an ein lexikalisches Grundwort entstanden sind, zerlegt. Semantische Änderungen wie bei „unfruchbar“, welches aus „un“ und „fruchtbar“ zusammengesetzt wurde, werden mit einem entsprechenden Negations-Flag gekennzeichnet.

Die Struktur von Wortzusammensetzungen unterliegt nun der Kontrolle, so zum einen die Aufspaltung von Grund- und Bestimmungsworten (Bier+Fass -> Bierfass), zum anderen grammatikalisch und semantisch gleichberechtigte Bestandteile, wie bei „Schnee“+“Regen“.

Diese Analysen können durch lokale Synthesen asugehend von Grundformenlexika und Generierungsregeln erfolgen. Weiterhin wird im Ontologie-Umfeld oftmals die Online-Analyse über Dienste wie „WordNet“ [wordnet06] oder „OpenThesaurus“ [openthesaurus06] genutzt.

Korrekturlisten

Unterstützende kommen Korrekturlisten von zu ersetzenden Zeichenketten zum Einsatz, welche bestimmte Wörter, Abkürzungen und Einzelzeichen eliminieren oder durch Synonyme ersetzen.

Zum Beispiel können Variationen von „-straße“ durch „-strasse“, „-str“ oder „Str.“ dargestellt sein und in diesem Schritt durch eine einheitliche Schreibweise repräsentiert werden.

Dabei ist zu beachten, dass diese Ersetzung kontextabhängig ist, als Eigenname (bsp. „Joseph Strasse“) darf dies nicht verändert werden. Jeder Eintrag einer solchen Liste besteht aus einem String (welcher einen oder mehrere Wörter oder ein einfaches Zeichen darstellt) und einem korrespondierenden Ersetzungsstring. Der Eingabestring (die Source) wird nach jedem Eintrag in dieser Liste durchsucht und falls ein Originalstring gefunden wird, durch die korrespondierende Ersetzung ersetzt.

Korrekturlisten sollten dabei nach Originalstring-Länge sortiert und abgearbeitet werden, sodaß lange Zeichenketten zuerst gefunden und ersetzt werden. (genauste Regel zuerst). Ebenfalls ist auf Leerzeichen vor und nach der jeweiligen Ersetzung zu achten. Sie sind wichtig, da ansonsten auch Zeichenketten innerhalb von Eigennamen verändert werden könnten („bsp“ innerhalb „Abspiel“ nicht durch „abeispieliel“ ersetzen).

Das Endprodukt der Datenreinigung ist ein neuer String, in welchem jedes Auftreffen eines in der Korrekturliste gefundenen Substrings durch einen entsprechenden Ersatzstring ersetzt wurde.

Tagging

Falls nicht bereits mit dem Schema geliefert, ist ein Tagging durchgeführt, wobei der Eingabestring an Leerzeichen in Einzelstrings aufgeteilt in eine Liste Wörter, Nummern und möglichen Trennzeichen wird. Einzelnen Wortbestandteilen werden Bezeichner zugeordnet. Dieser Schritt wird oftmals parallel zu Morphemzerlegung und Korrekturlisten durchgeführt, da das Tagging die Einordnung in verschiedene ontologische Gattungen beinhaltet und damit eine Korrekturlisten-Abarbeitung gestattet.

Aus „Prof. Dr.-Ing. habil. Erwin P. Stoschek“ wird demnach ['Prof.','Dr.-ing.','habil.','Erwin','P.','Stoschek']. Über Nachschlagetabellen und Regeln wird jedes Element der Liste mit einem oder mehreren Tags versehen (Bsp.: Vorname, Nachname, Postleitzahl, etc). [Febrl05] geht an dieser Stelle soweit, spezielle Teile durch verallgemeinerungen zu ersetzen, bspw. „Dr“, „Doktor“, „doc“, „Phd“ und „md“ einheitlich durch „dr“. Die getaggten Zeichenketten werden nun in die entsprechend korrekten Ausgabefelder segmentiert (Mit „Strassennamen“ getaggte Zeichenketten in das DB-Feld für „Straße“).

Nach einer ontologischen Analyse können bisweilen vertauschte Wortfelder („Swapping“ [Tailor02]) identifiziert und korrigiert werden.

Die bisher beschriebenen Techniken dienen dazu, Domänenwissen miteinander zu vereinen. Dadurch entstandene Konzeptsammlungen sind auch im Bereich der ontologischen Anpassung von Begrifflichkeiten und Instanzen nutzbar. Grundsätzlich sollen hier semantische Abweichungen erkannt und durch einheitliche, auf syntaktischer Ebene vergleichbare Zeichenketten ersetzt werden. Dazu kommen die folgenden Methoden zur Anwendung.

Morphemzerlegung

Mit Morphzerlegung oder Stemming [Ferber03] wird ein Vorgang bezeichnet, bei dem Worte auf ihre grammatikalischen Grundformen oder kleinsten bedeutungstragenden Bausteine reduziert werden. Nach [SprachSynth06] werden Wortformen, welche durch Konjugation, Deklination oder Steigerung enstanden sind (Flexionsformen), auf ihre Grundform zurückgesetzt.

In der Derivatsanalyse werden komplexe Wörter, welche durch Anhängen von Suffixen oder Prefixen an ein lexikalisches Grundwort entstanden sind, zerlegt. Semantische Änderungen wie bei „unfruchbar“, welches aus „un“ und „fruchtbar“ zusammengesetzt wurde, werden mit einem entsprechenden Negations-Flag gekennzeichnet.

Die Struktur von Wortzusammensetzungen unterliegt nun der Kontrolle, so zum einen die Aufspaltung von Grund- und Bestimmungsworten (Bier+Fass -> Bierfass), zum anderen grammatikalisch und semantisch gleichberechtigte Bestandteile, wie bei „Schnee“+“Regen“.

Diese Analysen können durch lokale Synthesen asugehend von Grundformenlexika und Generierungsregeln erfolgen. Weiterhin wird im Ontologie-Umfeld oftmals die Online-Analyse über Dienste wie „WordNet“ [wordnet06] oder „OpenThesaurus“ [openthesaurus06] genutzt.

Korrekturlisten

Unterstützende kommen Korrekturlisten von zu ersetzenden Zeichenketten zum Einsatz, welche bestimmte Wörter, Abkürzungen und Einzelzeichen eliminieren oder durch Synonyme ersetzen.

Zum Beispiel können Variationen von „-straße“ durch „-strasse“, „-str“ oder „Str.“ dargestellt sein und in diesem Schritt durch eine einheitliche Schreibweise repräsentiert werden.

Dabei ist zu beachten, dass diese Ersetzung kontextabhängig ist, als Eigenname (bsp. „Joseph Strasse“) darf dies nicht verändert werden. Jeder Eintrag einer solchen Liste besteht aus einem String (welcher einen oder mehrere Wörter oder ein einfaches Zeichen darstellt) und einem korrespondierenden Ersetzungsstring. Der Eingabestring (die Source) wird nach jedem Eintrag in dieser Liste durchsucht und falls ein Originalstring gefunden wird, durch die korrespondierende Ersetzung ersetzt.

Korrekturlisten sollten dabei nach Originalstring-Länge sortiert und abgearbeitet werden, sodaß lange Zeichenketten zuerst gefunden und ersetzt werden. (genauste Regel zuerst). Ebenfalls ist auf Leerzeichen vor und nach der jeweiligen Ersetzung zu achten. Sie sind wichtig, da ansonsten auch Zeichenketten innerhalb von Eigennamen verändert werden könnten („bsp“ innerhalb „Abspiel“ nicht durch „abeispieliel“ ersetzen).

Das Endprodukt der Datenreinigung ist ein neuer String, in welchem jedes Auftreffen eines in der Korrekturliste gefundenen Substrings durch einen entsprechenden Ersatzstring ersetzt wurde.

Tagging

Falls nicht bereits mit dem Schema geliefert, ist ein Tagging durchgeführt, wobei der Eingabestring an Leerzeichen in Einzelstrings aufgeteilt in eine Liste Wörter, Nummern und möglichen Trennzeichen wird. Einzelnen Wortbestandteilen werden Bezeichner zugeordnet. Dieser Schritt wird oftmals parallel zu Morphemzerlegung und Korrekturlisten durchgeführt, da das Tagging die Einordnung in verschiedene ontologische Gattungen beinhaltet und damit eine Korrekturlisten-Abarbeitung gestattet.

Aus „Prof. Dr.-Ing. habil. Erwin P. Stoschek“ wird demnach ['Prof.','Dr.-ing.','habil.','Erwin','P.','Stoschek']. Über Nachschlagetabellen und Regeln wird jedes Element der Liste mit einem oder mehreren Tags versehen (Bsp.: Vorname, Nachname, Postleitzahl, etc). [Febrl05] geht an dieser Stelle soweit, spezielle Teile durch verallgemeinerungen zu ersetzen, bspw. „Dr“, „Doktor“, „doc“, „Phd“ und „md“ einheitlich durch „dr“. Die getaggten Zeichenketten werden nun in die entsprechend korrekten Ausgabefelder segmentiert (Mit „Strassennamen“ getaggte Zeichenketten in das DB-Feld für „Straße“).

Nach einer ontologischen Analyse können bisweilen vertauschte Wortfelder („Swapping“ [Tailor02]) identifiziert und korrigiert werden.

Die bisher beschriebenen Techniken dienen dazu, Domänenwissen miteinander zu vereinen. Dadurch entstandene Konzeptsammlungen sind auch im Bereich der ontologischen Anpassung von Begrifflichkeiten und Instanzen nutzbar. Grundsätzlich sollen hier semantische Abweichungen erkannt und durch einheitliche, auf syntaktischer Ebene vergleichbare Zeichenketten ersetzt werden. Dazu kommen die folgenden Methoden zur Anwendung.

Morphemzerlegung

Mit Morphzerlegung oder Stemming [Ferber03] wird ein Vorgang bezeichnet, bei dem Worte auf ihre grammatikalischen Grundformen oder kleinsten bedeutungstragenden Bausteine reduziert werden. Nach [SprachSynth06] werden Wortformen, welche durch Konjugation, Deklination oder Steigerung enstanden sind (Flexionsformen), auf ihre Grundform zurückgesetzt.

In der Derivatsanalyse werden komplexe Wörter, welche durch Anhängen von Suffixen oder Prefixen an ein lexikalisches Grundwort entstanden sind, zerlegt. Semantische Änderungen wie bei „unfruchbar“, welches aus „un“ und „fruchtbar“ zusammengesetzt wurde, werden mit einem entsprechenden Negations-Flag gekennzeichnet.

Die Struktur von Wortzusammensetzungen unterliegt nun der Kontrolle, so zum einen die Aufspaltung von Grund- und Bestimmungsworten (Bier+Fass -> Bierfass), zum anderen grammatikalisch und semantisch gleichberechtigte Bestandteile, wie bei „Schnee“+“Regen“.

Diese Analysen können durch lokale Synthesen asugehend von Grundformenlexika und Generierungsregeln erfolgen. Weiterhin wird im Ontologie-Umfeld oftmals die Online-Analyse über Dienste wie „WordNet“ [wordnet06] oder „OpenThesaurus“ [openthesaurus06] genutzt.

Korrekturlisten

Unterstützende kommen Korrekturlisten von zu ersetzenden Zeichenketten zum Einsatz, welche bestimmte Wörter, Abkürzungen und Einzelzeichen eliminieren oder durch Synonyme ersetzen.

Zum Beispiel können Variationen von „-straße“ durch „-strasse“, „-str“ oder „Str.“ dargestellt sein und in diesem Schritt durch eine einheitliche Schreibweise repräsentiert werden.

Dabei ist zu beachten, dass diese Ersetzung kontextabhängig ist, als Eigenname (bsp. „Joseph Strasse“) darf dies nicht verändert werden. Jeder Eintrag einer solchen Liste besteht aus einem String (welcher einen oder mehrere Wörter oder ein einfaches Zeichen darstellt) und einem korrespondierenden Ersetzungsstring. Der Eingabestring (die Source) wird nach jedem Eintrag in dieser Liste durchsucht und falls ein Originalstring gefunden wird, durch die korrespondierende Ersetzung ersetzt.

Korrekturlisten sollten dabei nach Originalstring-Länge sortiert und abgearbeitet werden, sodaß lange Zeichenketten zuerst gefunden und ersetzt werden. (genauste Regel zuerst). Ebenfalls ist auf Leerzeichen vor und nach der jeweiligen Ersetzung zu achten. Sie sind wichtig, da ansonsten auch Zeichenketten innerhalb von Eigennamen verändert werden könnten („bsp“ innerhalb „Abspiel“ nicht durch „abeispieliel“ ersetzen).

Das Endprodukt der Datenreinigung ist ein neuer String, in welchem jedes Auftreffen eines in der Korrekturliste gefundenen Substrings durch einen entsprechenden Ersatzstring ersetzt wurde.

Tagging

Falls nicht bereits mit dem Schema geliefert, ist ein Tagging durchgeführt, wobei der Eingabestring an Leerzeichen in Einzelstrings aufgeteilt in eine Liste Wörter, Nummern und möglichen Trennzeichen wird. Einzelnen Wortbestandteilen werden Bezeichner zugeordnet. Dieser Schritt wird oftmals parallel zu Morphemzerlegung und Korrekturlisten durchgeführt, da das Tagging die Einordnung in verschiedene ontologische Gattungen beinhaltet und damit eine Korrekturlisten-Abarbeitung gestattet.

Aus „Prof. Dr.-Ing. habil. Erwin P. Stoschek“ wird demnach ['Prof.','Dr.-ing.','habil.','Erwin','P.','Stoschek']. Über Nachschlagetabellen und Regeln wird jedes Element der Liste mit einem oder mehreren Tags versehen (Bsp.: Vorname, Nachname, Postleitzahl, etc). [Febrl05] geht an dieser Stelle soweit, spezielle Teile durch verallgemeinerungen zu ersetzen, bspw. „Dr“, „Doktor“, „doc“, „Phd“ und „md“ einheitlich durch „dr“. Die getaggten Zeichenketten werden nun in die entsprechend korrekten Ausgabefelder segmentiert (Mit „Strassennamen“ getaggte Zeichenketten in das DB-Feld für „Straße“).

Nach einer ontologischen Analyse können bisweilen vertauschte Wortfelder („Swapping“ [Tailor02]) identifiziert und korrigiert werden.