Inhaltsintegration

Die Inhaltsintegration stellt eine Auswertung und Verlinkung des syntaktisch und ontologisch aufgewerteten Datenbestandes dar. Die vorgestellten mathematisch-statistisch aufwendigen Rechnungen laufen in sich geschlossen ab, die Bestandteile der Analyse unterliegt keinen Änderungen. Dabei genutzte String-Metriken arbeiten oftmals iterativ.

Eine Lösung innerhalb der Xcerpt-Abfragesprache ist zwar aufgrund der Turing-Vollständigkeit möglich, Experimente mit dem Bigramm-Algorithmus (siehe Anhang) waren erfolgreich. Sie sind jedoch aufgrund der Unifikationsmatrix langsam und speicherlastig. Frequenzbasierte Algorithmen können einfacher umgesetzt werden, allerdings gestaltet die Vielzahl der zusätzlich verwendeten Regeln den Abfragequellcode unübersichtlich.

Die Nutzung externer Applikationen für die Inhaltsintegration scheint ebenso ungeeignet, da der Aufwand zur Übertragung der entsprechenden, bereits strukturell und ontologisch aufbereiteten Daten entsprechend der Zeit- und Übertragungskapazitäts kritisch einzustufen ist.

Innerhalb Xcerpts kann die Inhaltsintegration als unscharfer Vergleich sowie unscharfe Gruppierung eingefügt werden.

unscharfer Vergleich

Ein unscharfer Vergleich zwischen zwei Werten wird durch den im Xcerpt-Sprachumfang enthaltenen Conditional-Cause umgesetzt.

and {
...
} where (&jaroDistance(Value1, Value2) > Threshold)

Er wird als Aggregations-Regel implementiert. Dieser Fall ist trivial und unrentabel, da keinerlei Parametrisierung möglich ist und bei höheren Wertepaaren die Bearbeitungszeit quadratisch ansteigt.

 

unscharfe Gruppierung

Eine Umsetzung der Harmonisierung als unscharfe Gruppierung ist anzustreben. Sie ermöglicht bei großen Datenmengen die Umsetzung aller im Kapitel 4 vorgestellten Abarbeitungsschritte und Feinabstimmungen:

  • die Gewichtung einzelner Attributwerte,
  • die Gewichtung einzelner Term-Werte nach TF-IDF sowie
  • eine adaptive Selektion und Kombination passender Ähnlichkeitssmetriken.

Diese Annäherung stellt ein klassisches Clustering-Anwendung ohne gegebene Clusteranzahl dar, bei welcher die in den Kapiteln 4.2 bis 4.4 vorgestellten Schritte angewendet werden können.

Xcerpt kennt bereits eine Sprachkomponenten für Grouping nach SQL-Standard. Im Konstruktionsteil wird über den Term group by das Ergebnis nach bestimmten Werten gruppiert. Er bezieht sich allerdings auf eine Äquivalenz-Relation, welche bei Ähnlichkeitsmessungen nicht gegeben werden kann. Ergebnisse einer Ähnlichkeitsmessung sind zwar reflexiv und bijektiv, jedoch nicht unbedingt transitiv. Es seien als Beispiel die fiktiven Attributwerte Tim, Tom und Rom gegeben. Tim sei ähnlich zu Tom, sowie Tom zu Rom ähnlich, so ist dennoch durch die nötige verdoppelte Toleranz Tim unähnlich zu Rom.

Daher wurde zusätzlich ein neuer Term mgroup by in den Sprachumfang eingeführt, welcher Werte-Unschärfen zulässt.

top