ipyx.de
HomeKompetenzenProjekteVeröffentlichungenPrivatLinksKontaktEnglish

Das Data Auditing-System MEDAS

Hintergrund

In unserer heutigen, technisch geprägten Welt werden Informationen immer mehr zum Dreh- und Angelpunkt der Abläufe in Organisationen. Informationen werden als wertvolle Waren angesehen, die für das Treffen von wichtigen Entscheidungen eine große Bedeutsamkeit besitzen. Für eine effiziente Verwaltung dieser wichtigen Informationen hat sich in den vergangenen Jahren das Konzept eines Data Warehouse etabliert, wobei es sich um eine themen-orientierte, integrierte, zeitbezogene, nicht-flüchtige Sammlung von Daten handelt. Eine wesentliche Problematik eines Data Warehouse und dem dazugehörenden Datenmanagementsystem besteht in der Integration der Daten aus verschiedenen, zumeist heterogenen Quellen. Die Heterogenität dieser Quellen resultiert aus inkompatiblen Hardwareplattformen und Software-Umgebungen, unterschiedlichen Datenmodellen, Schemakonflikten und Datenkonflikten.

Das Thema Datenkonflikte steht eng mit dem Thema Datenqualität in Verbindung. Durch die Integration von Daten in einem Data Warehouse werden in der Regel Mängel in der Datenqualität offensichtlich. Für eine Analyse des Datenbestandes eines Data Warehouse ist eine hohe Qualität der zu analysierenden Daten jedoch unbedingt notwendig. Eine Möglichkeit, die Qualität von Daten zu verbessern, besteht in der Durchführung von sogenannten Data Cleansing-Verfahren, die darauf abzielen, bereits existierende Datenbestände nach ihrer Erfassung auf Fehler und Inkonsistenzen zu überprüfen und diese zu beseitigen. Ein Verfahren zum Data Cleansing ist das Data Auditing, bei dem große Datenmengen nach Regelmäßigkeiten durchsucht werden. Abweichungen oder Ausnahmen von solchen Regelmäßigkeiten können dann auf zu korrigierende Fehler oder aber auf interessante Phänomene im Datenbestand hinweisen.

Informationen zum Projekt

Das Software-Werkzeug MEDAS ("Metadata-based Data Auditing System") dient der Verbesserung der Qualität von Daten, die in einem Data Warehouse gespeichert sind. Das System implementiert ein Data Auditing-Verfahren, das einen Datenbestand selbständig nach Regelmäßigkeiten durchsucht, und dann auf der Grundlage der erkannten Regelmäßigkeiten und Abweichungen von diesen Regelmäßigkeiten fehlerhafte bzw. widersprüchliche Informationen identifiziert und fehlende Informationen prognostiziert. Durch eine Aktualisierung der korrekturbedürftigen Informationen kann die Qualität der Daten im Datenbestand verbessert werden.

Das in MEDAS implementierte Data Auditing-Verfahren basiert im Detail auf dem Prozess des sogenannten Knowledge Discovery in Databases (KDD), das in den letzten Jahren stark an Bedeutung gewonnen hat. Bei KDD handelt es sich um den nicht-trivialen Prozess der Identifizierung gültiger, neuer, möglicherweise nützlicher und verständlicher Muster in Daten. Die zentrale Phase des komplexen KDD-Prozesses bildet das Analyseverfahren des sogenannten Data Mining. Mit Data Mining wird die automatische Analyse eines großen oder auch komplexen Datenbestandes bezeichnet, deren Ziel es ist, signifikante Muster oder Trends zu entdecken, die sonst unerkannt geblieben wären.

Neben der Orientierung am KDD-Prozess und an den Methoden des Data Mining wurde bei der Implementierung von MEDAS vor allem auch auf die Domänenunabhängigkeit des Werkzeugs geachtet, so dass die Software nicht nur auf ein bestimmtes Einsatzgebiet, wie z. B. Wirtschaftsanwendungen, beschränkt ist. Dieser Anforderung wurde durch eine Modellierung von domänenspezifischem Wissen mit Hilfe von Metadaten und durch eine Einbeziehung solcher Metadaten in die Funktionsweise des entwickelten Werkzeugs nachgekommen. Des weiteren werden Metadaten in MEDAS eingesetzt, um Analyseprozesse zu automatisieren.

Aus organisatorischer Sicht handelt es sich bei dem Software-Werkzeug MEDAS um das Resultat der achtmonatigen Diplomarbeit, mit der ich den Informatikteil meines Studiums beendete. MEDAS ist dabei Teil einer übergeordneten Dissertation, die der Betreuer meiner Diplomarbeit zum derzeitigen Zeitpunkt zum Forschungsthema Datenqualitätsmanagement verfasste. Für die Entwicklung von MEDAS und der in der Software enthaltenen Konzepte war ich allein verantwortlich, die Software entstand auf einem Windows-Betriebssystem mit Hilfe der Microsoft Visual C++ Entwicklungsumgebung. Als externe Systeme wurde bei der Entwicklung von MEDAS auf die Software-Systeme Microsoft Repository und ILOG Rules sowie auf die frei verfügbare Data Mining-Klassenbibliothek MLC++ zurückgegriffen.

Themenverwandte Webseiten

Homepage der Universität Oldenburg.
http://www.uni-oldenburg.de/

Webseite zum Thema Knowledge Discovery in Databases und Data Mining.
http://www.kdnuggets.com/

Webseite zur verwendeten Klassenbibliothek MLC++.
http://www.sgi.com/tech/mlc/

ipyx.de