Lehrgebiet InformationssystemeFB Informatik |
||
|
Integriertes Seminar Datenbanken und Informationssysteme im Sommersemester 2006Thema: Mastering the Information Explosion – Information Integration and Information Quality(Informationsintegration and Informationsqualität)Voraussetzung: Vorlesung Datenbankanwendung Empfohlen: Vorlesung Middleware für heterogene und verteilte Informationssysteme Ansprechpartner: Jürgen Göres Aktuelles
Allgemeines
Die Arbeitsgruppen Datenbanken und Informationssysteme und
Heterogene Informationssysteme bieten im Sommersemester
2006 ein Seminar zum Thema Informationsintegration and Informationsqualität an.
Das Themenspektrum umfasst sowohl die Anwendungsseite als auch technologische Aspekte. Dieses Seminar
ist als Bestandteil des Anwendungsblocks des Lehrgebiets
Datenverwaltungssysteme im Hauptstudium Informatik
ausgewiesen. Daneben bietet sich aufgrund der inhaltlichen Bezüge
eine direkte Integration dieses Seminars mit dem ebenfalls in
diesem Semester angebotenen ORDB-Praktikum im Rahmen
des Hauptstudiums der Angewandten Informatik an.
Organisation
ThemenbeschreibungMastering the Information Explosion – Information Integration and Information QualityDie Informationsexplosion – SymptomeUnsere Zeit ist geprägt von einer rasanten, geradezu explosionsartigen Zunahme der Menge an verfügbaren Informationen. Am deutlichsten wird diese sicherlich an Entwicklung des World Wide Web als der bekanntesten Nutzungsform des Internet. Laut Netcraft-Statistik umfasste das Web im Januar 2006 über 75 Millionen Websites (angemeldete Domains). Die genaue Anzahl einzelner Seiten kann kaum seriös geschätzt werden. Die oft als Maßstab herangezogene Größe der Indizes von populären Suchmaschinen wie Google oder Yahoo kann auch nur ungefähre Anhaltspunkte liefern, da hier aus marketingstrategischen Gründen keine genauen Zahlen genannt werden. So meldete Yahoo im August 2005 eine Indexgröße von 19,2 Milliarden Seiten. Die Meldung über die Größe des Google-Index variieren von acht bis 25 Milliarden Seiten. Unerschlossene DatenschätzeEin Grund für die Ungenauigkeit dieser Abschätzung liegt darin begründet, dass ein erheblicher Teil der Webseiten nicht statisch ist. So bieten viele Webseiten Zugriff auf große Datenmengen in Form von Suchschnittstellen. Die Antwortseiten werden dann basierend auf den zugrundeliegenden Daten generiert, die heute üblicherweise in zumeist relationalen Datenbanken vorgehalten werden. Diese generierten Seiten sind nicht direkt verlinkt und damit für gängige Suchmaschinen nicht zugänglich, da deren Webcrawler nur Hyperlinks folgen. Die Größe dieses sogenannten "Deep Web" wird von verschiedenen Quellen auf rund das fünfhundertfache des "Surface Web" geschätzt. So bleibt nicht nur ein erheblicher Teil der Informationen über die üblichen Zugriffsmechanismen unzugänglich, sondern oft auch der qualitativ hochwertigste Teil. Das Potential dieser Datenmengen, dass sich aus ihrer Verwendung in einem anderem als dem ursprünglichen vorgesehenen Kontext ergibt, ist daher heute noch weitgehend unerschlossen. Doch auch die im Web öffentlich zugänglichen (aber aufgrund der Unzulänglichkeiten ungenutzten) Daten des Deep Web sind nur die sprichwörtliche Spitze des Eisbergs. Viel größere Datenschätze lagern in privaten Datenbanken so ziemlich jedes größeren Unternehmens oder in den von Behörden, in digitalen Bibliotheken oder Intranets. Um nutzenbringend eingesetzt zu werden, müssen diese Daten mit geeigneten Indexierungs- und Suchverfahren erschlossen und somit für die für jeweilige Problemstellung nützlichen Daten auffind- und zugreifbar werden – natürlich unter Berücksichtigung von Aspekten wie Datenschutz, Geschäftsgeheimnissen, Zugriffsberechtigungen und mit Unterstützung für denkbare Geschäftsmodelle für den Handel mit Information. Das Problem der HeterogenitätDas Auffinden und Zugänglichmachen von geeigneten Datenquellen ist alleine jedoch noch nicht ausreichend, um einen tatsächlichen Nutzen aus den Daten zu ziehen. In Anbetracht der großen Zahl möglicher Datenquellen werden die für die jeweilige Problemstellung benötigten Daten im Allgemeinen aus mehreren (u.U. sehr vielen) Quellen von unterschiedlichster Herkunft stammen. Da jede dieser Quellen ursprünglich in einem eigenen Kontext aufgesetzt und genutzt worden ist, sind diese Datenquellen somit unweigerlich heterogen, und zwar in technischer, logischer und semantischer Hinsicht: Technische Heterogenität So gibt es viele technische Möglichkeiten für den Zugriff auf Daten: eine Webschnittstelle mit festgelegten Eingabefeldern ermöglicht nur eine begrenzte Flexibilität bei der Formulierung von Suchanfragen. Das oft aus strukturierten oder semi-strukturierten Daten bestehende Ergebnis wird in eine eigentlich für die direkte Aufnahme durch Menschen gedachte Form gebracht (z.B. als (X)HTML-Seite), was eine maschinelle Weiterverarbeitung erschwert. Andere Datenquellen bieten proprietäre Programmierschnittstellen oder können z.B. unter Rückgriff auf die Webservice-Technologie direkten Zugang zu mächtigen Anfrageschnittstellen bieten, an der mit deklarativen Anfragesprachen (z.B. SQL und XQuery) auch komplexe Suchanfragen beantwortet werden und in maschinenlesbarer Form zurückgeliefert werden. Datenmodelle und Legacy-Systeme Neben diesen technischen Fragen beim Zugriff unterscheiden sich die Datenquellen auch im verwendeten Datenmodell. Während das stark strukturierte relationale Datenmodell heute bei kommerziell bedeutsamen Datenbanksystemen klar dominiert, nimmt der Bedarf für die effiziente Speicherung von semistrukturierten Daten zu. So sind in Forschungsprojekte und von kommerziellen Herstellern DBS entwickelt worden, die auch weniger strikt strukturierte Daten insbesondere im hierarchischen XML-Datenmodell effizient speichern und modifizieren können. Aussagen über den Markterfolg dieser neuen nativen XML-Datenbanken können zum jetzigen Zeitpunkt noch nicht sicher getroffen werden, da auch viele Hersteler relationaler Datenbankprodukte die Unterstützung von XML weiter vorantreiben. Erhebliche Bedeutung haben insbesondere auch Altsysteme, die oft proprietäre hierarchische oder Netzwerk-Datenmodelle verwenden. Ein großer Teil dieser Systeme sind bereits seit Jahrzehnten in Betrieb und haben sich in dieser Zeit als zuverlässige und verlässliche Informationssysteme bewährt. Aufgrund der unternehmenskritischen Bedeutung vieler dieser Systeme ist die Hemmschwelle für eine Migration hin zu moderneren Systemen entsprechend groß. Gleichzeitig sollen die in diesen Systemen gespeicherten Daten für neue Anwendungsfelder erschlossen werden. Ansätze, welche den einheitlichen Zugriff auf heterogene Informationssysteme ermöglichen wollen, müssen also auf absehbare Zeit auch mit derartigen "Altlasten" (legacy) umgehen können. Abweichende Strukturierung und unscharfe Semantik Aber auch innerhalb eines Datenmodells können sich thematisch verwandte Schemata unter Umständen erheblich unterscheiden. Neben Variationen in der Strukturierung der Daten, wie sie z.B. durch einen unterschiedlichen Grad an Normalisierung entstehen, bereiten insbesondere die mehr oder minder großen semantischen Unterschiede zwischen Schemata der gleichen Domäne große Probleme. Abweichung in der Bezeichnung der Anwendungskonzepte bzw. der diese Konzepte darstellenden Schemaelemente, subtile Unterschiede im Begriffsverständnis oder die Verwendung von Ober- und Unterbegriffen sind eine große Herausforderung, wenn es darum geht, Daten aus verschiedenen Quellen zusammenzuführen. Vergleichbare Probleme – jedoch in einer ganz anderen Größenordnung – ergeben sich für die Daten selbst. So ist es nicht immer einfach festzustellen, ob sich Daten aus verschiedenen Quellen auf das gleiche Objekt aus der realen Welt beziehen oder verschiedene Objekte gemeint sind. Die Herausforderungen der InformationsintegrationAbstraktion von der Heterogenität der Quellen Damit heterogene Daten sinnvoll und leicht verständlich genutzt werden können, können die Benutzer auf keinen Fall mit den verschiedenen Formen von Heterogenität konfrontiert werden. Vielmehr muss ihnen eine einheitliche Sicht auf die für den jeweiligen Anwendungszweck erforderliche Daten zur Verfügung gestellt werden, die diese Problemen verbirgt und die ihnen idealerweise wie eine einzige konventionelle Datenquelle erscheint. Dies ist die Aufgabe der Informationsintegration (II). In diesem aktiven Forschungsfeld werden Konzepte und Techniken entwickelt, welche die Überwindung der Heterogenität ermöglichen und es ermöglichen eine integrierte Sicht auf mehrere Quellen herzustellen. Problemfall semantische Heterogenität Die oben beschriebene semantische Heterogenität hat sich als das zentrale Problem bei der Integration heterogener Quellen erwiesen. Die Entscheidung, ob eine Menge von Datensätzen (z.B. eine Relation) einer Quelle von den gleichen Anwendungsobjekten handelt wie Daten einer anderen Quelle, kann oft nicht einfach beantwortet werden. Beim sogenannten Schema Matching wird versucht, die semantischen Zusammenhänge zwischen den Datenquellen herauszuarbeiten und als Grundlage für den Integrationsvorgang zu nutzen. Hierbei werden semantische Korrespondenzen oder Matcheszwischen den Schemata der Quellen ermittelt. Trotz zahlreicher Forschungsansätze zur Automatisierung dieses Vorgangs hat Schema Matching heute noch nicht den Stand erreicht, als dass automatisch ermittelte Matches als alleinige Grundlage für die Integration dienen können. Daher werden diese Ergebnisse im Allgemeinen nur als Vorgabe für ein anschließendes manuelles Matching durch Experten der in den Schemata modellierten Anwendungsdomäne verwendet. Die so (semi-)automatisch oder manuell identifizierten Matches dienen nun als Grundlage für die Erstellung einer Abbildung, welche die Daten der einzelnen Quellen in das Schema der integrierten Sicht transformiert. Vereinheitlichung der Daten Bei der Definition einer Abbildung zwischen den Quellen müssen häufig Mengen von Datensätze aus verschiedenen Quellen, welche die gleiche Art von Anwendungsobjekten beschreiben, zu einer einzigen Menge von Daten vereinigt werden oder einzelne Attribute für die Verknüpfung von Datensätzen aus verschiedenen Quellen genutzt werden. Hierbei ergibt sich das Problem des Record Matching, also der Feststellung, ob sich Datensätze aus verschiedenen Quellen auf gleiche oder verschiedene Anwendungsobjekte beziehen, das eine weitere Herausforderung darstellt. So können geeignete datenquellenübergreifende Schlüsselkandidaten fehlen oder unterschiedlich formatiert sein. Erschwert wird dies in der Praxis durch fehlerhafte Daten. Hier gibt es Ansätze, um basierend auf der Datenqualität im Fall von Konflikten auf Ebene ganzer Datenquellen oder auch einzelner Sätze eine Entscheidung zu treffen. Dazu müssen entsprechende Qualitätskriterien definiert und insbesondere für die einzelnen Quellen und ihre individuellen Datensätze ermittelt werden. Techniken um insbesondere letzteren Vorgang zu Automatisieren sind ein weiteres Gebiet aktueller Forschungsaktivitäten. Dynamik Bestehende Integrationstechniken gehen für das Erstellen eines Integrationssystems häufig von einer "geschlossenen Welt" aus (closed world assumption), bei der eine überschaubare Menge von Datenquellen für einen klar definierten Anwendungszweck zu integrieren ist. Diese Annahme ist für die bisherigen Integrationsszenarien, die sich häufig auf ein einzelnes Unternehmen oder noch kleinere Organisationseinheiten erstrecken, sicherlich gültig und ermöglicht die weitgehend manuelle Durchführung des Integrationsvorgangs. Bei der Nutzung von weltweit vorliegenden Daten treffen diese Annahmen jedoch häufig nicht mehr zu. Datenquellen befinden sich nun außerhalb der eigenen Organisation, was zur Folge hat, dass man keine direkte Kontrolle auf sie ausüben kann und Unsicherheit bei der Beurteilung ihre Qualität, Verfügbarkeit und anderer Eigenschaften besteht. So können Datenquellen plötzlich nicht mehr verfügbar sein, während gleichzeitig jederzeit neue relevante Quellen verfügbar werden können. Weiterhin erweitert sich der Nutzerkreis für Integrationstechniken stetig und damit steigt auch die Vielfalt der Anforderungen an eine integrierte Sicht. Klassische manuelle Integrationsvorgänge können in diesen dynamischen Situationen aus Zeit- und Kostengründen kaum mithalten. Umso größer ist hier der Bedarf nach autmatisieren Verfahren für das Erstellen und Aufrechterhalten einer Integrationslösung. MissbrauchspotentialWährend die Forschung im Bereich Informationsintegration ihre Bemühungen auf die zahlreichen Probleme bei der Integration heterogener Quellen richtet, wird der Diskussion um das Missbrauchspotential der entstehenden Technologien wenig Platz eingeräumt. Gesetzliche Vorgaben des Datenschutzes können durch Verknüpfung von Informationen aus verschiedenen Quellen leicht umgangen, anonymisierte Daten unter Umständen wieder de-anonymisiert werden. Durchführung des SeminarsIm Rahmen des Seminars Mastering the Information Explosion – Information Integration and Information Quality bearbeiten die Teilnehmer individuelle Themen aus dem oben beschriebenen Bereich. Dazu müssen die Teilnehmer, basierend auf von den jeweiligen Betreuern bereitgestellte wie auch durch Literaturrecherchen selbst ermittelte Quellen das Thema in Form einer Ausarbeitung aufbereiten und in einem freien Vortrag präsentieren.ThemeneinteilungHinweis: die Anzahl der Themen wird an die jeweilige Teilnehmerzahl angepasst.
LiteraturThemenbezogene Literatur wird nach der Themenvergabe vom jeweiligen Betreuer bekannt gegeben. JG, 17.02.06 |