UniKL Logo

Lehrgebiet Informationssysteme

FB Informatik

FB Informatik
 
LG IS
AG DBIS
AG HIS
Jobs / Tasks
Courses
Seminar
SS 2006
Aktuelles
Allgemeines
Organisation
Themenbeschreibung
Themen
  • SS 2007
  • Aktuelles Seminar:
  • WS 06/07
  • Archiv:
  • WS 06/07
  • SS 2006
  • WS 05/06
  • SS 2005
  • WS 04/05
  • SS 2004
  • WS 03/04
  • SS 2003
  • WS 02/03
  • SS 2002
  • more...
    Publications
    Contact
    Misc
    Impressum
    (C) AG DBIS
     

    Integriertes Seminar Datenbanken und Informationssysteme im Sommersemester 2006

    Thema: Mastering the Information Explosion – Information Integration and Information Quality

    (Informationsintegration and Informationsqualität)

    Voraussetzung: Vorlesung Datenbankanwendung

    Empfohlen: Vorlesung Middleware für heterogene und verteilte Informationssysteme

    Ansprechpartner: Jürgen Göres

    Aktuelles

    Datum Ankündigung
    17. Februar 2006 Vorbesprechung

    Die Vorbesprechung für das Seminar findet am Donnerstag, den 2. März um 14:00 im Seminarraum des Lehrgebietes (36/336) statt. Da unter anderem die Themen vergeben werden, ist die Anwesenheit aller Teilnehmer erforderlich.
    Eine Anmeldung ist bis zu diesem Termin weiterhin möglich.
    1. Januar 2006 Themen, Anmeldung und Termine

    Die Anmeldung zum Seminar erfolgt ab Montag, den 30. Januar durch Eintrag in einer Anmeldeliste im Flur von 36/3. Eine detaillierte Einteilung in einzelne Themen erfolgt bis zur Vorbesprechung, die voraussichtlich in der ersten Woche der vorlesungsfreien Zeit stattfinden wird.

    Allgemeines

    Die Arbeitsgruppen Datenbanken und Informationssysteme und Heterogene Informationssysteme bieten im Sommersemester 2006 ein Seminar zum Thema Informationsintegration and Informationsqualität an. Das Themenspektrum umfasst sowohl die Anwendungsseite als auch technologische Aspekte. Dieses Seminar ist als Bestandteil des Anwendungsblocks des Lehrgebiets Datenverwaltungssysteme im Hauptstudium Informatik ausgewiesen. Daneben bietet sich aufgrund der inhaltlichen Bezüge eine direkte Integration dieses Seminars mit dem ebenfalls in diesem Semester angebotenen ORDB-Praktikum im Rahmen des Hauptstudiums der Angewandten Informatik an.

    Organisation

    • Verfügbare Plätze: 12
    • Aktuelle Anmeldungen: 9
    • Eine Vorbesprechung mit Themenvergabe findet am 2. März um 14:00 in 36/336 statt. Die Teilnahme wird dringend empfohlen, wer verhindert ist, soll sich zwecks Themenvergabe per E-Mail an Jürgen Göres wenden.
      Weitere Anmeldungen nach der Themenvergabe können in Ausnahmefällen berücksichtigt werden.
    • Detaillierte Informationen zur Organisation und Durchführung finden sich in den allgemeinen Hinweisen für Bearbeiter.

    Themenbeschreibung

    Mastering the Information Explosion – Information Integration and Information Quality

    Die Informationsexplosion – Symptome

    Unsere Zeit ist geprägt von einer rasanten, geradezu explosionsartigen Zunahme der Menge an verfügbaren Informationen. Am deutlichsten wird diese sicherlich an Entwicklung des World Wide Web als der bekanntesten Nutzungsform des Internet. Laut Netcraft-Statistik umfasste das Web im Januar 2006 über 75 Millionen Websites (angemeldete Domains). Die genaue Anzahl einzelner Seiten kann kaum seriös geschätzt werden. Die oft als Maßstab herangezogene Größe der Indizes von populären Suchmaschinen wie Google oder Yahoo kann auch nur ungefähre Anhaltspunkte liefern, da hier aus marketingstrategischen Gründen keine genauen Zahlen genannt werden. So meldete Yahoo im August 2005 eine Indexgröße von 19,2 Milliarden Seiten. Die Meldung über die Größe des Google-Index variieren von acht bis 25 Milliarden Seiten.

    Unerschlossene Datenschätze

    Ein Grund für die Ungenauigkeit dieser Abschätzung liegt darin begründet, dass ein erheblicher Teil der Webseiten nicht statisch ist. So bieten viele Webseiten Zugriff auf große Datenmengen in Form von Suchschnittstellen. Die Antwortseiten werden dann basierend auf den zugrundeliegenden Daten generiert, die heute üblicherweise in zumeist relationalen Datenbanken vorgehalten werden. Diese generierten Seiten sind nicht direkt verlinkt und damit für gängige Suchmaschinen nicht zugänglich, da deren Webcrawler nur Hyperlinks folgen. Die Größe dieses sogenannten "Deep Web" wird von verschiedenen Quellen auf rund das fünfhundertfache des "Surface Web" geschätzt. So bleibt nicht nur ein erheblicher Teil der Informationen über die üblichen Zugriffsmechanismen unzugänglich, sondern oft auch der qualitativ hochwertigste Teil. Das Potential dieser Datenmengen, dass sich aus ihrer Verwendung in einem anderem als dem ursprünglichen vorgesehenen Kontext ergibt, ist daher heute noch weitgehend unerschlossen. Doch auch die im Web öffentlich zugänglichen (aber aufgrund der Unzulänglichkeiten ungenutzten) Daten des Deep Web sind nur die sprichwörtliche Spitze des Eisbergs. Viel größere Datenschätze lagern in privaten Datenbanken so ziemlich jedes größeren Unternehmens oder in den von Behörden, in digitalen Bibliotheken oder Intranets.

    Um nutzenbringend eingesetzt zu werden, müssen diese Daten mit geeigneten Indexierungs- und Suchverfahren erschlossen und somit für die für jeweilige Problemstellung nützlichen Daten auffind- und zugreifbar werden – natürlich unter Berücksichtigung von Aspekten wie Datenschutz, Geschäftsgeheimnissen, Zugriffsberechtigungen und mit Unterstützung für denkbare Geschäftsmodelle für den Handel mit Information.

    Das Problem der Heterogenität

    Das Auffinden und Zugänglichmachen von geeigneten Datenquellen ist alleine jedoch noch nicht ausreichend, um einen tatsächlichen Nutzen aus den Daten zu ziehen. In Anbetracht der großen Zahl möglicher Datenquellen werden die für die jeweilige Problemstellung benötigten Daten im Allgemeinen aus mehreren (u.U. sehr vielen) Quellen von unterschiedlichster Herkunft stammen. Da jede dieser Quellen ursprünglich in einem eigenen Kontext aufgesetzt und genutzt worden ist, sind diese Datenquellen somit unweigerlich heterogen, und zwar in technischer, logischer und semantischer Hinsicht:

    Technische Heterogenität So gibt es viele technische Möglichkeiten für den Zugriff auf Daten: eine Webschnittstelle mit festgelegten Eingabefeldern ermöglicht nur eine begrenzte Flexibilität bei der Formulierung von Suchanfragen. Das oft aus strukturierten oder semi-strukturierten Daten bestehende Ergebnis wird in eine eigentlich für die direkte Aufnahme durch Menschen gedachte Form gebracht (z.B. als (X)HTML-Seite), was eine maschinelle Weiterverarbeitung erschwert. Andere Datenquellen bieten proprietäre Programmierschnittstellen oder können z.B. unter Rückgriff auf die Webservice-Technologie direkten Zugang zu mächtigen Anfrageschnittstellen bieten, an der mit deklarativen Anfragesprachen (z.B. SQL und XQuery) auch komplexe Suchanfragen beantwortet werden und in maschinenlesbarer Form zurückgeliefert werden.

    Datenmodelle und Legacy-Systeme Neben diesen technischen Fragen beim Zugriff unterscheiden sich die Datenquellen auch im verwendeten Datenmodell. Während das stark strukturierte relationale Datenmodell heute bei kommerziell bedeutsamen Datenbanksystemen klar dominiert, nimmt der Bedarf für die effiziente Speicherung von semistrukturierten Daten zu. So sind in Forschungsprojekte und von kommerziellen Herstellern DBS entwickelt worden, die auch weniger strikt strukturierte Daten insbesondere im hierarchischen XML-Datenmodell effizient speichern und modifizieren können. Aussagen über den Markterfolg dieser neuen nativen XML-Datenbanken können zum jetzigen Zeitpunkt noch nicht sicher getroffen werden, da auch viele Hersteler relationaler Datenbankprodukte die Unterstützung von XML weiter vorantreiben. Erhebliche Bedeutung haben insbesondere auch Altsysteme, die oft proprietäre hierarchische oder Netzwerk-Datenmodelle verwenden. Ein großer Teil dieser Systeme sind bereits seit Jahrzehnten in Betrieb und haben sich in dieser Zeit als zuverlässige und verlässliche Informationssysteme bewährt. Aufgrund der unternehmenskritischen Bedeutung vieler dieser Systeme ist die Hemmschwelle für eine Migration hin zu moderneren Systemen entsprechend groß. Gleichzeitig sollen die in diesen Systemen gespeicherten Daten für neue Anwendungsfelder erschlossen werden. Ansätze, welche den einheitlichen Zugriff auf heterogene Informationssysteme ermöglichen wollen, müssen also auf absehbare Zeit auch mit derartigen "Altlasten" (legacy) umgehen können.

    Abweichende Strukturierung und unscharfe Semantik Aber auch innerhalb eines Datenmodells können sich thematisch verwandte Schemata unter Umständen erheblich unterscheiden. Neben Variationen in der Strukturierung der Daten, wie sie z.B. durch einen unterschiedlichen Grad an Normalisierung entstehen, bereiten insbesondere die mehr oder minder großen semantischen Unterschiede zwischen Schemata der gleichen Domäne große Probleme. Abweichung in der Bezeichnung der Anwendungskonzepte bzw. der diese Konzepte darstellenden Schemaelemente, subtile Unterschiede im Begriffsverständnis oder die Verwendung von Ober- und Unterbegriffen sind eine große Herausforderung, wenn es darum geht, Daten aus verschiedenen Quellen zusammenzuführen. Vergleichbare Probleme – jedoch in einer ganz anderen Größenordnung – ergeben sich für die Daten selbst. So ist es nicht immer einfach festzustellen, ob sich Daten aus verschiedenen Quellen auf das gleiche Objekt aus der realen Welt beziehen oder verschiedene Objekte gemeint sind.

    Die Herausforderungen der Informationsintegration

    Abstraktion von der Heterogenität der Quellen Damit heterogene Daten sinnvoll und leicht verständlich genutzt werden können, können die Benutzer auf keinen Fall mit den verschiedenen Formen von Heterogenität konfrontiert werden. Vielmehr muss ihnen eine einheitliche Sicht auf die für den jeweiligen Anwendungszweck erforderliche Daten zur Verfügung gestellt werden, die diese Problemen verbirgt und die ihnen idealerweise wie eine einzige konventionelle Datenquelle erscheint. Dies ist die Aufgabe der Informationsintegration (II). In diesem aktiven Forschungsfeld werden Konzepte und Techniken entwickelt, welche die Überwindung der Heterogenität ermöglichen und es ermöglichen eine integrierte Sicht auf mehrere Quellen herzustellen.

    Problemfall semantische Heterogenität Die oben beschriebene semantische Heterogenität hat sich als das zentrale Problem bei der Integration heterogener Quellen erwiesen. Die Entscheidung, ob eine Menge von Datensätzen (z.B. eine Relation) einer Quelle von den gleichen Anwendungsobjekten handelt wie Daten einer anderen Quelle, kann oft nicht einfach beantwortet werden. Beim sogenannten Schema Matching wird versucht, die semantischen Zusammenhänge zwischen den Datenquellen herauszuarbeiten und als Grundlage für den Integrationsvorgang zu nutzen. Hierbei werden semantische Korrespondenzen oder Matcheszwischen den Schemata der Quellen ermittelt. Trotz zahlreicher Forschungsansätze zur Automatisierung dieses Vorgangs hat Schema Matching heute noch nicht den Stand erreicht, als dass automatisch ermittelte Matches als alleinige Grundlage für die Integration dienen können. Daher werden diese Ergebnisse im Allgemeinen nur als Vorgabe für ein anschließendes manuelles Matching durch Experten der in den Schemata modellierten Anwendungsdomäne verwendet. Die so (semi-)automatisch oder manuell identifizierten Matches dienen nun als Grundlage für die Erstellung einer Abbildung, welche die Daten der einzelnen Quellen in das Schema der integrierten Sicht transformiert.

    Vereinheitlichung der Daten Bei der Definition einer Abbildung zwischen den Quellen müssen häufig Mengen von Datensätze aus verschiedenen Quellen, welche die gleiche Art von Anwendungsobjekten beschreiben, zu einer einzigen Menge von Daten vereinigt werden oder einzelne Attribute für die Verknüpfung von Datensätzen aus verschiedenen Quellen genutzt werden. Hierbei ergibt sich das Problem des Record Matching, also der Feststellung, ob sich Datensätze aus verschiedenen Quellen auf gleiche oder verschiedene Anwendungsobjekte beziehen, das eine weitere Herausforderung darstellt. So können geeignete datenquellenübergreifende Schlüsselkandidaten fehlen oder unterschiedlich formatiert sein. Erschwert wird dies in der Praxis durch fehlerhafte Daten. Hier gibt es Ansätze, um basierend auf der Datenqualität im Fall von Konflikten auf Ebene ganzer Datenquellen oder auch einzelner Sätze eine Entscheidung zu treffen. Dazu müssen entsprechende Qualitätskriterien definiert und insbesondere für die einzelnen Quellen und ihre individuellen Datensätze ermittelt werden. Techniken um insbesondere letzteren Vorgang zu Automatisieren sind ein weiteres Gebiet aktueller Forschungsaktivitäten.

    Dynamik Bestehende Integrationstechniken gehen für das Erstellen eines Integrationssystems häufig von einer "geschlossenen Welt" aus (closed world assumption), bei der eine überschaubare Menge von Datenquellen für einen klar definierten Anwendungszweck zu integrieren ist. Diese Annahme ist für die bisherigen Integrationsszenarien, die sich häufig auf ein einzelnes Unternehmen oder noch kleinere Organisationseinheiten erstrecken, sicherlich gültig und ermöglicht die weitgehend manuelle Durchführung des Integrationsvorgangs. Bei der Nutzung von weltweit vorliegenden Daten treffen diese Annahmen jedoch häufig nicht mehr zu. Datenquellen befinden sich nun außerhalb der eigenen Organisation, was zur Folge hat, dass man keine direkte Kontrolle auf sie ausüben kann und Unsicherheit bei der Beurteilung ihre Qualität, Verfügbarkeit und anderer Eigenschaften besteht. So können Datenquellen plötzlich nicht mehr verfügbar sein, während gleichzeitig jederzeit neue relevante Quellen verfügbar werden können. Weiterhin erweitert sich der Nutzerkreis für Integrationstechniken stetig und damit steigt auch die Vielfalt der Anforderungen an eine integrierte Sicht. Klassische manuelle Integrationsvorgänge können in diesen dynamischen Situationen aus Zeit- und Kostengründen kaum mithalten. Umso größer ist hier der Bedarf nach autmatisieren Verfahren für das Erstellen und Aufrechterhalten einer Integrationslösung.

    Missbrauchspotential

    Während die Forschung im Bereich Informationsintegration ihre Bemühungen auf die zahlreichen Probleme bei der Integration heterogener Quellen richtet, wird der Diskussion um das Missbrauchspotential der entstehenden Technologien wenig Platz eingeräumt. Gesetzliche Vorgaben des Datenschutzes können durch Verknüpfung von Informationen aus verschiedenen Quellen leicht umgangen, anonymisierte Daten unter Umständen wieder de-anonymisiert werden.

    Durchführung des Seminars

    Im Rahmen des Seminars Mastering the Information Explosion – Information Integration and Information Quality bearbeiten die Teilnehmer individuelle Themen aus dem oben beschriebenen Bereich. Dazu müssen die Teilnehmer, basierend auf von den jeweiligen Betreuern bereitgestellte wie auch durch Literaturrecherchen selbst ermittelte Quellen das Thema in Form einer Ausarbeitung aufbereiten und in einem freien Vortrag präsentieren.

    Themeneinteilung

    Hinweis: die Anzahl der Themen wird an die jeweilige Teilnehmerzahl angepasst.

    Thema Vortragende(r) Betreuer Termin Ausarbeitung Folien
    1 Grundlagen Grundlagen der Informationsintegration
    Motivation
    Begriffsbildung
    GAV, LAV, GLAV, BAV
    Replikationsorientierte vs. virtuelle Integration
    Problemstellungen bei der Integration/Formen von Heterogenität
    (manuelle) Integrationsmethoden und Prozesse
    Anwendungsszenarien
    Paul Schilling Mathis Freitag 30.06.2006 13:30, 36/336 Ausarbeitung Präsentation
    2 Datenzugriff und Discovery Zugriff auf und Auffinden von Datenquellen
    existierende Schnittstellen (Wrapper, Mediatoren)
    XML-Wrapper
    Screen-Scraping-Verfahren
    neuartige Schnittstellen (Web Services, Grid Data Services)
    Auffinden von geeigneten Datenquellen
    Umgang mit autonomen Quellen
    Dragan Sunjka Stumm Ausarbeitung Präsentation (PDF)
    3 Abbildungsprobleme und Lösungsansätze Schema-Merging und -Mapping
    Ansätze und Verfahren für Schema- und Datenabbildung
    Sprachen für Schema- und Datenabbildung innerhalb von Datenmodellen (SQL-Views, XML-Views, AJAX, SchemaSQL, FISQL, ...)
    Logikbasierte Ansätze (z.B. Datalog)
    Anfragebearbeitung
    Stefan Hühner Dopichaj Ausarbeitung Präsentation (PDF)
    4 Abbildungen zwischen Datenmodellen
    Techniken, Sprachen und Algorithmen für die Schema- und Datenabbildung zwischen verschiedenen Datenmodellen (SQL, XML, OO, Legacy) (z.B. BRIITY, SQL/XML, Wrapper-basierte Ansätze ...)
    Susanne Braun Bühmann Freitag 07.07.2006 13:30, 36/336 Ausarbeitung Präsentation (PDF)
    5 Schema Matching
    Schema-Matching-Verfahren und Algorithmen (NGram-Matching, Similarity Flooding, Cupid, ...)
    Werkzeuge und Frameworks für die (semi-)automatische oder manuelle Ermittlung semantischer Korrespondenzen (Clio, COMA, SemInt, ...)
    Mächtigkeit verschiedener Ansätze zur Darstellung von Matches
    Semantic Integration, Bereitstellung von Anwendungswissen durch Ontologien
    Andreas Rumpf Stumm Ausarbeitung Präsentation (PPT)
    6 Automatische Erstellung von Integrationslösungen
    Motivation: dynamische Umgebungen
    Ansätze und Konzepte zur automatischen Erstellung von Abbildungen zwischen Datenquellen und einer integrierten Sicht
    z.B. AutoMed, Semex, ...
    Markus Eppert Göres Ausarbeitung Präsentation (PPS)
    7 Datenqualität und Data Cleaning Datenqualität
    Qualitätskriterien
    Ermittlung von Datenqualität
    Qualitätsgetriebene Integration
    Siegfried Wirth Härder Freitag 14.07.2006 13:30, 36/336 Ausarbeitung Präsentation (PPT)
    8 Data Cleaning und Record Matching
    Werkzeuge und Techniken zur Bereinigung fehlerhafter Daten
    Einsatz von Information-Retrieval-Techniken
    Record Matching (a.k.a. Instance Disambiguation, Reference Reconciliation, ...)
    Christoph Hartel Dopichaj Ausarbeitung Präsentation (PDF)
    9 Produkte Produkte und Prototypen
    Werkzeuge, Produkte und Prototypen für replikationsorientierte und föderierte Integration
    Einordnung bestehender Integrationsprodukte und Forschungsprototypen
    (z.B. DB2 II, Infosphere, AutoMed, Clio, verschiedene ETL-Werkzeuge, ...)
    Matthias Käppler Göres Ausarbeitung Präsentation (PDF)

    Literatur

    Themenbezogene Literatur wird nach der Themenvergabe vom jeweiligen Betreuer bekannt gegeben.


    JG, 17.02.06