UniKL Logo

Lehrgebiet Informationssysteme

FB Informatik

FB Informatik
 
LG IS
AG DBIS
AG HIS
 About us
 Staff
  Jürgen Göres
    in German and in English  Projects/Projekte
    in English  Curriculum Vitae
    in English  Publications
    in English  Supervised Documents
    in English  L.A. & Seminars
    in German  Offene Arbeiten
    in German and in English  Personal Page/Persönliche Seite
 Publications
 Projects
 Intern
 Impressum
Jobs / Tasks
Courses
Publications
Contact
Misc
Impressum
(C) AG DBIS
 

Offene Arbeiten

Zusätzlich zu den hier gegebenenfalls aufgeführten Arbeiten bieten wir regelmäßig weitere interessante Aufgaben an, die im Rahmen einer Projekt-, Studien- oder Diplomarbeit bearbeitet werden können. Oft ist eine auch Erweiterung von Projektarbeitsthemen zu vollwertigen Diplomarbeiten möglich. Bei Interesse einfach anrufen, mailen oder vorbeikommen. Auch für Nicht-Datenbänker ist oft was dabei.

Diplomarbeiten

Konzepte und Techniken zur Suche und Auswahl von Datenquellen für die Informationsintegration

In zunehmenden Maße werden mit Hilfe neuer Technologien wie Web Services oder Data Grids Datenquellen weltweit verfügbar gemacht. Das Projekt PALADIN beschäftigt sich mit Konzepten zur dynamischen Integration dieser heterogenen Datenquellen. Aufgrund der großen Anzahl potentieller Datenquellen stellt insbesondere die Suche und Auswahl der geeigneten Quellen für eine gegebene Anforderung eine große Herausforderung dar.

In der ersten Phase der Arbeit sollen existierende Konzepte und Techniken für den Zugriff auf verteilte, strukturierte wie semistrukturierte Datenquellen und ihre Metadaten theoretisch wie exemplarisch auch praktisch untersucht werden. Neben proprietären Schnittstellen sind hier insbesondere die Entwicklungen im Umfeld der Web-Service-Technologie und den Data Grids zu berücksichtigen. Für die Implementierung kann auf die bereits im Rahmen des PALADIN-Projekts entstandene Infrastruktur für den Import von Metadaten zurückgegriffen werden.

Die über diese Schnittstellen gewonnen Metadaten sollen nun als Grundlage für die Suche nach Datenquellen herangezogen werden. Dazu gehören neben dem Schema der Quelle auch weitere Informationen zu Verfügbarkeit, Datenqualität, Nutzungsbedingungen, sowie statistische Informationen über die in einer Quelle vorliegenden Instanzen. Diese Daten sind in einem (zunächst zentralen) Repository auf Grundlage eines Standard-Datenbanksystems vorzuhalten.

Um auf Grundlage der Informationen über die Datenquellen geeignete Datenquellen auswählen zu können, muss eine Anbindung an ein existierendes Schema-Matching-Frameworks erfolgen, um mit dessen Hilfe semantische Korrespondenzen zwischen Datenquellen zu ermitteln. Da die Erstellung dieser Korrespondenzen aufwendig ist, sind sie ebenfalls in das Repository aufzunehmen.

Schließlich soll eine prototypische Implementierung eines Datenquellen-Suchdienstes die Informationen im Repository für die Ermittlung geeigneter Quellen für ein gegebenes integriertes Zielschema nutzen.

Interessenten sollten neben Kenntnissen im Bereich Datenbanken und Informationssysteme über Erfahrung in der Entwicklung mit Java verfügen.

Implementierung von Schema-Matching-Algorithmen für ein bestehendes Schema-Matching-Framework

Unter dem Begriff Schema Matching versteht man die Identifikation von inhaltlichen Zusammenhängen (Korrespondenzen, Matches) zwischen verschiedenen Datenbank-Schemata. Diese Korrespondenzen bilden die Grundlage für die Informationsintegration, welche das Kombinieren von Daten aus verschiedenen Quell-Datenbanken in einer einzigen integrierte Datenquelle zum Ziel hat. Schema-Matching-Algorithmen (Matcher) nutzen verschiedenste Informationen aus dem Datenbankschema, z. B. ähnliche Tabellen- und Spaltennamen (linguistisches Matching), Typähnlichkeit, aber auch Informationen über den strukturellen Zusammenhang (strukturelles Matching) oder Wissen über die Daten, wie zum Beispiel Wertebereiche und -verteilung (instanzbasiertes Matching). Erst die Kombination all dieser Kriterien liefert Korrespondenzen von hinreichender Güte für folgende Integrationsschritte.

Im Rahmen des Projekts PALADIN ist ein Framework für das Schema Matching (ScheMaF) entstanden, welches eine Infrastruktur für das Schema Matching bereitstellt. Verschiedene Matching-Algorithmen können als Komponenten integriert und frei konfiguriert werden.

Im Rahmen dieser Diplomarbeit sollen dem Framework weitere Matcher hinzugefügt werden. Dazu sind zunächst bekannte Algorithmen aus der Literatur an ScheMaF anzupassen und zu implementieren. Mit der so gewonnen Erfahrungen können in einer zweiten Phase dann weitere Matcher konzeptioniert und umgesetzt werden. Insbesondere das instanzbasierte Matching bietet hier großes Potential für erhebliche qualitative Verbesserungen.

Interessenten sollten neben Kenntnissen im Bereich Datenbanken und Informationssysteme über Erfahrung in der Entwicklung mit Java verfügen.

Entwicklung einer Benutzeroberfläche für ein Schema-Matching-Framework

Unter dem Begriff Schema Matching versteht man die Identifikation von inhaltlichen Zusammenhängen (Korrespondenzen, Matches) zwischen verschiedenen Datenbank-Schemata. Diese Korrespondenzen bilden die Grundlage für die Informationsintegration, welche das Kombinieren von Daten aus verschiedenen Quell-Datenbanken in einer einzigen integrierte Datenquelle zum Ziel hat. Schema-Matching-Algorithmen (Matcher) nutzen verschiedenste Informationen aus den beteiligten Datenbankschemas, Hintergrundwissen aus Wörterbüchern oder statistische Informationen über die Daten eine Datenquelle, um Matches automatisiert zu bestimmen. Dennoch ist die Mächtigkeit automatischer Matcher begrenzt, so dass dem Benutzer die Möglichkeit gegeben werden muss, die automatisch identifizierten Matches einzusehen, und gegebenenfalls zu korrigieren und zu ergänzen.

Im Rahmen des Projekts PALADIN ist ein Framework für das Schema Matching (ScheMaF) entstanden, welches eine grundlegende Infrastruktur für das Schema Matching bereitstellt und in das verschiedene Matching-Algorithmen als Komponenten integriert und flexibel kombiniert werden können.

Im Rahmen dieser Diplomarbeit soll eine Benutzeroberfläche für ScheMaF entstehen, welche zwei wesentliche Funktionen abdeckt: Zum einen ist die Konfiguration des Matching-Vorgangs (Auswahl von Ein- und Ausgabeschemas, Auswahl und Verdrahtung von Matching-Algorithmen) zu unterstützen, zum anderen sollen die Matching-Ergebnisse visualisiert und dem Benutzer Editiermöglichkeiten angeboten werden, um so die Resultate iterativ verbessern zu können.

Sowohl Matching-Konfiguration wie auch Schemata und Korrespondenzen können als Graphen repräsentiert werden. Als Grundlage für die Implementierung kann daher auf einen in einer anderen Diplomarbeit im Lehrgebiet entstandenen Graph-Editor zurückgegriffen werden. Dieser ist mit Hilfe von Darstellungs- und Editierregeln flexibel an verschiedenste zugrunde liegende Graphmodelle anpassbar.

Interessenten sollten neben Kenntnissen im Bereich Datenbanken und Informationssysteme über Erfahrung in der Entwicklung mit Java verfügen.

Codegenerierung aus Datenbankschemas mit Hilfe des Eclipse Modeling Framework (EMF)

Das Schema einer Datenquellen beschreibt die Strukturen und Formate, in denen die Daten der Quelle vorliegen. Im Rahmen des PALADIN-Projekts ist eine generische objektorientierte Darstellung für Schemas verschiedener Datenmodelle (z.B. XML, SQL) entstanden. Im ersten Teil dieser Arbeit sollen für Schemas, die in dieser Darstellung vorliegen, Java-Klassen generiert werden, deren Instanzen die Daten (Tupel, XML-Elemente und Attribute etc.) der jeweiligen Datenquelle repräsentieren. Für die Codegenerierung kann auf die Infrastruktur des Eclipse Modeling Framework zurückgegriffen werden.

Im zweiten Schritt sollen nun Daten aus den Datenquellen als Instanzen der mit Hilfe des Codegenerators erzeugen Klassen geladen werden. Mögliche zu unterstützende Datenquellen umfassen u.a. über JDBC angebundene relationale Datenbanken sowie XML-Dokumente und Datenbanken (z. B. in einer DOM-Darstellung). Aufgrund der großen Datenmengen, die in heutigen Datenbanken vorgehalten werden, ist ein Verfahren zum verzögerten Laden der Daten beim Zugriff (On-Demand) und dem Entladen nicht länger benötigter Daten vorzusehen.

Interessenten sollten neben Kenntnissen im Bereich Datenbanken und Informationssysteme über Erfahrung in der Entwicklung mit Java verfügen. Kenntnisse im Umgang mit dem Eclipse Modeling Framework oder in der Entwicklung von Eclipse Plugins sind hilfreich, aber nicht erforderlich.