Projects

PALADIN

PALADIN: Ein musterbasierte Ansatz zur dynamischen Informationsintegration

Das PALADIN-Projekt hat die Entwicklung von Methoden und Werkzeugen für die dynamische Informationsfusion bzw. -integration zum Ziel. In neuen, hochdynamischem Umgebungen wie einem Data Grid können die von stabilen Anforderungen und Datenquellen ausgehenden manuellen Integrationstechniken nicht mehr eingesetzt werden, da Nutzerinteressen kurzfristig wechseln und die sehr zahlreichen Datenquellen grundsätzlich autonom sind.

Um Informationsintegration auch in diesen zeit- und kostensensiblen Anwendungsszenarien Integrationstechniken verfügbar zu machen, müssen alle Schritte bei der Erstellung einer Integrationslösung, die bisher von Integrationsexperten ausgeführt wurden, durch Werkzeuge für Endanwender unterstützt und schrittweise automatisiert werden. Beginnend mit der Ermittlung der Anforderungen an eine integrierte Sicht folgt die Suche und Auswahl geeigneten Datenquellen. Anschließend gilt es, einen Integrationsplan zu erstellen, der die in den Strukturen der Quellen vorliegenden Daten in jene der integrierten Sicht überführt. Dieser Plan wird schließlich in einer Laufzeitumgebung zum Einsatz gebracht.

Grundlage für die Automatisierung des Integrationsprozesses ist die vereinheitlichte Handhabung von Daten und Metadaten beliebiger Datenmodelle. Dieses generische Metadatenmanagement wird in der PALADIN-Infrastruktur durch eine am Common Warehouse Metamodel orientierte geschichtete Metadatenarchitektur, dem PALADIN-Metamodell (PMM), ermöglicht, in das alle Quell- und Zielschemas überführt werden. Im PMM dargestellte Schemata und Daten können als attributierte, getypte Multigraphen aufgefasst werden.

Der Schwerpunkt unseres Projekts liegt auf der Automatisierung der Planungsphase, also der Erstellung einer Abbildungsdefinition von den Datenquellen zum Ziel. Integrationsmuster dienen zur Erfassung des bisher von menschlichen Experten bereitsgestellten Wissens über die Lösung atomarer und komplexer Abbildungsprobleme. Jedes Muster beschreibt dazu abstrakt eine allgemeine Problemkonstellation sowie die in dieser Situation mögliche Lösung als Graphtransformation der Schemata und ihrer Daten.

Durch zielgerichtete Anwendung der Integrationsmuster wird versucht, eine Ausgangssituation (Schemata der ausgewählten Datenquellen) in die gewünschte Zielsituation (das Zielschema) zu überführen. Gelingt eine solche Ableitung des Zielschemas, beschreibt die Reihenfolge der Anwendung der Muster den abstrakten Integrations- oder Operatorplan. Dieser wird auf die Sprache und Operatoren der gewünschten Zielplattform abgebildet und zum Einsatz gebracht.

Kontakt: Jürgen Göres

PALADIN: Pattern-based Approach to LArge-scale Dynamic INformation Integration

The goal of the PALADIN project is to develop methods and tools that enable the use of information integration technology in highly dynamic environments. A prime example for such an environment is the nascent data grid technology, which provides the infrastructure to enable access to a huge number of globally distributed and highly heterogeneous structured or semi-structured data sources. In order to benefit from these massive amounts of data, users or applications must not be confronted with the individual data sources directly, but instead be provided with an integrated view specific to the requirements of particular application. However, in these environments many assumptions made by the conventional human-driven integration approaches do no longer hold: Not only are the requirements of users or applications on the integrated schema much more diverse and volatile, but also are the data sources which contribute to the integrated schema subject to permanent change, as they are no longer under control of a single administrative entity. This results in data sources joining and leaving the grid or changing their exported schema and data. An integration solution in such an environment would necessarily have to be modified permanently, in order to keep up with these changes, which is obviously infeasible using today's slow-paced human-driven approaches.

In order to provide information integration in these dynamic and at the same time often cost-sensitive environments, the different steps in the setup of an integration solution, which are currently performed by integration and application domain experts, have to be supported by suitable tools and should ultimately be largely automatized. The initial step is the analysis of the requirements on the integrated system, essentially the choice of a suitable data model and the information schema. In the next step, suitable data sources that can contribute to this integrated schema have to be discovered and selected. Now, an integration plan has to be developed, which maps the data represented in the structure of the respective sources to the structure of the integrated view. This plan has then to be deployed to a suitable runtime environment, which gives access to the integrated data.

An essential foundation for the (partial) automation of the integration process is a unified handling of data and metadata expressed in different data models. This generic metadata management is made possible by the PALADIN metamodel (PMM), a layered metadata architecture loosely based on the Common Warehouse Metamodel. All source and target schemas are represented in PMM. Every PMM model can be understood as an attributed, typed multigraph.

The focus of our project is on the creation of the integration plan, i.e., the creation of the mapping from the source schemas to the target schema. Integration patterns are our primary concept to capture the knowledge of human integration experts about solving small and large-scale mapping problems. By using graph transformations, each pattern describes a problem constellation in an abstract fashion and provides an approach to a solution.

By combining several of these patterns, the initial situation, i.e., the schemas of the data sources is transformed into the desired end result, i.e., the integrated schema. If such a deduction is successful, the sequence of pattern applications essentially describes an abstract integration or operator plan, which is then transformed into the language or operators of the chosen target runtime environment and finally deployed.

Contact: Jürgen Göres