Data Integration

Datenintegration

Die Pentaho Data Integration ist eine Unternehmensplattform zur Beschleunigung von Datenpipelines. mw-headline" id="Geschichte">Geschichte[Bearbeiten | < Quelltext bearbeiten] Information Integration ist die Kombination von Daten aus verschiedenen Datensätzen (Datenquellen) mit meist abweichenden Dateistrukturen zu einer gemeinsamen einheitlichen Dateistruktur. Insbesondere sollten homogene Ressourcen so umfassend und effektiv wie möglich zu einer strukturellen Organisationseinheit zusammengefasst werden, die besser genutzt werden kann, als dies mit dem direkten Zugang zu den Einzelquellen möglich wäre.

Erst in den 90er Jahren rückte die Integration komplexer gewordener Strukturen in den Fokus der Informatikforschung und befand sich daher im Entwicklungsprozess. Durch die rasante Weiterentwicklung der Datenbanktechnologie seit den 1960er Jahren ist es notwendig, bestehende Informationen zu tauschen und zu bündeln. Die beliebte Standardlösung basiert auf dem Konzept des Data Warehouse, das die Informationen aus unterschiedlichen Datenquellen herauszieht, sie umwandelt und in ein einheitliches Gesamtsystem einliest.

Das Zusammenführen von heterogenen Herkunftsinformationen bezieht sich sowohl auf die Integration von konkreten Fakten als auch auf die Struktur (Schemata), in denen sie existieren. Im Regelfall müssen zunächst die dezentralen Schemas eingebunden werden (Schema-Integration), für die auch (teil-)automatische Prozeduren verwendet werden können (Schema-Matching). Für die anschließende Integration der Messdaten sind Prozeduren der Fusion und der Dublettenerkennung erforderlich.

Besteht eine redundante Datenhaltung zwischen den verschiedenen Informationsquellen (Erweiterungsredundanz), ist es zum Teil möglich, Beziehungen automatisiert zu ermitteln und diese zur Vervollständigung von Datenbeständen zu verwenden (Datenfusion). Aufgrund der Verfügbarkeit weiterer Detailinformationen zu einzelnen Objekten wird dies auch als Zusammenfassung bezeichnet. Die Integration zielt darauf ab, eine einheitliche Gesamtübersicht über alle relevanten Datensätze zu erhalten.

Für die Überprüfung können überflüssige Informationsquellen verwendet werden. Durch die Kombination von intensionsredundanten Informationsquellen wird eine höhere Reichweite erreicht und die Vervollständigung von Datenbeständen mit erweiterter Quellenredundanz eine höhere Diversität. Prinzipiell können zwei Typen der Integration unterschieden werden: Materiell oder physisch integriert: Dabei werden die Informationen aus den unterschiedlichsten Informationsquellen - meist mit unterschiedlicher Datenstruktur - in die Zielsystematik überführt und in eine zentralisierte Datenbank übertragen, wo sie zur Analyse zur Verfuegung gestellt werden.

Virtual or logical integration: Die Informationen bleiben in den verschiedenen Quellsystemen und die Integration erfolgt nur bei einer Abfrage (Federated Information System). Zeitnähe: Im Falle einer materialisierten Integration resultiert die Zeitnähe der Messdaten aus dem Zeitabstand zwischen den Datenupdates aus den Quelldateien; ein nahezu durchgängiges Gesamtsystem hingegen ist immer auf dem neuesten technischen Wissensstand, da die Messdaten zum Zeitpunkt der Anforderung eingebunden werden.

Reaktionszeit: Da alle Informationen in einem Materialsystem gespeichert sind, können sie für kurze Reaktionszeiten optimal genutzt werden. Die Reaktionszeit bei der virtuellen Integration richtet sich in hohem Maße nach der Bereitstellung des Datenmanagementsystems und der Zugangsgeschwindigkeit zu den Ausgangsdaten, den Übertragungswegen und den zusätzlichen Aufgabenstellungen wie Datatransformation (Mapping) und Datenreinigung.

FlexibilitÃ?t: Als groÃ?e Databanken sind Materialsysteme in der Regel schwerer zu pflegen als praktisch vernetzte Komplettsysteme, bei denen die Datenpflege in der Verantwortung der Datenquellen liegt. Darüber hinaus kann das Einfügen einer Quelldatei die Gesamtintegration beeinträchtigen (Global-as-View), während das Einfügen, Löschen oder Verändern einer Quelldatei bei der virtuellen Integration nur deren Zuordnung zu einem globalen System beeinflusst (Local-as-View).

Unabhängigkeit der Datenquellen: Sowohl bei der materialisierten als auch bei der virtuellen Integration der Daten gibt es keinen direkten Einfluß auf die einzelnen Quellen, d.h. ihre Strukturen bleiben erhalten. Einen größeren Einfluß auf diese Entwicklung zu haben, erscheint die Virtual Data Integration, da beispielsweise die physische Integration einen gezielten Zugang zu Zeitpunkten mit allgemein schwächeren Auslastungen ermöglichen könnte.

Hardwareanforderungen: Die Materialisierung der Integration setzt in der Regel die Anschaffung von spezieller Hardwaren voraus. Data Quality: Bei der Materialized Integration steht in der Praxis in der Praxis mehr Zeit für die Umwandlung der Informationen zur Verfugung, was im Gegensatz zur Virtual Data Integration komplexere Auswertungen ermöglicht - die erzielbare Datenqualitat ist daher größer. Mit Materialisierungssystemen werden die Informationen aus den Herkunftsquellen übernommen, gereinigt und aufbereitet.

Im Allgemeinen werden die in den Vorsystemen verfügbaren Informationen nicht geändert. Data Warehouses (DWH): sind die bedeutendsten Repräsentanten von materialisierten Datenbanksystemen. Dabei werden die für den Datenbedarf eines Unternehmen notwendigen Informationen dauerhaft unmittelbar in einem gemeinsamen Data Warehouse abgelegt, um eine umfassende und konsistente Ansicht der jeweiligen Informationen zu gewährleisten. Für die Integration der Ausgangsdaten in die Basisdatenbank des DWH muss zu diesem Zwecke eine Integrations-Schicht realisiert werden (ETL-Prozess).

Operative Datenspeicher (ODS): Während Data-Warehouse-Systeme in erster Linie an die Anforderungen der Unternehmensführung angepaßt sind und so die verfügbaren Erkenntnisse für strategische Entscheidungsprozesse genutzt werden, liefern "operative Datenspeicher" integrierte Werte für betriebliche Unternehmensprozesse. Daraus ergibt sich bereits, dass die in einem gemeinsamen Data Warehouse abgelegten Datensätze "operativ" zu nutzen sind, d.h. nach der erfolgten Integration (Import, Cleansing, Storage) sind diese Datensätze Änderungen unterworfen.

ODS-Systeme konzentrieren sich daher nicht auf historisch gewachsene Werte, sondern in erster Linie auf Istdaten. Die ODS werden vor allem von Firmen in den Geschäftsfeldern genutzt, in denen die Datenaktualität eine wichtige Funktion hat, z.B. in der Kunden- und Lieferantenkommunikation und in Lagermanagementprozessen. Im Zuge des Trends zum Echtzeit-Data Warehouse und leistungsfähigeren Datenbank-Managementsystemen wird der operative Datenspeicher voraussichtlich in das Data Warehouse übergehen.

Anders als bei materiellen Anlagen werden die Informationen in den elektronischen Datensystemen nicht im Gesamtsystem selbst abgelegt, sondern bleiben physikalisch in den Datensätzen und werden nur bei Abfragen in das Gesamtsystem eingelesen ("Virtual Data Storage"). Es bildet zum einen die Schnittstellen zu den dezentralen und dezentralen Datenbeständen und deren dezentralen Schaltplänen ab und ermöglicht zum anderen den abfragenden Applikationen eine ganzheitliche Gesamtsicht auf die verknüpften Quellendaten durch geeignete Services.

Medienbasiertes Informations-System & Packer (MBS): Medienvertreter fungieren als "Mediatoren" zwischen Informationsquellen und Applikationen. Die Mediatorin erhält Anforderungen aus dem Antrag und antwortet auf diese durch Kommunikation mit den relevanten Informationsquellen. Daraus ergibt sich bereits ein hohes Maß an Kenntnis der Struktur aller verknüpften Quellen in Bezug auf Schaltpläne und mögliche Unstimmigkeiten der zugehörigen Einheiten.

Mediator-basierte Infosysteme ermöglichen im Unterschied zu verbundgebundenen Datensystemen nur Lesezugriff auf die Gesamtsysteme. Grundsätzlich können Vermittlungsinstanzen auch als Teil eines materiellen Infosystems genutzt werden, z.B. als Mittler zwischen der Integrationsebene (oder dem Zentraldatenlager ), um die Ungleichgewichte der angebundenen Vorsysteme zu beseitigen. Weil in mediatorischen Anlagen jedoch die wesentlichen Merkmale materialisierter Anlagen, ein zentrales Data Warehouse, fehlen, werden sie digitalen Datenarchitekturen zugewiesen.

Gleiche Datenmanagementsysteme (PDMS): Das letzte in der Anwendung relevante Integrations-System sind die Gleichen Datenmanagementsysteme. Zwischen Ihren eigenen und denen anderer Kollegen sind Schema-Mappings verfügbar, über die jeweils unterschiedliche Elemente zueinander in Bezug gesetzt werden können. Für die Verbindung mit den angeschlossenen Bauteilen bietet jeder Teilnehmer ein oder mehrere Exportschemata an.

Als unabhängige, selbständige Komponente versucht der Peer, Anforderungen sowohl mit eigenen Informationen als auch mit Informationen oder Ergebnissen anderer angeschlossener Peer zu antworten. Jahrgang 56, Nr. 2, 2009, S. 229-236, doi:10.1109/TBME.2008.2005955. Hochsprung Duane Nickull: Modeling Method to Homogr. Disparate Data Modeles. Hochsprung ? Michael Mireku Kwakye: Ein praktischer Ansatz zur Zusammenführung multidimensionaler Datenmodelle.

2011. High-Springen Schnelle Architektur-Konsolidierungs-Engine - Die Unternehmenslösung für disparate Datenmodelle. iri (de), 20111. Hochsprung ? Dave L. Hall, James Llinas: Einführung in die Multisensor-Datenfusion. Bd. 85, Nr. 1, Jan. 1997, S. 6-23. Hochsprung unter ? Scot Weidman, Thomas Arrison: Schritte zur groß angelegten Datenintegration in den Wissenschaften : Lebenslauf eines Workshops.

Mehr zum Thema