Datenfluss im Data Warehouse
Der Datenfluss im Data Warehouse beschreibt, welche Objekte zur Designtime und Prozesse zur Laufzeit benötigt werden, um Daten aus einer Quelle ins BI übertragen zu können sowie die Daten zu bereinigen, zu konsolidieren und zu integrieren, um sie schließlich für Analyse, Reporting und ggf. zur Planung zur Verfügung zu stellen. Die individuellen Anforderungen Ihrer Unternehmensprozesse werden dabei durch vielfältige Ausgestaltungsmöglichkeiten des Datenflusses unterstützt. So können Sie beliebige Datenquellen verwenden, die Daten ins BI übertragen oder direkt auf Quelldaten zugreifen, einfache oder komplexe Bereinigungs- und Konsolidierungsverfahren einsetzen und Datenablagen entsprechend Ihrer Anforderungen in der Schichtenarchitektur definieren.
Mit SAP NetWeaver 7.0 wurden die Konzepte und Technologien für bestimmte Elemente im Datenfluss verändert. Im Folgenden werden die wesentlichen Bestandteile des neuen Datenflusses erläutert, wobei auch auf die Änderungen im Vergleich zum bisherigen Datenfluss kurz eingegangen wird. In Abgrenzung zu den neuen Objekten werden die bisher verwendeten Objekte mit dem Zusatz 3.x versehen.
Die folgende Grafik verdeutlicht den Datenfluss im Data Warehouse:

Die Metadatenbeschreibung der Quelldaten wird im BI durch DataSources abgebildet. Eine DataSource ist eine Menge von Feldern, die verwendet wird, um Daten einer betriebswirtschaftlichen Einheit aus einem Quellsystem zu extrahieren und in die Eingangsschicht des BI-Systems zu übertragen oder zum direkten Zugriff zur Verfügung zu stellen.
Für DataSources steht ein neues Objektkonzept im BI zur Verfügung. Die DataSource wird im BI unabhängig von 3.x-Objekten auf einer einheitlichen Oberfläche bearbeitet bzw. angelegt. Mit der Aktivierung der DataSource erzeugt das System in der Persistent Staging Area (PSA), der Eingangsschicht des BI eine PSA-Tabelle. Somit stellt die DataSource ein persistentes Objekt innerhalb des Datenflusses dar.
Die Daten werden mithilfe eines InfoPackages in das PSA geladen, bevor Sie im BI weiter verarbeitet werden können. Im InfoPackage werden die Selektionsparameter für die Übertragung ins PSA festgelegt. Es dient im neuen Datenfluss ausschließlich dem Laden ins PSA.
Unter Anwendung der Transformation werden die Daten im BI aus einem Quellformat in ein Zielformat überführt. Somit ermöglicht Ihnen die Transformation, die Daten zu konsolidieren, zu bereinigen und zu integrieren. Die Transformation ersetzt im Datenfluss die Übertragungs- und Fortschreibungsregeln inklusive der Transferstrukturpflege. In der Transformation werden auch die Felder einer DataSource den InfoObjects des BI zugeordnet.
InfoObjects sind die kleinsten Einheiten des BI. Sie bilden die Informationen in strukturierter Form ab, die zum Aufbau von InfoProvidern benötigt werden.
InfoProvider sind persistente Datenablagen, die in der Schichtenarchitektur des Data Warehouses verwendet werden, oder Sichten auf Daten. Sie können die Daten für Analyse, Reporting und Planung zur Verfügung stellen.
Mit Hilfe der im neuen Datenfluss optionalen InfoSource können mehrere Transformationen hintereinander geschaltet werden. Eine InfoSource ist somit nur für komplexe Transformationen (Mehrschrittverfahren) notwendig.
Der Datentransferprozess (DTP) wird verwendet, um die Daten innerhalb des BI unter Anwendung von Transformationen und Filtern von einem persistenten Objekt in ein anderes zu übertragen. Mögliche Quellen für die Übertragung sind DataSources und InfoProvider, mögliche Ziele sind InfoProvider und Open Hub Destinationen. Der DTP ersetzt zur Verteilung der Daten innerhalb des BI und in nachgelagerte Systeme das InfoPackage, das Data Mart Interface (Export-DataSources) und die InfoSpoke.
Über eine Open Hub Destination können die Daten in weitere Systeme verteilt werden.
Die mit dem Datenfluss verbundenen Prozesse, darunter InfoPackage und Datentransferprozess, werden im BI über eine Prozesskette eingeplant.
Die Verwendung der neuen DataSource ermöglicht Real-Time Data Acquisition sowie den Direktzugriff auf Quellsysteme vom Typ Datei und DB Connect.
Durch Verwendung von Datentransferprozessen (DTPs) werden die Übertragungsprozesse über die Data-Warehouse-Schichten transparenter. Die Performance der Übertragungsprozesse erhöht sich durch optimierte Parallelisierung. Mit dem DTP können Deltaverfahren für verschiedene Ziele separiert und auf verschiedenen Ebenen Filtermöglichkeiten zwischen den persistenten Objekten genutzt werden. Mit dem DTP kann die Fehlerbehandlung auch für DataStore-Objekte eingestellt werden. Die Möglichkeit, fehlerhafte Sätze in einen Fehler-Stack aussortieren zu können und nach den Verarbeitungsschritten des DTPs die Daten in einen Zwischenspeicher zu schreiben, erleichtert die Fehlerbehandlung. Des Weiteren kann bei Verwendung des DTPs auf jede DataSource im SAP-Quellsystem, die den entsprechenden Modus in den Metadaten unterstützt, direkt zugegriffen werden (auch auf Stammdaten- und Text-DataSources).
Die Verwendung von Transformationen vereinfacht die Pflege von Regeln zur Bereinigung und Konsolidierung von Daten. Statt wie bisher zwei Regeln, Übertragungs- und Fortschreibungsregeln, werden nur noch die Transformationsregeln benötigt. Diese werden über eine übersichtlichere, grafische Benutzungsoberfläche bearbeitet. Eine InfoSource wird nicht mehr wie bisher zwingend benötigt, sondern sie ist optional und nur für bestimmte Funktionen notwendig. Die Transformation bietet außerdem zusätzliche Funktionen wie die Mengenumrechnung und die Möglichkeit, eine Endroutine oder eine Expertenroutine anzulegen.
Hierarchie-DataSources, DataSources mit der Übertragungsmethode IDoc sowie DataSources zu BAPI-Quellsystemen können im neuen Datenfluss nicht angelegt werden und können nicht migriert werden. DataSources 3.x können jedoch durch die Schnittstellen des neuen DataSource-Konzepts angezeigt und bedingt im neuen Datenfluss verwendet werden. Weitere Informationen hierzu finden Sie unter DataSource 3.x emuliert verwenden.
Informationen dazu, wie Sie einen
bestehenden Datenfluss mit 3.x-Objekten migrieren, finden Sie unter
Migration eines
bestehenden Datenflusses durchführen.