Datenablage und Datenfluss (SAP-Bibliothek

Datenablage und Datenfluss

SAP NetWeaver BI bietet Ihnen umfangreiche Möglichkeiten zur Datenablage an. Dazu gehört die Implementierung eines Data Warehouses oder eines Operational Data Store wie auch die Schaffung der zur Analyse verwendeten Datenablagen.

Architektur

Eine mehrschichtige Architektur dient der Integration von Daten aus unterschiedlichen Quellen, der Transformation, Konsolidierung, Bereinigung und Ablage von Daten sowie der effizienten Bereitstellung der Daten zur Analyse und Interpretation. In den Schichten können die Daten in unterschiedlicher Granularität abgelegt werden.

Die folgende Grafik zeigt, welche Schichten das Data-Warehousing-Konzept von SAP NetWeaver BI umfasst:

Diese Grafik wird im zugehörigen Text erklärt

● Persistent Staging Area

Nach der Extraktion aus einer Quelle gelangen die Daten in die Eingangsschicht des Enterprise Data Warehouses, die Persistent Staging Area (PSA). Die Daten aus dem Quellsystem werden in dieser Schicht unverändert abgelegt. Sie liefert den Backup-Status auf granularer Ebene, um später potentiell weitere Informationen zur Verfügung zu stellen, und sie ermöglicht im Fehlerfall ein schnelles Wiederaufsetzen.

● Data Warehouse

Der Weg der Daten vom PSA in die nächste Schicht dient qualitätssichernden Maßnahmen und den für eine einheitliche, integrierte Datensicht notwendigen Bereinigungen. In der Data-Warehouse-Schicht wird das Ergebnis dieser ersten Transformationen und Bereinigungen abgelegt. Sie bietet integrierte, granulare, historische, stabile Daten, die noch nicht für einen konkreten Anwendungszweck verändert wurden, d.h. sie sind applikationsneutral. Das Data Warehouse bildet die Grundlage und zentrale Datenbasis für weitere (verdichtete) Datenhaltungen zu Analysezwecken (Data Marts). Ohne ein zentrales Data Warehouse können Erweiterung und Betrieb von Data Marts oft nur unzureichend gestaltet werden.

● Architected Data Marts

Die Data-Warehouse-Schicht beliefert die meist multidimensionalen Auswertungsstrukturen, die auch als Architected Data Marts bezeichnet werden. Dabei ist Data Mart nicht notwendig mit summiert bzw. aggregiert gleichzusetzen; auch hier findet man hoch granulare Strukturen, die sich aber allein an den Anforderungen der Auswertung orientieren.

● Operational Data Store

Ein Operational Data Store unterstützt die operative Datenanalyse. Die Daten werden in einem Operational Data Store fortwährend oder in kurzen Zeitabständen verarbeitet und für die operative Analyse gelesen. Somit kennzeichnet einen Operational Data Store eine hohe Datenaktualität auf meist unverdichteten Datenbeständen, wodurch operative Analysen optimal unterstützt werden.

Datenablage

Bei der Modellierung der Schichten stehen Ihnen zur physischen Ablage verschiedene Strukturen bzw. Objekte zur Verfügung, die je nach Anforderung verwendet werden können.

In der Persistent Staging Area (PSA) ist die Struktur der Quelldaten durch DataSources abgebildet. Zu einer DataSource werden die Daten einer betriebswirtschaftlichen Einheit (z.B. Kundenstammdaten oder Positionsdaten eines Auftrags) in einer transparenten, flachen Datenbanktabelle, der PSA-Tabelle, abgelegt. Die Datenablage in der Persistent Staging Area ist kurz- bis mittelfristig, sie liefert den Backup-Status für die nachfolgenden Datenablagen; daher sind Abfragen auf dieser Ebene und die Archivierung dieser Daten nicht möglich.

Während eine DataSource aus einer Menge von Feldern besteht, sind die im Datenfluss folgenden Datenablagen durch InfoObjects definiert. Die Felder der DataSource müssen über Transformationen in SAP NetWeaver BI den InfoObjects zugeordnet werden. InfoObjects sind somit die kleinsten (Metadaten-)Einheiten des BI. Durch sie werden die Informationen in strukturierter Form abgebildet, die zum Aufbau der Datenablagen benötigt werden. Sie untergliedern sich in Kennzahlen, Merkmale und Einheiten.

● Kennzahlen liefern die Bewegungsdaten, d.h. die Werte, die analysiert werden sollen. Dabei handelt es sich um Mengen, Beträge oder Stückzahlen, z.B. Absatzmengen oder Umsatzzahlen.

● Merkmale sind Ordnungsbegriffe wie z.B. Produkt, Kundengruppe, Geschäftsjahr, Periode oder Region. Sie geben Klassifizierungsmöglichkeiten des Datenbestands vor und sind damit Bezugsobjekte für die Kennzahlen. Merkmale können Stammdaten in Form von Attributen, Texten oder Hierarchien enthalten. Stammdaten sind Daten, die über einen längeren Zeitraum unverändert bleiben. Die Stammdaten einer Kostenstelle beispielsweise enthalten die Bezeichnung (Text), den Verantwortlichen (Attribut), den zugehörigen Hierarchiebereich (Hierarchie) usw.

● Einheiten wie Währungen oder Mengeneinheiten geben den Werten der Kennzahlen den Kontext.

Durch die durchgängige Nutzung von identischen InfoObjects zur Definition der Datenablagen in den unterschiedlichen Schichten wird Konsistenz auf Ebene der Metadaten gesichert.

DataStore-Objekte erlauben es, die Daten granular (Belegebene) und historisch vollständig zu speichern. Die Datenablage erfolgt dabei wie bei DataSources in flachen Datenbanktabellen. Ein DataStore-Objekt besteht aus Schlüssel (z.B. Belegnummer, Position) und Datenbereich. Im Datenbereich können neben Kennzahlen (z.B. Bestellmenge) auch Merkmale (z.B. Auftragsstatus) enthalten sein. Neben der Aggregation der Daten ist es auch möglich, die Dateninhalte zu überschrieben, z.B. um die Statusänderungen des Auftrags abzubilden. Dies ist insbesondere im Kontext von belegnahen Strukturen wichtig.

Die Modellierung einer mehrdimensionalen Ablage wird durch InfoCubes realisiert. Ein InfoCube ist eine Menge von relationalen Tabellen, die nach einem erweiterten Sternschema zusammengestellt sind. Es gibt eine (große, viele Zeilen enthaltende) Faktentabelle, welche die Kennzahlen des InfoCube enthält, sowie mehrere sie umgebende (kleinere) Dimensionstabellen, in denen die Merkmale des InfoCube abgelegt sind. Die Merkmale stellen hierbei den Schlüssel für die Kennzahlen dar. Die Ablage der Daten in einem InfoCube ist additiv. Bei Abfragen auf einen InfoCube werden, wenn nötig, die Fakten bzw. Kennzahlen automatisch aggregiert (Summation, Minimum oder Maximum). Die Dimensionen fassen sachlogisch zusammengehörige Merkmale zusammen - z.B. eine Kundendimension, die aus der Kundennummer, der Kundengruppe und den Stufen der Kundenhierarchie bestehen kann oder eine Produktdimension, die aus der Produktnummer, der Produktgruppe und der Marke bestehen kann. Die Merkmale wiederum zeigen auf die Stammdaten (Texte oder Attribute des Merkmals). Die Fakten sind die auszuwertenden Kennzahlen wie Umsätze oder Absatzmengen. Faktentabelle und Dimensionen sind über identifizierende abstrakte Nummern (Dimensions-IDs) miteinander verknüpft. Hierdurch werden die Kennzahlen des InfoCubes auf die Merkmale der Dimension bezogen. Diese Art der Modellierung ist optimiert für eine effiziente Datenanalyse. Die folgende Grafik skizziert den Aufbau eines InfoCubes:

Diese Grafik wird im zugehörigen Text erklärt

Auf den physischen Datenablagen in Form von InfoObjects, InfoCubes und DataStore-Objekten können Sie logische Sichten (MultiProvider, InfoSets) bilden, z.B. um Daten verschiedener Datenablagen für einen gemeinsamen Auswertungszweck zur Verfügung zu stellen. Die Verknüpfung wird dabei über die gemeinsamen InfoObjects der Datenablagen hergestellt.

Der Oberbegriff für die physischen Datenablagen und die logischen Sichten auf diese lautet InfoProvider. Die Aufgabe eines InfoProviders ist es, den Werkzeugen für Analyse, Reporting und Planung die Daten zweckoptimiert zur Verfügung zu stellen.

Datenfluss

Der Datenfluss im Enterprise Data Warehouse beschreibt, wie die Daten durch die Schichten geführt werden, bis sie letztendlich in der Form vorliegen, die dem Anwendungszweck genügt. Dadurch können Datenextraktion und -verteilung gezielt gesteuert werden sowie die Datenherkunft komplett aufgezeigt werden. Das Transferieren der Daten von einer Datenablage in die Nächste erfolgt mit Hilfe von Ladeprozessen. Für das Laden der Quelldaten in die Eingangsschicht des SAP NetWeaver BI, in die Persistent Staging Area, verwenden Sie das InfoPackage. Für das Laden der Daten innerhalb des BI von einer physischen Datenablage in die darauf folgende verwenden Sie den Datentransferprozess (DTP) unter Anwendung der bereits beschriebenen Transformationsregeln. Dabei werden auch Zuordnungen zwischen den Feldern/InfoObjects der Quellablage und InfoObjects der Zielablage durchgeführt.

Einen Ladeprozess definieren Sie jeweils für eine Quell-Ziel-Kombination und legen hier das Bereitstellungsverfahren fest, das bereits im vorherigen Abschnitt erläutert wurde. Sie können für den Ladeprozess verschiedene Einstellungen vornehmen, teilweise abhängig von der Art der Daten und Quelle sowie Ziel der Daten. So können Sie beispielsweise Selektionen der Daten festlegen, einerseits um nur die relevanten Daten zu übertragen und andererseits um den Ladeprozess in Hinsicht auf Performance zu optimieren. Oder Sie können festlegen, ob der gesamte Datenbestand der Quelle geladen wird oder nur der seit dem letzten Ladezeitpunkt neu in der Quelle hinzugekommene Datenbestand. Letzteres bedeutet, dass Datentransferprozesse automatisch eine Deltaverarbeitung erlauben und dies für jedes Datenziel individuell. Bei InfoPackages, also dem Laden in das SAP-NetWeaver-BI-System, hängt die Verarbeitungsform (Delta oder gesamter Datenbestand) vom angesprochenen Extraktionsprogramm ab.

Die folgende Grafik zeigt, wie ein einfacher Datenfluss über zwei InfoProvider aussieht:

Diese Grafik wird im zugehörigen Text erklärt

Weitere Informationen

Das Konzept des Data Warehouses

Modellierung

Datenfluss im Data Warehouse