Show TOC Anfang des Inhaltsbereichs

Funktionsdokumentation Daten überprüfen  Dokument im Navigationsbaum lokalisieren

Verwendung

Entscheidend für das Ergebnis eines Analyseprozesses ist, eine vollständige und fehlerfreie Datenbasis. Diese wird mit dem APD schrittweise realisiert. Dabei ist es möglich, jeden einzelnen Vorbereitungsschritt zu überprüfen. Der APD bietet Ihnen die Möglichkeit, zu jedem Schritt im Analyseprozess die Daten anzuzeigen, Zwischenergebnisse zu berechnen und für einige Knoten die Qualität der Daten zu analysieren. Diese Überprüfung der Daten können Sie schon vor dem Ausführen des Analyseprozesses durchführen.

Funktionsumfang

Daten anzeigen

Über die Funktion Daten anzeigen im Kontextmenü an einem Knoten können Sie sich die in der Datenquelle enthaltenen Daten in einer Tabelle anzeigen lassen. Wurde zuvor ein Zwischenergebnis berechnet, so wird dieses angezeigt.

Elementare Statistik

Über die Funktion Elementare Statistik anzeigen im Kontextmenü an einem Knoten können Sie zu ausgewählten Feldern Statistiken anzeigen. Diese Informationen zu den Daten umfasst Histogramme, Verteilungs- und Häufigkeitsberechnungen, einfache statistische Kennzahlen, wie z.B. arithmetische Mittel, Standardabweichungen oder Korrelationen.

Dabei unterscheiden sich die Informationen über die Werte je nach Wertetyp der Felder. Es wird zwischen diskreten (DST) und stetigen (CNT) Feldern unterschieden:

·        Diskret bedeutet, dass es für das Feld einige zählbare Werte gibt. Das trifft auf fast alle Merkmale mit Prüftabelle zu. Bei Merkmalen mit sehr vielen Werten wie Geschäftspartner allerdings ist eine Auswertung für jeden Einzelwert wenig sinnvoll.

Elementare Statistik für diskrete Felder: Es wird eine Häufigkeitstabelle der häufigsten Werte angezeigt.

·        Stetig bedeutet, es gibt unbestimmt viele Werte. Ein typisches Beispiel dafür ist die Kennzahl Umsatz.

Elementare Statistik für stetige Felder: Es wird eine Häufigkeitstabelle der häufigsten Werte angezeigt. Zusätzlich werden eine Wertverteilung in Intervallen, der Durchschnittswert, die Standardabweichung (basierend auf der Grundgesamtheit) sowie zusätzliche Zahlen angezeigt. Wie diese Zahlen berechnet werden, erfahren Sie in Formeln zur Berechnung der Statistiken.

Sie können den Wertetyp für jedes selektierte Feld auswählen. Das System schlägt jedoch immer einen sinnvollen Wertetyp vor: stetig für numerische Felder und diskret für nichtnumerische Felder.

Beispiel

Das Feld Farbe mit den Werten rot, blau, ... erhält als Vorschlag den Wertetyp diskret. Das Feld Umsatz mit Werten zwischen 0 und 1000 erhält als Vorschlag den Wertetyp stetig. Wenn Geschlecht als ganze Zahl kodiert ist (1 für männlich, 2 für weiblich, 0 für Geschlecht nicht bekannt), dann sollten Sie den vorgeschlagenen Wertetyp von stetig in diskret ändern, da es hier nicht sinnvoll ist, den Durchschnittswert zu berechnen. Wenn Sie stetig für ein nichtnumerisches Feld gewählt haben, dann ändert das System den Wertetyp während der Ausführung automatisch in diskret .

Zwischenergebnis

Über die Funktion Zwischenergebnis berechnen im Kontextmenü an einem Knoten können Sie die Daten bis zu diesem Knoten berechnen lassen. Das Ergebnis wird in einer temporären Datenbanktabelle gespeichert und ist zum einen hilfreich, wenn Sie bei der Modellierung des Analyseprozesses verschiedene Möglichkeiten ab diesem Knoten ausprobieren möchten. Zum anderen dienen die Zwischenergebnisse der Performanceoptimierung beim Ausführen des Analyseprozesses bei großen Datenmengen. Ist ein Zwischenergebnis zu einem Knoten vorhanden, so wird dies durch eine Ikone Diese Grafik wird im zugehörigen Text erklärt angezeigt. Das Zwischenergebnis wird ungültig und wird dann auch nicht mehr angezeigt, wenn der Knoten geändert wurde. Sie können das Zwischenergebnis auch löschen, wenn es nicht mehr aktuell ist.

Berechnungszusammenfassung

Nachdem Sie den Analyseprozess ausgeführt haben, können Sie sich über die Funktion Berechnungszusammenfassung berechnen im Kontextmenü an einem Knoten Zusatzinformationen zur Berechnung der Daten anzeigen lassen. Diese Informationen sind nur für Data-Mining-Methoden abrufbar. Sie bestehen je nach Art der Transformation aus statistischen Daten, Wahrscheinlichkeitsinformationen oder ähnlichem und dienen dazu, die Datenqualität besser bewerten zu können.

Hinweise

Für die Anzeige von Daten und Statistiken benötigen Sie die Berechtigung für die Aktivität Simulieren (48) im Berechtigungsobjekt RSANPR.

Beim den Funktionen Daten anzeigen und Elementare Statistik anzeigen wird die komplette Berechnung bis zum angegebenen Knoten mit allen Daten durchgeführt. Dies kann zum Kurzdump wegen Überschreiten der maximal erlaubten Laufzeit für Dialogprozesses führen. Bauen Sie in diesem Fall für den ausgewählten Knoten ein Zwischenergebnis im Hintergrund auf. Starten Sie die Simulation erneut, wenn das Zwischenergebnis berechnet ist.

Bei großem Datenvolumen kann zudem ein Kurzdump wegen Speicherüberlauf auftreten. In diesem Fall wählen Sie im Hauptmenü Springen  ® Performanceeinstellungen und löschen Sie das Kennzeichen Daten im Speicher verarbeiten. Dieses Kennzeichen gibt an, ob bei der Abarbeitung des Analyseprozesses die Daten komplett im Hauptspeicher gehalten werden, oder Daten auf die Datenbank ausgelagert werden. Standardmäßig ist es gesetzt, d.h. die Daten werden im Hauptspeicher verarbeitet. Diese Einstellung ist ideal, wenn kleine Datenmengen bearbeitet werden. Bei großen Datenmengen kann es zum Programmabbruch kommen, wenn die Daten nicht mehr in den Hauptspeicher passen. Wenn dieser Fall eintritt, deaktivieren Sie dieses Kennzeichen. Dann werden während der Abarbeitung des Analyseprozesses Daten in temporäre Tabellen auf die Datenbank ausgelagert, um den Hauptspeicherbedarf zu reduzieren. Die erzeugten Tabellen beginnen mit /BIC/000AP.

Tipps zur Verarbeitung von großen Datenmengen:

·        Optimieren Sie die Performance, indem Sie einen Filter möglichst direkt hinter der Datenquelle einfügen.

·        Test mit Massendaten: Fügen Sie zum Testen einen Filter ein, um eine Teilmenge der Daten zu selektieren. Wählen Sie mit diesem eingeschränktem Datenvolumen Daten anzeigen oder elementare Statistiken anzeigen. Löschen Sie vor dem Ausführen des Analyseprozesses die Bedingungen im Filter.

·        Falls die Berechnung zu lange dauert, können Sie die Simulation im Windows-Systemmenü des neuen Fensters über Transaktion abbrechen beenden.

Ende des Inhaltsbereichs