Auswählen der Generierungsoptionen

Je nach der Auswahl im Menü Generieren enthalten die generierten Daten (zusätzlich zu allen Schlüsselvariablen) Folgendes:

Für ein Klassifikations-/Regressionsmodell
Bei Auswahl der Option... enthalten die generierten Daten für jede Zeile Folgendes:
Nur prognostizierter Wert Nur der prognostizierte Wert der Beobachtungen (rr_TargetVariableName)
Wahrscheinlichkeit
  • prognostizierter Wert
  • Wahrscheinlichkeit (proba_rr_TargetVariableName)
  • Fehlerbalken (bar_rr_TargetVariableName)
Einzelne Beiträge
  • prognostizierter Wert
  • Wahrscheinlichkeit
  • Fehlerbalken
  • einzelne Beiträge der Variablen (contrib_VariableName_rr_TargetVariableName)
Entscheidung
  • prognostizierter Wert
  • Entscheidung (decision_rr_TargetVariableName)
  • Entscheidungswahrscheinlichkeit (proba_decision_rr_TargetVariableName)
  • Wahrscheinlichkeit

Durch Auswahl der Option "Entscheidung" im Pulldown-Menü "Generieren" können Sie festlegen, wie viele Beobachtungen das Modell nach der Anwendung auf ein neues Datenset ermitteln soll.

Erweiterte Anwendungseinstellungen Mit dieser Option können Sie die Ausgaben auswählen, die Sie in der Ergebnisdatei sehen möchten.
Direkte Anwendung in der Datenbank verwenden Wenn diese Option markiert ist, wird der optimierte Bewertungsmodus der datenbankinternen Anwendung verwendet und die Daten werden direkt in der Datenbank generiert.
Punktwertabweichung hinzufügen Mit dieser Option können Sie für jede Variable und jede Variablenkategorie die Abweichungen zwischen dem Modell und dem für die Modellanwendung verwendeten Eingabedatenset prüfen.

Verwenden des datenbankinternen Anwendungsmodus

Dieser optimierte Bewertungsmodus ermöglicht, das Modell direkt in der Datenbank anzuwenden. Dadurch wird vermieden, die Daten aus der Datenbank zu extrahieren, und der Schreibprozess der Modellausgaben wird beschleunigt. Dieser Modus kann verwendet werden, wenn alle folgenden Bedingungen erfüllt sind:

  • Das Eingabe-Anwendungsdatenset (Tabelle, Ansicht, SELECT-Anweisung, analytisches Datenset) und das Ergebnisdatenset sind Tabellen aus derselben Datenbank.
  • Das für das Modell verwendete Eingabedatenset enthält mindestens eine als Schlüssel deklarierte Variable.
  • Der Modus Datenbankinterne Anwendung ist nicht deaktiviert.
  • Sie verfügen über die erforderlichen Lese- und Schreibberechtigungen für die Datenbank.
  • Es gibt eine gültige Codegenerierer-Lizenz für die Datenbank.
  • Es ist kein Fehler aufgetreten.

Wenn die Option Direkte Anwendung in der Datenbank verwenden markiert ist, ist die Option Punktwertabweichung hinzufügen automatisch ausgewählt.

Für ein Clustering-Modell
Bei Auswahl der Option... enthalten die generierten Daten für jede Zeile Folgendes:
Nur prognostizierter Wert
  • Zielwert
  • Index des Clusters, der die aktuelle Beobachtung enthält
Cluster-ID disjunktive Kodierung
  • Zielwert
  • Index des Clusters, der die aktuelle Beobachtung enthält

disjunktive Kodierung (bzw. "Dummy"-Kodierung) der Clusternummern.

Das bedeutet, dass für jeden Cluster eine boolesche Variable angelegt wird, die darauf hinweist, ob die aktuelle Beobachtung zu diesem Cluster gehört (Wert ist 1) oder nicht (Wert ist 0).

Cluster-ID disjunktive Kodierung (+ Datensetkopie)
  • Zielwert
  • Index des Clusters, der die aktuelle Beobachtung enthält

disjunktive Kodierung (bzw. "Dummy"-Kodierung) des Clusterindex.

Das bedeutet, dass für jeden Cluster eine boolesche Variable angelegt wird, die darauf hinweist, ob die aktuelle Beobachtung zu diesem Cluster gehört (Wert ist 1) oder nicht (Wert ist 0).

  • alle Eingabevariablen, die im Anwendungsdatenset enthalten sind
Cluster-ID Zielmittelwert
  • Zielwert
  • Index des Clusters, der die aktuelle Beobachtung enthält
  • Zielmittelwert des Clusters, der die aktuelle Zeile enthält
Für ein Textkodierungsmodell
Bei Auswahl der Option... enthalten die generierten Daten für jede Zeile Folgendes:
Vektorisierung

alle Spalten im ursprünglichen Datenset

Für jedes textuelle Feld:

  • Für jeden vom Modell identifizierten Stamm wird eine Spalte angelegt. Wenn der durch diese Spalte repräsentierte Stamm im Datensatz vorhanden ist, ist der Wert 1, ansonsten 0.
  • Eine Spalte enthält die Anzahl der von der Textkodierung im Datensatz erkannten Elemente.
  • Eine Spalte enthält die Anzahl der im Datensatz gefundenen unterschiedlichen Stämme.
Spracherkennung

Für jedes textuelle Feld:

  • Eine Spalte weist auf die von der Textkodierung für diesen Datensatz erkannte Sprache hin. Der Wert kann dem ISO-Sprachencode entsprechen oder leer sein, wenn keine Sprache erkannt wurde.
Transaktional
  • eine Zeile für jeden identifizierten Stamm
  • eine Spalte, die den Schlüsselindex aus der Originalzeile enthält
  • eine Spalte, die den Index des aktuellen Stamms im textuellen Feld enthält
  • eine Spalte, die darauf hinweist, aus welchem textuellen Feld der Stamm extrahiert wurde
  • eine Spalte, die den aktuellen Stamm enthält

Mit diesem Modus wird jede Zeile in eine Transaktionsequenz umgewandelt, wodurch Datensets entstehen, die in der Sequenzkodierung verwendet werden können.

Nur Stämme generieren

Für jedes textuelle Feld:

  • Für jeden vom Modell identifizierten Stamm wird eine Spalte angelegt. Wenn der durch diese Spalte repräsentierte Stamm im Datensatz vorhanden ist, ist der Wert 1, ansonsten 0.
  • Eine Spalte enthält die Anzahl der von der Textkodierung im Datensatz erkannten Elemente.
  • Eine Spalte enthält die Anzahl der im Datensatz gefundenen unterschiedlichen Stämme.
Für ein Social-Modell

Generierungsoptionen

Bei Auswahl der Option... enthalten die generierten Daten für jeden Knoten Folgendes:
Standardmodus
  • alle zum Knoten und seinen Nachbarn verfügbaren Informationen
Kreismodus
  • Anzahl der Nachbarn
  • zusätzliche Informationen zu den Nachbarn, falls verfügbar
  • durchschnittliche Attribute der Nachbarn
Zentralitätsmodus
  • Bewertung der Zentralität durch Analyse des lokalen Clustering und der Anzahl der Nachbarn
Nachbarmodus
  • Liste aller Nachbarn und zusätzlicher Informationen zu diesen
Beschreibungsmodus
  • Liste aller für diesen Knoten verfügbaren Informationen
Community-Modus
  • Informationen bezüglich der zugehörigen Community sowie der übernommenen Rolle
Knotenpaarungsmodus
  • Informationen über die Präsenz in Graphen und der Nachbarschaft (Anzahl der Nachbarn, Verhältnis common_neighbors/average_neighbors_count)
Erweiterte Einstellungen
  • vom Benutzer ausgewählte Informationen (Knotenklasse, Dreiecksanzahl, Informationen zur Nachbarschaft, Community-Index, Knotenrolle in der Community usw.)

Hinweis zum Anwendungsdatenset

Um ein Social-Modell auf ein Datenset anwenden zu können, muss es folgende Variablen enthalten.

  • Eine Variable für jede Population; z. B. eine für Kunden und eine für Produkte.
  • Die Variable kxComIndex, die die Community-IDs enthält. Dabei sollte es sich um eine nominale Ganzzahl handeln.

    Diese Variable ermöglicht Ihnen die Anwendung auf Community-Graphen (Anfrage von Nachbarn, Knotenliste in der Community oder in aggregierten Statistiken). Mithilfe dieser Spalte können Sie eine Liste der Community-IDs erhalten, zu denen Sie Metriken berechnen möchten. Wenn Sie keine Anwendung auf Community-Graphen vornehmen möchten, sollten Sie diese Spalte leer lassen, oder im Fall einer Datenbank einen Dummy-Wert eingeben, der nicht verwendet wird.

Um die Konsistenz der Datensets sicherzustellen, verwenden Sie die im Bereich Anwenden des Modells verfügbare Zuordnungsfunktion.

Verwenden des datenbankinternen Anwendungsmodus

Dieser optimierte Bewertungsmodus ermöglicht, das Modell direkt in der Datenbank anzuwenden. Dadurch wird vermieden, die Daten aus der Datenbank zu extrahieren, und der Schreibprozess der Modellausgaben wird beschleunigt. Dieser Modus kann verwendet werden, wenn alle folgenden Bedingungen erfüllt sind:

  • Das Eingabe-Anwendungsdatenset (Tabelle, Ansicht, SELECT-Anweisung, analytisches Datenset) und das Ergebnisdatenset sind Tabellen aus derselben Datenbank.
  • Das für das Modell verwendete Eingabedatenset enthält mindestens eine als Schlüssel deklarierte Variable.
  • Der Modus Datenbankinterne Anwendung ist nicht deaktiviert.
  • Sie verfügen über die erforderlichen Lese- und Schreibberechtigungen für die Datenbank.
  • Es gibt eine gültige Codegenerierer-Lizenz für die Datenbank.
  • Es ist kein Fehler aufgetreten.
  • Das Modell ist in der Datenbank gesichert, die die Anwendungsdatensets enthält.
    Hinweis

    Wenn das Modell nicht gesichert wurde, wird eine Warnung angezeigt, und Automated Analytics wechselt automatisch zum Standardanwendungsprozess.

Für ein Assoziationsregelmodell
Bei Auswahl der Option... enthalten die generierten Daten für jede Zeile Folgendes:
Nur prognostizierter Wert

Basisausgaben:

  • Sitzungsschlüssel
  • ID der Regel, die zum Finden des Aktionsteils verwendet wurde
  • Aktionsteil selbst
Durch KI optimierte Aktionsteile

Basisausgaben.

Wenn mehr als eine Regel denselben Aktionsteil für eine Sitzung ausgibt, wird die Regel mit der besten prognostischen Trennschärfe (KI) ausgewählt.

Durch Konfidenz optimierte Aktionsteile

Basisausgaben

Wenn mehr als eine Regel denselben Aktionsteil für eine Sitzung ausgibt, wird die Regel mit der besten Konfidenz ausgewählt.

Prognostizierter Wert mit vollständiger Beschreibung der Regeln

Erweiterte Ausgaben:

  • Sitzungsschlüssel
  • Regel-ID
  • Aktionsteil
  • Bedingungsteil
  • Prognostische Trennschärfe (KI)
  • Konfidenz
  • Regelträger
Durch KI optimierte Aktionsteile mit vollständiger Beschreibung der Regeln

Erweiterte Ausgaben

Wenn mehr als eine Regel denselben Aktionsteil für eine Sitzung ausgibt, wird die Regel mit der besten prognostischen Trennschärfe (KI) ausgewählt.

Durch Konfidenz optimierte Aktionsteile mit vollständiger Beschreibung der Regeln

Erweiterte Ausgaben

Wenn mehr als eine Regel denselben Aktionsteil für eine Sitzung ausgibt, wird die Regel mit der besten Konfidenz ausgewählt.

Für ein Zeitreihenmodell
Bei Auswahl der Option... enthält die Ergebnisdatei Folgendes:
Nur prognostizierter Wert
  • alle Eingabevariablen
  • prognostizierte Variablen, d. h. die Prognosen für jedes Datum des Trainingsdatensets
Prognosen mit zugehörigen Komponenten
  • alle Eingabevariablen
  • prognostizierte Variablen, d. h. die Prognosen für jedes Datum des Trainingsdatensets
  • Komponentenwert (Trend, Zyklen, Schwankung) für jede Prognose
Prognosen mit zugehörigen Komponenten und Residuen
  • alle Eingabevariablen
  • prognostizierte Variablen, d. h. die Prognosen für jedes Datum des Trainingsdatensets
  • Komponentenwert (Trend, Zyklen, Schwankung) für jede Prognose
  • restliche Werte (Residuum), die nach dem Extrahieren jeder Komponente aus jeder Prognose erhalten werden
Nur erste Prognosespalte und die Fehlerbalken
  • alle Eingabevariablen
  • erste prognostizierte Variable, d. h. die erste Prognose für jedes Datum des Trainingsdatensets
  • Fehlerbalken für die prognostizierte Variable