Show TOC

HintergrundVorverarbeitungsschritte manuell ausführen Dieses Dokument in der Navigationsstruktur finden

 

Im Fenster Preprocessor: View Docs können Sie die Verarbeitungsschritte manuell ausführen, die der Präprozessor bei der Indizierung automatisch ausführt.

Sie können ein Dokument angeben, das der Präprozessor verarbeiten soll, und dieses

  • laden und filtern

  • laden, filtern und linguistisch analysieren

Sie verwenden diese Funktionen zu Testzwecken und für die Fehlersuche.

Funktionsumfang

Die folgende Grafik zeigt den Aufbau des Fensters Preprocessor View Docs.

Die Abbildung wird im Begleittext erläutert.

Funktionsleisten

Die Funktionsleisten enthalten folgende Felder und Schaltflächen:

Feld/Schaltfläche

Beschreibung

File/URL

Pfad oder URI des Dokuments, das der Präprozessor verarbeiten soll

Show Original

Öffnet das Original-Dokument

Voraussetzung ist, dass eine Anwendung installiert ist, mit der sich das Dokument öffnen lässt.

Show Filtered

Zeigt das gefilterte Dokument im Browser an

None

Löscht den Ausgabebereich

Get+Filter

Lädt und filtert das Dokument

Mit dieser Funktion können Sie prüfen, welchen HTML-Code die Filter aus dem Originaldokument erzeugen.

Get+Filter+Lex

Lädt und filtert das Dokument und analysiert es linguistisch

Mit dieser Funktion können Sie zusätzlich zum Filter-Ergebnis das Ergebnis der linguistischen Analyse prüfen:

  • Hat die Spracherkennung die richtige Dokumentsprache ermittelt?

  • Welche Wortarten und welche Stammformen hat die linguistische Analyse den Begriffen zugeordnet?

  • Welche Begriffe aus dem Dokumentinhalt würde TREX in den Volltextindex aufnehmen?

  • Welche Dokumentattribute würde TREX in den Index aufnehmen?

Index

Nur relevant für Get+Filter+Lex

Legt fest, ob der Präprozessor globale oder indexspezifische Einstellungen für die Verarbeitung verwenden soll:

  • Soll er die globalen Einstellungen verwenden, wählen Sie keinen Index aus.

  • Soll er indexspezifische Einstellungen verwenden, wählen Sie den gewünschten Index aus.

    Dies betrifft folgende Einstellungen:

  • Python-Erweiterungen

    Python-Erweiterungen können lokal für einen Index oder global aktiviert sein.

  • Worttrenner

    Worttrenner sind Zeichen wie \/\;,.:- Die linguistische Analyse verwendet die definierten Worttrenner, um einen Text in einzelne Wörter zu zerlegen.

    Die globalen Worttrenner sind in der Konfigurationsdatei TREXPreprocessor.ini definiert.

Ausgabebereiche

Die Ausgabebereiche zeigen das Analyseergebnis an. Folgende Ausgabebereiche sind vorhanden:

Ausgabebereich

Beschreibung

Dokumentinhalt

Inhalt des Dokuments, den der Präprozessor nach der Verarbeitung ausgibt.

Sie sehen abhängig von der gewählten Funktion

  • die HTML-Version ohne linguistische Analyse

  • die linguistisch analysierte Version

    Hier sehen Sie nur die Begriffe, die TREX in den Volltextindex aufnehmen würde. Alle anderen Begriffe sind ausgeblendet.

    Die angezeigten Begriffe sind außerdem die Basis, aus der TREX die Begriffe für den Text-Mining-Index auswählen würde. Die Auswahl erfolgt mit Hilfe der sogenannten Termgenerierungsregeln.

    Wenn Sie mit der Maus auf einen Begriff zeigen, sehen Sie im mittleren Bereich der Statusleiste die Details der linguistischen Analyse (siehe Abschnitt "Statusleiste" weiter unten).

    Mit der Menüoption   Action   Find In Content   können Sie bei Bedarf nach Begriffen suchen.

Python-Erweiterungen & Dokumentattribute

Nur relevant für Get+Filter+Lex

  • Python-Erweiterungen, die lokal für den Index aktiviert sind

  • Dokumentattribute, die TREX in den Index aufnehmen würde

    Sie sehen sowohl Attribute, die im Dokument selbst definiert sind, als auch Attribute, die gegebenenfalls von Python-Erweiterungen erzeugt wurden.

    Beispiel Beispiel

    Sie haben die Python-Erweiterung aktiviert, die aus den <meta>-Tags eines HTML-Dokuments Dokumentattribute erzeugt. In diesem Ausgabebereich können Sie dann das Ergebnis prüfen, das die Python-Erweiterung erzeugt.

    Ende des Beispiels.

Kategorien

Nur relevant für Get+Filter+Lex

Wortarten, die die linguistische Analyse den Begriffen zugeordnet hat.

Wenn die Liste die Kategorie 'Unknown' enthält, konnte die linguistische Analyse einigen Begriffen keine Wortart zuordnen. TREX nimmt diese Begriffe standardmäßig als 'Nomen' (Kategorie 'nn') in den Text-Mining-Index auf. Diese Einstellung ist in TREXMiningIndex.ini festgelegt.

Hinweis Hinweis

Wenn es sehr viele Begriffe der Kategorie 'Unknown' gibt, kann dies daran liegen, dass die Spracherkennung nicht die richtige Dokumentsprache ermittelt hat.

Auch wenn die richte Dokumentsprache ermittelt wurde, können Begriffe als 'Unknown' kategorisiert sein. Dabei handelt es sich oft um Eigennamen (z.B. Namen von Personen, Produkten oder Städten).

Für ein späteres TREX-Release ist geplant, die linguistische Analyse um die Erkennung von Eigennamen (Named Entities, abgekürzt NE) zu erweitern. Im aktuellen TREX-Release ist diese Funktion noch nicht verfügbar. Der Knoten NE ist deshalb derzeit inaktiv.

Ende des Hinweises
Statusleiste

Wenn Sie die Funktion Get+Filter+Lex ausgeführt haben, zeigt die Statusleiste folgende Informationen an:

Bereich

Beschreibung

Links

Hier sehen Sie die Dokumentsprache, die die Spracherkennung ermittelt hat.

Mitte

Wenn Sie im Ausgabebereich, der den Dokumentinhalt zeigt, mit der Maus auf einen Begriff zeigen, sehen Sie hier folgende Informationen:

  • normal:<form>

    Wortform, die im Originaldokument vorkommt.

  • num:<position>

    Position des Begriffs im Text

  • stem:<form>

    Stammform des Begriffs

    Die Stammform ist die Grundform des Begriffs. Beispielsweise ist die Singular-Form die Stammform eines englischen Nomens.

    Bei einem zusammengesetzen Begriff sehen Sie außerdem, in welche Bestandteile die linguistische Analyse den Begriff zerlegt hat. TREX nimmt sowohl die Zusammensetzung als auch die Bestandteile des Begriffs in den Index auf.

    Beispiel Beispiel

    Den deutschen Begriff 'Jahresumsatz' (annual sales) zerlegt die linguistische Analyse in die Begriffe 'Jahr' und 'Umsatz'. Dies wird in folgender Form angezeigt:

    stem:Jahr#Umsatz

    Ende des Beispiels.
  • lex:<kategorie>

    Wortart des Begriffs

Rechts

Mit dem Feld <html> können Sie die Ansicht des Dokumentinhalts ändern: Sie können zwischen der Ansicht mit und ohne HTML-Tags umschalten.