Vorverarbeitungsschritte manuell ausführen

Im Fenster Preprocessor: View Docs können Sie die Verarbeitungsschritte manuell ausführen, die der Präprozessor bei der Indizierung automatisch ausführt.

Sie können ein Dokument angeben, das der Präprozessor verarbeiten soll, und dieses

laden und filtern
laden, filtern und linguistisch analysieren

Sie verwenden diese Funktionen zu Testzwecken und für die Fehlersuche.

Funktionsumfang

Die folgende Grafik zeigt den Aufbau des Fensters Preprocessor View Docs.

Die Abbildung wird im Begleittext erläutert.

Funktionsleisten

Die Funktionsleisten enthalten folgende Felder und Schaltflächen:

Feld/Schaltfläche	Beschreibung
File/URL	Pfad oder URI des Dokuments, das der Präprozessor verarbeiten soll
Show Original	Öffnet das Original-Dokument Voraussetzung ist, dass eine Anwendung installiert ist, mit der sich das Dokument öffnen lässt.
Show Filtered	Zeigt das gefilterte Dokument im Browser an
None	Löscht den Ausgabebereich
Get+Filter	Lädt und filtert das Dokument Mit dieser Funktion können Sie prüfen, welchen HTML-Code die Filter aus dem Originaldokument erzeugen.
Get+Filter+Lex	Lädt und filtert das Dokument und analysiert es linguistisch Mit dieser Funktion können Sie zusätzlich zum Filter-Ergebnis das Ergebnis der linguistischen Analyse prüfen: Hat die Spracherkennung die richtige Dokumentsprache ermittelt? Welche Wortarten und welche Stammformen hat die linguistische Analyse den Begriffen zugeordnet? Welche Begriffe aus dem Dokumentinhalt würde TREX in den Volltextindex aufnehmen? Welche Dokumentattribute würde TREX in den Index aufnehmen?
Index	Nur relevant für Get+Filter+Lex Legt fest, ob der Präprozessor globale oder indexspezifische Einstellungen für die Verarbeitung verwenden soll: Soll er die globalen Einstellungen verwenden, wählen Sie keinen Index aus. Soll er indexspezifische Einstellungen verwenden, wählen Sie den gewünschten Index aus. Dies betrifft folgende Einstellungen: Python-Erweiterungen Python-Erweiterungen können lokal für einen Index oder global aktiviert sein. Worttrenner Worttrenner sind Zeichen wie `\/\;,.:-` Die linguistische Analyse verwendet die definierten Worttrenner, um einen Text in einzelne Wörter zu zerlegen. Die globalen Worttrenner sind in der Konfigurationsdatei `TREXPreprocessor.ini` definiert.

Ausgabebereiche

Die Ausgabebereiche zeigen das Analyseergebnis an. Folgende Ausgabebereiche sind vorhanden:

Ausgabebereich	Beschreibung
Dokumentinhalt	Inhalt des Dokuments, den der Präprozessor nach der Verarbeitung ausgibt. Sie sehen abhängig von der gewählten Funktion die HTML-Version ohne linguistische Analyse die linguistisch analysierte Version Hier sehen Sie nur die Begriffe, die TREX in den Volltextindex aufnehmen würde. Alle anderen Begriffe sind ausgeblendet. Die angezeigten Begriffe sind außerdem die Basis, aus der TREX die Begriffe für den Text-Mining-Index auswählen würde. Die Auswahl erfolgt mit Hilfe der sogenannten Termgenerierungsregeln. Wenn Sie mit der Maus auf einen Begriff zeigen, sehen Sie im mittleren Bereich der Statusleiste die Details der linguistischen Analyse (siehe Abschnitt "Statusleiste" weiter unten). Mit der Menüoption Action Find In Content können Sie bei Bedarf nach Begriffen suchen.
Python-Erweiterungen & Dokumentattribute	Nur relevant für Get+Filter+Lex Python-Erweiterungen, die lokal für den Index aktiviert sind Dokumentattribute, die TREX in den Index aufnehmen würde Sie sehen sowohl Attribute, die im Dokument selbst definiert sind, als auch Attribute, die gegebenenfalls von Python-Erweiterungen erzeugt wurden. Beispiel Sie haben die Python-Erweiterung aktiviert, die aus den <meta>-Tags eines HTML-Dokuments Dokumentattribute erzeugt. In diesem Ausgabebereich können Sie dann das Ergebnis prüfen, das die Python-Erweiterung erzeugt. Ende des Beispiels.
Kategorien	Nur relevant für Get+Filter+Lex Wortarten, die die linguistische Analyse den Begriffen zugeordnet hat. Wenn die Liste die Kategorie 'Unknown' enthält, konnte die linguistische Analyse einigen Begriffen keine Wortart zuordnen. TREX nimmt diese Begriffe standardmäßig als 'Nomen' (Kategorie 'nn') in den Text-Mining-Index auf. Diese Einstellung ist in `TREXMiningIndex.ini` festgelegt. Hinweis Wenn es sehr viele Begriffe der Kategorie 'Unknown' gibt, kann dies daran liegen, dass die Spracherkennung nicht die richtige Dokumentsprache ermittelt hat. Auch wenn die richte Dokumentsprache ermittelt wurde, können Begriffe als 'Unknown' kategorisiert sein. Dabei handelt es sich oft um Eigennamen (z.B. Namen von Personen, Produkten oder Städten). Für ein späteres TREX-Release ist geplant, die linguistische Analyse um die Erkennung von Eigennamen (Named Entities, abgekürzt NE) zu erweitern. Im aktuellen TREX-Release ist diese Funktion noch nicht verfügbar. Der Knoten NE ist deshalb derzeit inaktiv. Ende des Hinweises

Statusleiste

Wenn Sie die Funktion Get+Filter+Lex ausgeführt haben, zeigt die Statusleiste folgende Informationen an:

Bereich	Beschreibung
Links	Hier sehen Sie die Dokumentsprache, die die Spracherkennung ermittelt hat.
Mitte	Wenn Sie im Ausgabebereich, der den Dokumentinhalt zeigt, mit der Maus auf einen Begriff zeigen, sehen Sie hier folgende Informationen: `normal:<form>` Wortform, die im Originaldokument vorkommt. `num:<position>` Position des Begriffs im Text `stem:<form>` Stammform des Begriffs Die Stammform ist die Grundform des Begriffs. Beispielsweise ist die Singular-Form die Stammform eines englischen Nomens. Bei einem zusammengesetzen Begriff sehen Sie außerdem, in welche Bestandteile die linguistische Analyse den Begriff zerlegt hat. TREX nimmt sowohl die Zusammensetzung als auch die Bestandteile des Begriffs in den Index auf. Beispiel Den deutschen Begriff 'Jahresumsatz' (annual sales) zerlegt die linguistische Analyse in die Begriffe 'Jahr' und 'Umsatz'. Dies wird in folgender Form angezeigt: `stem:Jahr#Umsatz` Ende des Beispiels. `lex:<kategorie>` Wortart des Begriffs
Rechts	Mit dem Feld <html> können Sie die Ansicht des Dokumentinhalts ändern: Sie können zwischen der Ansicht mit und ohne HTML-Tags umschalten.