Vorverarbeitungsschritte manuell ausführen 
Im Fenster Preprocessor: View Docs können Sie die Verarbeitungsschritte manuell ausführen, die der Präprozessor bei der Indizierung automatisch ausführt.
Sie können ein Dokument angeben, das der Präprozessor verarbeiten soll, und dieses
laden und filtern
laden, filtern und linguistisch analysieren
Sie verwenden diese Funktionen zu Testzwecken und für die Fehlersuche.
Die folgende Grafik zeigt den Aufbau des Fensters Preprocessor View Docs.

Die Funktionsleisten enthalten folgende Felder und Schaltflächen:
Feld/Schaltfläche |
Beschreibung |
File/URL |
Pfad oder URI des Dokuments, das der Präprozessor verarbeiten soll |
Show Original |
Öffnet das Original-Dokument Voraussetzung ist, dass eine Anwendung installiert ist, mit der sich das Dokument öffnen lässt. |
Show Filtered |
Zeigt das gefilterte Dokument im Browser an |
None |
Löscht den Ausgabebereich |
Get+Filter |
Lädt und filtert das Dokument Mit dieser Funktion können Sie prüfen, welchen HTML-Code die Filter aus dem Originaldokument erzeugen. |
Get+Filter+Lex |
Lädt und filtert das Dokument und analysiert es linguistisch Mit dieser Funktion können Sie zusätzlich zum Filter-Ergebnis das Ergebnis der linguistischen Analyse prüfen:
|
Index |
Nur relevant für Get+Filter+Lex Legt fest, ob der Präprozessor globale oder indexspezifische Einstellungen für die Verarbeitung verwenden soll:
|
Die Ausgabebereiche zeigen das Analyseergebnis an. Folgende Ausgabebereiche sind vorhanden:
Ausgabebereich |
Beschreibung |
Dokumentinhalt |
Inhalt des Dokuments, den der Präprozessor nach der Verarbeitung ausgibt. Sie sehen abhängig von der gewählten Funktion
|
Python-Erweiterungen & Dokumentattribute |
Nur relevant für Get+Filter+Lex
|
Kategorien |
Nur relevant für Get+Filter+Lex Wortarten, die die linguistische Analyse den Begriffen zugeordnet hat. Wenn die Liste die Kategorie 'Unknown' enthält, konnte die linguistische Analyse einigen Begriffen keine Wortart zuordnen. TREX nimmt diese Begriffe standardmäßig als 'Nomen' (Kategorie 'nn') in den Text-Mining-Index auf. Diese Einstellung ist in TREXMiningIndex.ini festgelegt.
Wenn es sehr viele Begriffe der Kategorie 'Unknown' gibt, kann dies daran liegen, dass die Spracherkennung nicht die richtige Dokumentsprache ermittelt hat. Auch wenn die richte Dokumentsprache ermittelt wurde, können Begriffe als 'Unknown' kategorisiert sein. Dabei handelt es sich oft um Eigennamen (z.B. Namen von Personen, Produkten oder Städten). Für ein späteres TREX-Release ist geplant, die linguistische Analyse um die Erkennung von Eigennamen (Named Entities, abgekürzt NE) zu erweitern. Im aktuellen TREX-Release ist diese Funktion noch nicht verfügbar. Der Knoten NE ist deshalb derzeit inaktiv. Ende des Hinweises |
Wenn Sie die Funktion Get+Filter+Lex ausgeführt haben, zeigt die Statusleiste folgende Informationen an:
Bereich |
Beschreibung |
Links |
Hier sehen Sie die Dokumentsprache, die die Spracherkennung ermittelt hat. |
Mitte |
Wenn Sie im Ausgabebereich, der den Dokumentinhalt zeigt, mit der Maus auf einen Begriff zeigen, sehen Sie hier folgende Informationen:
|
Rechts |
Mit dem Feld <html> können Sie die Ansicht des Dokumentinhalts ändern: Sie können zwischen der Ansicht mit und ohne HTML-Tags umschalten. |