Anfang des Inhaltsbereichs

Funktionsdokumentation Crawler-Monitor  Dokument im Navigationsbaum lokalisieren

Verwendung

Mit dem Crawler-Monitor überwachen Sie die Aktivität der Crawler und können in diese eingreifen.

Integration

Die Crawler werden auf dem System einer Load-Balancing-Umgebung ausgeführt, welchem der Index-Service-Task-Queue-Reader zugeordnet ist. Die System-ID dieses Systems wird in der Detailansicht eines Crawler-Tasks angezeigt.

Funktionsumfang

Jeder Crawler führt auf dem Server einen Crawling-Vorgang aus. Im Crawler-Monitor wird eine Liste dieser Crawling-Tasks angezeigt.

Sie können Informationen über den Crawling-Task während er läuft, oder nachdem er seine Aktivität beendet hat, aufrufen.

Sie können zwischen drei verschiedenen Sichten wechseln: Übersicht, Geliefert, Statistik (siehe unten).

Sie können alle aktiven, alle angehaltenen und alle bisherigen Crawler-Tasks anzeigen lassen. Sie können auch die Crawling-Tasks der letzten Stunde, des letzten Tages und der letzten Woche auswählen.

Sie können die Liste mit den Crawling-Tasks nach verschiedenen Kriterien sortieren. Wählen Sie dazu im Sortierfeld oben rechts das gewünschte Sortierkriterium aus. Der Pfeil rechts neben dem Sortierfeld zeigt an, ob die Liste aufsteigend oder absteigend sortiert ist. Mit Klick auf diesen Pfeil können Sie die Sortierreihenfolge umkehren.

Hinweis

Beachten Sie, dass im Crawler-Monitor immer der letzte Durchgang eines Crawling-Tasks angezeigt wird. Informationen zu vorhergehenden Durchgängen finden Sie im Applikationsprotokoll.

Sicht: Übersicht

In dieser Sicht sehen Sie aktuelle Statistiken zu den Crawling-Tasks.

Name

Beschreibung

Aufgabe

Name des Crawling-Tasks

Der Name setzt sich aus der Index-ID und dem Repository-Namen zusammen. Sind einem Index mehrere Datenquellen zugeordnet, wird für jede Datenquelle ein Crawling-Task erzeugt.

Um Detailinformationen zum Crawling-Task aufzurufen, klicken Sie auf den Namen.

Ausgangssituation

Angabe der Datenquelle, die der Crawling-Task bearbeitet

Um die Datenquelle zu öffnen, klicken Sie auf den Link.

Status

aktueller Status des Crawlers

Inaktiv: Vorgang ist noch nicht aktiv

Startet: Vorgang startet

Running: Vorgang läuft

Hält an: Vorgang wird unterbrochen

Angehalten: Vorgang wurde manuell angehalten und kann durch Wählen von Reaktivieren fortgesetzt werden

Fortsetzen: Vorgang wird fortgesetzt

Nachbearbeitung: es findet eine Nachbearbeitung von Objekten statt

Stopping: Vorgang hat seine Aktivitäten beendet und führt nun den Stopp aus

Completed: Vorgang wurde vollständig ausgeführt

Fehlgeschlagen: Vorgang ist gescheitert

Stopped: Vorgang wurde manuell gestoppt

Waiting: Vorgang wartet mit dem Start, bis die Anzahl gleichzeitig laufender Vorgänge unter den angegebenen Wert gesunken ist. Die Anzahl geben Sie in der Konfiguration des Crawler-Service an.

Elapsed Time

Gesamte Dauer, die seit dem Start des Crawlers (inklusive beabsichtigte Unterbrechungen) verstrichen ist in Stunden:Minuten:Sekunden

Beachten Sie, dass bis zum Start des Crawlers eine kurze Zeit verstreichen kann.

Geliefert

Anzahl der Dokumente und Ordner, die zur Weiterverarbeitung an TREX oder andere Anwendungen übergeben wurde

Inkrementell

Gibt an, ob es sich um eine inkrementelle Aktualisierung handelt

Errors

Anzahl der Fehler, die aufgetreten sind.

Durchschnittliche Bearbeitungszeit (ms) 

Durchschnittliche Bearbeitungszeit eines Objekts in Millisekunden

Die Angabe umfasst die Zeit vom Abruf der Objekte bis zur Ablieferung. Die Zeit, die für Datenbankoperationen benötigt wird, ist nicht in der Angabe enthalten.

 

Gelieferte Sicht

In dieser Sicht sehen Sie aktuelle Informationen zu den gelieferten Objekten.

Name

Beschreibung

Aufgabe

Name des Crawling-Tasks (Beschreibung siehe Sicht Übersicht)

Status

aktueller Status des Crawlers (Beschreibung siehe Sicht Übersicht)

Bereits verarbeitet

Anzahl der Dokumente, die vom Crawler abgearbeitet wurden

Der Wert muss nicht mit dem Wert der gelieferten Dokumente und Ordner übereinstimmen, da zu diesem Zeitpunkt noch keine Filter angewendet wurden.

Verfügbare Anzahl

Anzahl der Dokumente, die der Crawler abgearbeitet hat und jetzt für TREX oder andere Anwendungen bereitstellt

Neu

Anzahl der neuen Dokumente bei einer inkrementellen Aktualisierung

Geändert

Anzahl der geänderten Dokumente bei einer inkrementellen Aktualisierung

Gelöscht

Anzahl der gelöschten Dokumente bei einer inkrementellen Aktualisierung

 

Sicht: Statistik

In dieser Sicht sehen Sie aktuelle Statistiken zu den Crawling-Tasks.

Name

Beschreibung

Aufgabe

Name des Crawling-Tasks (Beschreibung siehe Sicht Übersicht)

Status

Aktueller Status des Crawlers (Beschreibung siehe Sicht Übersicht)

Geliefert

Anzahl der gelieferten Dokumente und Ordner

Bearbeitungsfehler

Anzahl der Fehler, die beim Verarbeiten aufgetreten sind

Fehler beim Abruf

Anzahl der Fehler, die beim Abrufen aufgetreten sind

Fehler bei Weitergabe

Anzahl der Fehler, die bei der Weitergabe aufgetreten sind

Fehlerhafte Links

Anzahl fehlerhafter Links

Gefiltert 

Anzahl der Dokumente, die gefiltert wurden

Abrufzeit

in Stunden:Minuten:Sekunden

Weitergabezeit

in Stunden:Minuten:Sekunden

Durchschnittliche Abrufzeit (ms)

Durchschnittliche Dauer für das Abrufen eines Dokuments in Millisekunden

Durchschnittliche Weitergabezeit (ms)

Durchschnittliche Dauer für die Weitergabe eines verarbeiteten Dokuments in Millisekunden

 

Beachten Sie, dass Crawler, die vom Content-Verteilungsservice oder dem Subskriptionsservice genutzt werden, nur zeitweise im Crawler-Monitor sichtbar sind. Sollte ein Neustart des Portals ihre Crawling-Tasks unterbrochen haben, werden Sie zum nächsten Zeitpunkt, der in den entsprechenden Scheduler-Tasks eingetragen ist, fortgesetzt.

Sollte ein Neustart des Portals die Crawling-Tasks vom Subskriptionsservice unterbrochen haben, werden Sie zum nächsten Zeitpunkt, der in den entsprechenden Scheduler-Tasks eingetragen ist, neu gestartet.

 

Detailinformationen zum Crawling-Task

Wenn Sie auf den Namen eines Crawling-Tasks klicken, werden in einem neuen Fenster erweiterte Informationen für den gewählten Crawling-Task angezeigt. Die Informationen sind in verschiedenen Gruppen zusammengefasst. Hier können Sie auch, wenn verfügbar, die Protokolldateien des Crawlers aufrufen.

Mit Klick auf Refresh aktualisieren Sie die Anzeige. Sie können das Fenster auch automatisch aktualisieren lassen. Wählen Sie dazu das gewünschte Intervall in der Auswahlliste Automatisch Aktualisieren.

Um Informationen zu Dokumenten anzeigen zu lassen, auf die der gewählte Crawler aktuell zugreift, wählen Sie Ein in der Auswahlliste Dokumente Anzeigen.

 

Hinweis

Falls sich die Anzeige der Dokumente nach mehreren Minuten und mehrfachen Aktualisieren nicht ändert, sollten Sie die Datenquellen prüfen, auf die der Crawler zugreift. Beispielsweise könnte sich ein Web-Server aufgrund hoher Last verlangsamt oder aufgehängt haben.

 

Aktivitäten

Um den Crawler-Monitor aufzurufen, wählen Sie Systemadministration Monitoring Knowledge Management Crawler-Monitor.

 

Sie können folgende Funktionen ausführen:

Funktion

Beschreibung

Suspend

Mit dieser Funktion halten Sie die markierten Crawling-Tasks an. Jeder Crawler merkt sich die Position, an der er angehalten wurde und kann zu einem späteren Zeitpunkt fortgesetzt werden.

Resume

Mit dieser Funktion können Sie die Aktivität angehaltener und fehlgeschlagener Crawling-Tasks an der Position fortsetzen, an der sie angehalten wurden oder abbrachen.

Diese Funktion berücksichtigt nicht geänderte Ressourcenfilterkonfigurationen. Nutzen Sie hierzu die Funktion Reaktivieren mit neuen Filtern.

Reaktivieren mit neuen Filtern

Sollten Sie die Konfiguration von Ressourcenfiltern geändert haben, während ein Crawling-Vorgang läuft, können Sie den betroffenen Crawling-Task anhalten und ihn mit dieser Funktion unter Einbeziehung der geänderten Ressourcenfilter fortsetzen. Die neuen Ressourcenfilter werden nicht rückwirkend auf bereits gecrawlte Dokumente angewendet.

Stop

Mit dieser Funktion stoppen Sie die markierten Crawling-Tasks. Gestoppte Crawling-Tasks können nicht fortgesetzt werden. Ein Neustart ist jedoch über die Funktionen Reindizieren oder Inkrementelles Update in der Index-Administration möglich.

Recrawl Errors

Mit dieser Funktion können Sie Dokumente erneut crawlen, die im vorherigen Crawling-Durchgang Fehler verursacht haben.

Zu diesen Fehlern können zählen:

      Timeouts während dem Zugriff auf ein Dokument auf einem Web-Server

      Authentifizierungsprobleme während dem Zugriff auf ein Dokument

Nachdem Sie die Ursache für diese Fehler behoben haben, indem Sie zum Beispiel den Web-Server neu gestartet oder die Benutzerzuordnung korrigiert haben, können Sie diese Funktion wählen. Es wird kein kompletter oder inkrementeller Crawling-Durchgang durchgeführt, es werden nur die fehlenden Dokumente erneut gecrawlt.

Löschen

Mit dieser Funktion entfernen Sie die markierten Crawling-Tasks aus der Liste. Der Crawler muss zuvor gestoppt sein. Beachten Sie, dass das Löschen bei einer großen Anzahl von Dokumenten einige Minuten dauern kann. Ein Neustart ist über die Funktion Reindizieren in der Index-Administration möglich.

 

Die gewählten Funktionen werden nach einer minimalen Zeitverzögerung gestartet.

 

 

 

Ende des Inhaltsbereichs