Crawler-Monitor (SAP-Bibliothek - Knowledge Management)

Crawler-Monitor

Verwendung

Mit dem Crawler-Monitor überwachen Sie die Aktivität der Crawler und können in diese eingreifen.

Integration

Die Crawler werden auf dem System einer Load-Balancing-Umgebung ausgeführt, welchem der Index-Service-Task-Queue-Reader zugeordnet ist. Die System-ID dieses Systems wird in der Detailansicht eines Crawler-Tasks angezeigt.

Funktionsumfang

Jeder Crawler führt auf dem Server einen Crawling-Vorgang aus. Im Crawler-Monitor wird eine Liste dieser Crawling-Tasks angezeigt.

Sie können Informationen über den Crawling-Task während er läuft, oder nachdem er seine Aktivität beendet hat, aufrufen.

Sie können zwischen drei verschiedenen Sichten wechseln: Übersicht, Geliefert, Statistik (siehe unten).

Sie können alle aktiven, alle angehaltenen und alle bisherigen Crawler-Tasks anzeigen lassen. Sie können auch die Crawling-Tasks der letzten Stunde, des letzten Tages und der letzten Woche auswählen.

Sie können die Liste mit den Crawling-Tasks nach verschiedenen Kriterien sortieren. Wählen Sie dazu im Sortierfeld oben rechts das gewünschte Sortierkriterium aus. Der Pfeil rechts neben dem Sortierfeld zeigt an, ob die Liste aufsteigend oder absteigend sortiert ist. Mit Klick auf diesen Pfeil können Sie die Sortierreihenfolge umkehren.

Hinweis

Beachten Sie, dass im Crawler-Monitor immer der letzte Durchgang eines Crawling-Tasks angezeigt wird. Informationen zu vorhergehenden Durchgängen finden Sie im Applikationsprotokoll.

Sicht: Übersicht

In dieser Sicht sehen Sie aktuelle Statistiken zu den Crawling-Tasks.

Name	Beschreibung
Aufgabe	Name des Crawling-Tasks Der Name setzt sich aus der Index-ID und dem Repository-Namen zusammen. Sind einem Index mehrere Datenquellen zugeordnet, wird für jede Datenquelle ein Crawling-Task erzeugt. Um Detailinformationen zum Crawling-Task aufzurufen, klicken Sie auf den Namen.
Ausgangssituation	Angabe der Datenquelle, die der Crawling-Task bearbeitet Um die Datenquelle zu öffnen, klicken Sie auf den Link.
Status	aktueller Status des Crawlers Inaktiv: Vorgang ist noch nicht aktiv Startet: Vorgang startet Running: Vorgang läuft Hält an: Vorgang wird unterbrochen Angehalten: Vorgang wurde manuell angehalten und kann durch Wählen von Reaktivieren fortgesetzt werden Fortsetzen: Vorgang wird fortgesetzt Nachbearbeitung: es findet eine Nachbearbeitung von Objekten statt Stopping: Vorgang hat seine Aktivitäten beendet und führt nun den Stopp aus Completed: Vorgang wurde vollständig ausgeführt Fehlgeschlagen: Vorgang ist gescheitert Stopped: Vorgang wurde manuell gestoppt Waiting: Vorgang wartet mit dem Start, bis die Anzahl gleichzeitig laufender Vorgänge unter den angegebenen Wert gesunken ist. Die Anzahl geben Sie in der Konfiguration des Crawler-Service an.
Elapsed Time	Gesamte Dauer, die seit dem Start des Crawlers (inklusive beabsichtigte Unterbrechungen) verstrichen ist in Stunden:Minuten:Sekunden Beachten Sie, dass bis zum Start des Crawlers eine kurze Zeit verstreichen kann.
Geliefert	Anzahl der Dokumente und Ordner, die zur Weiterverarbeitung an TREX oder andere Anwendungen übergeben wurde
Inkrementell	Gibt an, ob es sich um eine inkrementelle Aktualisierung handelt
Errors	Anzahl der Fehler, die aufgetreten sind.
Durchschnittliche Bearbeitungszeit (ms)	Durchschnittliche Bearbeitungszeit eines Objekts in Millisekunden Die Angabe umfasst die Zeit vom Abruf der Objekte bis zur Ablieferung. Die Zeit, die für Datenbankoperationen benötigt wird, ist nicht in der Angabe enthalten.

Gelieferte Sicht

In dieser Sicht sehen Sie aktuelle Informationen zu den gelieferten Objekten.

Name	Beschreibung
Aufgabe	Name des Crawling-Tasks (Beschreibung siehe Sicht Übersicht)
Status	aktueller Status des Crawlers (Beschreibung siehe Sicht Übersicht)
Bereits verarbeitet	Anzahl der Dokumente, die vom Crawler abgearbeitet wurden Der Wert muss nicht mit dem Wert der gelieferten Dokumente und Ordner übereinstimmen, da zu diesem Zeitpunkt noch keine Filter angewendet wurden.
Verfügbare Anzahl	Anzahl der Dokumente, die der Crawler abgearbeitet hat und jetzt für TREX oder andere Anwendungen bereitstellt
Neu	Anzahl der neuen Dokumente bei einer inkrementellen Aktualisierung
Geändert	Anzahl der geänderten Dokumente bei einer inkrementellen Aktualisierung
Gelöscht	Anzahl der gelöschten Dokumente bei einer inkrementellen Aktualisierung

Sicht: Statistik

In dieser Sicht sehen Sie aktuelle Statistiken zu den Crawling-Tasks.

Name	Beschreibung
Aufgabe	Name des Crawling-Tasks (Beschreibung siehe Sicht Übersicht)
Status	Aktueller Status des Crawlers (Beschreibung siehe Sicht Übersicht)
Geliefert	Anzahl der gelieferten Dokumente und Ordner
Bearbeitungsfehler	Anzahl der Fehler, die beim Verarbeiten aufgetreten sind
Fehler beim Abruf	Anzahl der Fehler, die beim Abrufen aufgetreten sind
Fehler bei Weitergabe	Anzahl der Fehler, die bei der Weitergabe aufgetreten sind
Fehlerhafte Links	Anzahl fehlerhafter Links
Gefiltert	Anzahl der Dokumente, die gefiltert wurden
Abrufzeit	in Stunden:Minuten:Sekunden
Weitergabezeit	in Stunden:Minuten:Sekunden
Durchschnittliche Abrufzeit (ms)	Durchschnittliche Dauer für das Abrufen eines Dokuments in Millisekunden
Durchschnittliche Weitergabezeit (ms)	Durchschnittliche Dauer für die Weitergabe eines verarbeiteten Dokuments in Millisekunden

Beachten Sie, dass Crawler, die vom Content-Verteilungsservice oder dem Subskriptionsservice genutzt werden, nur zeitweise im Crawler-Monitor sichtbar sind. Sollte ein Neustart des Portals ihre Crawling-Tasks unterbrochen haben, werden Sie zum nächsten Zeitpunkt, der in den entsprechenden Scheduler-Tasks eingetragen ist, fortgesetzt.

Sollte ein Neustart des Portals die Crawling-Tasks vom Subskriptionsservice unterbrochen haben, werden Sie zum nächsten Zeitpunkt, der in den entsprechenden Scheduler-Tasks eingetragen ist, neu gestartet.

Detailinformationen zum Crawling-Task

Wenn Sie auf den Namen eines Crawling-Tasks klicken, werden in einem neuen Fenster erweiterte Informationen für den gewählten Crawling-Task angezeigt. Die Informationen sind in verschiedenen Gruppen zusammengefasst. Hier können Sie auch, wenn verfügbar, die Protokolldateien des Crawlers aufrufen.

Mit Klick auf Refresh aktualisieren Sie die Anzeige. Sie können das Fenster auch automatisch aktualisieren lassen. Wählen Sie dazu das gewünschte Intervall in der Auswahlliste Automatisch Aktualisieren.

Um Informationen zu Dokumenten anzeigen zu lassen, auf die der gewählte Crawler aktuell zugreift, wählen Sie Ein in der Auswahlliste Dokumente Anzeigen.

Hinweis

Falls sich die Anzeige der Dokumente nach mehreren Minuten und mehrfachen Aktualisieren nicht ändert, sollten Sie die Datenquellen prüfen, auf die der Crawler zugreift. Beispielsweise könnte sich ein Web-Server aufgrund hoher Last verlangsamt oder aufgehängt haben.

Aktivitäten

Um den Crawler-Monitor aufzurufen, wählen Sie Systemadministration → Monitoring → Knowledge Management → Crawler-Monitor.

Sie können folgende Funktionen ausführen:

Funktion	Beschreibung
Suspend	Mit dieser Funktion halten Sie die markierten Crawling-Tasks an. Jeder Crawler merkt sich die Position, an der er angehalten wurde und kann zu einem späteren Zeitpunkt fortgesetzt werden.
Resume	Mit dieser Funktion können Sie die Aktivität angehaltener und fehlgeschlagener Crawling-Tasks an der Position fortsetzen, an der sie angehalten wurden oder abbrachen. Diese Funktion berücksichtigt nicht geänderte Ressourcenfilterkonfigurationen. Nutzen Sie hierzu die Funktion Reaktivieren mit neuen Filtern.
Reaktivieren mit neuen Filtern	Sollten Sie die Konfiguration von Ressourcenfiltern geändert haben, während ein Crawling-Vorgang läuft, können Sie den betroffenen Crawling-Task anhalten und ihn mit dieser Funktion unter Einbeziehung der geänderten Ressourcenfilter fortsetzen. Die neuen Ressourcenfilter werden nicht rückwirkend auf bereits gecrawlte Dokumente angewendet.
Stop	Mit dieser Funktion stoppen Sie die markierten Crawling-Tasks. Gestoppte Crawling-Tasks können nicht fortgesetzt werden. Ein Neustart ist jedoch über die Funktionen Reindizieren oder Inkrementelles Update in der Index-Administration möglich.
Recrawl Errors	Mit dieser Funktion können Sie Dokumente erneut crawlen, die im vorherigen Crawling-Durchgang Fehler verursacht haben. Zu diesen Fehlern können zählen: ● Timeouts während dem Zugriff auf ein Dokument auf einem Web-Server ● Authentifizierungsprobleme während dem Zugriff auf ein Dokument Nachdem Sie die Ursache für diese Fehler behoben haben, indem Sie zum Beispiel den Web-Server neu gestartet oder die Benutzerzuordnung korrigiert haben, können Sie diese Funktion wählen. Es wird kein kompletter oder inkrementeller Crawling-Durchgang durchgeführt, es werden nur die fehlenden Dokumente erneut gecrawlt.
Löschen	Mit dieser Funktion entfernen Sie die markierten Crawling-Tasks aus der Liste. Der Crawler muss zuvor gestoppt sein. Beachten Sie, dass das Löschen bei einer großen Anzahl von Dokumenten einige Minuten dauern kann. Ein Neustart ist über die Funktion Reindizieren in der Index-Administration möglich.

Die gewählten Funktionen werden nach einer minimalen Zeitverzögerung gestartet.