Crawler und Crawler-Parameter (SAP-Bibliothek

Crawler und Crawler-Parameter

Verwendung

Im Knowledge Management werden Crawler eingesetzt, um Ressourcen zu sammeln, die in internen oder externen Repositories liegen. Die gefundenen Ressourcen und hierarchischen bzw. netzartigen Strukturen werden zur weiteren Verarbeitung an verschiedene Services und Anwendungen übergeben.

Das Verhalten der im System aktiven Crawler bestimmen Sie mit Hilfe von Crawler-Parametern.

Integration

Im Crawler-Monitor überwachen Sie die Aktivität von Crawler-Tasks und können diese gegebenenfalls anhalten und zu einem späteren Zeitpunkt fortsetzen.

Voraussetzungen

Der Crawler-Service ist aktiviert.

Funktionsumfang

Im KM werden für verschiedene Aufgaben folgende Crawler genutzt:

● Content Exchange Crawler

wird für die Sammlung und Zusammenstellung von Angeboten bei der Content-Verteilung genutzt

● Subscription Crawler

wird für die Sammlung und Bereitstellung von Subskriptions-spezifischen Daten genutzt

● Taxonomy Crawler

wird für die Sammlung und Bereitstellung von Daten in Taxonomien verwendet

Von diesen Crawlern existiert jeweils eine Instanz. Da sie bereits vorkonfiguriert sind, brauchen Sie die Parameter dieser Crawler nicht ändern.

● Index Management Crawler

wird für verschiedene Aufgaben der Indexverwaltung verwendet

Crawler dieses Typs werden eingesetzt, um in Datenquellen Adressen von Objekten zu suchen. Dieser Typ erlaubt normales als auch Delta-Crawling. Die gesammelten Adressen werden zur Indizierung an TREX übergeben.

In der Standardauslieferung ist die vorkonfigurierte Instanz standard enthalten. Sie können weitere Instanzen dieses Crawlers anlegen und konfigurieren, z. B. wenn Sie die Protokollfunktion nutzen oder Ressourcenfilter angeben möchten.

Nachdem Sie eine neue Instanz dieses Crawlers angelegt haben, können Sie ihn in der Index-Administration auswählen.

● General Purpose Crawler

dieser Crawler stellt generische Funktionen bereit und kann für eigene Projekte über API-Aufrufe angesprochen werden

Crawler-Parameter

Parameter	Obligat.	Beschreibung
Name	ja	Name des Sets von Crawler-Parametern
Description	nein	nähere Beschreibung des Sets
Maximum Depth	nein	maximale Anzahl der Rekursionsebenen, die vom Crawler berücksichtigt werden Eine Rekursionsebene von 2 bedeutet z. B.: Ausgehend von einem bestimmten Dokument werden alle Dokumente, auf die im Startdokument über Hyperlinks verwiesen wird, und alle Dokumente, auf die wiederum in diesen Dokumenten verwiesen wird, in die Ergebnismenge aufgenommen. Bei hierarchisch strukturierten Repositories wie z. B. einem Dateisystem-Repository entspricht die Rekursionsebene den Hierarchieebenen. Die Angabe 0 oder ein leeres Eingabefeld stehen für unendliche Tiefe.
Number of Retriever Threads	ja	Anzahl der Retriever-Threads Retriever-Threads durchsuchen die Repositories und sammeln die Ressourcen. Der Standardwert ist 1. Beachten Sie, dass die angegebe Anzahl der Retriever auch vom Remote-Server unterstützt werden sollte. Um die parallele Ausführbarkeit von Retriever-Threads zu unterstützen, sollte die Angabe im Parameter max. Connections in dem vom Crawler angesprochenen HTTP-System größer sein, als die Anzahl der Retriever-Threads. Die Standardangabe im HTTP-System gewährleistet dies bereits. Falls die Angabe im Parameter max. Connections kleiner sein sollte, teilen sich die Retriever-Threads die verfügbaren Verbindungen.
Number of Provider Threads	ja	Anzahl der Provider-Threads Provider-Threads übernehmen den Transfer der gefundenen Ressourcen an den Service oder die Applikation, die das Ergebnis empfangen. Der Standardwert ist 3. Wählen Sie einen Wert, der der Prozessorleistung Ihres Systems entspricht. Je höher die Anzahl der Provider, desto höher ist die Systembelastung.
Repository Access Delay	nein	gibt die Zeit in Millisekunden an, die ein Crawler-Thread wartet, bevor er auf das nächste Dokument zugreift Diese Verzögerung kann genutzt werden, um die Last zu verringern, die während des Crawling-Vorgangs auf das Quell-Repository oder Netzwerk wirkt.
Document Retrieval Timeout	nein	Zeitintervall in Sekunden, nach dessen Ablauf der Crawler den Crawling-Vorgang bei einem Dokument beendet und zum nächsten Dokument wechselt
Resource Filters (Scope)	nein	Angabe von Ressourcenfiltern, die den Umfang des Crawling-Vorgangs verringern (siehe Ressourcenfilter)
Resource Filters (Result)	nein	Angabe von Ressourcenfiltern, die auf das Ergebnis des Crawling-Vorgangs angewandt werden (siehe Ressourcenfilter)
Follow Links	nein	wenn aktiviert, verfolgt der Crawler in hierarchischen Repositories Links
Follow Redirects on Web-Sites	nein	wenn aktiviert, verfolgt der Crawler Redirects in Web-Repositories Beachten Sie, dass bei einem statischen Web-Repository Redirects nur dann verfolgt werden, wenn diese auf den gleichen Server zeigen. Bei einem dynamischen Web-Repository werden Redirects auch dann verfolgt, wenn diese auf einen anderen Server zeigen.
Respect the ‘index-content’ Property	nein	wenn aktiviert, beachtet der Crawler die Zusatzeigenschaft index-content von Dokumenten Falls index-content = false, werden die Dokumente zwar nach Links durchsucht, die Ausgangsdokumente werden jedoch nicht zur Indizierung an TREX übergeben.
Verify Modification Using Checksum	nein	wenn aktiviert, wird ein Prüfsummen-Vergleich durchgeführt, um die Modifikation einer Datei zu prüfen
Verify Modification Using ETag	nein	wenn aktiviert, wird ein ETag-Vergleich durchgeführt, um die Modifikation einer Datei zu prüfen
Condition for Treating a Document as Modified	ja	gibt an, welche Bedingungen erfüllt sein müssen, damit ein Dokument als modifiziert gilt OR: Das Dokument gilt als modifiziert, wenn das Datum oder der ETag oder die Prüfsumme verändert wurden. AND: Das Dokument gilt als modifiziert, wenn das Datum und der ETag und die Prüfsumme verändert wurden.
Crawl Hidden Documents	nein	wenn aktiviert, werden versteckte Dokumente vom Crawler berücksichtigt
Crawl Document Versions	nein	wenn aktiviert, werden Versionen von Dokumenten vom Crawler berücksichtigt
Maximum Log Level	ja	definiert den Grad der Informationen, die in Protokolldateien geschrieben werden off: es wird keine Protokolldatei geschrieben error: es wird eine Protokolldatei mit Fehlermeldungen geschrieben info: wie error, zusätzlich werden alle gefundenen Dokumente aufgelistet Start und Stopp der Crawler und Meldungen des Crawler-Service werden in das Applikationsprotokoll geschrieben.
Path for Log Files	nein	Angabe des Pfades, in dem Protokolldateien abgelegt werden Wenn Sie keinen Pfad angeben, wird das Verzeichnis /etc/log/crawler für die Ablage der Protokolldateien verwendet.
Maximum Size of a Single Log File	nein	gibt die maximale Größe einer Protokolldatei in Bytes an
Maximum Number of Backed Up Log Files	nein	gibt die maximale Anzahl von Protokolldateien an, die gespeichert werden
Test Mode	nein	gibt an, ob der Crawler im Test-Modus betrieben wird Aktivieren Sie den Parameter, wenn Sie einen Test des Crawlers durchführen möchten. Hierbei werden die Ergebnisse des Crawlers nicht weiterverarbeitet. Es findet keine Indizierung statt. Die Parameter für die Protokolldatei sollten bei einem Test entsprechend gesetzt werden.

Falls es beim Einsatz der Crawler zu Fehlern kommt, die den Vorgang abbrechen, werden diese im Applikationsprotokoll erfasst.

Sollte während des Crawlings das Portal neu gestartet werden, setzen die Crawler nach dem Neustart ihre Aktivitäten automatisch an der Stelle, an der abgebrochen wurde fort.

Hinweis

Beachten Sie, dass Crawler, die vom Subskriptionsservice und von der Content-Verteilung genutzt werden, ihre Aktivität bei Neustart des Portals nicht fortsetzen. Sie werden zum nächsten Zeitpunkt, der in den entsprechenden Scheduler-Tasks eingetragen ist, neu gestartet.

Hinweis

Beachten Sie, dass die Größe der Datenbank starken Einfluss auf die Geschwindigkeit des Crawling-Vorgangs hat. Bei Einsatz einer großen Datenbank arbeiten die Crawler schneller als bei Einsatz einer kleinen Datenbank.

Berücksichtigung von Hyperlinks

Auf Webseiten können Crawler nur die Hyperlinks erfassen, die im Quelltext der HTML-Seiten in der Form <a href=“…“> angegeben sind. Hyperlinks, die in Javascript oder anderen Script-Sprachen eingebettet sind, werden nicht vom Crawler erfasst und somit auch nicht indiziert.

Ebenfalls können Links, die in Flash eingebunden sind, nicht erfasst und indiziert werden.

Berücksichtigung von ROBOTS-Angaben

Beim Crawlen von Web-Repositories (siehe Web-Repository-Manager) wird die Datei robots.txt der Webseite ausgewertet.

In HTML-Dokumenten werden folgende ROBOTS-Angaben berücksichtigt:

● <METANAME="ROBOTS" CONTENT="NOFOLLOW">

Diese Angabe veranlasst den Crawler, in dem Dokument keine Links zu verfolgen. Der Crawler übergibt Dokumente mit diesem Meta-Tag aber zur Indizierung an TREX.

● <METANAME="ROBOTS" CONTENT="NOINDEX">

Der Crawler übergibt Dokumente mit diesem Meta-Tag nicht zur Indizierung an TREX. Diese Dokumente werden daher nicht im Suchergebnis aufgelistet. Der Crawler verfolgt jedoch alle Links der Ausgangsdokumente.

● <METANAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

Diese Angabe bewirkt, dass das Dokument nicht indiziert wird, und Links nicht verfolgt werden.

Einzelne Dokumente von der Indizierung ausschließen

Um ein Dokument eines Repositories gezielt von der Indizierung auszuschließen, können Sie für das Dokument die Zusatzeigenschaft index-content anlegen. Tragen Sie als Wert false ein. Für Index Management Crawler ist dazu der Parameter Respect the ‘index-content’ Property standardmäßig aktiviert. Falls index-content = false, wird das Dokument vom Crawler zwar nach Links durchsucht, es wird jedoch nicht zur Indizierung an TREX übergeben.

Aktivitäten

Um ein neues Set von Crawler-Parametern für Indizierungszwecke anzulegen, wählen Sie Content Management → Global Services → Crawler Parameters → Index Management Crawler.

Siehe auch:

Crawler-Monitor