Crawler und Crawler-Parameter
Im Knowledge Management werden Crawler eingesetzt, um Ressourcen zu sammeln, die in internen oder externen Repositories liegen. Die gefundenen Ressourcen und hierarchischen bzw. netzartigen Strukturen werden zur weiteren Verarbeitung an verschiedene Services und Anwendungen übergeben.
Das Verhalten der im System aktiven Crawler bestimmen Sie mit Hilfe von Crawler-Parametern.
Im Crawler-Monitor überwachen Sie die Aktivität von Crawler-Tasks und können diese gegebenenfalls anhalten und zu einem späteren Zeitpunkt fortsetzen.
Der Crawler-Service ist aktiviert.
Im KM werden für verschiedene Aufgaben folgende Crawler genutzt:
● Content Exchange Crawler
wird für die Sammlung und
Zusammenstellung von Angeboten bei der
Content-Verteilung
genutzt
● Subscription Crawler
wird für die Sammlung und Bereitstellung von Subskriptions-spezifischen Daten genutzt
● Taxonomy Crawler
wird für die Sammlung und Bereitstellung von Daten in Taxonomien verwendet
Von diesen Crawlern existiert jeweils eine Instanz. Da sie bereits vorkonfiguriert sind, brauchen Sie die Parameter dieser Crawler nicht ändern.
● Index Management Crawler
wird für verschiedene Aufgaben der Indexverwaltung verwendet
Crawler dieses Typs werden eingesetzt, um in Datenquellen Adressen von Objekten zu suchen. Dieser Typ erlaubt normales als auch Delta-Crawling. Die gesammelten Adressen werden zur Indizierung an TREX übergeben.
In der Standardauslieferung ist die vorkonfigurierte Instanz standard enthalten. Sie können weitere Instanzen dieses Crawlers anlegen und konfigurieren, z. B. wenn Sie die Protokollfunktion nutzen oder Ressourcenfilter angeben möchten.
Nachdem Sie eine neue Instanz dieses Crawlers angelegt haben, können Sie ihn in der Index-Administration auswählen.
● General Purpose Crawler
dieser Crawler stellt generische Funktionen bereit und kann für eigene Projekte über API-Aufrufe angesprochen werden
Crawler-Parameter
Parameter |
Obligat. |
Beschreibung |
Name |
ja |
Name des Sets von Crawler-Parametern |
Description |
nein |
nähere Beschreibung des Sets |
Maximum Depth |
nein |
maximale Anzahl der Rekursionsebenen, die vom Crawler berücksichtigt werden Eine Rekursionsebene von 2 bedeutet z. B.: Ausgehend von einem bestimmten Dokument werden alle Dokumente, auf die im Startdokument über Hyperlinks verwiesen wird, und alle Dokumente, auf die wiederum in diesen Dokumenten verwiesen wird, in die Ergebnismenge aufgenommen. Bei hierarchisch strukturierten Repositories wie z. B. einem Dateisystem-Repository entspricht die Rekursionsebene den Hierarchieebenen. Die Angabe 0 oder ein leeres Eingabefeld stehen für unendliche Tiefe. |
Number of Retriever Threads |
ja |
Anzahl der Retriever-Threads Retriever-Threads durchsuchen die Repositories und sammeln die Ressourcen. Der Standardwert ist 1. Beachten Sie, dass die angegebe Anzahl der Retriever auch vom Remote-Server unterstützt werden sollte. Um die parallele Ausführbarkeit von Retriever-Threads zu unterstützen, sollte die Angabe im Parameter max. Connections in dem vom Crawler angesprochenen HTTP-System größer sein, als die Anzahl der Retriever-Threads. Die Standardangabe im HTTP-System gewährleistet dies bereits. Falls die Angabe im Parameter max. Connections kleiner sein sollte, teilen sich die Retriever-Threads die verfügbaren Verbindungen. |
Number of Provider Threads |
ja |
Anzahl der Provider-Threads Provider-Threads übernehmen den Transfer der gefundenen Ressourcen an den Service oder die Applikation, die das Ergebnis empfangen. Der Standardwert ist 3. Wählen Sie einen Wert, der der Prozessorleistung Ihres Systems entspricht. Je höher die Anzahl der Provider, desto höher ist die Systembelastung. |
Repository Access Delay |
nein |
gibt die Zeit in Millisekunden an, die ein Crawler-Thread wartet, bevor er auf das nächste Dokument zugreift Diese Verzögerung kann genutzt werden, um die Last zu verringern, die während des Crawling-Vorgangs auf das Quell-Repository oder Netzwerk wirkt. |
Document Retrieval Timeout |
nein |
Zeitintervall in Sekunden, nach dessen Ablauf der Crawler den Crawling-Vorgang bei einem Dokument beendet und zum nächsten Dokument wechselt |
Resource Filters (Scope) |
nein |
Angabe von Ressourcenfiltern, die den Umfang des Crawling-Vorgangs verringern (siehe Ressourcenfilter) |
Resource Filters (Result) |
nein |
Angabe von Ressourcenfiltern, die auf das Ergebnis des Crawling-Vorgangs angewandt werden (siehe Ressourcenfilter) |
Follow Links |
nein |
wenn aktiviert, verfolgt der Crawler in hierarchischen Repositories Links |
Follow Redirects on Web-Sites |
nein |
wenn aktiviert, verfolgt der Crawler Redirects in Web-Repositories Beachten Sie, dass bei einem statischen Web-Repository Redirects nur dann verfolgt werden, wenn diese auf den gleichen Server zeigen. Bei einem dynamischen Web-Repository werden Redirects auch dann verfolgt, wenn diese auf einen anderen Server zeigen. |
Respect the ‘index-content’ Property |
nein |
wenn aktiviert, beachtet der Crawler die Zusatzeigenschaft index-content von Dokumenten Falls index-content = false, werden die Dokumente zwar nach Links durchsucht, die Ausgangsdokumente werden jedoch nicht zur Indizierung an TREX übergeben. |
Verify Modification Using Checksum |
nein |
wenn aktiviert, wird ein Prüfsummen-Vergleich durchgeführt, um die Modifikation einer Datei zu prüfen |
Verify Modification Using ETag |
nein |
wenn aktiviert, wird ein ETag-Vergleich durchgeführt, um die Modifikation einer Datei zu prüfen |
Condition for Treating a Document as Modified |
ja |
gibt an, welche Bedingungen erfüllt sein müssen, damit ein Dokument als modifiziert gilt OR: Das Dokument gilt als modifiziert, wenn das Datum oder der ETag oder die Prüfsumme verändert wurden. AND: Das Dokument gilt als modifiziert, wenn das Datum und der ETag und die Prüfsumme verändert wurden. |
Crawl Hidden Documents |
nein |
wenn aktiviert, werden versteckte Dokumente vom Crawler berücksichtigt |
Crawl Document Versions |
nein |
wenn aktiviert, werden Versionen von Dokumenten vom Crawler berücksichtigt |
Maximum Log Level |
ja |
definiert den Grad der Informationen, die in Protokolldateien geschrieben werden off: es wird keine Protokolldatei geschrieben error: es wird eine Protokolldatei mit Fehlermeldungen geschrieben info: wie error, zusätzlich werden alle gefundenen Dokumente aufgelistet Start und Stopp der Crawler und Meldungen des Crawler-Service werden in das Applikationsprotokoll geschrieben. |
Path for Log Files |
nein |
Angabe des Pfades, in dem Protokolldateien abgelegt werden Wenn Sie keinen Pfad angeben, wird das Verzeichnis /etc/log/crawler für die Ablage der Protokolldateien verwendet. |
Maximum Size of a Single Log File |
nein |
gibt die maximale Größe einer Protokolldatei in Bytes an |
Maximum Number of Backed Up Log Files |
nein |
gibt die maximale Anzahl von Protokolldateien an, die gespeichert werden |
Test Mode |
nein |
gibt an, ob der Crawler im Test-Modus betrieben wird Aktivieren Sie den Parameter, wenn Sie einen Test des Crawlers durchführen möchten. Hierbei werden die Ergebnisse des Crawlers nicht weiterverarbeitet. Es findet keine Indizierung statt. Die Parameter für die Protokolldatei sollten bei einem Test entsprechend gesetzt werden. |
Falls es beim Einsatz der Crawler zu Fehlern kommt, die den Vorgang abbrechen, werden diese im Applikationsprotokoll erfasst.
Sollte während des Crawlings das Portal neu gestartet werden, setzen die Crawler nach dem Neustart ihre Aktivitäten automatisch an der Stelle, an der abgebrochen wurde fort.

Beachten Sie, dass Crawler, die vom Subskriptionsservice und von der Content-Verteilung genutzt werden, ihre Aktivität bei Neustart des Portals nicht fortsetzen. Sie werden zum nächsten Zeitpunkt, der in den entsprechenden Scheduler-Tasks eingetragen ist, neu gestartet.

Beachten Sie, dass die Größe der Datenbank starken Einfluss auf die Geschwindigkeit des Crawling-Vorgangs hat. Bei Einsatz einer großen Datenbank arbeiten die Crawler schneller als bei Einsatz einer kleinen Datenbank.
Auf Webseiten können Crawler nur die Hyperlinks erfassen, die im Quelltext der HTML-Seiten in der Form <a href=“…“> angegeben sind. Hyperlinks, die in Javascript oder anderen Script-Sprachen eingebettet sind, werden nicht vom Crawler erfasst und somit auch nicht indiziert.
Ebenfalls können Links, die in Flash eingebunden sind, nicht erfasst und indiziert werden.
Beim Crawlen von Web-Repositories (siehe Web-Repository-Manager) wird die Datei robots.txt der Webseite ausgewertet.
In HTML-Dokumenten werden folgende ROBOTS-Angaben berücksichtigt:
● <METANAME="ROBOTS" CONTENT="NOFOLLOW">
Diese Angabe veranlasst den Crawler, in dem Dokument keine Links zu verfolgen. Der Crawler übergibt Dokumente mit diesem Meta-Tag aber zur Indizierung an TREX.
● <METANAME="ROBOTS" CONTENT="NOINDEX">
Der Crawler übergibt Dokumente mit diesem Meta-Tag nicht zur Indizierung an TREX. Diese Dokumente werden daher nicht im Suchergebnis aufgelistet. Der Crawler verfolgt jedoch alle Links der Ausgangsdokumente.
● <METANAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
Diese Angabe bewirkt, dass das Dokument nicht indiziert wird, und Links nicht verfolgt werden.
Um ein Dokument eines Repositories gezielt von der Indizierung auszuschließen, können Sie für das Dokument die Zusatzeigenschaft index-content anlegen. Tragen Sie als Wert false ein. Für Index Management Crawler ist dazu der Parameter Respect the ‘index-content’ Property standardmäßig aktiviert. Falls index-content = false, wird das Dokument vom Crawler zwar nach Links durchsucht, es wird jedoch nicht zur Indizierung an TREX übergeben.
Um ein neues Set von Crawler-Parametern für Indizierungszwecke anzulegen, wählen Sie Content Management → Global Services → Crawler Parameters → Index Management Crawler.
Siehe auch: