Show TOC Anfang des Inhaltsbereichs

Funktionsdokumentation Crawler und Crawler-Parameter  Dokument im Navigationsbaum lokalisieren

Verwendung

Im Knowledge Management werden Crawler eingesetzt, um Ressourcen zu sammeln, die in internen oder externen Repositories liegen. Die gefundenen Ressourcen und hierarchischen bzw. netzartigen Strukturen werden zur weiteren Verarbeitung an verschiedene Services und Anwendungen übergeben.

Das Verhalten der im System aktiven Crawler bestimmen Sie mit Hilfe von Crawler-Parametern.

 

Integration

Im Crawler-Monitor überwachen Sie die Aktivität von Crawler-Tasks und können diese gegebenenfalls anhalten und zu einem späteren Zeitpunkt fortsetzen.

 

Voraussetzungen

Der Crawler-Service ist aktiviert.

 

Funktionsumfang

Im KM werden für verschiedene Aufgaben folgende Crawler genutzt:

 

      Content Exchange Crawler

wird für die Sammlung und Zusammenstellung von Angeboten bei der Content-Verteilung genutzt

 

      Subscription Crawler

wird für die Sammlung und Bereitstellung von Subskriptions-spezifischen Daten genutzt

 

      Taxonomy Crawler

wird für die Sammlung und Bereitstellung von Daten in Taxonomien verwendet

 

Von diesen Crawlern existiert jeweils eine Instanz. Da sie bereits vorkonfiguriert sind, brauchen Sie die Parameter dieser Crawler nicht ändern.

 

      Index Management Crawler

wird für verschiedene Aufgaben der Indexverwaltung verwendet

Crawler dieses Typs werden eingesetzt, um in Datenquellen Adressen von Objekten zu suchen. Dieser Typ erlaubt normales als auch Delta-Crawling. Die gesammelten Adressen werden zur Indizierung an TREX übergeben.

In der Standardauslieferung ist die vorkonfigurierte Instanz standard enthalten. Sie können weitere Instanzen dieses Crawlers anlegen und konfigurieren, z. B. wenn Sie die Protokollfunktion nutzen oder Ressourcenfilter angeben möchten.

Nachdem Sie eine neue Instanz dieses Crawlers angelegt haben, können Sie ihn in der Index-Administration auswählen.

 

      General Purpose Crawler

dieser Crawler stellt generische Funktionen bereit und kann für eigene Projekte über API-Aufrufe angesprochen werden

 

Crawler-Parameter

Parameter

Obligat.

Beschreibung

Name

ja

Name des Sets von Crawler-Parametern

Description

nein

nähere Beschreibung des Sets

Maximum Depth

nein

maximale Anzahl der Rekursionsebenen, die vom Crawler berücksichtigt werden

Eine Rekursionsebene von 2 bedeutet z. B.: Ausgehend von einem bestimmten Dokument werden alle Dokumente, auf die im Startdokument über Hyperlinks verwiesen wird, und alle Dokumente, auf die wiederum in diesen Dokumenten verwiesen wird, in die Ergebnismenge aufgenommen. Bei hierarchisch strukturierten Repositories wie z. B. einem Dateisystem-Repository entspricht die Rekursionsebene den Hierarchieebenen.

Die Angabe 0 oder ein leeres Eingabefeld stehen für unendliche Tiefe.

Number of Retriever Threads

ja

Anzahl der Retriever-Threads

Retriever-Threads durchsuchen die Repositories und sammeln die Ressourcen.

Der Standardwert ist 1. Beachten Sie, dass die angegebe Anzahl der Retriever auch vom Remote-Server unterstützt werden sollte.

Um die parallele Ausführbarkeit von Retriever-Threads zu unterstützen, sollte die Angabe im Parameter max. Connections in dem vom Crawler angesprochenen HTTP-System größer sein, als die Anzahl der Retriever-Threads. Die Standardangabe im HTTP-System gewährleistet dies bereits.

Falls die Angabe im Parameter max. Connections kleiner sein sollte, teilen sich die Retriever-Threads die verfügbaren Verbindungen.

Number of Provider Threads

ja

Anzahl der Provider-Threads

Provider-Threads übernehmen den Transfer der gefundenen Ressourcen an den Service oder die Applikation, die das Ergebnis empfangen.

Der Standardwert ist 3. Wählen Sie einen Wert, der der Prozessorleistung Ihres Systems entspricht. Je höher die Anzahl der Provider, desto höher ist die Systembelastung.

Repository Access Delay

nein

gibt die Zeit in Millisekunden an, die ein Crawler-Thread wartet, bevor er auf das nächste Dokument zugreift

Diese Verzögerung kann genutzt werden, um die Last zu verringern, die während des Crawling-Vorgangs auf das Quell-Repository oder Netzwerk wirkt.

Document Retrieval Timeout

nein

Zeitintervall in Sekunden, nach dessen Ablauf der Crawler den Crawling-Vorgang bei einem Dokument beendet und zum nächsten Dokument wechselt

Resource Filters (Scope)

nein

Angabe von Ressourcenfiltern, die den Umfang des Crawling-Vorgangs verringern (siehe Ressourcenfilter)

Resource Filters (Result)

nein

Angabe von Ressourcenfiltern, die auf das Ergebnis des Crawling-Vorgangs angewandt werden (siehe Ressourcenfilter)

Follow Links

nein

wenn aktiviert, verfolgt der Crawler in hierarchischen Repositories Links

Follow Redirects on Web-Sites

nein

wenn aktiviert, verfolgt der Crawler Redirects in Web-Repositories

Beachten Sie, dass bei einem statischen Web-Repository Redirects nur dann verfolgt werden, wenn diese auf den gleichen Server zeigen. Bei einem dynamischen Web-Repository werden Redirects auch dann verfolgt, wenn diese auf einen anderen Server zeigen.

Respect the ‘index-content’ Property

nein

wenn aktiviert, beachtet der Crawler die Zusatzeigenschaft index-content von Dokumenten

Falls index-content = false, werden die Dokumente zwar nach Links durchsucht, die Ausgangsdokumente werden jedoch nicht zur Indizierung an TREX übergeben.

Verify Modification Using Checksum

nein

wenn aktiviert, wird ein Prüfsummen-Vergleich durchgeführt, um die Modifikation einer Datei zu prüfen

Verify Modification Using ETag

nein

wenn aktiviert, wird ein ETag-Vergleich durchgeführt, um die Modifikation einer Datei zu prüfen

Condition for Treating a Document as Modified

ja

gibt an, welche Bedingungen erfüllt sein müssen, damit ein Dokument als modifiziert gilt

OR: Das Dokument gilt als modifiziert, wenn das Datum oder der ETag oder die Prüfsumme verändert wurden.

AND: Das Dokument gilt als modifiziert, wenn das Datum und der ETag und die Prüfsumme verändert wurden.

Crawl Hidden Documents

nein

wenn aktiviert, werden versteckte Dokumente vom Crawler berücksichtigt

Crawl Document Versions

nein

wenn aktiviert, werden Versionen von Dokumenten vom Crawler berücksichtigt

Maximum Log Level

ja

definiert den Grad der Informationen, die in Protokolldateien geschrieben werden

off: es wird keine Protokolldatei geschrieben

error: es wird eine Protokolldatei mit Fehlermeldungen geschrieben

info: wie error, zusätzlich werden alle gefundenen Dokumente aufgelistet

Start und Stopp der Crawler und Meldungen des Crawler-Service werden in das Applikationsprotokoll geschrieben.

Path for Log Files

nein

Angabe des Pfades, in dem Protokolldateien abgelegt werden

Wenn Sie keinen Pfad angeben, wird das Verzeichnis /etc/log/crawler  für die Ablage der Protokolldateien verwendet.

Maximum Size of a Single Log File

nein

gibt die maximale Größe einer Protokolldatei in Bytes an

Maximum Number of Backed Up Log Files

nein

gibt die maximale Anzahl von Protokolldateien an, die gespeichert werden

Test Mode

nein

gibt an, ob der Crawler im Test-Modus betrieben wird

Aktivieren Sie den Parameter, wenn Sie einen Test des Crawlers durchführen möchten. Hierbei werden die Ergebnisse des Crawlers nicht weiterverarbeitet. Es findet keine Indizierung statt.

Die Parameter für die Protokolldatei sollten bei einem Test entsprechend gesetzt werden.

 

Falls es beim Einsatz der Crawler zu Fehlern kommt, die den Vorgang abbrechen, werden diese im Applikationsprotokoll erfasst.

Sollte während des Crawlings das Portal neu gestartet werden, setzen die Crawler nach dem Neustart ihre Aktivitäten automatisch an der Stelle, an der abgebrochen wurde fort.

 

Hinweis

Beachten Sie, dass Crawler, die vom Subskriptionsservice und von der Content-Verteilung genutzt werden, ihre Aktivität bei Neustart des Portals nicht fortsetzen. Sie werden zum nächsten Zeitpunkt, der in den entsprechenden Scheduler-Tasks eingetragen ist, neu gestartet.

 

Hinweis

Beachten Sie, dass die Größe der Datenbank starken Einfluss auf die Geschwindigkeit des Crawling-Vorgangs hat. Bei Einsatz einer großen Datenbank arbeiten die Crawler schneller als bei Einsatz einer kleinen Datenbank.

 

Berücksichtigung von Hyperlinks

Auf Webseiten können Crawler nur die Hyperlinks erfassen, die im Quelltext der HTML-Seiten in der Form <a href=“…“> angegeben sind. Hyperlinks, die in Javascript oder anderen Script-Sprachen eingebettet sind, werden nicht vom Crawler erfasst und somit auch nicht indiziert.

Ebenfalls können Links, die in Flash eingebunden sind, nicht erfasst und indiziert werden.

 

Berücksichtigung von ROBOTS-Angaben

Beim Crawlen von Web-Repositories (siehe Web-Repository-Manager) wird die Datei robots.txt der Webseite ausgewertet.

In HTML-Dokumenten werden folgende ROBOTS-Angaben berücksichtigt:

      <METANAME="ROBOTS" CONTENT="NOFOLLOW">

Diese Angabe veranlasst den Crawler, in dem Dokument keine Links zu verfolgen. Der Crawler übergibt Dokumente mit diesem Meta-Tag aber zur Indizierung an TREX.

      <METANAME="ROBOTS" CONTENT="NOINDEX">

Der Crawler übergibt Dokumente mit diesem Meta-Tag nicht zur Indizierung an TREX. Diese Dokumente werden daher nicht im Suchergebnis aufgelistet. Der Crawler verfolgt jedoch alle Links der Ausgangsdokumente.

      <METANAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

Diese Angabe bewirkt, dass das Dokument nicht indiziert wird, und Links nicht verfolgt werden.

 

Einzelne Dokumente von der Indizierung ausschließen

Um ein Dokument eines Repositories gezielt von der Indizierung auszuschließen, können Sie für das Dokument die Zusatzeigenschaft index-content anlegen. Tragen Sie als Wert false ein. Für Index Management Crawler ist dazu der Parameter Respect the ‘index-content’ Property  standardmäßig aktiviert. Falls index-content = false, wird das Dokument vom Crawler zwar nach Links durchsucht, es wird jedoch nicht zur Indizierung an TREX übergeben.

 

Aktivitäten

Um ein neues Set von Crawler-Parametern für Indizierungszwecke anzulegen, wählen Sie Content Management Global Services Crawler Parameters Index Management Crawler.

 

Siehe auch:

Crawler-Monitor

 

Ende des Inhaltsbereichs