Show TOC Anfang des Inhaltsbereichs

Funktionsdokumentation Ressourcenfilter  Dokument im Navigationsbaum lokalisieren

Verwendung

Sie nutzen Ressourcenfilter um den Umfang oder das Ergebnis eines Crawling-Vorgangs zu beeinflussen.

 

Integration

Sie geben Ressourcenfilter als Ergebnis- oder Umfangfilter in der Konfiguration von Crawler-Parameter-Sets an (siehe Crawler und Crawler-Parameter).

 

Funktionsumfang

Ressourcenfilter, die als Umfangfilter genutzt werden, können mit folgenden Parametern definiert werden:

Parameter eines Umfangfilters

Parameter

Obligat.

Beschreibung

Name

ja

Name des Ressourcenfilters

Case Sensitive

nein

gibt an, ob Groß- und Kleinschreibung beachtet wird

Der Parameter wirkt auf Dokumente, Ordner und HTML-Seiten.

Access Path Mode

ja

gibt an, ob die Angaben im Parameter Access Path Patterns in das Ergebnis einfließen oder herausgefiltert werden

exclude: Die angegebenen Zugriffspfadmuster werden nicht im Ergebnis berücksichtigt.

include: Nur die angegebenen Zugriffspfadmuster werden im Ergebnis berücksichtigt.

Der Parameter wirkt auf Dokumente, Ordner und HTML-Seiten.

Access Path Patterns

nein

kommagetrennte Angabe von Zugriffspfaden

Bei der Angabe können Sie Platzhalter nutzen (siehe Verwendung von Platzhaltern).

Sie dürfen hier keine Dateinamen angeben.

Beispiel: /mydocuments

URL (Content Link) Mode

ja

gibt an, ob die Angaben im Parameter URL Regular Expression in das Ergebnis einfließen oder herausgefiltert werden

Der Parameter gilt für die URL, die bei einem Dokument in der Eigenschaft Content Link gespeichert ist.

Die Eigenschaft Content Link beschreibt die URL, unter der das Dokument vom Crawler abgerufen wird.

exclude: Die angegebenen URL-Ausdrücke werden nicht im Ergebnis berücksichtigt.

include: Nur die angegebenen URL-Ausdrücke werden im Ergebnis berücksichtigt.

Die Angaben werden auf Dokumente und HTML-Seiten angewendet.

URL Regular Expression

nein

Angabe eines regulären Ausdrucks, der mit der URL abgeglichen wird, die bei einem Dokument in der Eigenschaft Content Link gespeichert ist

Der reguläre Ausdruck muss die komplette URL enthalten.

 

Ressourcenfilter, die als Ergebnisfilter genutzt werden, können mit folgenden Parametern definiert werden:

Parameter eines Ergebnisfilters

Parameter

Obligat.

Beschreibung

Name

ja

Name des Ressourcenfilters

Include Documents/Web-Pages

nein

gibt an, ob Dokumente bzw. HTML-Seiten gecrawlt werden

Include Folders

nein

gibt an, ob Ordner gecrawlt werden

Include Links

nein

gibt an, ob Links in einer hierarchischen Struktur gecrawlt werden

Beachten Sie, dass dieser Parameter nicht für das Crawlen von Web-Repositories verwendet werden kann.

Case Sensitive

nein

gibt an, ob Groß- und Kleinschreibung beachtet wird

Der Parameter wirkt auf Dokumente, Ordner und HTML-Seiten.

Item ID Mode

ja

gibt an, ob die Angaben im Parameter Item ID Patterns in das Ergebnis einfließen oder herausgefiltert werden

exclude: Die angegebenen Objekte-ID-Muster werden nicht im Ergebnis berücksichtigt.

include: Nur die angegebenen Objekte-ID-Muster werden im Ergebnis berücksichtigt.

Der Parameter wird in beiden Fällen nur auf Dokumente und HTML-Seiten angewendet.

Item ID Patterns

nein

kommagetrennte Angabe von Dateinamen

Bei der Angabe können Sie die Platzhalter * und ? nutzen.

Beispiel: *.zip, file??.xml

Mime Type Mode

ja

gibt an, ob die Angaben im Parameter Mime Type Patterns in das Ergebnis einfließen oder herausgefiltert werden

exclude: Die angegebenen MIME-Typen-Muster werden nicht im Ergebnis berücksichtigt.

include: Nur die angegebenen MIME-Typen-Muster werden im Ergebnis berücksichtigt.

Der Parameter wird in beiden Fällen nur auf Dokumente und HTML-Seiten angewendet.

Mime Type Patterns

nein

kommagetrennte Angabe von MIME-Typen-Mustern

Bei der Angabe können Sie Platzhalter nutzen (siehe Verwendung von Platzhaltern).

Beispiel: text/*

Minimum Content Size

nein

gibt die minimale Größe von Dokumenten an, die vom Crawler berücksichtigt werden

Beachten Sie, dass das Erfassen der Dateigröße jedes einzelnen Dokuments eine gewisse Zeit in Anspruch nimmt.

Der Parameter wird nur auf Dokumente und HTML-Seiten angewendet.

Maximum Content Size

nein

gibt die maximale Größe von Dokumenten an, die vom Crawler berücksichtigt werden

Beachten Sie, dass das Erfassen der Dateigröße jedes einzelnen Dokuments eine gewisse Zeit in Anspruch nimmt.

Geben Sie 0 für unendlich große Dateien an.

Der Parameter wird nur auf Dokumente und HTML-Seiten angewendet.

Maximum Age of Last Modification

nein

Angabe der Zeit in Tagen, innerhalb der die letzte Änderung eines Dokuments zurückliegen muss, damit der Crawler das Dokument berücksichtigt

Geben Sie 0 für eine unendliche Zeit an.

Der Parameter wird nur auf Dokumente und HTML-Seiten angewendet.

 

Aktivitäten

Um einen Ressourcenfilter anzulegen, wählen Sie Content Management Global Services Resource Filters . Wählen Sie den Ressourcenfilter danach in einem Set von Crawler-Parametern aus.

 

Beispiele

Beispiel 1

Sie möchten alle Dateien eines Repositorys von der Indizierung ausschließen, die auf .HTML_banner enden. Konfigurieren Sie einen Ergebnisfilter mit folgenden Angaben:

 

Name = myresourcefilter
Include Documents/Web-Pages = aktiviert
Include Folders = aktiviert
Include Links = aktiviert
Item ID Mode = exclude
Item ID Patterns =
*.HTML_banner
Mime Type Mode = exclude

 

Wählen Sie danach diesen Ergebnisfilter in einem Set von Crawler-Parametern aus.

 

Beispiel 2

Um alle Dokumente in Ordnern mit dem Namen /_vti_cnf von der Indizierung auszuschließen, konfigurieren Sie einen Umfangfilter mit folgender Angabe:

Access Path Pattern = **/_vti_cnf

 

Ende des Inhaltsbereichs