Ressourcenfilter
Sie nutzen Ressourcenfilter um den Umfang oder das Ergebnis eines Crawling-Vorgangs zu beeinflussen.
Sie geben Ressourcenfilter als Ergebnis- oder Umfangfilter in der Konfiguration von Crawler-Parameter-Sets an (siehe Crawler und Crawler-Parameter).
Ressourcenfilter, die als Umfangfilter genutzt werden, können mit folgenden Parametern definiert werden:
Parameter eines Umfangfilters
Parameter |
Obligat. |
Beschreibung |
Name |
ja |
Name des Ressourcenfilters |
Case Sensitive |
nein |
gibt an, ob Groß- und Kleinschreibung beachtet wird Der Parameter wirkt auf Dokumente, Ordner und HTML-Seiten. |
Access Path Mode |
ja |
gibt an, ob die Angaben im Parameter Access Path Patterns in das Ergebnis einfließen oder herausgefiltert werden exclude: Die angegebenen Zugriffspfadmuster werden nicht im Ergebnis berücksichtigt. include: Nur die angegebenen Zugriffspfadmuster werden im Ergebnis berücksichtigt. Der Parameter wirkt auf Dokumente, Ordner und HTML-Seiten. |
Access Path Patterns |
nein |
kommagetrennte Angabe von Zugriffspfaden Bei der Angabe können Sie Platzhalter nutzen (siehe Verwendung von Platzhaltern). Sie dürfen hier keine Dateinamen angeben. Beispiel: /mydocuments |
URL (Content Link) Mode |
ja |
gibt an, ob die Angaben im Parameter URL Regular Expression in das Ergebnis einfließen oder herausgefiltert werden Der Parameter gilt für die URL, die bei einem Dokument in der Eigenschaft Content Link gespeichert ist. Die Eigenschaft Content Link beschreibt die URL, unter der das Dokument vom Crawler abgerufen wird. exclude: Die angegebenen URL-Ausdrücke werden nicht im Ergebnis berücksichtigt. include: Nur die angegebenen URL-Ausdrücke werden im Ergebnis berücksichtigt. Die Angaben werden auf Dokumente und HTML-Seiten angewendet. |
URL Regular Expression |
nein |
Angabe eines regulären Ausdrucks, der mit der URL abgeglichen wird, die bei einem Dokument in der Eigenschaft Content Link gespeichert ist Der reguläre Ausdruck muss die komplette URL enthalten. |
Ressourcenfilter, die als Ergebnisfilter genutzt werden, können mit folgenden Parametern definiert werden:
Parameter eines Ergebnisfilters
Parameter |
Obligat. |
Beschreibung |
Name |
ja |
Name des Ressourcenfilters |
Include Documents/Web-Pages |
nein |
gibt an, ob Dokumente bzw. HTML-Seiten gecrawlt werden |
Include Folders |
nein |
gibt an, ob Ordner gecrawlt werden |
Include Links |
nein |
gibt an, ob Links in einer hierarchischen Struktur gecrawlt werden Beachten Sie, dass dieser Parameter nicht für das Crawlen von Web-Repositories verwendet werden kann. |
Case Sensitive |
nein |
gibt an, ob Groß- und Kleinschreibung beachtet wird Der Parameter wirkt auf Dokumente, Ordner und HTML-Seiten. |
Item ID Mode |
ja |
gibt an, ob die Angaben im Parameter Item ID Patterns in das Ergebnis einfließen oder herausgefiltert werden exclude: Die angegebenen Objekte-ID-Muster werden nicht im Ergebnis berücksichtigt. include: Nur die angegebenen Objekte-ID-Muster werden im Ergebnis berücksichtigt. Der Parameter wird in beiden Fällen nur auf Dokumente und HTML-Seiten angewendet. |
Item ID Patterns |
nein |
kommagetrennte Angabe von Dateinamen Bei der Angabe können Sie die Platzhalter * und ? nutzen. Beispiel: *.zip, file??.xml |
Mime Type Mode |
ja |
gibt an, ob die Angaben im Parameter Mime Type Patterns in das Ergebnis einfließen oder herausgefiltert werden exclude: Die angegebenen MIME-Typen-Muster werden nicht im Ergebnis berücksichtigt. include: Nur die angegebenen MIME-Typen-Muster werden im Ergebnis berücksichtigt. Der Parameter wird in beiden Fällen nur auf Dokumente und HTML-Seiten angewendet. |
Mime Type Patterns |
nein |
kommagetrennte Angabe von MIME-Typen-Mustern Bei der Angabe können Sie Platzhalter nutzen (siehe Verwendung von Platzhaltern). Beispiel: text/* |
Minimum Content Size |
nein |
gibt die minimale Größe von Dokumenten an, die vom Crawler berücksichtigt werden Beachten Sie, dass das Erfassen der Dateigröße jedes einzelnen Dokuments eine gewisse Zeit in Anspruch nimmt. Der Parameter wird nur auf Dokumente und HTML-Seiten angewendet. |
Maximum Content Size |
nein |
gibt die maximale Größe von Dokumenten an, die vom Crawler berücksichtigt werden Beachten Sie, dass das Erfassen der Dateigröße jedes einzelnen Dokuments eine gewisse Zeit in Anspruch nimmt. Geben Sie 0 für unendlich große Dateien an. Der Parameter wird nur auf Dokumente und HTML-Seiten angewendet. |
Maximum Age of Last Modification |
nein |
Angabe der Zeit in Tagen, innerhalb der die letzte Änderung eines Dokuments zurückliegen muss, damit der Crawler das Dokument berücksichtigt Geben Sie 0 für eine unendliche Zeit an. Der Parameter wird nur auf Dokumente und HTML-Seiten angewendet. |
Um einen Ressourcenfilter anzulegen, wählen Sie Content Management → Global Services → Resource Filters . Wählen Sie den Ressourcenfilter danach in einem Set von Crawler-Parametern aus.
Sie möchten alle Dateien eines Repositorys von der Indizierung ausschließen, die auf .HTML_banner enden. Konfigurieren Sie einen Ergebnisfilter mit folgenden Angaben:
Name =
myresourcefilter
Include
Documents/Web-Pages = aktiviert
Include Folders =
aktiviert
Include Links =
aktiviert
Item ID Mode =
exclude
Item ID Patterns = *.HTML_banner
Mime Type Mode =
exclude
Wählen Sie danach diesen Ergebnisfilter in einem Set von Crawler-Parametern aus.
Um alle Dokumente in Ordnern mit dem Namen /_vti_cnf von der Indizierung auszuschließen, konfigurieren Sie einen Umfangfilter mit folgender Angabe:
Access Path Pattern = **/_vti_cnf