Web-Eigenschafts-Extraktoren (SAP-Bibliothek

Web-Eigenschafts-Extraktoren

Verwendung

Ein Web-Repository-Manager extrahiert Werte für verschiedene Standard-Dokumenteigenschaften aus dem Inhalt von HTML-Dokumenten. Mit Web-Eigenschafts-Extraktoren können Sie mehrere Eigenschaften zusammenfassen.

Ein Web-Eigenschafts-Extraktor besteht aus einer Gruppe von Eigenschaften. Jede Eigenschaftsspezifikation besteht aus einem Parameternamen und aus Regeln, die festlegen, wie der Parameterwert aus dem HTML-Inhalt extrahiert werden soll.

Integration

Da jeder Web-Eigenschafts-Extraktor einen eigenen Namen hat, kann er in mehreren Web-Repository-Managern verwendet werden (Angabe im Parameter Web Property Extractors des Repository-Managers).

Funktionsumfang

Der Web-Repository-Manager unterstützt nur die Extraktion von Eigenschaften aus HTML-Inhalten.

Sie können zwei Arten von Eigenschaften anlegen:

● HTML-Eigenschaften

können genutzt werden, wenn die zu extrahierenden Werte zwischen HTML-Tags vorliegen

● Text-Eigenschaften

können genutzt werden, wenn die zu extrahierenden Werte im Fließtext von HTML-Seiten vorliegen

Hinweis

In Parametern, in denen reguläre Ausdrücke gefordert sind, müssen Sie SUNs Syntax für reguläre Ausdrücke der Version J2EE 1.4 berücksichtigen.

HTML-Eigenschaften

Um einen Eigenschaftswert zu extrahieren, müssen Sie eine HTML-Eigenschaft definieren und festlegen, aus welchen HTML-Tags der Wert der Eigenschaft extrahiert werden soll. Zusätzlich können Sie Filterausdrücke definieren, um bestimmte Werte auszuschließen.

Parameter für die Spezifikation von HTML-Eigenschaften

Parameter	Definition
Name	Name der Eigenschaftsspezifikation.
Case-insensitive	Wenn aktiviert, wird Groß- und Kleinschreibung nicht beachtet
Select HREF	Wie Select All, jedoch werden extrahierte Werte als Hypertext-Links betrachtet und entsprechend in Verweise auf Ressourcen im Portal gewandelt
Exclude	Regulärer Ausdruck, der Werte von HTML-Tags und -Attributen angibt, die nicht zu extrahieren sind
Namespace	Namensraum, zu dem der Parametername gehört (optional)
Eigenschaftsname	Name der HTML-Eigenschaft
Select All	Kommagetrennte Liste von HTML-Tags und -Attributen, deren Werte in der jeweiligen HTML-Eigenschaft gespeichert werden
Select All META	Angabe eines HTML-META-Tags, dessen Werte in der jeweiligen HTML-Eigenschaft gespeichert werden Zum Beispiel description oder author
Select First	wie Select All, jedoch wird nur das erste Vorkommen der einzelnen Tags extrahiert
Select First META	wie Select All META, jedoch wird nur das erste Vorkommen des META-Tags extrahiert

Beispiele zur Verwendung von HTML-Eigenschaften finden Sie am Ende dieses Abschnitts.

Text-Eigenschaften

Text-Eigenschaften erlauben die Extraktion von Eigenschaften auf Textebene.

Parameter für die Spezifikation von Text-Eigenschaften

Parameter	Beschreibung
Name	Name der Eigenschaftsspezifikation.
Case Sensitive Matching	Wenn aktiviert, wird Groß- und Kleinschreibung bei den Übereinstimmungen beachtet
Include Start and End Strings	Wenn aktiviert, werden die angegeben Muster für Start und Ende in das Ergebnis eingefügt
Match only first occurrence	Legt fest, ob nach der ersten Übereinstimmung die Eigenschaft fertig gestellt ist (und nur den einen Wert enthält) oder ob alle weiteren Übereinstimmungen in der Eigenschaft als Liste gesammelt werden Aktiviert = nur die erste Übereinstimmung wird in die Eigenschaft aufgenommen Deaktiviert = alle Übereinstimmungen werden in die Eigenschaft aufgenommen
Maximum Length	Angabe der maximalen Anzahl der Zeichen die eine Zeichenkette übereinstimmen darf, um gültig zu sein Zum Beispiel wird eine Suche abgebrochen, wenn nach dieser Anzahl von Zeichen der End Pattern noch nicht gefunden wurde.
End Pattern	Regulärer Ausdruck, der das Ende der zu extrahierenden Zeichenkette beschreibt Wenn Sie nichts angeben, wird die Zeichenkette vom Startmuster bis zum Ende der Zeile extrahiert.
Match Pattern	Um nur einen Teil der Zeichen aus der gefundenen Zeichenkette in der Eigenschaft zu haben, können Sie die Parameter Match Pattern und Report Expression benutzen. Match Pattern ist ein regulärer Ausdruck, der auf die gefundene Zeichenkette angewendet wird. Um sich Fundstellen zu merken, setzen Sie den zu merkenden Text in runde Klammern (). Den gemerkten Text können Sie im Parameter Report Expression benutzen, um den Wert der Eigenschaft festzulegen. Weitere Informationen zu regulären Ausdrücken finden Sie in der Dokumentation des JDK 1.4 unter der Internetadresse java.sun.com/j2ee/1.4.
Namespace	Namensraum, zu dem der Eigenschaftsname gehört
Eigenschaftsname	Name der Text-Eigenschaft
Report Expression	Regulärer Ausdruck, um den Wert der Eigenschaft aus der gefundenen Match Pattern festzulegen
Start Pattern	Regulärer Ausdruck, der den Beginn der zu extrahierenden Zeichenkette beschreibt

Beispiele zur Verwendung von Text-Eigenschaften finden Sie unter Beispiele zur Konfiguration von Text-Eigenschaften.

Aktivitäten

Um HTML- oder Texteigenschaften zu definieren, die Sie in Web-Eigenschafts-Extraktoren aufnehmen möchten, wählen Sie System Administration → System Configuration → Knowledge Management → Content Management → Repository Managers (Show Advanced Options) → Web Property Extractors → HTML Properties bzw. Text Properties. Wählen Sie New und definieren Sie die Eigenschaft.

Nachdem Sie Eigenschaften definiert haben, können Sie sie in Web-Eigenschafts-Extraktoren zusammenfassen: Wählen Sie System Administration → System Configuration → Knowledge Management → Content Management → Repository Managers (Show Advanced Options) → Web Property Extractors → Web Property Extractor.

Um einen neuen Web-Eigenschafts-Extraktor zu erstellen, wählen Sie New und geben Sie einen Namen für den Web-Eigenschafts-Extraktor an. Wählen Sie nun die Eigenschaften aus, die Sie in diesem Web-Eigenschafts-Extraktor zusammenfassen möchten.

Bei der Konfiguration eines Web-Repository-Managers können Sie den Web-Eigenschafts-Extraktor im Parameter Web Property Extractors auswählen.

Beispiele

Auflisten der in einer HTML-Seite enthaltenen Bilder

Sie möchten einen Dokumenteigenschaft namens 'images' anlegen, der die Links auf alle Bilder in einer HTML-Seite enthält.

Da jeder Name im CM zu einem bestimmten Namensraum gehört, können Sie einen Namensraum angeben. Nehmen wir an, Sie möchten den Ressourcenparameter sap:images definieren, wobei sap: der Namensraum http://sap.com/xmlns/cm ist. Sie definieren den Parameternamen folgendermaßen:

Namespace = http://sap.com/xmlns/cm
Property Name = images

(Der Namensraum sap: ist der Standardnamensraum, das heißt, Sie hätten die Namensraumdefinition weglassen können).

Links auf Bilder in HTML kommen an zwei Stellen vor: im SRC-Attribut von IMG-Tags und in BACKGROUND-Attributen von BODY- und TABLE-Tags. Sie erweitern Ihre Definition entsprechend:

Namespace = http://sap.com/xmlns/cm
Property Name = images
Select All = img/@src, @background

Select alllistet die HTML-Tags/-Attribute auf, aus denen der Wert extrahiert werden soll. Alle BACKGROUND-Attribute und alle SRC-Attribute von IMG-Tags werden selektiert.

Der Wert eines SRC-Attributs könnte zum Beispiel './white.gif' lauten. Um solche Attribute zu Ressourcenidentifikationen aufzulösen, z.B. '/web/server/image/white.gif', verwenden Sie Select HREF anstelle von Select all:

Namespace = http://sap.com/xmlns/cm
Property Name = images
Select HREF = img/@src, @background

Nehmen wir an, Sie möchten GIF-Dateien aus der Auflistung im Parameter images ausschließen. In diesem Fall würden Sie einen Filter wie den folgenden definieren:

Exclude       = \\.(gif|GIF)$
Namespace     = http://sap.com/xmlns/cm
Property Name = images
Select HREF   = img/@src, @background

Ausschließen bestimmter Links beim Durchsuchen einer HTML-Seite

Sie möchten bestimmte Links ausschließen, denen ein Crawler bei der Analyse des Inhalts eines Web-Repository nachgeht.

Hintergrunddokumentation

Alle Links in einem HTML-Dokument auf einer Web-Site, die in ein Web-Repository abgebildet wird, werden in der Ressourceneigenschaft embedded-links gespeichert. Während der Analyse des Web-Repository verfolgt der Crawler die in dieser Eigenschaft gespeicherten Links.

Durch Filtern der Links, die in der Eigenschaft embedded-links gespeichert werden, können Sie den Crawler führen. Sie können die Links filtern, wenn Sie eine Eigenschaft und einen Eigenschafts-Extraktor in der Configuration iView definieren. Diese Eigenschaft schließt die Links aus, die Sie nicht analysieren möchten, und schreibt die Links, die sie analysieren möchten, in die Eigenschaft embedded-links.

Führen Sie einen der folgenden Schritte aus.

...

1. Definieren Sie eine Eigenschaft.

Wählen Sie System Administration → System Configuration → Knowledge Management → Content Management → Repository Managers (Show Advanced Options) → Web Property Extractors → HTML Properties.

Wählen Sie New und geben Sie einen Namen für die Eigenschaft an. Geben Sie im Feld Property Name folgendes ein:

Property Name = embedded-links

Geben Sie im Feld Exclude einen regulären Ausdruck ein, der mit den Links übereinstimmt, die Sie nicht durch den Crawler verfolgen lassen möchten.

Beispiel: Der reguläre Ausdruck .*spiegel.de\/sport.* würde alle Links ausschließen, die in der URL den Pfad spiegel.de/sportbeinhalten.

2. Definieren Sie einen Web-Eigenschafts-Extraktor und ordnen Sie Eigenschaft(en) zu.

Wählen Sie System Administration → System Configuration → Knowledge Management → Content Management → Repository Managers(Show Advanced Options) → Web Property Extractors → Web Property Extractor. Wählen Sie New und definieren Sie den Web-Eigenschafts-Extraktor.

Ordnen Sie dem Web-Eigenschafts-Extraktor die Eigenschaft(en) zu.

3. Legen Sie einen Web-Repository-Manager an und weisen Sie den entsprechenden HTML-Eigenschafts -Extraktor im Feld Web Property Extractors zu (siehe: Web-Repository-Manager).

Auflisten der Überschriften in einer HTML-Seite

Die folgende Parameterdefinition selektiert alle Textinhalte der HTML-Header-Tags in den Ressourcenparameter 'headers' (im Namensraum 'http://mycompany.com/xmlns/htmlprops').

Namespace = http://mycompany.com/xmlns/htmlprops
Property Name = headers
Select All = H1, H2, H3, H4

Auflisten der ersten Überschriften in einer HTML-Seite

Wenn Sie nur das erste Tag/Attribut in einem HTML-Dokument selektieren möchten, verwenden Sie den Parameter Select First:

Namespace = http://mycompany.com/xmlns/htmlprops
Property Name = headers
Select First = H1, H2, H3, H4

Auflisten von Informationen in META-Tags

Sie möchten eine Dokumenteigenschaft anlegen, die die Autoren einer HTML-Seite enthält. Aus dem HTML-Code von Dokumenten wird dazu der META-TAG author ausgelesen.

Name = author

Property Name = prop1

Select All META = author

Nehmen wir ein HTML-Dokument, das folgenden HTML-Code besitzt, als Beispiel:

<head>

</head>

Für dieses HTML-Dokument wird die mehrwertige Eigenschaft prop1 angelegt. Als Wert der Eigenschaft erhalten Sie die Liste "Susan Summer", "Paul Winter".

Wenn Sie nur das erste Vorkommnis des META-Tags author eines HTML-Dokuments selektieren möchten, verwenden Sie den Parameter Select First META:

Name = author

Property Name = prop2

Select First META = author

Hier ergibt sich die einwertige Eigenschaft prop2 mit dem Wert "Susan Summer".