Web-Eigenschafts-Extraktoren
Ein Web-Repository-Manager extrahiert Werte für verschiedene Standard-Dokumenteigenschaften aus dem Inhalt von HTML-Dokumenten. Mit Web-Eigenschafts-Extraktoren können Sie mehrere Eigenschaften zusammenfassen.
Ein Web-Eigenschafts-Extraktor besteht aus einer Gruppe von Eigenschaften. Jede Eigenschaftsspezifikation besteht aus einem Parameternamen und aus Regeln, die festlegen, wie der Parameterwert aus dem HTML-Inhalt extrahiert werden soll.
Da jeder Web-Eigenschafts-Extraktor einen eigenen Namen hat, kann er in mehreren Web-Repository-Managern verwendet werden (Angabe im Parameter Web Property Extractors des Repository-Managers).
Der Web-Repository-Manager unterstützt nur die Extraktion von Eigenschaften aus HTML-Inhalten.
Sie können zwei Arten von Eigenschaften anlegen:
● HTML-Eigenschaften
können genutzt werden, wenn die zu extrahierenden Werte zwischen HTML-Tags vorliegen
● Text-Eigenschaften
können genutzt werden, wenn die zu extrahierenden Werte im Fließtext von HTML-Seiten vorliegen

In Parametern, in denen reguläre Ausdrücke gefordert sind, müssen Sie SUNs Syntax für reguläre Ausdrücke der Version J2EE 1.4 berücksichtigen.
Um einen Eigenschaftswert zu extrahieren, müssen Sie eine HTML-Eigenschaft definieren und festlegen, aus welchen HTML-Tags der Wert der Eigenschaft extrahiert werden soll. Zusätzlich können Sie Filterausdrücke definieren, um bestimmte Werte auszuschließen.
Parameter für die Spezifikation von HTML-Eigenschaften
Parameter |
Definition |
Name |
Name der Eigenschaftsspezifikation. |
Case-insensitive |
Wenn aktiviert, wird Groß- und Kleinschreibung nicht beachtet |
Select HREF |
Wie Select All, jedoch werden extrahierte Werte als Hypertext-Links betrachtet und entsprechend in Verweise auf Ressourcen im Portal gewandelt |
Exclude |
Regulärer Ausdruck, der Werte von HTML-Tags und -Attributen angibt, die nicht zu extrahieren sind |
Namespace |
Namensraum, zu dem der Parametername gehört (optional) |
Eigenschaftsname |
Name der HTML-Eigenschaft |
Select All |
Kommagetrennte Liste von HTML-Tags und -Attributen, deren Werte in der jeweiligen HTML-Eigenschaft gespeichert werden |
Select All META |
Angabe eines HTML-META-Tags, dessen Werte in der jeweiligen HTML-Eigenschaft gespeichert werden Zum Beispiel description oder author |
Select First |
wie Select All, jedoch wird nur das erste Vorkommen der einzelnen Tags extrahiert |
Select First META |
wie Select All META, jedoch wird nur das erste Vorkommen des META-Tags extrahiert |
Beispiele zur Verwendung von HTML-Eigenschaften finden Sie am Ende dieses Abschnitts.
Text-Eigenschaften erlauben die Extraktion von Eigenschaften auf Textebene.
Parameter für die Spezifikation von Text-Eigenschaften
Parameter |
Beschreibung |
Name |
Name der Eigenschaftsspezifikation. |
Case Sensitive Matching |
Wenn aktiviert, wird Groß- und Kleinschreibung bei den Übereinstimmungen beachtet |
Include Start and End Strings |
Wenn aktiviert, werden die angegeben Muster für Start und Ende in das Ergebnis eingefügt |
Match only first occurrence |
Legt fest, ob nach der ersten Übereinstimmung die Eigenschaft fertig gestellt ist (und nur den einen Wert enthält) oder ob alle weiteren Übereinstimmungen in der Eigenschaft als Liste gesammelt werden Aktiviert = nur die erste Übereinstimmung wird in die Eigenschaft aufgenommen Deaktiviert = alle Übereinstimmungen werden in die Eigenschaft aufgenommen |
Maximum Length |
Angabe der maximalen Anzahl der Zeichen die eine Zeichenkette übereinstimmen darf, um gültig zu sein Zum Beispiel wird eine Suche abgebrochen, wenn nach dieser Anzahl von Zeichen der End Pattern noch nicht gefunden wurde. |
End Pattern |
Regulärer Ausdruck, der das Ende der zu extrahierenden Zeichenkette beschreibt Wenn Sie nichts angeben, wird die Zeichenkette vom Startmuster bis zum Ende der Zeile extrahiert. |
Match Pattern |
Um nur einen Teil der Zeichen aus der gefundenen Zeichenkette in der Eigenschaft zu haben, können Sie die Parameter Match Pattern und Report Expression benutzen. Match Pattern ist ein regulärer Ausdruck, der auf die gefundene Zeichenkette angewendet wird. Um sich Fundstellen zu merken, setzen Sie den zu merkenden Text in runde Klammern (). Den gemerkten Text können Sie im Parameter Report Expression benutzen, um den Wert der Eigenschaft festzulegen. Weitere Informationen zu regulären Ausdrücken finden Sie in der Dokumentation des JDK 1.4 unter der Internetadresse java.sun.com/j2ee/1.4. |
Namespace |
Namensraum, zu dem der Eigenschaftsname gehört |
Eigenschaftsname |
Name der Text-Eigenschaft |
Report Expression |
Regulärer Ausdruck, um den Wert der Eigenschaft aus der gefundenen Match Pattern festzulegen |
Start Pattern |
Regulärer Ausdruck, der den Beginn der zu extrahierenden Zeichenkette beschreibt |
Beispiele zur Verwendung von Text-Eigenschaften finden Sie unter Beispiele zur Konfiguration von Text-Eigenschaften.
Um HTML- oder Texteigenschaften zu definieren, die Sie in Web-Eigenschafts-Extraktoren aufnehmen möchten, wählen Sie System Administration → System Configuration → Knowledge Management → Content Management → Repository Managers (Show Advanced Options) → Web Property Extractors → HTML Properties bzw. Text Properties. Wählen Sie New und definieren Sie die Eigenschaft.
Nachdem Sie Eigenschaften definiert haben, können Sie sie in Web-Eigenschafts-Extraktoren zusammenfassen: Wählen Sie System Administration → System Configuration → Knowledge Management → Content Management → Repository Managers (Show Advanced Options) → Web Property Extractors → Web Property Extractor.
Um einen neuen Web-Eigenschafts-Extraktor zu erstellen, wählen Sie New und geben Sie einen Namen für den Web-Eigenschafts-Extraktor an. Wählen Sie nun die Eigenschaften aus, die Sie in diesem Web-Eigenschafts-Extraktor zusammenfassen möchten.
Bei der Konfiguration eines Web-Repository-Managers können Sie den Web-Eigenschafts-Extraktor im Parameter Web Property Extractors auswählen.
Sie möchten einen Dokumenteigenschaft namens 'images' anlegen, der die Links auf alle Bilder in einer HTML-Seite enthält.
Da jeder Name im CM zu einem bestimmten Namensraum gehört, können Sie einen Namensraum angeben. Nehmen wir an, Sie möchten den Ressourcenparameter sap:images definieren, wobei sap: der Namensraum http://sap.com/xmlns/cm ist. Sie definieren den Parameternamen folgendermaßen:
Namespace =
http://sap.com/xmlns/cm
Property Name = images
(Der Namensraum sap: ist der Standardnamensraum, das heißt, Sie hätten die Namensraumdefinition weglassen können).
Links auf Bilder in HTML kommen an zwei Stellen vor: im SRC-Attribut von IMG-Tags und in BACKGROUND-Attributen von BODY- und TABLE-Tags. Sie erweitern Ihre Definition entsprechend:
Namespace =
http://sap.com/xmlns/cm
Property Name = images
Select All = img/@src,
@background
Select alllistet die HTML-Tags/-Attribute auf, aus denen der Wert extrahiert werden soll. Alle BACKGROUND-Attribute und alle SRC-Attribute von IMG-Tags werden selektiert.
Der Wert eines SRC-Attributs könnte zum Beispiel './white.gif' lauten. Um solche Attribute zu Ressourcenidentifikationen aufzulösen, z.B. '/web/server/image/white.gif', verwenden Sie Select HREF anstelle von Select all:
Namespace =
http://sap.com/xmlns/cm
Property Name = images
Select HREF = img/@src,
@background
Nehmen wir an, Sie möchten GIF-Dateien aus der Auflistung im Parameter images ausschließen. In diesem Fall würden Sie einen Filter wie den folgenden definieren:
Exclude =
\\.(gif|GIF)$
Namespace =
http://sap.com/xmlns/cm
Property Name = images
Select HREF = img/@src,
@background
Sie möchten bestimmte Links ausschließen, denen ein Crawler bei der Analyse des Inhalts eines Web-Repository nachgeht.

Alle Links in einem HTML-Dokument auf einer Web-Site, die in ein Web-Repository abgebildet wird, werden in der Ressourceneigenschaft embedded-links gespeichert. Während der Analyse des Web-Repository verfolgt der Crawler die in dieser Eigenschaft gespeicherten Links.
Durch Filtern der Links, die in der Eigenschaft embedded-links gespeichert werden, können Sie den Crawler führen. Sie können die Links filtern, wenn Sie eine Eigenschaft und einen Eigenschafts-Extraktor in der Configuration iView definieren. Diese Eigenschaft schließt die Links aus, die Sie nicht analysieren möchten, und schreibt die Links, die sie analysieren möchten, in die Eigenschaft embedded-links.
Führen Sie einen der folgenden Schritte aus.
...
1. Definieren Sie eine Eigenschaft.
Wählen Sie System Administration → System Configuration → Knowledge Management → Content Management → Repository Managers (Show Advanced Options) → Web Property Extractors → HTML Properties.
Wählen Sie New und geben Sie einen Namen für die Eigenschaft an. Geben Sie im Feld Property Name folgendes ein:
Property Name = embedded-links
Geben Sie im Feld Exclude einen regulären Ausdruck ein, der mit den Links übereinstimmt, die Sie nicht durch den Crawler verfolgen lassen möchten.
Beispiel: Der reguläre Ausdruck .*spiegel.de\/sport.* würde alle Links ausschließen, die in der URL den Pfad spiegel.de/sportbeinhalten.
2. Definieren Sie einen Web-Eigenschafts-Extraktor und ordnen Sie Eigenschaft(en) zu.
Wählen Sie System Administration → System Configuration → Knowledge Management → Content Management → Repository Managers(Show Advanced Options) → Web Property Extractors → Web Property Extractor. Wählen Sie New und definieren Sie den Web-Eigenschafts-Extraktor.
Ordnen Sie dem Web-Eigenschafts-Extraktor die Eigenschaft(en) zu.
3. Legen Sie einen Web-Repository-Manager an und weisen Sie den entsprechenden HTML-Eigenschafts -Extraktor im Feld Web Property Extractors zu (siehe: Web-Repository-Manager).
Die folgende Parameterdefinition selektiert alle Textinhalte der HTML-Header-Tags in den Ressourcenparameter 'headers' (im Namensraum 'http://mycompany.com/xmlns/htmlprops').
Namespace =
http://mycompany.com/xmlns/htmlprops
Property Name = headers
Select All = H1, H2, H3, H4
Wenn Sie nur das erste Tag/Attribut in einem HTML-Dokument selektieren möchten, verwenden Sie den Parameter Select First:
Namespace =
http://mycompany.com/xmlns/htmlprops
Property Name = headers
Select First = H1, H2, H3, H4
Sie möchten eine Dokumenteigenschaft anlegen, die die Autoren einer HTML-Seite enthält. Aus dem HTML-Code von Dokumenten wird dazu der META-TAG author ausgelesen.
Name = author
Property Name = prop1
Select All META = author
Nehmen wir ein HTML-Dokument, das folgenden HTML-Code besitzt, als Beispiel:
<head>
<meta name="author" content="Susan Summer" />
<meta name="author" content="Paul Winter" />
<meta name="description" content="Dies ist ein Beispiel." /> />
</head>
Für dieses HTML-Dokument wird die mehrwertige Eigenschaft prop1 angelegt. Als Wert der Eigenschaft erhalten Sie die Liste "Susan Summer", "Paul Winter".
Wenn Sie nur das erste Vorkommnis des META-Tags author eines HTML-Dokuments selektieren möchten, verwenden Sie den Parameter Select First META:
Name = author
Property Name = prop2
Select First META = author
Hier ergibt sich die einwertige Eigenschaft prop2 mit dem Wert "Susan Summer".