Inhalt    

Seite „Such-Attribute“

Dieser Anhang beschreibt die Attribute, die Sie über die Administrator-Konsole von Sun Java System Identity Server für die Suchmaschine konfigurieren können.

Wenn Sie in der Ansicht „Service-Verwaltung“ den Punkt „Sucheigenschaften“ auswählen, wird eine zweifarbige Menüleiste mit Registern angezeigt. Dieser Anhang ist nach den Themen oder Registern auf dem oberen Bereich der Menüleiste aufgebaut.

Wenn eines dieser Register ausgewählt wird, so werden in der Menüleiste darunter die Einzelthemen zu dem betreffenden Thema aufgelistet. Die Standardseite „Suche“ wählt Server/ Einstellungen. Für jedes Einzelthema wird eine oder mehrere Tabellen verwendet, um die Attribute dieses Einzelthemas zu erklären. Die Tabellen bestehen aus drei Spalten: Attribut, Standardwert und Beschreibung. Das ‚Attribut‘ zeigt den beschreibenden Text der Seite, der ‚Standardwert‘ stellt den Standardwert des Attributs dar, und die ‚Beschreibung‘ erläutert das Attribut und sein Format.

Auf jeder Seite der „Sucheigenschaften“ finden Sie das entsprechende Attribut zu „Server auswählen“ wie in Tabelle 4 beschrieben.

Tabelle 4  Suche nach Attribut für „Server auswählen“

Attribut

Standardwert

Beschreibung

Server auswählen

http://servername:80/portal

Vollqualifizierter Servername Ihres Suchservers.

Server

Im Abschnitt „Server“ legen Sie die Einstellungen für Ihren Server fest. Hier können Sie wählen, in welchem Verzeichnis die temporären Dateien gespeichert werden, welche Informationen protokolliert werden und wie detailliert das Protokoll angelegt werden soll. Die Serverattribute werden auf zwei Seiten angezeigt:

Einstellungen

Diese Seite enthält die grundlegenden Einstellungen für die Verwaltung und den Betrieb des Suchservers.

Tabelle 5  Attribute für die Servereinstellungen 

Attribut

Standardwert

Beschreibung

Server-Root

/var/opt/SUNWps/https-servernamefull/portal

Enthält die Dateien mit den Informationen zu Konfiguration, Protokoll, Datenbank und Robot. Es ist auch das Root-Verzeichnis für alle Suchdateien, die bei der Durchführung einer Suche erstellt und aktualisiert werden. Dies lässt sich nicht konfigurieren.

Temporäre Dateien

/var/opt/SUNWps/https-servernamefull/portal/tmp

Enthält alle temporären Dateien, die bei einer Suche zur Verwaltung benötigt werden. Dies beinhaltet auch neu erstellte Ressourcenbeschreibungen (RDs), die noch nicht in die Haupt-Datenbank aufgenommen wurden. Sie werden entfernt, sobald die Suche abgeschlossen ist.

Sicherheit auf Dokumentebene

Deaktiviert

Kontrolliert, wer Zugriff auf Dokumente hat.

Wenn diese Einstellung verändert wird, muss der Server neu gestartet werden.

Werte:

  • Aus bedeutet, dass alle Benutzer Zugriff auf die RDs haben.
  • Ein bedeutet, dass das ReadACL Feld in einer RD überprüft wird, um festzustellen, ob der Benutzer, der die RD abfragt, auch dazu berechtigt ist. Dies ist der Fall, wenn der Benutzer einer anerkannten Organisation oder Rolle angehört oder ein anerkannter Einzelbenutzer ist. Das Feld ReadACL wird unter „Datenbank/Seite bearbeiten“ eingestellt.

Erweitert

Diese Seite enthält die erweiterten Einstellungen für die Verwaltung und den Betrieb des Suchservers. Hier können Sie die Protokolldateien für Benutzeranfragen, die Indexverwaltung, die Verwaltung der Ressourcenbeschreibung und die Fehlerbehebung konfigurieren.

Tabelle 6  Attribute für die erweiterten Servereinstellungen 

Attribut

Standardwert

Beschreibung

Suchen (rdm)

/var/opt/SUNWps/https-servername/portal/logs/rdm.log

Protokolliert die Anfragen der Endbenutzer an die Datenbank. Sie können auf das Kontrollkästchen neben „Suchprotokoll deaktivieren“ klicken, um diese Protokollierung zu unterdrücken.

Wenn Sie dies tun, können Sie den Bericht zu Benutzerfragen (rdm) nicht mehr anzeigen.

Suchprotokoll deaktivieren

Falsch (nicht markiert) = aktiviert

Steuert die Verwendung des Anfrageprotokolls.

Im Abschnitt für Berichte können Sie einen Bericht erstellen, der die in diesem Protokoll angezeigten häufigsten Anfragen auflistet.

Werte:

  • Markiert – deaktiviert
  • Nicht markiert – aktiviert. Jede Benutzeranfrage wird in dieses Protokoll eingetragen.

Indexverwaltung

/var/opt/SUNWps/https-servername/portal/logs/searchengine.log

Protokolliert die Transaktionen, die die Suchmaschine einbeziehen, die Registrierung der Ressourcenbeschreibungen ist allerdings nicht eingeschlossen.

RD-Manager

/var/opt/SUNWps/https-servername/portal/logs/rdmgr.log

Protokolliert die Registrierung der Ressourcenbeschreibungen durch Robot oder die Importagenten in der Datenbank. Sie können dieses Protokoll als RD-Manager-Bericht (rdmgr) anzeigen.

RDM-Server

/var/opt/SUNWps/https-servername/portal/logs/rdmserver.log

Protokolliert Informationen zur Fehlerbehebung in RDM-Transaktionen. Durch die „Protokollebene“ wird gesteuert, wie detailliert die Informationen sind. Sie können dieses Protokoll als RDM-Server-Bericht (rdmsvr) anzeigen.

Protokollebene

1

Steuert den Grad der Details in der Protokolldatei des RDM-Servers.

Die möglichen Ebenen sind 2, 10, 20, 50, 100 und 999.

Wenn 1 (standardmäßig) eingestellt ist, werden nur schwere Fehler protokolliert. Je höher die Zahl ist, desto mehr Details sind in der Protokolldatei des RDM-Servers enthalten.

Robot

Die Eigenschaften von Robot sind ziemlich komplex. Sie können die Sites auswählen, die durchsucht werden sollen. Außerdem können Sie überprüfen, ob eine Site gültig ist. Oder Sie können definieren, welche Arten von Dokumenten aufgenommen werden sollen. Und schließlich können Sie einen Zeitplan für die Suche vorgeben.

Dieser Abschnitt ist wie folgt strukturiert:

Überblick

Im Überblicksfenster des Robot können Sie verfolgen, welche Funktionen Robot gerade ausführt: nämlich ob er ausgeschaltet ist oder im Leerlauf; ob er gerade läuft oder unterbrochen wurde. Wenn er gerade läuft, werden die bereits gemachten Suchfortschritte angezeigt, wobei das Bedienungsfeld etwa alle 30 Sekunden aktualisiert wird. Die Aktualisierungsrate wird im Parameter robot-refresh in der Datei search.conf definiert.

Die beiden Schaltflächen rechts oben geben seinen Status an. Wenn Robot ausgeschaltet ist, lauten die Schaltflächen „Start“ und „Entfernen“. Wenn er läuft oder im Leerlauf ist, zeigen die beiden Schaltflächen „Stopp“ und „Unterbrechen“ an. Wenn er unterbrochen wurde, sehen Sie auf den Schaltflächen „Stopp“ und „Fortsetzen“. Wenn Sie auf eines dieser Attribute klicken, springen Sie zum Abschnitt „Berichte“, wo Sie einen detaillierten, minutengenauen Bericht zu diesem Attribut erhalten.

Tabelle 7  Attribute für den Robot-Überblick 

Attribut

Standardwert

Beschreibung

Robot

Aktuelle Aktivität

Status des Robot Der Wert ist Idle, Running, Paused oder Off

Aktualisiert am

Datum und Uhrzeit der letzten Aktualisierung

Diese Seite wird aktualisiert, damit Sie den Fortschritt von Robot verfolgen können.

Startpunkte

Definierte Anzahl

Anzahl der Sites, die Sie zur Suche ausgewählt haben. Eine Site wird über die Seite Robot/Site deaktiviert (nicht in die Suche aufgenommen).

URL-Pool

URLs in Warteschleife

Anzahl der URLs, die noch durchsucht werden müssen. Bei Beginn einer Suche werden die Startpunkt-URLs in den URL-Pool eingetragen. Mit Fortschreiten der Suche entdeckt Robot Links zu anderen URLs. Diese URLs werden dann dem Pool hinzugefügt. Nach Verarbeitung aller URLs im Pool ist der URL-Pool leer und Robot im Leerlauf.

Extrahieren

Verbindungen pro Sekunde

Anzahl der Ressourcen, die pro Sekunde abgefragt werden.

Extrahieren bezeichnet den Prozess, in dem Ressourcen, Dokumente oder Hyperlinks entdeckt oder lokalisiert werden, um sie dann in die Datenbank aufzunehmen und dabei unerwünschte Teile herauszufiltern.

Filtern

Abgelehnte URLs

Gesamtanzahl der URLs, die ausgeschlossen werden

Indizieren

Anzahl der URLs pro Sekunde

Anzahl von Ressourcen oder Dokumenten, die innerhalb einer Sekunde in eine Ressourcenbeschreibung umgewandelt werden.

Indizierung bezeichnet die Phase, in der alle Informationen, die in einem Dokument gesammelt wurden, in eine Ressourcenbeschreibung umgewandelt werden, um sie dann in die Such-Datenbank zu integrieren.

Ausgeschlossener URLs

Anzahl der URLs, die durch Filter ausgeschlossen werden

Anzahl der URLs, die den Filterkriterien nicht entsprechen

 

Anzahl der URLs, die aufgrund von Fehlern ausgeschlossen wurden

Anzahl der URLs, für die Robot Fehler gefunden hat (zum Beispiel „Datei nicht gefunden“)

Ressourcenbeschreibungen

Eingebrachte RDs

Anzahl der Ressourcenbeschreibungen, die der Datenbank hinzugefügt wurden

 

Anzahl an Bytes von eingebrachten RDs

Anzahl an Bytes, die der Datenbank hinzugefügt wurden

Allgemeiner Status

Abgerufene URLs

Anzahl der in einem Durchlauf abgerufenen URLs

 

Durchschnittliche RD-Größe in Byte

Durchschnittliche Anzahl an Bytes pro Ressourcenbeschreibung

 

Laufzeit in Tagen, Stunden, Minuten und Sekunden

Die Zeit, die der Robot bereits läuft

Sites

Die erste Seite dieses Abschnitts zeigt, welche Sites für die Suche verfügbar sind.

Eine Site kann über die Auswahlknöpfe aktiviert (An) und deaktiviert (Aus) werden. Eine deaktivierte Site wird nicht durchsucht, wenn Robot läuft. Der Link „Bearbeiten“ öffnet eine Seite, auf der die Definition einer Such-Site geändert werden kann.

Zum Löschen einer Site klicken Sie auf das Kontrollkästchen und dann auf „Löschen“.

Zum Hinzufügen einer neuen Site wählen Sie „Neue Site“ aus. Fügen Sie im Textfeld einen URL oder eine Domäne hinzu, und wählen Sie eine Suchtiefe aus. Wählen Sie „Erstellen“ aus, um die Standardwerte zu verwenden. Andernfalls wählen Sie „Erstellen“ und dann „Bearbeiten“ aus, um andere als die Standardwerte auszuwählen und zur Seite „Bearbeiten“ zu springen, auf der Sie die Such-Site definieren können.

Tabelle 8  Attribute zur Verwaltung von Sites über Robot

Attribut

Standardwert

Beschreibung

Status der Site

Schloss- oder Clustergrafik

Ein offenes Schloss bedeutet, dass der URL frei zugänglich ist. Das geschlossene Schloss bedeutet, dass es sich bei der Site um einen Sicherheits-Webserver handelt, der SSL-Verschlüsselung verwendet. Der Cluster bedeutet, dass es sich bei der Site um eine Domäne handelt.

Ein/Aus

Aktiviert

Wählen Sie aus, ob diese Site durchsucht wird, wenn Robot läuft.

Die Seite „Neue Site“ ermöglicht es Ihnen, eine vollständige Site zum Indizieren einzurichten.

Tabelle 9  Attribute für neue Sites von Robots

Attribut

Standardwert

Beschreibung

Neue Site

URL

URL-Format:  http://www.sesta.com

Domain-Format:  *.sesta.com

Tiefe

10

Sie haben die Wahl zwischen 1 für nur diesen URL, 2 für diesen URL und die ersten Links, 3 - 10 oder unbegrenzt. Der Standardwert wird auf der Seite Robot/Durchsuchen eingestellt.

Auf der Bearbeitungsseite können Sie die Such-Site vollständiger definieren. Sie können den Servertyp vorgeben, die Suchtiefe erneut definieren und auswählen, welche Dateitypen Sie der Datenbank hinzufügen möchten. Die Attribute für URL- und Domänen-Sites sind weitgehend die gleichen. Die zusätzliche Spalte in dieser Tabelle zeigt, welche Attribute gleich sind und welche eindeutig.

Auf dieser Seite werden eine Reihe von Aktionen durchgeführt. Sie können für die eingegebene Such-Site den Servernamen überprüfen. Sie können der Server-Gruppe weitere Server hinzufügen, indem Sie auf den Abschnitt „Zur Server-Gruppe hinzufügen“ klicken. Sie können weitere Startpunkte hinzufügen, indem Sie auf den Abschnitt „Zu den Startpunkten hinzufügen“ klicken. Im Abschnitt „Filter-Definition“ können Sie bestimmte Dateitypen hinzufügen, löschen, aus- oder einschließen und die Reihenfolge ändern, in der Filter für diese Dateien angewendet werden.

Tabelle 10  Attribute zur Bearbeitung der Robot-Sites 

Attribut

URL/ Domäne

Standardwert

Beschreibung

Site-Pseudonym

URL/D

Eingegebene Site - www.sesta.com

Name, der auf der ersten Seite angezeigt wird. Standardmäßig wird der von Ihnen eingegebene URL oder die Domäne angezeigt. Hier können Sie den Namen ändern.

Kontrollkästchen zur Auswahl von Sites, die gelöscht oder überprüft werden sollen

URL/D

Nicht darauf geklickt

Nicht markiert – nicht ausgewählt

Markiert – ausgewählt

Servergruppe – Name

URL

URL – www.sesta.com

Ist entweder ein einzelner Server oder Teil eines einzelnen Servers. Die Eingabe muss den vollständigen Hostnamen enthalten. Wenn Sie nur einen Hostnamen vorgeben, ist die Site auf diesen Host beschränkt. Wenn Sie zusätzlich zum Hostnamen noch Verzeichnisinformationen eingeben, wird die Site als nur dieses Verzeichnis und jedes beliebige seiner Unterverzeichnisse definiert.

Domänensuffix

D

Eingegebene Domäne – *.sesta.com

Enthält alle Server innerhalb einer Domäne wie *.sesta.com.

Anschluss

URL/D

80 für URL; leer für Domain

Wenn die Site, die Sie suchen, einen anderen Anschluss verwendet, geben Sie ihn hier ein.

Typ

URL

Webserver

Webserver, Dateiserver, FTP-Server, Sicherer Webserver

Zulässige Protokolle

D

Alle Kontrollkästchen markiert

Kontrollkästchen für http, file, ftp, https

Startpunkte – Kontrollkästchen zur Auswahl der Sites, die gelöscht werden sollen

URL/D

Nicht darauf geklickt

Nicht markiert – nicht ausgewählt

Markiert – ausgewählt

Startpunkte – URL

URL/D

http:// URL:80

URL oder Domäne

Startpunkte – Tiefe

URL/D

10

1 – nur diesen URL

2 – dieser URL und die ersten Links

3-10

unbegrenzt

Filterdefinition – Mit diesem Kontrollkästchen wählen Sie den zu löschenden Filtertyp.

URL/D

Nicht darauf geklickt

Nicht markiert = nicht ausgewählt

Markiert = ausgewählt

Filterdefinitionen

URL/D

Standardmäßig sind Dateien in der folgenden Reihenfolge eingestellt: Archiv-Dateien; Audio-Dateien; Backup-Dateien; Binärdateien; CGI-Dateien; Bild-Dateien; Java, Javascript, Style-Sheet-Dateien; Protokoll-Dateien; Revision-Control-Dateien; Quellcode-Dateien; Temporär-Dateien; Video-Dateien.

 

Ausgewählt werden können: Archiv-Dateien; Audio-Dateien; Backup-Dateien; Binärdateien; CGI-Dateien; Bild-Dateien; Java, Javascript, Style-Sheet-Dateien; Protokoll-Dateien; Power-Point-Dateien; Revision-Control-Dateien; Quellcode-Dateien; Temporär-Dateien; Video-Dateien; Tabellenkalkulations-Dateien; Plugin-Dateien; Lotus Domino Documents; Lotus Domino OpenViews; System-Verzeichnisse (UNIX); System-Verzeichnisse (NT).

Kommentar

URL/D

Leer

Textfeld, in dem die Site für Sie beschrieben ist. Wird von Robot nicht benutzt.

DNS-Übersetzung

URL

Leer

Die DNS-Übersetzung ändert den URL und die Art, wie nach ihr gesucht wird, indem sie den Namen der Domäne oder des Alias durch einen cname ersetzt. Format: alias1->cname1,alias2->cname1

Filter

Die erste Seite in diesem Abschnitt zeigt alle definierten Filterregeln und die Site-Definitionen, die sie verwenden. Nach jedem Filternamen finden Sie ein Kontrollkästchen, mit dem Sie auf dieses Dokument klicken können, sowie zwei Auswahlknöpfe, über die Sie die Filterregel an- und ausschalten können. Wenn ein Kontrollkästchen markiert ist, ist der Filter ausgewählt und kann gelöscht werden. Sie können einen neuen Filter hinzufügen, indem Sie „Neu“ auswählen. Die neue Filterseite ist eine verkürzte Bearbeitungsseite, die nur ein Pseudonym und eine Regel verlangt. Als weitere Option können Sie auf den Link „Bearbeiten“ klicken, woraufhin Sie zu einer Seite gelangen, auf der Sie die Regel für diese Art von Filter oder seine Funktion definieren können. Jede Regel besteht aus einer Dropdown-Liste der Filterquellen, einer weiteren Dropdown-Liste mit der Funktion „Filtern nach“ und einem Textfeld für weitere Filterzeichenfolgenangaben.

Tabelle 11  Attribute zur Bearbeitung der Robot-Filter 

Attribut

Standardwert

Beschreibung

Filtername

Fordert Sie auf, einen neuen Namen einzugeben. Dateiname des Dateityps, den Sie zur Bearbeitung auswählen können.

Ein beschreibender Name, der den Dateityp widerspiegelt, auf den der Filter angewandt wird

Dropdown-Liste der Filterquellen

URL für neuen Filter. Zeigt früher ausgewählte Informationen zu diesem speziellen Dateityp an.

URL, Protokoll, Host, Pfad, MIME-Typ

Dropdown-Liste der Positionen

ist für neuen Filter. Zeigt früher ausgewählte Informationen zu diesem speziellen Dateityp an. Beispielsweise haben binäre Dateien die Endung exe.

ist, enthält, beginnt mit, endet mit, regulärer Ausdruck

Textfeld für Angaben zum Typ (Verzeichnis, Protokoll, Dateierweiterungen)

Leer für neuen Filter. Zeigt früher ausgewählte Informationen zu diesem speziellen Dateityp an. Beispielsweise enthalten temporäre Dateien /tmp/.

In diesem Textfeld können Sie auflisten, was zusammengehören soll. Was in diesem Beispiel zusammengehören würde: http://docs.sesta.com/manual.html

Protokoll ist http; Host enthält sesta; Datei endet mit html.

Beschreibung

Fordert Sie auf, eine neue Beschreibung einzugeben. Zeigt die früher ausgewählte Beschreibung dieses speziellen Dateityps an.

Beschreiben Sie die Filterregeln für Ihren eigenen Gebrauch. Robot verwendet sie nicht.

Neue Site

Wahr (markiert) für neuen Filter. Zeigt den früher ausgewählten Wert für diesen speziellen Dateityp an.

Verwenden Sie diesen Filter beim Erstellen neuer Sites als Standardfilter. Wenn Sie dies nicht markieren, können Sie den Filter trotzdem noch einer neuen Site hinzufügen, indem Sie diese Site auf der Seite „Robot/Sites“ bearbeiten.

Standard

Keine Auswahl für einen neuen Filter getroffen. Standard, der vorher für definierten Filtertyp ausgewählt wurde.

Dokumente ausschließen, die auf diesen Filter passen.

Dokumente einschließen, die auf diesen Filter passen.

Die Auswahl für einen neuen Filter hat keine Auswirkung auf bereits vorhandene Site-Definitionen. Um Ihren neuen Filter auf eine bereits bestehende Site anzuwenden, müssen Sie die Site auf der Seite „Robot/Sites“ bearbeiten und ihn dort hinzufügen.

Bereitstellung

Liste der Sites, die diesen Filter verwenden.

 

Durchsuchen

Die Einstellungen auf dieser Seite steuern die Betriebsparameter und Standardeinstellungen von Robot. Sie ist in die folgenden Abschnitte aufgeteilt: Geschwindigkeit, Fertigstellungsvorgänge, Protokolleinstellungen, Standarderfüllung, Beglaubigungsparameter, Proxy-Einstellungen, Erweiterte Einstellungen und Linkverfolgung.

Tabelle 12  Attribute zum Durchsuchen über Robot 

Attribut

Standardwert

Beschreibung

Serververzögerung

Keine Verzögerung

Keine Verzögerung (Standard), 1 Sekunde, 2 Sekunden, 5 Sekunden, 10 Sekunden, 30 Sekunden, 1 Minute, 5 Minuten.

Maximale Anzahl an Verbindungen – Maximale Anzahl der gleichzeitig abgerufenen URLs

8

1, 2, 4, 8 (Standard), 10, 12, 16, 20

Maximale Anzahl an Verbindungen pro Site

2

(unbegrenzt), 1, 2, 4, 8, 10, 12, 16, 20.

RDs an Indizierung senden alle

30 Minuten

3 Minuten, 5 Minuten, 10 Minuten, 15 Minuten, 30 Minuten (Standard), 1 Stunde, 2 Stunden, 4 Stunden, 8 Stunden.

Zu startendes Skript

nicht vorhanden (Standard)

nicht vorhanden (Standard) Beispieldateien finden Sie in den cmdHook-Dateien im Verzeichnis /opt/SUNWps/samples/robot (für die Standardinstallation).

Nach der Verarbeitung aller URLs

In den Leerlauf wechseln (Standard)

In Leerlauf wechseln (Standard), Herunterfahren, Neu starten.

Kontakt-E-Mail

user@domain

Geben Sie Ihre eigene E-Mail-Adresse ein.

Protokollebene

1 – Generierung

0 Nur Fehler; 1 Generierung (Standard); 2 Aufzählung, Umwandlung; 3 Filterung; 4 Erzeugung; 5 Abruf

Benutzeragent

SunONERobot/6.0

Softwarestand des Such-Servers

Protokoll „robots.txt“ ignorieren

Falsch (nicht markiert)

Manche Server haben eine Datei Robot.txt, die verhindert, dass Robots sie finden. Wenn Ihr Such-Robot diese Datei auf einer Site vorfindet und dieses Attribut auf „Falsch“ steht, durchsucht er diese Site nicht. Wenn dieses Attribut auf „Wahr“ steht, ignoriert Robot die Datei und durchsucht die Site.

Beglaubigung durchführen

Ja

Ja

Nein

Robot-Benutzername

Anonym

Robot verwendet den anonymen Benutzernamen, um auf eine Site zuzugreifen.

Passwort

user@domain

Eine Site, die anonyme Benutzer zulässt, verlangt häufig eine E-Mail-Adresse als Passwort. Diese Adresse ist als Nur-Text einzugeben.

Proxy-Benutzername

Anonym

Robot verwendet den anonymen Benutzernamen, um auf eine Site zuzugreifen.

Passwort

user@domain

Eine Site, die anonyme Benutzer zulässt, verlangt häufig eine E-Mail-Adresse als Passwort. Diese Adresse ist als Nur-Text einzugeben.

Proxy-Verbindungstyp

Direkte Internetverbindung

Direkte Internet-Verbindung, Proxy – Automatische Konfiguration, Proxy – Manuelle Konfiguration

Automatische Proxy-Konfiguration – Typ

Lokale Proxy-Datei

Lokale Proxy-Datei, Entfernte Proxy-Datei

Automatische Proxy-Konfiguration – Verzeichnis

Leer

Der Auto-Proxy enthält eine Datei, die alle benötigten Proxy-Informationen auflistet.

Beispiel einer lokalen Proxy-Datei: robot.pac. Beispiel einer entfernten Proxy-Datei: http://proxy.sesta.com:8080/proxy.pac

Manuelle Konfiguration des HTTP-Proxys

Leer

Format: server1.sesta.com:8080. Diese drei Werte einer manuellen Konfiguration sind in der Datei robot.pac im Verzeichnis /var/opt/SUNWps/https-servername/portal/config enthalten.

Manuelle Konfiguration des HTTPS-Proxys

Leer

Dieser manuell konfigurierte Wert ist in der Datei robot.pac enthalten.

Format: server1.sesta.com:8080

Manuelle Konfiguration des FTP-Proxys

Leer

Dieser manuell konfigurierte Wert ist in der Datei robot.pac enthalten.

Format: server1.sesta.com:8080

Links in HTML verfolgen

Wahr (markiert)

Hyperlinks aus HTML extrahieren

Maximale Anzahl an Links

1024

Begrenzt die Anzahl an Links, die Robot aus HTML-Ressourcen extrahieren kann. Da Robot Sites durchsucht und Links zu anderen Ressourcen findet, könnte er folglich riesige Mengen an Links verfolgen, die weit entfernt sind von seinem ursprünglichen Startpunkt.

Links in Nur-Text folgen

Falsch (nicht markiert)

Hyperlinks aus Nur-Text extrahieren

Maximale Anzahl an Links

1024

Begrenzt die Anzahl an Links, die Robot aus Nur-Text-Ressourcen extrahieren kann.

Cookies verwenden

Falsch (nicht markiert)

Wenn markiert, verwendet Robot Cookies beim Durchsuchen. Um durch einige Sites richtig navigieren zu können, werden dort Cookies verlangt. Robot speichert seine Cookies in einer Datei mit Namen cookies.txt im Statusverzeichnis von Robot. Das Format der Datei cookies.txt ist das gleiche wie es der Browser Netscape Communicator verwendet.

IP als Quelle verwenden

Wahr (markiert)

In den meisten Fällen arbeitet Robot nur mit dem Domain-Namen einer Ressource. Manchmal werden Sie aber Ressourcen auf der Basis von Unternetzen nach IP-Adressen (Internet Protocol) filtern oder klassifizieren wollen. In diesem Fall müssen Sie Robot ausdrücklich erlauben, die IP-Adresse zusätzlich zum Domain-Namen abzurufen. Beim Abruf von IP-Adressen wird eine zusätzliche DNS-Suche benötigt, die Robot verlangsamt. Wenn Sie diese Option nicht benötigen, können Sie sie abschalten und dadurch eine höhere Leistung erreichen.

Smart-Host-Heuristics

Falsch (nicht markiert)

Wahr (markiert) veranlasst Robot, vom Server allgemein verwendete unterschiedliche Hostnamen in einen einzigen Namen umzuwandeln. Dies ist besonders dann nützlich, wenn eine Site eine Reihe von Servern mit Alias-Namen hat (zum Beispiel www.sesta.com), der oft andere Namen hat (wie www1.sesta.com, www2.sesta.com und so weiter).

Wenn Sie diese Option aktivieren, übersetzt Robot intern alle Hostnamen, die mit wwwn beginnen, in www, wobei n für jede beliebige Ganzzahl steht. Dieses Attribut funktioniert nur bei Hostnamen, die mit wwwn beginnen.

Dieses Attribut kann nicht verwendet werden, wenn die CNAME-Auflösung auf AUS (falsch) steht.

Hostnamen in CNAMEs auflösen

Falsch (nicht markiert)

Wahr (markiert) bedeutet, dass Robot alle Hostnamen, auf die er stößt, validiert und in einen kanonischen Hostnamen auflöst. Dadurch kann Robot eindeutige RDs korrekt verfolgen. Falsch (nicht markiert) veranlasst Robot, die Hostnamen zwar zu validieren, sie aber nicht in die kanonische Form umzuwandeln. So werden RDs mit den verschiedenen Hostnamen, die Robot gefunden hat, möglicherweise doppelt aufgelistet.

So ist zum Beispiel devedge.sesta.com ein Alias für developer.sesta.com. Wenn die CNAME-Auflösung an ist, wird ein URL, der mit devedge.sesta.com referenziert ist, mit dem gefundenen Namen developer.sesta.com aufgelistet. Wenn die CNAME-Auflösung aus ist, behält die RD die ursprüngliche Referenz zu devedge.sesta.com bei.

Die Funktion „Smart-Host-Heuristics“ kann nicht aktiviert werden, wenn die CNAME-Auflösung auf AUS (falsch) steht.

Befehle von beliebigen Hosts akzeptieren

Falsch (nicht markiert)

Die meisten Steuerungsfunktionen von Robot arbeiten über einen TCP/IP-Port. Dieses Attribut steuert, ob Befehle an Robot vom lokalen Hostsystem (falsch) kommen müssen oder ob sie auch von jedem beliebigen Ort im Netz aus (wahr) kommen können.

Es wird empfohlen, die direkte Robot-Steuerung auf den lokalen Host (falsch) zu beschränken. Sie können Robot trotzdem noch über die Administrator-Konsole fernsteuern.

Standardmäßige Startpunkttiefe

10

1 – Nur Startpunkte, 2 – Über Lesezeichen, 3-10 Unbegrenzt.

Standardwert für die Ebenen von Hyperlinks, die Robot von jedem beliebigen Startpunkt aus durchläuft. Durch Bearbeiten der Site auf der Seite „Robot/Sites“ können Sie die Suchtiefe für jeden Startpunkt einstellen.

Arbeitsverzeichnis

/var/opt/SUNWps/https-servernamefull/portal/tmp

Vollständiger Pfad eines temporären Arbeitsverzeichnisses, das Robot zum Speichern von Daten verwenden kann. Robot ruft den gesamten Inhalt eines Dokuments ab und speichert ihn in diesem Verzeichnis. Oft handelt es sich dabei um große Mengen, weshalb der Speicherplatz groß genug sein sollte, um die gesamte Menge gleichzeitig aufnehmen zu können.

Statusverzeichnis

/var/opt/SUNWps/https-servernamefull/portal/robot

Vollständiger Pfad eines temporären Verzeichnisses, das Robot zum Speichern seiner Statusinformationen verwendet, einschließlich der Liste der URLs, die er besucht hat, des URL-Pools und so weiter. Diese Datenbank kann ziemlich groß sein, weshalb Sie sie lieber in einer separaten Partition des Arbeitsverzeichnisses platzieren sollten.

Indizieren

Robot durchsucht die Sites und sammelt Dokumente auf der Basis der von Ihnen ausgewählten Filter. Die gesammelten Dokumente haben viele unterschiedliche Formate. Um sie einheitlich und leicht zugänglich zu machen, müssen sie alle das gleiche Format haben, nämlich HTML. Diese Seite steuert einige der Teile, die in jede Ressourcenbeschreibung eingehen.

Tabelle 13  Attribute für den Robot-Index 

Attribut

Standardwert

Beschreibung

Volltext oder Teiltext

Teiltext

Volltext verwendet in der Ressourcenbeschreibung das vollständige Dokument. Teiltext verwendet dagegen in der Ressourcenbeschreibung nur die angegebene Anzahl an Bytes.

Ersten # Byte extrahieren

4096

Geben Sie die Anzahl an Bytes ein.

Inhaltsverzeichnis extrahieren

Wahr (markiert)

Wahr integriert das Inhaltsverzeichnis in die Ressourcenbeschreibung.

Daten in META-Tags extrahieren

Wahr (markiert)

Wahr integriert die META-Tags in die Ressourcenbeschreibung.

Dokumentkonvertierung

Alle markiert (wahr); bei falsch kann dieser Dokumententyp nicht indiziert werden.

Adobe PDF

Corel Presentations

Corel Quattro Pro

FrameMaker

Lotus Ami Pro

Lotus Freelance

Lotus Word Pro

Lotus 1-2-3

Microsoft Excel

Microsoft Powerpoint

Microsoft RTF

Microsoft Word

Microsoft Works

Microsoft Write

WordPerfect

StarOffice™ Calc

StarOffice™ Impress

StarOffice™ Writer

XyWrite

Zeitüberschreitung bei Konvertierung

600

Zeit in Sekunden, die zur Umwandlung eines Dokuments in das HTML-Format benötigt werden darf. Bei Überschreitung dieser Zeit wird der URL ausgeschlossen.

Simulator

Diese Seite bietet ein Debugging-Werkzeug, das eine teilweise Simulation von Robot beim Filtern eines URLs durchführt. Zur Überprüfung können Sie einen neuen URL eingeben. Er prüft den URL, die DNS-Übersetzung (einschließlich Smart-Host-Heuristics) sowie die Umleitung von Sites. Er prüft jedoch nicht den Inhalt des Dokuments, das durch den URL angegeben wird. Somit kann er keine Verdoppelungen, MIME-Typen, Netz-Fehler, Berechtigungen usw. auffinden. Der Simulator gibt an, ob die aufgelisteten Sites vom Robot akzeptiert werden (AKZEPTIERT) oder nicht (WARNUNG).

Tabelle 14  Eigenschaften des Robot-Simulators

Attribut

Standardwert

Beschreibung

URL

Bereits definierte URLs und ein leeres Textfeld

Sie können den Zugang zu einer neuen Site überprüfen, indem Sie ihren URL in das leere Textfeld eintragen. Damit wird überprüft, ob die neue Site ein Durchsuchen akzeptiert.

Format http://www.sesta.com:80/

Nach DNS-Aliasen suchen

Wahr (markiert)

Wahr (markiert) überprüft die Anzahl an Servern mit Alias-Namen, die alle für die gleiche Adresse stehen.

Nach Serverumleitungen suchen (302)

Wahr (markiert)

Wahr (markiert) überprüft alle Serverumleitungen.

Sitetest

Diese Seite bietet ein Debugging-Werkzeug, das nach DNS-Aliasen, Serverumleitungen und virtuellen Servern sucht. Es liefert Informationen über die Site, überprüft aber nicht, ob sie ein Durchsuchen akzeptiert.

Tabelle 15  Attribute zur Überprüfung der Sites über Robot

Attribut

Standardwert

Beschreibung

Site

Leer

Tragen Sie den URL im Format http://www.sesta.com:80 ein.

Erweiterte DNS-Informationen anzeigen

Falsch (nicht markiert)

Bei Wahr (markiert) werden weitere Informationen zur Site einschließlich der IP-Adressen angezeigt.

Datenbank

Die Datenbank-Attribute sind unterteilt in:

Verwaltung

Die erste Seite „Verwaltung“ listet die verfügbaren Datenbanken auf. Sie können eine neue anlegen oder eine bereits vorhandene neu indizieren, leeren oder ablaufen lassen. Verwenden Sie das Kontrollkästchen, um eine Datenbank auszuwählen, für die eine Aktion durchgeführt wird. Über die kleinen Symbole oberhalb des Kontrollkästchens können Sie alle Datenbanken an- oder abwählen. Wenn Sie „Neu indizieren“, „Leeren“ oder „Ablaufen lassen“ wählen, wird eine Aufforderung mit einer Liste von Datenbanknamen angezeigt, um zu bestätigen, dass Sie die Aktion durchführen möchten. Um die Aktion durchzuführen, wählen Sie OK.

Sie sollten die Datenbank neu indizieren, wenn Sie das Schema bearbeitet haben, um ein indiziertes Feld (als Autor) hinzuzufügen oder zu entfernen oder wenn ein Plattenfehler den Index zerstört hat.

Die Zeit, die für eine erneute Indizierung der Datenbank benötigt wird, verhält sich proportional zur Anzahl der RDs in der Datenbank. Eine große Datenbank sollte daher nur neu indiziert werden, wenn der Server nicht gerade extrem ausgelastet ist.

Wenn Sie den Inhalt der Datenbank leeren, wird auf diese Weise Speicherplatz für Indizes freigegeben. Speicherplatz für die Hauptdatenbank hingegen wird nicht freigegeben, dieser wird stattdessen für neue Datenbankdaten wieder verwendet.

Das Ablaufenlassen löscht alle RDs, die als veraltet betrachtet werden. Die Datenbank wird dadurch nicht verkleinert. Standardmäßig läuft eine RD nach 90 Tagen ab Erstellungsdatum ab.

Sie können die Datenbank auch bearbeiten, indem Sie den Link „Auswählen“, der zu einer Seite wechselt, auf der Sie die Datenbankattribute definieren.

Tabelle 16  Attribute für Datenbank-Verwaltung

Attribut

Standardwert

Beschreibung

Name

Standard

Name für die Datenbank, verwendet von der Suche

Titel

Leer

Ein Titel für die Datenbank

Beschreibung

Leer

Beschreiben Sie die Datenbank für sich selbst.

Importagenten

Importagenten bezeichnen Vorgänge, die Ressourcenbeschreibungen von anderen Servern oder Datenbanken holen und sie in Ihre Such-Datenbank integrieren.

Die Anfangsseite „Importieren“ listet die verfügbaren Importagenten auf. Sie können einen neuen anlegen oder einen bereits vorhandenen laufen lassen, bearbeiten oder löschen. Durch Markieren des Kontrollkästchens wählen Sie den Agenten aus, den Sie löschen möchten. Über die kleinen Symbole oberhalb des Kontrollkästchens können Sie alle Importagenten an- oder abwählen. Mit den Auswahlknöpfen können Sie einen Agentenvorgang ein- oder ausschalten. Zur zeitlichen Planung der Importagenten wählen Sie in der unteren Menüleiste „Zeitplan“ aus.

Zur Bearbeitung oder Änderung eines bereits vorhandenen Importagenten oder zum Erstellen eines neuen werden die folgenden Attribute angezeigt.

Tabelle 17  Attribute für Datenbank-Importagenten 

Attribut

Standardwert

Beschreibung

Importieren aus

Lokale Datei

Wählen Sie entweder „Lokale Datei“ oder „Such-Server“ (falls aktiviert).

Pfad zur lokalen Datei

Leer für neu

Gibt den vollständigen Pfad für die lokale Datei an, die gültige Ressourcenbeschreibungen im SOIF-Format (Summary Object Interchange Format) enthält. Hierbei kann es sich um eine Datei oder einen anderen Server handeln, solange der Pfad adressiert werden kann, als ob er lokal installiert wäre.

Datenbankname

Standard

Name der Zieldatenbank

Remote-Server

 

Leer für neu

Gibt den URL des Suchservers an, von dem die Ressourcenbeschreibungen abgerufen werden können. Format: http://www.sesta.com:80

Objektname

Leer für neu

Instanzenbezeichnung des Servers, die vom Suchserver verwendet wird. Sie können diese Instanzenbezeichnung in den „Server-Einstellungen“ des Servers finden, von dem aus Sie den Import durchführen. Es kann nur der Wert 3.01C oder 3.01C SP1 eingegeben werden.

Such-URI

Leer für neu

Geben Sie den vollständige Pfad- und Dateibezeichnungen ein. Verwenden Sie /portal/search.

Ist dies ein Compass Server 3.01X?

Falsch (nicht markiert)

 

Ist der Server, von dem aus Sie den Import durchführen, ein Compass Server 3.01X?

SSL aktivieren

Falsch (nicht markiert)

Wenn es sich um eine Transaktion von Server zu Server handelt, wählen Sie aus, ob die Server das SSL-Protokoll (Secure Sockets Layer) verwenden sollen.

Authentifizierung

Keine (Standardwert)

Keine (Standard) oder Benutzer/Passwort verwenden.

Hier wird vorgegeben, wie die Importagenten sich selbst im System identifizieren sollen, von dem aus Sie importieren möchten. Standardmäßig wird keine Beglaubigung verwendet. Wenn der Server, von dem aus Sie den Import durchführen möchten, eine Beglaubigung verlangt, können Sie für den zu verwendenden Importagenten einen Benutzernamen und ein Passwort angeben. Importieren von 3.01C aus bedarf keiner Beglaubigung. Importieren von 3.01C SP1 aus bedarf jedoch einer Beglaubigung.

Benutzer

Leer für neu oder keines

Wenn Sie „Benutzer/Passwort verwenden“ ausgewählt haben, geben Sie einen Benutzernamen ein.

Passwort

Leer für neu oder keines

Wenn Sie „Benutzer/Passwort verwenden“ ausgewählt haben, geben Sie ein Passwort (angezeigt als *) ein.

Inhaltstransfer

Vollständige Inhalte inkrementell sammeln (Standardwert)

Auswahl von „Vollständige Inhalte inkrementell sammeln“ (Standard) oder „Suchabfrage verwenden“.

Gibt an, welche Ressourcenbeschreibungen von der Quelle importiert werden sollen.

Standardmäßig fragt ein Importagent nach allen Ressourcenbeschreibungen, die seit seinem letzten Import von der gleichen Quelle aus hinzugefügt oder geändert wurden.

Die Suchabfrage gibt an, dass der Importagent nur bestimmte Ressourcenbeschreibungen bei der Quelle abfragen soll. Dies geschieht in etwa in der gleichen Weise, in der Benutzer Ressourcenauflistungen von der Suchdatenbank abfragen.

Verwenden Sie die Felder „Bereich“, „Anzeige-Attribute“ und „Anzeigetreffer“, um die Abfrage vorzugeben.

Bereich

Leer für neu

Abfragetext. Die Abfragesyntax ist identisch mit der der Endbenutzer-Abfragen am Server.

Anzeigeattribute

Leer für neu

Listet die Felder (nicht unterschieden nach Groß-/Kleinschreibung) auf, die Sie mit jeder Ressourcenbeschreibung importieren möchten. Zum Beispiel Titel und Autor. Der Standardwert ist „Alle“.

Anzeigetreffer

Leer für neu

Gibt die maximale Anzahl der für den Import passenden Ressourcenbeschreibungen an. Wenn keine Trefferzahl angegeben wird, gilt der Standardwert 20.

Agentenbeschreibung

Leer für neu

Wird in der Liste der verfügbaren Importagenten auf der ersten Import-Seite angezeigt. Sie wird vom Programm ignoriert. Wenn dieses Feld leer ist, wird zur Identifizierung des Importagenten der Dateiname oder Servername unter „Ressourcenbeschreibung der Quelle“ verwendet. Gegebenenfalls sind hier Benutzername und Passwort anzugeben.

Neueste Ressourcenbeschreibung

Leer für neu

Das Erstellungsdatum der neuesten Ressourcenbeschreibung, die von dem betreffenden Importagenten als letzte importiert wurde. Dieses Datum wird von der Option „Vollständige Inhalte inkrementell sammeln“ verwendet, um festzustellen, welche Ressourcen neu sind und daher importiert werden sollten.

Netzwerk-Zeitüberschreitung in Sekunden

Leer für neu

Gibt die Zeit in Sekunden an, die der Importagent wartet, bevor die Netzwerkverbindung wegen Zeitüberschreitung getrennt wird. Sie können diesen Wert anpassen, um einem schwankenden Netzwerkaufkommen und unterschiedlicher Qualität gerecht zu werden.

Zeichensatz

Leer für neu

Gibt den Zeichensatz des SOIF-Eingabebildschirms an. Beispiel ISO8859-1, UTF-8, UTF-16: Zeichensätze ISO8859-1 bis ISO8859-15 werden unterstützt.

Ressourcenbeschreibungen

Auf der ersten Seite „Resourcenbeschreibungen“ können Sie die Ressourcenbeschreibungen in der Datenbank suchen. Sie können beispielsweise einen typografischen Fehler in einer RD korrigieren oder RDs, die vom Robot gefunden wurden, manuell den Kategorien zuordnen.

Tabelle 18  Attribute zur Ressourcenbeschreibung

Attribut

Standardwert

Beschreibung

Suchen nach

Alle RDs

Alle RDs, Unkategorisierte RDs, Kategorisierte RDs, RDs nach Kategorie, Bestimmte RD nach URL, RDs mit dem Inhalt

Textfeld

Leer

Geben Sie zur Identifizierung der gesuchten RD eine eindeutige Textfolge ein. Zu verwenden für RDs nach Kategorie, Bestimmte RD nach URL und RDs, die Attributwerte enthalten.

Datenbank

Standard

Name der zu suchenden Datenbank

Um die Suche nach Kategorie einzuschränken, wählen Sie „Kategorie wählen“. Eine Seite „Kategorie-Editor“ wird angezeigt, auf der Sie die Kategorie aus der Taxonomie für die Suche angeben können. Sie können die Kategorie im Textfeld „Ausgewählte Kategorie“ angeben oder die Taxonomie durchblättern, um sie auszuwählen. Nach Angabe der Kategorie wählen Sie OK, um zur RD-Suchseite zurückzukehren.

Tabelle 19  Attribute des Kategorie-Editors

Attribut

Standardwert

Beschreibung

Ausgewählte Kategorien

Leer

Textfeld, in das die Kategorie eingegeben wird

Alle einblenden

 

Blendet die Taxonomie ein, so dass alle Einträge in der Hierarchie angezeigt werden.

Alle ausblenden

Leer

Blendet die Taxonomie aus, so dass nur die Kategorien der ersten zwei Ebenen der Hierarchie angezeigt werden.

Kategorien pro Seite

25

Dropdown-Liste der Anzahl der pro Seite anzuzeigenden Kategorien. Werte sind 25, 50, 100, 250, 500 und „Alle“.

Eine erfolgreiche Suche zeigt die Anzahl an gefundenen RDs sowie ein Textfeld an, in dem die gefundenen RDs aufgelistet sind. Nach Auswahl einer RD werden die folgenden Attribute angezeigt, die Sie dann bearbeiten können, sowie Teiltexte der RD. Alle Attribute sind auf der Seite „Datenbank/Schema“ als bearbeitbar eingestellt, ausgenommen das Attribut „Klassifizierung“.

Tabelle 20  Bearbeitbare Attribute der Datenbank-RDs 

Attribut

Standardwert

Beschreibung

Klassifizierung

Kategoriename der ausgewählten RD

„Kategoriename“, falls klassifiziert. „Keine Klassifizierung“, falls nicht klassifiziert.

ReadACL

Leer

Bezieht sich auf die Sicherheit auf Dokumentenebene.

Beschreibung

Beschreibung aus der ausgewählten RD

Beschreibung aus der RD

Schlagwörter

Schlagwörter (falls vorhanden) aus der ausgewählten RD

Schlagwörter sind den Meta-Tags entnommen.

Titel

Titel der ausgewählten RD

Titel der RD

Schema

Das Schema beschreibt, welche Informationen in einer Ressourcenbeschreibung angegeben werden und welche Form sie haben. Sie können einer RD neue Attribute oder Felder hinzufügen und einstellen, welche davon bearbeitbar und welche indizierbar sind. Beim Import neuer RDs können Sie Schemata, die in neuen RDs eingebettet sind, in Ihr eigenes Schema umwandeln.

Tabelle 21  Attribute zur Datenbank-Schemabearbeitung 

Attribut

Standardwert

Beschreibung

Name

Leer

Name des ausgewählten Schemas: Autor, E-Mail-Adresse des Autors, Zeichensatz des Inhalts, Verschlüsselung des Inhalts, Sprache des Inhalts, Länge des Inhalts, Inhaltstyp, Beschreibung, Ablaufdatum, Volltext, Schlagwörter, Zuletzt geändert, Teiltext, Telefon, ReadACL, Titel, URL

Beschreibung

Leer

Diese Beschreibungen entsprechen den oben aufgelisteten Schemata. Dieses Textfeld steht für Ihre Kommentare zur Verfügung. Wird vom Suchserver nicht verwendet.

Autor(en) des Dokuments

E-Mail-Adresse(n) zur Kontaktierung des (der) Autor(en) des Dokuments

Informationen vom HTTP-Server zum Zeichensatz des Inhalts

Informationen vom HTTP-Server zur Verschlüsselung des Inhalts

Informationen vom HTTP-Server zur Sprache des Inhalts

Informationen vom HTTP-Server zur Länge des Inhalts

Informationen vom HTTP-Server zum Inhaltstyp

Kurze einzeilige Beschreibung des Dokuments

Datum, ab dem die Ressourcenbeschreibung nicht mehr gültig ist

Gesamter Inhalt des Dokuments

Schlagwörter, die das Dokument am besten beschreiben

Datum der letzten Aktualisierung des Dokuments

Teilauswahl von Text aus dem Dokument

Telefonnummer zur Kontaktierung des Autors

Von Suchservern verwendet, um die Sicherheit zu gewährleisten

Titel des Dokuments

Uniform Resource Locator oder Webadresse des Dokuments

Alias-Namen

Name

Beschreibung

Leer

Beim Import neuer RDs können Sie Schemata, die in neue RDs eingebettet sind, in Ihr eigenes Schema umwandeln. Sie würden von dieser Umwandlung Gebrauch machen, wenn es Unstimmigkeiten gibt zwischen den Namen, die für die Felder im Schema der Import-Datenbank verwendet wurden, und dem Schema für RDs in Ihrer eigenen Datenbank. Ein Beispiel dazu wäre, wenn Sie RDs importieren, die 'Verfasser' im Feld für den Autoren angeben, während Sie in Ihren eigenen RDs dafür die Bezeichnung 'Autor' verwenden. Sie würden dann also Verfasser zu Autor umwandeln und dazu Verfasser in dieses Textfeld eingeben.

Datentyp

Zeichenkette

Legt den Datentyp fest.

Bearbeitbar

Falsch (nicht markiert)

Bei Wahr (markiert) bedeutet dies, dass das ausgewählte Attribut (Feld) im Datenbank-RD-Editor angezeigt wird, wo Sie seine Werte ändern können.

Beschreibung, Schlagwörter, Titel und ReadACL sind bearbeitbar.

Indizierbar

Wahr

Bei Wahr (markiert) bedeutet dies, dass das ausgewählte Attribut (Feld) als Basis zur Indizierung verwendet werden kann.

Autor, Titel und URL werden im Menü in der Ansicht „Erweiterte Suche“ für den Endbenutzer angezeigt. Dies ermöglicht es den Endbenutzern, in den entsprechenden Feldern nach Werten zu suchen.

Autor, Ablaufdatum, Schlagwörter, Zuletzt geändert, Titel, URL und ReadACL können als Basis zur Indizierung verwendet werden.

Punktemultiplikator

1.0

Ein Gewichtungsfeld für die Bewertung eines betimmten Elements. Jeder positive Wert ist gültig.

Analyse

Die Seite „Analyse“ zeigt eine sortierte Liste aller Sites und die Anzahl an Ressourcen von dieser Site, die sich derzeit in der Suchdatenbank befinden. Wählen Sie „Analyse aktualisieren“, um die abgelegte Analyse zu aktualisieren.

Tabelle 22  Attribute für Datenbank-Analysen

Attribut

Standardwert

Beschreibung

Gesamte Anzahl an RDs

Aktuelle Anzahl an RDs in der Datenbank.

Listet die aktuelle Gesamtanzahl an Ressourcenbeschreibungen in der Datenbank auf.

Anzahl an Servern

Aktuelle Gesamtanzahl an Servern, über die die Datenbank partitioniert ist.

Die Datenbank kann partitioniert und auf eine Reihe von Servern verteilt werden.

Site

URL oder Domäne, die Robot erfolgreich durchsucht hat

Ein URL oder eine Domäne, die der Datenbank Ressourcenbeschreibungen hinzugefügt hat

Anzahl an RDs

Aktuelle Anzahl an RDs aus dieser Site

Listet die aktuelle Anzahl an RDs aus dieser Site auf

Typ

RD-Typ

Es sind Ressourcenbeschreibungen verschiedenster Typen möglich (z. B. http).

Prozentsatz

RD-Typ/Gesamtanzahl an RDs

Prozentsatz dieses Dokumententyps im Vergleich zu der Gesamtanzahl an Ressourcenbeschreibungen

Kategorien

Endbenutzer interagieren mit der Suchdatenbank auf zwei Arten: Sie können direkte Anfragen zur Datenbanksuche eingeben. Oder sie können über einen Satz an Kategorien, den Sie aufgestellt haben, durch den Inhalt der Datenbank browsen. Sie ordnen die Ressourcen in einer Suchdatenbank den Kategorien zu, um die Komplexität übersichtlicher zu gestalten. Wenn die Datenbank sehr viele Positionen enthält, wird es helfen, die zusammengehörigen Positionen in Gruppen zusammenzufassen. Beim Erstellen der Kategorien sollten Sie in erster Linie an ihre Anwendbarkeit denken, sodass die Endbenutzer spezielle Arten von Positionen schneller auffinden können.

Der Suchserver verwendet dabei eine Hierarchie an Kategorien, die so genannte Taxonomie. Der Begriff der Taxonomie beschreibt im Wesentlichen alle Kategoriesysteme. Im Kontext einer vernetzten Ressourcendatenbank, wie zum Beispiel einer Suchserverdatenbank, beschreibt er die Methoden, die Sie zur Kategorisierung von Netzwerkressourcen auswählen können, um dadurch ihr Auffinden zu erleichtern.

Das Thema der Kategorien ist in die folgenden Einzelthemen aufgeteilt:

Kategorie-Editor

Die Seite „Kategorie-Editor“ zeigt eine Liste der Kategorien in der Taxonomie, so dass Sie die Kategorien ansehen können. Nachdem Sie die Kategorie herausgesucht haben, können Sie den Kategorie-Link auswählen, um den Klassifizierungsregel-Editor aufzurufen, um die Robot-Sammlungen unter bestimmten Kategorien einzurichten.

Tabelle 23  Attribute des Kategorie-Editors 

Attribut

Standardwert

Beschreibung

Alle einblenden

 

Blendet die Taxonomie ein, so dass alle Einträge in der Hierarchie angezeigt werden.

Alle ausblenden

 

Blendet die Taxonomie aus, so dass nur die Kategorien der ersten zwei Ebenen der Hierarchie angezeigt werden.

Neu indizieren

 

Indiziert die Datenbank neu. Nach Erstellung Ihrer Taxonomie müssen Sie die Datenbank indizieren, um Ihren Endbenutzern die Suche nach Kategorien zu ermöglichen. Wenn Sie Ihre Kategorien geändert haben, müssen Sie die Datenbank neu indizieren, um sie zu aktualisieren. Speichern Sie den Kategorienbaum, bevor Sie die Datenbank neu indizieren.

Kategorien pro Seite

25

Dropdown-Liste der Anzahl der pro Seite anzuzeigenden Kategorien. Werte sind 25, 50, 100, 250, 500 und „Alle“.

Name

Ausgewählte Kategorie

Name der zu bearbeitenden Kategorie

Beschreibung

Leer

Ihre Beschreibung der Kategorie.

Übereinstimmende Regel

Leer

Die zu verwendende, übereinstimmende Regel

Aktualisieren

 

Aktualisiert die Kategoriedefinition.

Als untergeordnetes Element hinzufügen

 

Fügt die Kategorie als untergeordnetes Element hinzu.

Als gleichwertiges Element hinzufügen

 

Fügt die Kategorie als gleichwertiges Element hinzu.

Klassifizierungsregel-Editor

Nach Erstellen der Kategorien für Ihre Datenbank können Sie diese Seite verwenden, um die Regeln aufzustellen oder zu ändern, die Robot zur Zuordnung von Ressourcen zu den Kategorien verwenden soll.

Tabelle 24  Attribute für den Kategorien-Klassifizierungsregel-Editor

Attribut

Standardwert

Beschreibung

Quelle

Ausgewählt

Autor, E-Mail-Adresse des Autors, Zeichensatz des Inhalts, Verschlüsselung des Inhalts, Sprache des Inhalts, Länge des Inhalts, Inhaltstyp, Beschreibung, Ablaufdatum, Volltext, Schlagwörter, Zuletzt geändert, Teiltext, Telefon, ReadACL, Titel, URL, Host, Protokoll, URI, IP, Pfad, Typ

Methode

ist

ist, enthält, beginnt mit, endet mit, regulärer Ausdruck

Kriterien

Leer

Gibt die Kriterien für die Regel an.

Klassifizierung

.Leer

Kategorie, in der die RD klassifiziert wird, wenn die Regelbedingungen erfüllt werden. Geben Sie die Kategorie ein oder verwenden Sie die Seite „Kategoriebearbeitung auswählen“, um zu ihr zu wechseln.

Automatisch klassifizieren

Diese Seite steuert die Funktion „Automatisch klassifizieren“.

Tabelle 25  Attribute von „Kategorien automatisch klassifizieren“

Attribut

Standardwert

Beschreibung

Protokollpfad

 

Der Speicherort der Protokolldatei, die „Automatisch klassifizieren“ verwendet.

Ressourcenbeschreibungen im Speicher

10000

Die Cachegröße für im Speicher abgelegte Ressourcenbeschreibungen. Wenn die gesammelten Ressourcenbeschreibungen die angegebene Größe überschreiten, werden Sie im temporären Datenbankspeicher abgelegt. Geben Sie für eine bessere Leistung eine höhere Größe an. Dann wird jedoch auch mehr Speicher verwendet.

Datenbankpfad:

 

Die für die temporäre RD-Speicherdatenbank verwendete Datei

Berichte

Im Abschnitt „Berichte“ können Sie Ihren Suchserver überwachen. Sie können darin eine Zusammenfassung seiner Aktivitäten sehen: welche Seiten durchsucht wurden, welche URLs ausgeschlossen wurden und warum. Detaillierte Informationen zu den von Robot besuchten URLs und schließlich, woran Ihre Endbenutzer interessiert sind.

Das Berichtethema ist in die folgenden Einzelthemen aufgeteilt:

Startpunkte

Robot besucht bei jedem Start alle aktivierten Sites.

Tabelle 26  Attribute für Startpunkt-Berichte

Attribut

Standardwert

Beschreibung

Aktiviert

Aktueller Wert der Site

Ja oder Nein

Das wird auf der Seite Robot/Sites eingestellt.

Startpunkt

Ausgewählter URL:80

Der Link ruft den ausgewählten URL auf.

In der Sitedefinition

Ausgewählter URL

Link zur Bearbeitungsseite Robot/Sites

Tiefe

Listet die ausgewählte Suchtiefe auf.

1-n Satz auf der Bearbeitungsseite Robot/Sites

Ausgeschlossener URLs

Diese Seite zeigt eine Liste der Robot-Läufe an. Zur Anzeige einer Liste mit den Gründen für den Ausschluss von URLs wählen Sie einen Robot-Lauf zur Überprüfung, dann „Ausgewählte Anzeige“ und anschließend einen der Gründe für den Ausschluss aus. Daraufhin wird eine Liste mit den aus diesem Grund ausgeschlossenen URLs angezeigt. Doppelte und „Warnungs“-Ausschlüsse wurden entfernt.

Tabelle 27  Attribute für Berichte über ausgeschlossene URLs

Attribut

Standardwert

Beschreibung

Protokoll

Listet das Protokoll des letzten Laufs auf.

Listet alle verfügbaren Laufprotokolle auf.

Zählung

Nummern

Liste mit Nummern und den Gründen für einen Ausschluss

Grund für Ausschluss

Liste der Gründe, weshalb Sites nicht zugelassen wurden. Jeder Grund hat einen Link zu allen URLs, die aus diesem Grund ausgeschlossen wurden.

Filterregeln, Datei nicht gefunden, Site nicht zugelassen, Protokoll nicht zugelassen; Fehler und Verdoppelung sind einige der Gründe für den Ausschluss von URLs.

Erweiterte Berichte von Robot

Auf dieser Seite erhalten Sie Zugriff auf eine Reihe von unterschiedlichen Berichten von Robot. Wählen Sie aus einer Dropdown-Liste die Informationen zur Anzeige des gewählten Berichts aus. Über die Schaltfläche „Aktualisieren“ erhalten Sie die aktuellen Informationen.

Tabelle 28  Attribute für erweiterte Berichte von Robot

Attribut

Standardwert

Beschreibung

Erweiterte Berichte von Robot

Version

Version, DNS-Cacheleerung, Leistung, Gefundene Server – Alle, Gefundene Server – RDM, Status – Aktuelle Konfiguration, Status – Datenbank (intern), Status – Libnet, Status – Module, Status – Übersicht, URLs – zur Dekomprimierung bereit, URLs – zum Indizieren bereit, URLs – warten auf Filterung (URL-Pool), URLs – warten auf Indizierung, Alle Berichte

Protokolldateien

Auf dieser Seite können Sie die Einträge oder bestimmte Zeilen aus einer Protokolldatei anzeigen. Dropdown-Liste der Protokolldateien. Geben Sie die Anzahl der Zeilen ein, die angezeigt werden sollen, wenn Sie die Schaltfläche „Anzeigen“ auswählen.

Tabelle 29  Attribute für Berichte der Anzeige-Protokolldateien

Attribut

Standardwert

Beschreibung

Diese Protokolldatei anzeigen

Ausgeschlossene URLs (Filter)

Ausgeschlossene URLs (Filter), RD-Manager (rdmgr), RDM-Server (rdmsvr), Robot-Aktivitäten (Robot), Suchmaschine (searchengine), Benutzeranfragen (rdm)

Anzahl der Zeilen

25

Eine Zahl, die Sie eingeben können, um die aktuellsten Einträge in der Protokolldatei anzuzeigen.

Häufige Suchabfragen

Auf dieser Seite können Sie sehen, wonach Benutzer suchen. Die am häufigsten verwendeten Suchabfragen werden im Bericht zuerst angezeigt.

Tabelle 30  Attribute für Berichte häufiger Suchabfragen

Attribut

Standardwert

Beschreibung

Durchsuchen ausschließen

Falsch (nicht markiert)

Falsch (nicht markiert) enthält Informationen dazu, welche Kategorien die Benutzer durchblättern. Wahr (markiert) schließt statistische Informationen zum Durchsuchen aus.

Zeitplan

Startzeit von Robot

Auf dieser Seite richten Sie die automatische Startzeit für den Robot ein.

Tabelle 31  Attribute für die Startzeit von Robot

Attribut

Standardwert

Beschreibung

Zeitpunkte

00:00

Dies ist die Zeit, zu der Robot mit der Suche beginnt.

Tage

Nicht ausgewählt

So, Mo, Di, Mi, Do, Fr oder Sa

Endzeit von Robot

Auf dieser Seite richten Sie die automatische Endzeit für den Robot ein.

Tabelle 32  Attribute für die Endzeit von Robot

Attribut

Standardwert

Beschreibung

Zeit

00:00

Wenn Sie Robot im Dauerbetrieb laufen lassen möchten, empfiehlt es sich, dass Sie die Funktion mindestens einmal pro Tag anhalten und neu starten. Dadurch kann Robot Ressourcen freigeben und sich selbst reinitialisieren.

Tage

Nicht ausgewählt

So, Mo, Di, Mi, Do, Fr oder Sa

Import starten

Auf dieser Seite richten Sie den Zeitplan für die Ausführung der Importagenten ein.

Tabelle 33  Attribute für den Start der Importagenten

Attribut

Standardwert

Beschreibung

Zeit

00:00

Zeitpunkt, an dem der Importagent mit dem Importvorgang beginnt

Tage

Nicht ausgewählt

So-Sa

Automatisch klassifizieren starten

Auf dieser Seite richten Sie den Start für die Funktion „Automatisch klassifizieren“ ein.

Tabelle 34  Attribute für die Startzeit von „Automatisch klassifizieren“

Attribut

Standardwert

Beschreibung

Zeit

00:00

Zeit, zu der „Automatisch klassifizieren“ startet

Tage

Nicht ausgewählt

So-Sa


Inhalt