Seite „Such-Attribute“
Dieser Anhang beschreibt die Attribute, die Sie über die Administrator-Konsole von Sun Java System Identity Server für die Suchmaschine konfigurieren können.
Wenn Sie in der Ansicht „Service-Verwaltung“ den Punkt „Sucheigenschaften“ auswählen, wird eine zweifarbige Menüleiste mit Registern angezeigt. Dieser Anhang ist nach den Themen oder Registern auf dem oberen Bereich der Menüleiste aufgebaut.
Wenn eines dieser Register ausgewählt wird, so werden in der Menüleiste darunter die Einzelthemen zu dem betreffenden Thema aufgelistet. Die Standardseite „Suche“ wählt Server/ Einstellungen. Für jedes Einzelthema wird eine oder mehrere Tabellen verwendet, um die Attribute dieses Einzelthemas zu erklären. Die Tabellen bestehen aus drei Spalten: Attribut, Standardwert und Beschreibung. Das ‚Attribut‘ zeigt den beschreibenden Text der Seite, der ‚Standardwert‘ stellt den Standardwert des Attributs dar, und die ‚Beschreibung‘ erläutert das Attribut und sein Format.
Auf jeder Seite der „Sucheigenschaften“ finden Sie das entsprechende Attribut zu „Server auswählen“ wie in Tabelle 4 beschrieben.
Tabelle 4 Suche nach Attribut für „Server auswählen“
Attribut
|
Standardwert
|
Beschreibung
|
Server auswählen
|
http://servername:80/portal
|
Vollqualifizierter Servername Ihres Suchservers.
|
Server
Im Abschnitt „Server“ legen Sie die Einstellungen für Ihren Server fest. Hier können Sie wählen, in welchem Verzeichnis die temporären Dateien gespeichert werden, welche Informationen protokolliert werden und wie detailliert das Protokoll angelegt werden soll. Die Serverattribute werden auf zwei Seiten angezeigt:
Einstellungen
Diese Seite enthält die grundlegenden Einstellungen für die Verwaltung und den Betrieb des Suchservers.
Tabelle 5 Attribute für die Servereinstellungen
Attribut
|
Standardwert
|
Beschreibung
|
Server-Root
|
/var/opt/SUNWps/https-servernamefull/portal
|
Enthält die Dateien mit den Informationen zu Konfiguration, Protokoll, Datenbank und Robot. Es ist auch das Root-Verzeichnis für alle Suchdateien, die bei der Durchführung einer Suche erstellt und aktualisiert werden. Dies lässt sich nicht konfigurieren.
|
Temporäre Dateien
|
/var/opt/SUNWps/https-servernamefull/portal/tmp
|
Enthält alle temporären Dateien, die bei einer Suche zur Verwaltung benötigt werden. Dies beinhaltet auch neu erstellte Ressourcenbeschreibungen (RDs), die noch nicht in die Haupt-Datenbank aufgenommen wurden. Sie werden entfernt, sobald die Suche abgeschlossen ist.
|
Sicherheit auf Dokumentebene
|
Deaktiviert
|
Kontrolliert, wer Zugriff auf Dokumente hat.
Wenn diese Einstellung verändert wird, muss der Server neu gestartet werden.
Werte:
- Aus bedeutet, dass alle Benutzer Zugriff auf die RDs haben.
- Ein bedeutet, dass das ReadACL Feld in einer RD überprüft wird, um festzustellen, ob der Benutzer, der die RD abfragt, auch dazu berechtigt ist. Dies ist der Fall, wenn der Benutzer einer anerkannten Organisation oder Rolle angehört oder ein anerkannter Einzelbenutzer ist. Das Feld ReadACL wird unter „Datenbank/Seite bearbeiten“ eingestellt.
|
Erweitert
Diese Seite enthält die erweiterten Einstellungen für die Verwaltung und den Betrieb des Suchservers. Hier können Sie die Protokolldateien für Benutzeranfragen, die Indexverwaltung, die Verwaltung der Ressourcenbeschreibung und die Fehlerbehebung konfigurieren.
Tabelle 6 Attribute für die erweiterten Servereinstellungen
Attribut
|
Standardwert
|
Beschreibung
|
Suchen (rdm)
|
/var/opt/SUNWps/https-servername/portal/logs/rdm.log
|
Protokolliert die Anfragen der Endbenutzer an die Datenbank. Sie können auf das Kontrollkästchen neben „Suchprotokoll deaktivieren“ klicken, um diese Protokollierung zu unterdrücken.
Wenn Sie dies tun, können Sie den Bericht zu Benutzerfragen (rdm) nicht mehr anzeigen.
|
Suchprotokoll deaktivieren
|
Falsch (nicht markiert) = aktiviert
|
Steuert die Verwendung des Anfrageprotokolls.
Im Abschnitt für Berichte können Sie einen Bericht erstellen, der die in diesem Protokoll angezeigten häufigsten Anfragen auflistet.
Werte:
|
Indexverwaltung
|
/var/opt/SUNWps/https-servername/portal/logs/searchengine.log
|
Protokolliert die Transaktionen, die die Suchmaschine einbeziehen, die Registrierung der Ressourcenbeschreibungen ist allerdings nicht eingeschlossen.
|
RD-Manager
|
/var/opt/SUNWps/https-servername/portal/logs/rdmgr.log
|
Protokolliert die Registrierung der Ressourcenbeschreibungen durch Robot oder die Importagenten in der Datenbank. Sie können dieses Protokoll als RD-Manager-Bericht (rdmgr) anzeigen.
|
RDM-Server
|
/var/opt/SUNWps/https-servername/portal/logs/rdmserver.log
|
Protokolliert Informationen zur Fehlerbehebung in RDM-Transaktionen. Durch die „Protokollebene“ wird gesteuert, wie detailliert die Informationen sind. Sie können dieses Protokoll als RDM-Server-Bericht (rdmsvr) anzeigen.
|
Protokollebene
|
1
|
Steuert den Grad der Details in der Protokolldatei des RDM-Servers.
Die möglichen Ebenen sind 2, 10, 20, 50, 100 und 999.
Wenn 1 (standardmäßig) eingestellt ist, werden nur schwere Fehler protokolliert. Je höher die Zahl ist, desto mehr Details sind in der Protokolldatei des RDM-Servers enthalten.
|
Robot
Die Eigenschaften von Robot sind ziemlich komplex. Sie können die Sites auswählen, die durchsucht werden sollen. Außerdem können Sie überprüfen, ob eine Site gültig ist. Oder Sie können definieren, welche Arten von Dokumenten aufgenommen werden sollen. Und schließlich können Sie einen Zeitplan für die Suche vorgeben.
Dieser Abschnitt ist wie folgt strukturiert:
Überblick
Im Überblicksfenster des Robot können Sie verfolgen, welche Funktionen Robot gerade ausführt: nämlich ob er ausgeschaltet ist oder im Leerlauf; ob er gerade läuft oder unterbrochen wurde. Wenn er gerade läuft, werden die bereits gemachten Suchfortschritte angezeigt, wobei das Bedienungsfeld etwa alle 30 Sekunden aktualisiert wird. Die Aktualisierungsrate wird im Parameter robot-refresh in der Datei search.conf definiert.
Die beiden Schaltflächen rechts oben geben seinen Status an. Wenn Robot ausgeschaltet ist, lauten die Schaltflächen „Start“ und „Entfernen“. Wenn er läuft oder im Leerlauf ist, zeigen die beiden Schaltflächen „Stopp“ und „Unterbrechen“ an. Wenn er unterbrochen wurde, sehen Sie auf den Schaltflächen „Stopp“ und „Fortsetzen“. Wenn Sie auf eines dieser Attribute klicken, springen Sie zum Abschnitt „Berichte“, wo Sie einen detaillierten, minutengenauen Bericht zu diesem Attribut erhalten.
Tabelle 7 Attribute für den Robot-Überblick
Attribut
|
Standardwert
|
Beschreibung
|
Robot
|
Aktuelle Aktivität
|
Status des Robot Der Wert ist Idle, Running, Paused oder Off
|
Aktualisiert am
|
Datum und Uhrzeit der letzten Aktualisierung
|
Diese Seite wird aktualisiert, damit Sie den Fortschritt von Robot verfolgen können.
|
Startpunkte
|
Definierte Anzahl
|
Anzahl der Sites, die Sie zur Suche ausgewählt haben. Eine Site wird über die Seite Robot/Site deaktiviert (nicht in die Suche aufgenommen).
|
URL-Pool
|
URLs in Warteschleife
|
Anzahl der URLs, die noch durchsucht werden müssen. Bei Beginn einer Suche werden die Startpunkt-URLs in den URL-Pool eingetragen. Mit Fortschreiten der Suche entdeckt Robot Links zu anderen URLs. Diese URLs werden dann dem Pool hinzugefügt. Nach Verarbeitung aller URLs im Pool ist der URL-Pool leer und Robot im Leerlauf.
|
Extrahieren
|
Verbindungen pro Sekunde
|
Anzahl der Ressourcen, die pro Sekunde abgefragt werden.
Extrahieren bezeichnet den Prozess, in dem Ressourcen, Dokumente oder Hyperlinks entdeckt oder lokalisiert werden, um sie dann in die Datenbank aufzunehmen und dabei unerwünschte Teile herauszufiltern.
|
Filtern
|
Abgelehnte URLs
|
Gesamtanzahl der URLs, die ausgeschlossen werden
|
Indizieren
|
Anzahl der URLs pro Sekunde
|
Anzahl von Ressourcen oder Dokumenten, die innerhalb einer Sekunde in eine Ressourcenbeschreibung umgewandelt werden.
Indizierung bezeichnet die Phase, in der alle Informationen, die in einem Dokument gesammelt wurden, in eine Ressourcenbeschreibung umgewandelt werden, um sie dann in die Such-Datenbank zu integrieren.
|
Ausgeschlossener URLs
|
Anzahl der URLs, die durch Filter ausgeschlossen werden
|
Anzahl der URLs, die den Filterkriterien nicht entsprechen
|
|
Anzahl der URLs, die aufgrund von Fehlern ausgeschlossen wurden
|
Anzahl der URLs, für die Robot Fehler gefunden hat (zum Beispiel „Datei nicht gefunden“)
|
Ressourcenbeschreibungen
|
Eingebrachte RDs
|
Anzahl der Ressourcenbeschreibungen, die der Datenbank hinzugefügt wurden
|
|
Anzahl an Bytes von eingebrachten RDs
|
Anzahl an Bytes, die der Datenbank hinzugefügt wurden
|
Allgemeiner Status
|
Abgerufene URLs
|
Anzahl der in einem Durchlauf abgerufenen URLs
|
|
Durchschnittliche RD-Größe in Byte
|
Durchschnittliche Anzahl an Bytes pro Ressourcenbeschreibung
|
|
Laufzeit in Tagen, Stunden, Minuten und Sekunden
|
Die Zeit, die der Robot bereits läuft
|
Sites
Die erste Seite dieses Abschnitts zeigt, welche Sites für die Suche verfügbar sind.
Eine Site kann über die Auswahlknöpfe aktiviert (An) und deaktiviert (Aus) werden. Eine deaktivierte Site wird nicht durchsucht, wenn Robot läuft. Der Link „Bearbeiten“ öffnet eine Seite, auf der die Definition einer Such-Site geändert werden kann.
Zum Löschen einer Site klicken Sie auf das Kontrollkästchen und dann auf „Löschen“.
Zum Hinzufügen einer neuen Site wählen Sie „Neue Site“ aus. Fügen Sie im Textfeld einen URL oder eine Domäne hinzu, und wählen Sie eine Suchtiefe aus. Wählen Sie „Erstellen“ aus, um die Standardwerte zu verwenden. Andernfalls wählen Sie „Erstellen“ und dann „Bearbeiten“ aus, um andere als die Standardwerte auszuwählen und zur Seite „Bearbeiten“ zu springen, auf der Sie die Such-Site definieren können.
Tabelle 8 Attribute zur Verwaltung von Sites über Robot
Attribut
|
Standardwert
|
Beschreibung
|
Status der Site
|
Schloss- oder Clustergrafik
|
Ein offenes Schloss bedeutet, dass der URL frei zugänglich ist. Das geschlossene Schloss bedeutet, dass es sich bei der Site um einen Sicherheits-Webserver handelt, der SSL-Verschlüsselung verwendet. Der Cluster bedeutet, dass es sich bei der Site um eine Domäne handelt.
|
Ein/Aus
|
Aktiviert
|
Wählen Sie aus, ob diese Site durchsucht wird, wenn Robot läuft.
|
Die Seite „Neue Site“ ermöglicht es Ihnen, eine vollständige Site zum Indizieren einzurichten.
Tabelle 9 Attribute für neue Sites von Robots
Attribut
|
Standardwert
|
Beschreibung
|
Neue Site
|
URL
|
URL-Format: http://www.sesta.com
Domain-Format: *.sesta.com
|
Tiefe
|
10
|
Sie haben die Wahl zwischen 1 für nur diesen URL, 2 für diesen URL und die ersten Links, 3 - 10 oder unbegrenzt. Der Standardwert wird auf der Seite Robot/Durchsuchen eingestellt.
|
Auf der Bearbeitungsseite können Sie die Such-Site vollständiger definieren. Sie können den Servertyp vorgeben, die Suchtiefe erneut definieren und auswählen, welche Dateitypen Sie der Datenbank hinzufügen möchten. Die Attribute für URL- und Domänen-Sites sind weitgehend die gleichen. Die zusätzliche Spalte in dieser Tabelle zeigt, welche Attribute gleich sind und welche eindeutig.
Auf dieser Seite werden eine Reihe von Aktionen durchgeführt. Sie können für die eingegebene Such-Site den Servernamen überprüfen. Sie können der Server-Gruppe weitere Server hinzufügen, indem Sie auf den Abschnitt „Zur Server-Gruppe hinzufügen“ klicken. Sie können weitere Startpunkte hinzufügen, indem Sie auf den Abschnitt „Zu den Startpunkten hinzufügen“ klicken. Im Abschnitt „Filter-Definition“ können Sie bestimmte Dateitypen hinzufügen, löschen, aus- oder einschließen und die Reihenfolge ändern, in der Filter für diese Dateien angewendet werden.
Tabelle 10 Attribute zur Bearbeitung der Robot-Sites
Attribut
|
URL/ Domäne
|
Standardwert
|
Beschreibung
|
Site-Pseudonym
|
URL/D
|
Eingegebene Site - www.sesta.com
|
Name, der auf der ersten Seite angezeigt wird. Standardmäßig wird der von Ihnen eingegebene URL oder die Domäne angezeigt. Hier können Sie den Namen ändern.
|
Kontrollkästchen zur Auswahl von Sites, die gelöscht oder überprüft werden sollen
|
URL/D
|
Nicht darauf geklickt
|
Nicht markiert – nicht ausgewählt
Markiert – ausgewählt
|
Servergruppe – Name
|
URL
|
URL – www.sesta.com
|
Ist entweder ein einzelner Server oder Teil eines einzelnen Servers. Die Eingabe muss den vollständigen Hostnamen enthalten. Wenn Sie nur einen Hostnamen vorgeben, ist die Site auf diesen Host beschränkt. Wenn Sie zusätzlich zum Hostnamen noch Verzeichnisinformationen eingeben, wird die Site als nur dieses Verzeichnis und jedes beliebige seiner Unterverzeichnisse definiert.
|
Domänensuffix
|
D
|
Eingegebene Domäne – *.sesta.com
|
Enthält alle Server innerhalb einer Domäne wie *.sesta.com.
|
Anschluss
|
URL/D
|
80 für URL; leer für Domain
|
Wenn die Site, die Sie suchen, einen anderen Anschluss verwendet, geben Sie ihn hier ein.
|
Typ
|
URL
|
Webserver
|
Webserver, Dateiserver, FTP-Server, Sicherer Webserver
|
Zulässige Protokolle
|
D
|
Alle Kontrollkästchen markiert
|
Kontrollkästchen für http, file, ftp, https
|
Startpunkte – Kontrollkästchen zur Auswahl der Sites, die gelöscht werden sollen
|
URL/D
|
Nicht darauf geklickt
|
Nicht markiert – nicht ausgewählt
Markiert – ausgewählt
|
Startpunkte – URL
|
URL/D
|
http:// URL:80
|
URL oder Domäne
|
Startpunkte – Tiefe
|
URL/D
|
10
|
1 – nur diesen URL
2 – dieser URL und die ersten Links
3-10
unbegrenzt
|
Filterdefinition – Mit diesem Kontrollkästchen wählen Sie den zu löschenden Filtertyp.
|
URL/D
|
Nicht darauf geklickt
|
Nicht markiert = nicht ausgewählt
Markiert = ausgewählt
|
Filterdefinitionen
|
URL/D
|
Standardmäßig sind Dateien in der folgenden Reihenfolge eingestellt: Archiv-Dateien; Audio-Dateien; Backup-Dateien; Binärdateien; CGI-Dateien; Bild-Dateien; Java, Javascript, Style-Sheet-Dateien; Protokoll-Dateien; Revision-Control-Dateien; Quellcode-Dateien; Temporär-Dateien; Video-Dateien.
|
Ausgewählt werden können: Archiv-Dateien; Audio-Dateien; Backup-Dateien; Binärdateien; CGI-Dateien; Bild-Dateien; Java, Javascript, Style-Sheet-Dateien; Protokoll-Dateien; Power-Point-Dateien; Revision-Control-Dateien; Quellcode-Dateien; Temporär-Dateien; Video-Dateien; Tabellenkalkulations-Dateien; Plugin-Dateien; Lotus Domino Documents; Lotus Domino OpenViews; System-Verzeichnisse (UNIX); System-Verzeichnisse (NT).
|
Kommentar
|
URL/D
|
Leer
|
Textfeld, in dem die Site für Sie beschrieben ist. Wird von Robot nicht benutzt.
|
DNS-Übersetzung
|
URL
|
Leer
|
Die DNS-Übersetzung ändert den URL und die Art, wie nach ihr gesucht wird, indem sie den Namen der Domäne oder des Alias durch einen cname ersetzt. Format: alias1->cname1,alias2->cname1
|
Filter
Die erste Seite in diesem Abschnitt zeigt alle definierten Filterregeln und die Site-Definitionen, die sie verwenden. Nach jedem Filternamen finden Sie ein Kontrollkästchen, mit dem Sie auf dieses Dokument klicken können, sowie zwei Auswahlknöpfe, über die Sie die Filterregel an- und ausschalten können. Wenn ein Kontrollkästchen markiert ist, ist der Filter ausgewählt und kann gelöscht werden. Sie können einen neuen Filter hinzufügen, indem Sie „Neu“ auswählen. Die neue Filterseite ist eine verkürzte Bearbeitungsseite, die nur ein Pseudonym und eine Regel verlangt. Als weitere Option können Sie auf den Link „Bearbeiten“ klicken, woraufhin Sie zu einer Seite gelangen, auf der Sie die Regel für diese Art von Filter oder seine Funktion definieren können. Jede Regel besteht aus einer Dropdown-Liste der Filterquellen, einer weiteren Dropdown-Liste mit der Funktion „Filtern nach“ und einem Textfeld für weitere Filterzeichenfolgenangaben.
Tabelle 11 Attribute zur Bearbeitung der Robot-Filter
Attribut
|
Standardwert
|
Beschreibung
|
Filtername
|
Fordert Sie auf, einen neuen Namen einzugeben. Dateiname des Dateityps, den Sie zur Bearbeitung auswählen können.
|
Ein beschreibender Name, der den Dateityp widerspiegelt, auf den der Filter angewandt wird
|
Dropdown-Liste der Filterquellen
|
URL für neuen Filter. Zeigt früher ausgewählte Informationen zu diesem speziellen Dateityp an.
|
URL, Protokoll, Host, Pfad, MIME-Typ
|
Dropdown-Liste der Positionen
|
ist für neuen Filter. Zeigt früher ausgewählte Informationen zu diesem speziellen Dateityp an. Beispielsweise haben binäre Dateien die Endung exe.
|
ist, enthält, beginnt mit, endet mit, regulärer Ausdruck
|
Textfeld für Angaben zum Typ (Verzeichnis, Protokoll, Dateierweiterungen)
|
Leer für neuen Filter. Zeigt früher ausgewählte Informationen zu diesem speziellen Dateityp an. Beispielsweise enthalten temporäre Dateien /tmp/.
|
In diesem Textfeld können Sie auflisten, was zusammengehören soll. Was in diesem Beispiel zusammengehören würde: http://docs.sesta.com/manual.html
Protokoll ist http; Host enthält sesta; Datei endet mit html.
|
Beschreibung
|
Fordert Sie auf, eine neue Beschreibung einzugeben. Zeigt die früher ausgewählte Beschreibung dieses speziellen Dateityps an.
|
Beschreiben Sie die Filterregeln für Ihren eigenen Gebrauch. Robot verwendet sie nicht.
|
Neue Site
|
Wahr (markiert) für neuen Filter. Zeigt den früher ausgewählten Wert für diesen speziellen Dateityp an.
|
Verwenden Sie diesen Filter beim Erstellen neuer Sites als Standardfilter. Wenn Sie dies nicht markieren, können Sie den Filter trotzdem noch einer neuen Site hinzufügen, indem Sie diese Site auf der Seite „Robot/Sites“ bearbeiten.
|
Standard
|
Keine Auswahl für einen neuen Filter getroffen. Standard, der vorher für definierten Filtertyp ausgewählt wurde.
|
Dokumente ausschließen, die auf diesen Filter passen.
Dokumente einschließen, die auf diesen Filter passen.
Die Auswahl für einen neuen Filter hat keine Auswirkung auf bereits vorhandene Site-Definitionen. Um Ihren neuen Filter auf eine bereits bestehende Site anzuwenden, müssen Sie die Site auf der Seite „Robot/Sites“ bearbeiten und ihn dort hinzufügen.
|
Bereitstellung
|
Liste der Sites, die diesen Filter verwenden.
|
|
Durchsuchen
Die Einstellungen auf dieser Seite steuern die Betriebsparameter und Standardeinstellungen von Robot. Sie ist in die folgenden Abschnitte aufgeteilt: Geschwindigkeit, Fertigstellungsvorgänge, Protokolleinstellungen, Standarderfüllung, Beglaubigungsparameter, Proxy-Einstellungen, Erweiterte Einstellungen und Linkverfolgung.
Tabelle 12 Attribute zum Durchsuchen über Robot
Attribut
|
Standardwert
|
Beschreibung
|
Serververzögerung
|
Keine Verzögerung
|
Keine Verzögerung (Standard), 1 Sekunde, 2 Sekunden, 5 Sekunden, 10 Sekunden, 30 Sekunden, 1 Minute, 5 Minuten.
|
Maximale Anzahl an Verbindungen – Maximale Anzahl der gleichzeitig abgerufenen URLs
|
8
|
1, 2, 4, 8 (Standard), 10, 12, 16, 20
|
Maximale Anzahl an Verbindungen pro Site
|
2
|
(unbegrenzt), 1, 2, 4, 8, 10, 12, 16, 20.
|
RDs an Indizierung senden alle
|
30 Minuten
|
3 Minuten, 5 Minuten, 10 Minuten, 15 Minuten, 30 Minuten (Standard), 1 Stunde, 2 Stunden, 4 Stunden, 8 Stunden.
|
Zu startendes Skript
|
nicht vorhanden (Standard)
|
nicht vorhanden (Standard) Beispieldateien finden Sie in den cmdHook-Dateien im Verzeichnis /opt/SUNWps/samples/robot (für die Standardinstallation).
|
Nach der Verarbeitung aller URLs
|
In den Leerlauf wechseln (Standard)
|
In Leerlauf wechseln (Standard), Herunterfahren, Neu starten.
|
Kontakt-E-Mail
|
user@domain
|
Geben Sie Ihre eigene E-Mail-Adresse ein.
|
Protokollebene
|
1 – Generierung
|
0 Nur Fehler; 1 Generierung (Standard); 2 Aufzählung, Umwandlung; 3 Filterung; 4 Erzeugung; 5 Abruf
|
Benutzeragent
|
SunONERobot/6.0
|
Softwarestand des Such-Servers
|
Protokoll „robots.txt“ ignorieren
|
Falsch (nicht markiert)
|
Manche Server haben eine Datei Robot.txt, die verhindert, dass Robots sie finden. Wenn Ihr Such-Robot diese Datei auf einer Site vorfindet und dieses Attribut auf „Falsch“ steht, durchsucht er diese Site nicht. Wenn dieses Attribut auf „Wahr“ steht, ignoriert Robot die Datei und durchsucht die Site.
|
Beglaubigung durchführen
|
Ja
|
Ja
Nein
|
Robot-Benutzername
|
Anonym
|
Robot verwendet den anonymen Benutzernamen, um auf eine Site zuzugreifen.
|
Passwort
|
user@domain
|
Eine Site, die anonyme Benutzer zulässt, verlangt häufig eine E-Mail-Adresse als Passwort. Diese Adresse ist als Nur-Text einzugeben.
|
Proxy-Benutzername
|
Anonym
|
Robot verwendet den anonymen Benutzernamen, um auf eine Site zuzugreifen.
|
Passwort
|
user@domain
|
Eine Site, die anonyme Benutzer zulässt, verlangt häufig eine E-Mail-Adresse als Passwort. Diese Adresse ist als Nur-Text einzugeben.
|
Proxy-Verbindungstyp
|
Direkte Internetverbindung
|
Direkte Internet-Verbindung, Proxy – Automatische Konfiguration, Proxy – Manuelle Konfiguration
|
Automatische Proxy-Konfiguration – Typ
|
Lokale Proxy-Datei
|
Lokale Proxy-Datei, Entfernte Proxy-Datei
|
Automatische Proxy-Konfiguration – Verzeichnis
|
Leer
|
Der Auto-Proxy enthält eine Datei, die alle benötigten Proxy-Informationen auflistet.
Beispiel einer lokalen Proxy-Datei: robot.pac. Beispiel einer entfernten Proxy-Datei: http://proxy.sesta.com:8080/proxy.pac
|
Manuelle Konfiguration des HTTP-Proxys
|
Leer
|
Format: server1.sesta.com:8080. Diese drei Werte einer manuellen Konfiguration sind in der Datei robot.pac im Verzeichnis /var/opt/SUNWps/https-servername/portal/config enthalten.
|
Manuelle Konfiguration des HTTPS-Proxys
|
Leer
|
Dieser manuell konfigurierte Wert ist in der Datei robot.pac enthalten.
Format: server1.sesta.com:8080
|
Manuelle Konfiguration des FTP-Proxys
|
Leer
|
Dieser manuell konfigurierte Wert ist in der Datei robot.pac enthalten.
Format: server1.sesta.com:8080
|
Links in HTML verfolgen
|
Wahr (markiert)
|
Hyperlinks aus HTML extrahieren
|
Maximale Anzahl an Links
|
1024
|
Begrenzt die Anzahl an Links, die Robot aus HTML-Ressourcen extrahieren kann. Da Robot Sites durchsucht und Links zu anderen Ressourcen findet, könnte er folglich riesige Mengen an Links verfolgen, die weit entfernt sind von seinem ursprünglichen Startpunkt.
|
Links in Nur-Text folgen
|
Falsch (nicht markiert)
|
Hyperlinks aus Nur-Text extrahieren
|
Maximale Anzahl an Links
|
1024
|
Begrenzt die Anzahl an Links, die Robot aus Nur-Text-Ressourcen extrahieren kann.
|
Cookies verwenden
|
Falsch (nicht markiert)
|
Wenn markiert, verwendet Robot Cookies beim Durchsuchen. Um durch einige Sites richtig navigieren zu können, werden dort Cookies verlangt. Robot speichert seine Cookies in einer Datei mit Namen cookies.txt im Statusverzeichnis von Robot. Das Format der Datei cookies.txt ist das gleiche wie es der Browser Netscape Communicator verwendet.
|
IP als Quelle verwenden
|
Wahr (markiert)
|
In den meisten Fällen arbeitet Robot nur mit dem Domain-Namen einer Ressource. Manchmal werden Sie aber Ressourcen auf der Basis von Unternetzen nach IP-Adressen (Internet Protocol) filtern oder klassifizieren wollen. In diesem Fall müssen Sie Robot ausdrücklich erlauben, die IP-Adresse zusätzlich zum Domain-Namen abzurufen. Beim Abruf von IP-Adressen wird eine zusätzliche DNS-Suche benötigt, die Robot verlangsamt. Wenn Sie diese Option nicht benötigen, können Sie sie abschalten und dadurch eine höhere Leistung erreichen.
|
Smart-Host-Heuristics
|
Falsch (nicht markiert)
|
Wahr (markiert) veranlasst Robot, vom Server allgemein verwendete unterschiedliche Hostnamen in einen einzigen Namen umzuwandeln. Dies ist besonders dann nützlich, wenn eine Site eine Reihe von Servern mit Alias-Namen hat (zum Beispiel www.sesta.com), der oft andere Namen hat (wie www1.sesta.com, www2.sesta.com und so weiter).
Wenn Sie diese Option aktivieren, übersetzt Robot intern alle Hostnamen, die mit wwwn beginnen, in www, wobei n für jede beliebige Ganzzahl steht. Dieses Attribut funktioniert nur bei Hostnamen, die mit wwwn beginnen.
Dieses Attribut kann nicht verwendet werden, wenn die CNAME-Auflösung auf AUS (falsch) steht.
|
Hostnamen in CNAMEs auflösen
|
Falsch (nicht markiert)
|
Wahr (markiert) bedeutet, dass Robot alle Hostnamen, auf die er stößt, validiert und in einen kanonischen Hostnamen auflöst. Dadurch kann Robot eindeutige RDs korrekt verfolgen. Falsch (nicht markiert) veranlasst Robot, die Hostnamen zwar zu validieren, sie aber nicht in die kanonische Form umzuwandeln. So werden RDs mit den verschiedenen Hostnamen, die Robot gefunden hat, möglicherweise doppelt aufgelistet.
So ist zum Beispiel devedge.sesta.com ein Alias für developer.sesta.com. Wenn die CNAME-Auflösung an ist, wird ein URL, der mit devedge.sesta.com referenziert ist, mit dem gefundenen Namen developer.sesta.com aufgelistet. Wenn die CNAME-Auflösung aus ist, behält die RD die ursprüngliche Referenz zu devedge.sesta.com bei.
Die Funktion „Smart-Host-Heuristics“ kann nicht aktiviert werden, wenn die CNAME-Auflösung auf AUS (falsch) steht.
|
Befehle von beliebigen Hosts akzeptieren
|
Falsch (nicht markiert)
|
Die meisten Steuerungsfunktionen von Robot arbeiten über einen TCP/IP-Port. Dieses Attribut steuert, ob Befehle an Robot vom lokalen Hostsystem (falsch) kommen müssen oder ob sie auch von jedem beliebigen Ort im Netz aus (wahr) kommen können.
Es wird empfohlen, die direkte Robot-Steuerung auf den lokalen Host (falsch) zu beschränken. Sie können Robot trotzdem noch über die Administrator-Konsole fernsteuern.
|
Standardmäßige Startpunkttiefe
|
10
|
1 – Nur Startpunkte, 2 – Über Lesezeichen, 3-10 Unbegrenzt.
Standardwert für die Ebenen von Hyperlinks, die Robot von jedem beliebigen Startpunkt aus durchläuft. Durch Bearbeiten der Site auf der Seite „Robot/Sites“ können Sie die Suchtiefe für jeden Startpunkt einstellen.
|
Arbeitsverzeichnis
|
/var/opt/SUNWps/https-servernamefull/portal/tmp
|
Vollständiger Pfad eines temporären Arbeitsverzeichnisses, das Robot zum Speichern von Daten verwenden kann. Robot ruft den gesamten Inhalt eines Dokuments ab und speichert ihn in diesem Verzeichnis. Oft handelt es sich dabei um große Mengen, weshalb der Speicherplatz groß genug sein sollte, um die gesamte Menge gleichzeitig aufnehmen zu können.
|
Statusverzeichnis
|
/var/opt/SUNWps/https-servernamefull/portal/robot
|
Vollständiger Pfad eines temporären Verzeichnisses, das Robot zum Speichern seiner Statusinformationen verwendet, einschließlich der Liste der URLs, die er besucht hat, des URL-Pools und so weiter. Diese Datenbank kann ziemlich groß sein, weshalb Sie sie lieber in einer separaten Partition des Arbeitsverzeichnisses platzieren sollten.
|
Indizieren
Robot durchsucht die Sites und sammelt Dokumente auf der Basis der von Ihnen ausgewählten Filter. Die gesammelten Dokumente haben viele unterschiedliche Formate. Um sie einheitlich und leicht zugänglich zu machen, müssen sie alle das gleiche Format haben, nämlich HTML. Diese Seite steuert einige der Teile, die in jede Ressourcenbeschreibung eingehen.
Tabelle 13 Attribute für den Robot-Index
Attribut
|
Standardwert
|
Beschreibung
|
Volltext oder Teiltext
|
Teiltext
|
Volltext verwendet in der Ressourcenbeschreibung das vollständige Dokument. Teiltext verwendet dagegen in der Ressourcenbeschreibung nur die angegebene Anzahl an Bytes.
|
Ersten # Byte extrahieren
|
4096
|
Geben Sie die Anzahl an Bytes ein.
|
Inhaltsverzeichnis extrahieren
|
Wahr (markiert)
|
Wahr integriert das Inhaltsverzeichnis in die Ressourcenbeschreibung.
|
Daten in META-Tags extrahieren
|
Wahr (markiert)
|
Wahr integriert die META-Tags in die Ressourcenbeschreibung.
|
Dokumentkonvertierung
|
Alle markiert (wahr); bei falsch kann dieser Dokumententyp nicht indiziert werden.
|
Adobe PDF
Corel Presentations
Corel Quattro Pro
FrameMaker
Lotus Ami Pro
Lotus Freelance
Lotus Word Pro
Lotus 1-2-3
Microsoft Excel
Microsoft Powerpoint
Microsoft RTF
Microsoft Word
Microsoft Works
Microsoft Write
WordPerfect
StarOffice Calc
StarOffice Impress
StarOffice Writer
XyWrite
|
Zeitüberschreitung bei Konvertierung
|
600
|
Zeit in Sekunden, die zur Umwandlung eines Dokuments in das HTML-Format benötigt werden darf. Bei Überschreitung dieser Zeit wird der URL ausgeschlossen.
|
Simulator
Diese Seite bietet ein Debugging-Werkzeug, das eine teilweise Simulation von Robot beim Filtern eines URLs durchführt. Zur Überprüfung können Sie einen neuen URL eingeben. Er prüft den URL, die DNS-Übersetzung (einschließlich Smart-Host-Heuristics) sowie die Umleitung von Sites. Er prüft jedoch nicht den Inhalt des Dokuments, das durch den URL angegeben wird. Somit kann er keine Verdoppelungen, MIME-Typen, Netz-Fehler, Berechtigungen usw. auffinden. Der Simulator gibt an, ob die aufgelisteten Sites vom Robot akzeptiert werden (AKZEPTIERT) oder nicht (WARNUNG).
Tabelle 14 Eigenschaften des Robot-Simulators
Attribut
|
Standardwert
|
Beschreibung
|
URL
|
Bereits definierte URLs und ein leeres Textfeld
|
Sie können den Zugang zu einer neuen Site überprüfen, indem Sie ihren URL in das leere Textfeld eintragen. Damit wird überprüft, ob die neue Site ein Durchsuchen akzeptiert.
Format http://www.sesta.com:80/
|
Nach DNS-Aliasen suchen
|
Wahr (markiert)
|
Wahr (markiert) überprüft die Anzahl an Servern mit Alias-Namen, die alle für die gleiche Adresse stehen.
|
Nach Serverumleitungen suchen (302)
|
Wahr (markiert)
|
Wahr (markiert) überprüft alle Serverumleitungen.
|
Sitetest
Diese Seite bietet ein Debugging-Werkzeug, das nach DNS-Aliasen, Serverumleitungen und virtuellen Servern sucht. Es liefert Informationen über die Site, überprüft aber nicht, ob sie ein Durchsuchen akzeptiert.
Tabelle 15 Attribute zur Überprüfung der Sites über Robot
Attribut
|
Standardwert
|
Beschreibung
|
Site
|
Leer
|
Tragen Sie den URL im Format http://www.sesta.com:80 ein.
|
Erweiterte DNS-Informationen anzeigen
|
Falsch (nicht markiert)
|
Bei Wahr (markiert) werden weitere Informationen zur Site einschließlich der IP-Adressen angezeigt.
|
Datenbank
Die Datenbank-Attribute sind unterteilt in:
- Seite „Such-Attribute“
|
Hinweis
|
Um die Datenbank zu partitionieren, müssen Sie die Befehlszeilenfunktion verwenden, da der Suchserver angehalten werden muss.
|
|
Verwaltung
Die erste Seite „Verwaltung“ listet die verfügbaren Datenbanken auf. Sie können eine neue anlegen oder eine bereits vorhandene neu indizieren, leeren oder ablaufen lassen. Verwenden Sie das Kontrollkästchen, um eine Datenbank auszuwählen, für die eine Aktion durchgeführt wird. Über die kleinen Symbole oberhalb des Kontrollkästchens können Sie alle Datenbanken an- oder abwählen. Wenn Sie „Neu indizieren“, „Leeren“ oder „Ablaufen lassen“ wählen, wird eine Aufforderung mit einer Liste von Datenbanknamen angezeigt, um zu bestätigen, dass Sie die Aktion durchführen möchten. Um die Aktion durchzuführen, wählen Sie OK.
Sie sollten die Datenbank neu indizieren, wenn Sie das Schema bearbeitet haben, um ein indiziertes Feld (als Autor) hinzuzufügen oder zu entfernen oder wenn ein Plattenfehler den Index zerstört hat.
Die Zeit, die für eine erneute Indizierung der Datenbank benötigt wird, verhält sich proportional zur Anzahl der RDs in der Datenbank. Eine große Datenbank sollte daher nur neu indiziert werden, wenn der Server nicht gerade extrem ausgelastet ist.
Wenn Sie den Inhalt der Datenbank leeren, wird auf diese Weise Speicherplatz für Indizes freigegeben. Speicherplatz für die Hauptdatenbank hingegen wird nicht freigegeben, dieser wird stattdessen für neue Datenbankdaten wieder verwendet.
Das Ablaufenlassen löscht alle RDs, die als veraltet betrachtet werden. Die Datenbank wird dadurch nicht verkleinert. Standardmäßig läuft eine RD nach 90 Tagen ab Erstellungsdatum ab.
Sie können die Datenbank auch bearbeiten, indem Sie den Link „Auswählen“, der zu einer Seite wechselt, auf der Sie die Datenbankattribute definieren.
Tabelle 16 Attribute für Datenbank-Verwaltung
Attribut
|
Standardwert
|
Beschreibung
|
Name
|
Standard
|
Name für die Datenbank, verwendet von der Suche
|
Titel
|
Leer
|
Ein Titel für die Datenbank
|
Beschreibung
|
Leer
|
Beschreiben Sie die Datenbank für sich selbst.
|
Importagenten
Importagenten bezeichnen Vorgänge, die Ressourcenbeschreibungen von anderen Servern oder Datenbanken holen und sie in Ihre Such-Datenbank integrieren.
Die Anfangsseite „Importieren“ listet die verfügbaren Importagenten auf. Sie können einen neuen anlegen oder einen bereits vorhandenen laufen lassen, bearbeiten oder löschen. Durch Markieren des Kontrollkästchens wählen Sie den Agenten aus, den Sie löschen möchten. Über die kleinen Symbole oberhalb des Kontrollkästchens können Sie alle Importagenten an- oder abwählen. Mit den Auswahlknöpfen können Sie einen Agentenvorgang ein- oder ausschalten. Zur zeitlichen Planung der Importagenten wählen Sie in der unteren Menüleiste „Zeitplan“ aus.
Zur Bearbeitung oder Änderung eines bereits vorhandenen Importagenten oder zum Erstellen eines neuen werden die folgenden Attribute angezeigt.
Tabelle 17 Attribute für Datenbank-Importagenten
Attribut
|
Standardwert
|
Beschreibung
|
Importieren aus
|
Lokale Datei
|
Wählen Sie entweder „Lokale Datei“ oder „Such-Server“ (falls aktiviert).
|
Pfad zur lokalen Datei
|
Leer für neu
|
Gibt den vollständigen Pfad für die lokale Datei an, die gültige Ressourcenbeschreibungen im SOIF-Format (Summary Object Interchange Format) enthält. Hierbei kann es sich um eine Datei oder einen anderen Server handeln, solange der Pfad adressiert werden kann, als ob er lokal installiert wäre.
|
Datenbankname
|
Standard
|
Name der Zieldatenbank
|
Remote-Server
|
Leer für neu
|
Gibt den URL des Suchservers an, von dem die Ressourcenbeschreibungen abgerufen werden können. Format: http://www.sesta.com:80
|
Objektname
|
Leer für neu
|
Instanzenbezeichnung des Servers, die vom Suchserver verwendet wird. Sie können diese Instanzenbezeichnung in den „Server-Einstellungen“ des Servers finden, von dem aus Sie den Import durchführen. Es kann nur der Wert 3.01C oder 3.01C SP1 eingegeben werden.
|
Such-URI
|
Leer für neu
|
Geben Sie den vollständige Pfad- und Dateibezeichnungen ein. Verwenden Sie /portal/search.
|
Ist dies ein Compass Server 3.01X?
|
Falsch (nicht markiert)
|
Ist der Server, von dem aus Sie den Import durchführen, ein Compass Server 3.01X?
|
SSL aktivieren
|
Falsch (nicht markiert)
|
Wenn es sich um eine Transaktion von Server zu Server handelt, wählen Sie aus, ob die Server das SSL-Protokoll (Secure Sockets Layer) verwenden sollen.
|
Authentifizierung
|
Keine (Standardwert)
|
Keine (Standard) oder Benutzer/Passwort verwenden.
Hier wird vorgegeben, wie die Importagenten sich selbst im System identifizieren sollen, von dem aus Sie importieren möchten. Standardmäßig wird keine Beglaubigung verwendet. Wenn der Server, von dem aus Sie den Import durchführen möchten, eine Beglaubigung verlangt, können Sie für den zu verwendenden Importagenten einen Benutzernamen und ein Passwort angeben. Importieren von 3.01C aus bedarf keiner Beglaubigung. Importieren von 3.01C SP1 aus bedarf jedoch einer Beglaubigung.
|
Benutzer
|
Leer für neu oder keines
|
Wenn Sie „Benutzer/Passwort verwenden“ ausgewählt haben, geben Sie einen Benutzernamen ein.
|
Passwort
|
Leer für neu oder keines
|
Wenn Sie „Benutzer/Passwort verwenden“ ausgewählt haben, geben Sie ein Passwort (angezeigt als *) ein.
|
Inhaltstransfer
|
Vollständige Inhalte inkrementell sammeln (Standardwert)
|
Auswahl von „Vollständige Inhalte inkrementell sammeln“ (Standard) oder „Suchabfrage verwenden“.
Gibt an, welche Ressourcenbeschreibungen von der Quelle importiert werden sollen.
Standardmäßig fragt ein Importagent nach allen Ressourcenbeschreibungen, die seit seinem letzten Import von der gleichen Quelle aus hinzugefügt oder geändert wurden.
Die Suchabfrage gibt an, dass der Importagent nur bestimmte Ressourcenbeschreibungen bei der Quelle abfragen soll. Dies geschieht in etwa in der gleichen Weise, in der Benutzer Ressourcenauflistungen von der Suchdatenbank abfragen.
Verwenden Sie die Felder „Bereich“, „Anzeige-Attribute“ und „Anzeigetreffer“, um die Abfrage vorzugeben.
|
Bereich
|
Leer für neu
|
Abfragetext. Die Abfragesyntax ist identisch mit der der Endbenutzer-Abfragen am Server.
|
Anzeigeattribute
|
Leer für neu
|
Listet die Felder (nicht unterschieden nach Groß-/Kleinschreibung) auf, die Sie mit jeder Ressourcenbeschreibung importieren möchten. Zum Beispiel Titel und Autor. Der Standardwert ist „Alle“.
|
Anzeigetreffer
|
Leer für neu
|
Gibt die maximale Anzahl der für den Import passenden Ressourcenbeschreibungen an. Wenn keine Trefferzahl angegeben wird, gilt der Standardwert 20.
|
Agentenbeschreibung
|
Leer für neu
|
Wird in der Liste der verfügbaren Importagenten auf der ersten Import-Seite angezeigt. Sie wird vom Programm ignoriert. Wenn dieses Feld leer ist, wird zur Identifizierung des Importagenten der Dateiname oder Servername unter „Ressourcenbeschreibung der Quelle“ verwendet. Gegebenenfalls sind hier Benutzername und Passwort anzugeben.
|
Neueste Ressourcenbeschreibung
|
Leer für neu
|
Das Erstellungsdatum der neuesten Ressourcenbeschreibung, die von dem betreffenden Importagenten als letzte importiert wurde. Dieses Datum wird von der Option „Vollständige Inhalte inkrementell sammeln“ verwendet, um festzustellen, welche Ressourcen neu sind und daher importiert werden sollten.
|
Netzwerk-Zeitüberschreitung in Sekunden
|
Leer für neu
|
Gibt die Zeit in Sekunden an, die der Importagent wartet, bevor die Netzwerkverbindung wegen Zeitüberschreitung getrennt wird. Sie können diesen Wert anpassen, um einem schwankenden Netzwerkaufkommen und unterschiedlicher Qualität gerecht zu werden.
|
Zeichensatz
|
Leer für neu
|
Gibt den Zeichensatz des SOIF-Eingabebildschirms an. Beispiel ISO8859-1, UTF-8, UTF-16: Zeichensätze ISO8859-1 bis ISO8859-15 werden unterstützt.
|
Ressourcenbeschreibungen
Auf der ersten Seite „Resourcenbeschreibungen“ können Sie die Ressourcenbeschreibungen in der Datenbank suchen. Sie können beispielsweise einen typografischen Fehler in einer RD korrigieren oder RDs, die vom Robot gefunden wurden, manuell den Kategorien zuordnen.
Tabelle 18 Attribute zur Ressourcenbeschreibung
Attribut
|
Standardwert
|
Beschreibung
|
Suchen nach
|
Alle RDs
|
Alle RDs, Unkategorisierte RDs, Kategorisierte RDs, RDs nach Kategorie, Bestimmte RD nach URL, RDs mit dem Inhalt
|
Textfeld
|
Leer
|
Geben Sie zur Identifizierung der gesuchten RD eine eindeutige Textfolge ein. Zu verwenden für RDs nach Kategorie, Bestimmte RD nach URL und RDs, die Attributwerte enthalten.
|
Datenbank
|
Standard
|
Name der zu suchenden Datenbank
|
Um die Suche nach Kategorie einzuschränken, wählen Sie „Kategorie wählen“. Eine Seite „Kategorie-Editor“ wird angezeigt, auf der Sie die Kategorie aus der Taxonomie für die Suche angeben können. Sie können die Kategorie im Textfeld „Ausgewählte Kategorie“ angeben oder die Taxonomie durchblättern, um sie auszuwählen. Nach Angabe der Kategorie wählen Sie OK, um zur RD-Suchseite zurückzukehren.
Tabelle 19 Attribute des Kategorie-Editors
Attribut
|
Standardwert
|
Beschreibung
|
Ausgewählte Kategorien
|
Leer
|
Textfeld, in das die Kategorie eingegeben wird
|
Alle einblenden
|
|
Blendet die Taxonomie ein, so dass alle Einträge in der Hierarchie angezeigt werden.
|
Alle ausblenden
|
Leer
|
Blendet die Taxonomie aus, so dass nur die Kategorien der ersten zwei Ebenen der Hierarchie angezeigt werden.
|
Kategorien pro Seite
|
25
|
Dropdown-Liste der Anzahl der pro Seite anzuzeigenden Kategorien. Werte sind 25, 50, 100, 250, 500 und „Alle“.
|
Eine erfolgreiche Suche zeigt die Anzahl an gefundenen RDs sowie ein Textfeld an, in dem die gefundenen RDs aufgelistet sind. Nach Auswahl einer RD werden die folgenden Attribute angezeigt, die Sie dann bearbeiten können, sowie Teiltexte der RD. Alle Attribute sind auf der Seite „Datenbank/Schema“ als bearbeitbar eingestellt, ausgenommen das Attribut „Klassifizierung“.
Tabelle 20 Bearbeitbare Attribute der Datenbank-RDs
Attribut
|
Standardwert
|
Beschreibung
|
Klassifizierung
|
Kategoriename der ausgewählten RD
|
„Kategoriename“, falls klassifiziert. „Keine Klassifizierung“, falls nicht klassifiziert.
|
ReadACL
|
Leer
|
Bezieht sich auf die Sicherheit auf Dokumentenebene.
|
Beschreibung
|
Beschreibung aus der ausgewählten RD
|
Beschreibung aus der RD
|
Schlagwörter
|
Schlagwörter (falls vorhanden) aus der ausgewählten RD
|
Schlagwörter sind den Meta-Tags entnommen.
|
Titel
|
Titel der ausgewählten RD
|
Titel der RD
|
Schema
Das Schema beschreibt, welche Informationen in einer Ressourcenbeschreibung angegeben werden und welche Form sie haben. Sie können einer RD neue Attribute oder Felder hinzufügen und einstellen, welche davon bearbeitbar und welche indizierbar sind. Beim Import neuer RDs können Sie Schemata, die in neuen RDs eingebettet sind, in Ihr eigenes Schema umwandeln.
Tabelle 21 Attribute zur Datenbank-Schemabearbeitung
Attribut
|
Standardwert
|
Beschreibung
|
Name
|
Leer
|
Name des ausgewählten Schemas: Autor, E-Mail-Adresse des Autors, Zeichensatz des Inhalts, Verschlüsselung des Inhalts, Sprache des Inhalts, Länge des Inhalts, Inhaltstyp, Beschreibung, Ablaufdatum, Volltext, Schlagwörter, Zuletzt geändert, Teiltext, Telefon, ReadACL, Titel, URL
|
Beschreibung
|
Leer
|
Diese Beschreibungen entsprechen den oben aufgelisteten Schemata. Dieses Textfeld steht für Ihre Kommentare zur Verfügung. Wird vom Suchserver nicht verwendet.
Autor(en) des Dokuments
E-Mail-Adresse(n) zur Kontaktierung des (der) Autor(en) des Dokuments
Informationen vom HTTP-Server zum Zeichensatz des Inhalts
Informationen vom HTTP-Server zur Verschlüsselung des Inhalts
Informationen vom HTTP-Server zur Sprache des Inhalts
Informationen vom HTTP-Server zur Länge des Inhalts
Informationen vom HTTP-Server zum Inhaltstyp
Kurze einzeilige Beschreibung des Dokuments
Datum, ab dem die Ressourcenbeschreibung nicht mehr gültig ist
Gesamter Inhalt des Dokuments
Schlagwörter, die das Dokument am besten beschreiben
Datum der letzten Aktualisierung des Dokuments
Teilauswahl von Text aus dem Dokument
Telefonnummer zur Kontaktierung des Autors
Von Suchservern verwendet, um die Sicherheit zu gewährleisten
Titel des Dokuments
Uniform Resource Locator oder Webadresse des Dokuments
|
Alias-Namen
Name
Beschreibung
|
Leer
|
Beim Import neuer RDs können Sie Schemata, die in neue RDs eingebettet sind, in Ihr eigenes Schema umwandeln. Sie würden von dieser Umwandlung Gebrauch machen, wenn es Unstimmigkeiten gibt zwischen den Namen, die für die Felder im Schema der Import-Datenbank verwendet wurden, und dem Schema für RDs in Ihrer eigenen Datenbank. Ein Beispiel dazu wäre, wenn Sie RDs importieren, die 'Verfasser' im Feld für den Autoren angeben, während Sie in Ihren eigenen RDs dafür die Bezeichnung 'Autor' verwenden. Sie würden dann also Verfasser zu Autor umwandeln und dazu Verfasser in dieses Textfeld eingeben.
|
Datentyp
|
Zeichenkette
|
Legt den Datentyp fest.
|
Bearbeitbar
|
Falsch (nicht markiert)
|
Bei Wahr (markiert) bedeutet dies, dass das ausgewählte Attribut (Feld) im Datenbank-RD-Editor angezeigt wird, wo Sie seine Werte ändern können.
Beschreibung, Schlagwörter, Titel und ReadACL sind bearbeitbar.
|
Indizierbar
|
Wahr
|
Bei Wahr (markiert) bedeutet dies, dass das ausgewählte Attribut (Feld) als Basis zur Indizierung verwendet werden kann.
Autor, Titel und URL werden im Menü in der Ansicht „Erweiterte Suche“ für den Endbenutzer angezeigt. Dies ermöglicht es den Endbenutzern, in den entsprechenden Feldern nach Werten zu suchen.
Autor, Ablaufdatum, Schlagwörter, Zuletzt geändert, Titel, URL und ReadACL können als Basis zur Indizierung verwendet werden.
|
Punktemultiplikator
|
1.0
|
Ein Gewichtungsfeld für die Bewertung eines betimmten Elements. Jeder positive Wert ist gültig.
|
Analyse
Die Seite „Analyse“ zeigt eine sortierte Liste aller Sites und die Anzahl an Ressourcen von dieser Site, die sich derzeit in der Suchdatenbank befinden. Wählen Sie „Analyse aktualisieren“, um die abgelegte Analyse zu aktualisieren.
Tabelle 22 Attribute für Datenbank-Analysen
Attribut
|
Standardwert
|
Beschreibung
|
Gesamte Anzahl an RDs
|
Aktuelle Anzahl an RDs in der Datenbank.
|
Listet die aktuelle Gesamtanzahl an Ressourcenbeschreibungen in der Datenbank auf.
|
Anzahl an Servern
|
Aktuelle Gesamtanzahl an Servern, über die die Datenbank partitioniert ist.
|
Die Datenbank kann partitioniert und auf eine Reihe von Servern verteilt werden.
|
Site
|
URL oder Domäne, die Robot erfolgreich durchsucht hat
|
Ein URL oder eine Domäne, die der Datenbank Ressourcenbeschreibungen hinzugefügt hat
|
Anzahl an RDs
|
Aktuelle Anzahl an RDs aus dieser Site
|
Listet die aktuelle Anzahl an RDs aus dieser Site auf
|
Typ
|
RD-Typ
|
Es sind Ressourcenbeschreibungen verschiedenster Typen möglich (z. B. http).
|
Prozentsatz
|
RD-Typ/Gesamtanzahl an RDs
|
Prozentsatz dieses Dokumententyps im Vergleich zu der Gesamtanzahl an Ressourcenbeschreibungen
|
Kategorien
Endbenutzer interagieren mit der Suchdatenbank auf zwei Arten: Sie können direkte Anfragen zur Datenbanksuche eingeben. Oder sie können über einen Satz an Kategorien, den Sie aufgestellt haben, durch den Inhalt der Datenbank browsen. Sie ordnen die Ressourcen in einer Suchdatenbank den Kategorien zu, um die Komplexität übersichtlicher zu gestalten. Wenn die Datenbank sehr viele Positionen enthält, wird es helfen, die zusammengehörigen Positionen in Gruppen zusammenzufassen. Beim Erstellen der Kategorien sollten Sie in erster Linie an ihre Anwendbarkeit denken, sodass die Endbenutzer spezielle Arten von Positionen schneller auffinden können.
Der Suchserver verwendet dabei eine Hierarchie an Kategorien, die so genannte Taxonomie. Der Begriff der Taxonomie beschreibt im Wesentlichen alle Kategoriesysteme. Im Kontext einer vernetzten Ressourcendatenbank, wie zum Beispiel einer Suchserverdatenbank, beschreibt er die Methoden, die Sie zur Kategorisierung von Netzwerkressourcen auswählen können, um dadurch ihr Auffinden zu erleichtern.
Das Thema der Kategorien ist in die folgenden Einzelthemen aufgeteilt:
Kategorie-Editor
Die Seite „Kategorie-Editor“ zeigt eine Liste der Kategorien in der Taxonomie, so dass Sie die Kategorien ansehen können. Nachdem Sie die Kategorie herausgesucht haben, können Sie den Kategorie-Link auswählen, um den Klassifizierungsregel-Editor aufzurufen, um die Robot-Sammlungen unter bestimmten Kategorien einzurichten.
Tabelle 23 Attribute des Kategorie-Editors
Attribut
|
Standardwert
|
Beschreibung
|
Alle einblenden
|
|
Blendet die Taxonomie ein, so dass alle Einträge in der Hierarchie angezeigt werden.
|
Alle ausblenden
|
|
Blendet die Taxonomie aus, so dass nur die Kategorien der ersten zwei Ebenen der Hierarchie angezeigt werden.
|
Neu indizieren
|
|
Indiziert die Datenbank neu. Nach Erstellung Ihrer Taxonomie müssen Sie die Datenbank indizieren, um Ihren Endbenutzern die Suche nach Kategorien zu ermöglichen. Wenn Sie Ihre Kategorien geändert haben, müssen Sie die Datenbank neu indizieren, um sie zu aktualisieren. Speichern Sie den Kategorienbaum, bevor Sie die Datenbank neu indizieren.
|
Kategorien pro Seite
|
25
|
Dropdown-Liste der Anzahl der pro Seite anzuzeigenden Kategorien. Werte sind 25, 50, 100, 250, 500 und „Alle“.
|
Name
|
Ausgewählte Kategorie
|
Name der zu bearbeitenden Kategorie
|
Beschreibung
|
Leer
|
Ihre Beschreibung der Kategorie.
|
Übereinstimmende Regel
|
Leer
|
Die zu verwendende, übereinstimmende Regel
|
Aktualisieren
|
|
Aktualisiert die Kategoriedefinition.
|
Als untergeordnetes Element hinzufügen
|
|
Fügt die Kategorie als untergeordnetes Element hinzu.
|
Als gleichwertiges Element hinzufügen
|
|
Fügt die Kategorie als gleichwertiges Element hinzu.
|
Klassifizierungsregel-Editor
Nach Erstellen der Kategorien für Ihre Datenbank können Sie diese Seite verwenden, um die Regeln aufzustellen oder zu ändern, die Robot zur Zuordnung von Ressourcen zu den Kategorien verwenden soll.
Tabelle 24 Attribute für den Kategorien-Klassifizierungsregel-Editor
Attribut
|
Standardwert
|
Beschreibung
|
Quelle
|
Ausgewählt
|
Autor, E-Mail-Adresse des Autors, Zeichensatz des Inhalts, Verschlüsselung des Inhalts, Sprache des Inhalts, Länge des Inhalts, Inhaltstyp, Beschreibung, Ablaufdatum, Volltext, Schlagwörter, Zuletzt geändert, Teiltext, Telefon, ReadACL, Titel, URL, Host, Protokoll, URI, IP, Pfad, Typ
|
Methode
|
ist
|
ist, enthält, beginnt mit, endet mit, regulärer Ausdruck
|
Kriterien
|
Leer
|
Gibt die Kriterien für die Regel an.
|
Klassifizierung
|
.Leer
|
Kategorie, in der die RD klassifiziert wird, wenn die Regelbedingungen erfüllt werden. Geben Sie die Kategorie ein oder verwenden Sie die Seite „Kategoriebearbeitung auswählen“, um zu ihr zu wechseln.
|
Automatisch klassifizieren
Diese Seite steuert die Funktion „Automatisch klassifizieren“.
Tabelle 25 Attribute von „Kategorien automatisch klassifizieren“
Attribut
|
Standardwert
|
Beschreibung
|
Protokollpfad
|
|
Der Speicherort der Protokolldatei, die „Automatisch klassifizieren“ verwendet.
|
Ressourcenbeschreibungen im Speicher
|
10000
|
Die Cachegröße für im Speicher abgelegte Ressourcenbeschreibungen. Wenn die gesammelten Ressourcenbeschreibungen die angegebene Größe überschreiten, werden Sie im temporären Datenbankspeicher abgelegt. Geben Sie für eine bessere Leistung eine höhere Größe an. Dann wird jedoch auch mehr Speicher verwendet.
|
Datenbankpfad:
|
|
Die für die temporäre RD-Speicherdatenbank verwendete Datei
|
Berichte
Im Abschnitt „Berichte“ können Sie Ihren Suchserver überwachen. Sie können darin eine Zusammenfassung seiner Aktivitäten sehen: welche Seiten durchsucht wurden, welche URLs ausgeschlossen wurden und warum. Detaillierte Informationen zu den von Robot besuchten URLs und schließlich, woran Ihre Endbenutzer interessiert sind.
Das Berichtethema ist in die folgenden Einzelthemen aufgeteilt:
Startpunkte
Robot besucht bei jedem Start alle aktivierten Sites.
Tabelle 26 Attribute für Startpunkt-Berichte
Attribut
|
Standardwert
|
Beschreibung
|
Aktiviert
|
Aktueller Wert der Site
|
Ja oder Nein
Das wird auf der Seite Robot/Sites eingestellt.
|
Startpunkt
|
Ausgewählter URL:80
|
Der Link ruft den ausgewählten URL auf.
|
In der Sitedefinition
|
Ausgewählter URL
|
Link zur Bearbeitungsseite Robot/Sites
|
Tiefe
|
Listet die ausgewählte Suchtiefe auf.
|
1-n Satz auf der Bearbeitungsseite Robot/Sites
|
Ausgeschlossener URLs
Diese Seite zeigt eine Liste der Robot-Läufe an. Zur Anzeige einer Liste mit den Gründen für den Ausschluss von URLs wählen Sie einen Robot-Lauf zur Überprüfung, dann „Ausgewählte Anzeige“ und anschließend einen der Gründe für den Ausschluss aus. Daraufhin wird eine Liste mit den aus diesem Grund ausgeschlossenen URLs angezeigt. Doppelte und „Warnungs“-Ausschlüsse wurden entfernt.
Tabelle 27 Attribute für Berichte über ausgeschlossene URLs
Attribut
|
Standardwert
|
Beschreibung
|
Protokoll
|
Listet das Protokoll des letzten Laufs auf.
|
Listet alle verfügbaren Laufprotokolle auf.
|
Zählung
|
Nummern
|
Liste mit Nummern und den Gründen für einen Ausschluss
|
Grund für Ausschluss
|
Liste der Gründe, weshalb Sites nicht zugelassen wurden. Jeder Grund hat einen Link zu allen URLs, die aus diesem Grund ausgeschlossen wurden.
|
Filterregeln, Datei nicht gefunden, Site nicht zugelassen, Protokoll nicht zugelassen; Fehler und Verdoppelung sind einige der Gründe für den Ausschluss von URLs.
|
Erweiterte Berichte von Robot
Auf dieser Seite erhalten Sie Zugriff auf eine Reihe von unterschiedlichen Berichten von Robot. Wählen Sie aus einer Dropdown-Liste die Informationen zur Anzeige des gewählten Berichts aus. Über die Schaltfläche „Aktualisieren“ erhalten Sie die aktuellen Informationen.
Tabelle 28 Attribute für erweiterte Berichte von Robot
Attribut
|
Standardwert
|
Beschreibung
|
Erweiterte Berichte von Robot
|
Version
|
Version, DNS-Cacheleerung, Leistung, Gefundene Server – Alle, Gefundene Server – RDM, Status – Aktuelle Konfiguration, Status – Datenbank (intern), Status – Libnet, Status – Module, Status – Übersicht, URLs – zur Dekomprimierung bereit, URLs – zum Indizieren bereit, URLs – warten auf Filterung (URL-Pool), URLs – warten auf Indizierung, Alle Berichte
|
Protokolldateien
Auf dieser Seite können Sie die Einträge oder bestimmte Zeilen aus einer Protokolldatei anzeigen. Dropdown-Liste der Protokolldateien. Geben Sie die Anzahl der Zeilen ein, die angezeigt werden sollen, wenn Sie die Schaltfläche „Anzeigen“ auswählen.
Tabelle 29 Attribute für Berichte der Anzeige-Protokolldateien
Attribut
|
Standardwert
|
Beschreibung
|
Diese Protokolldatei anzeigen
|
Ausgeschlossene URLs (Filter)
|
Ausgeschlossene URLs (Filter), RD-Manager (rdmgr), RDM-Server (rdmsvr), Robot-Aktivitäten (Robot), Suchmaschine (searchengine), Benutzeranfragen (rdm)
|
Anzahl der Zeilen
|
25
|
Eine Zahl, die Sie eingeben können, um die aktuellsten Einträge in der Protokolldatei anzuzeigen.
|
Häufige Suchabfragen
Auf dieser Seite können Sie sehen, wonach Benutzer suchen. Die am häufigsten verwendeten Suchabfragen werden im Bericht zuerst angezeigt.
Tabelle 30 Attribute für Berichte häufiger Suchabfragen
Attribut
|
Standardwert
|
Beschreibung
|
Durchsuchen ausschließen
|
Falsch (nicht markiert)
|
Falsch (nicht markiert) enthält Informationen dazu, welche Kategorien die Benutzer durchblättern. Wahr (markiert) schließt statistische Informationen zum Durchsuchen aus.
|
Zeitplan
Startzeit von Robot
Auf dieser Seite richten Sie die automatische Startzeit für den Robot ein.
Tabelle 31 Attribute für die Startzeit von Robot
Attribut
|
Standardwert
|
Beschreibung
|
Zeitpunkte
|
00:00
|
Dies ist die Zeit, zu der Robot mit der Suche beginnt.
|
Tage
|
Nicht ausgewählt
|
So, Mo, Di, Mi, Do, Fr oder Sa
|
Endzeit von Robot
Auf dieser Seite richten Sie die automatische Endzeit für den Robot ein.
Tabelle 32 Attribute für die Endzeit von Robot
Attribut
|
Standardwert
|
Beschreibung
|
Zeit
|
00:00
|
Wenn Sie Robot im Dauerbetrieb laufen lassen möchten, empfiehlt es sich, dass Sie die Funktion mindestens einmal pro Tag anhalten und neu starten. Dadurch kann Robot Ressourcen freigeben und sich selbst reinitialisieren.
|
Tage
|
Nicht ausgewählt
|
So, Mo, Di, Mi, Do, Fr oder Sa
|
Import starten
Auf dieser Seite richten Sie den Zeitplan für die Ausführung der Importagenten ein.
Tabelle 33 Attribute für den Start der Importagenten
Attribut
|
Standardwert
|
Beschreibung
|
Zeit
|
00:00
|
Zeitpunkt, an dem der Importagent mit dem Importvorgang beginnt
|
Tage
|
Nicht ausgewählt
|
So-Sa
|
Automatisch klassifizieren starten
Auf dieser Seite richten Sie den Start für die Funktion „Automatisch klassifizieren“ ein.
Tabelle 34 Attribute für die Startzeit von „Automatisch klassifizieren“
Attribut
|
Standardwert
|
Beschreibung
|
Zeit
|
00:00
|
Zeit, zu der „Automatisch klassifizieren“ startet
|
Tage
|
Nicht ausgewählt
|
So-Sa
|