Page des attributs de recherche
Cette annexe décrit les attributs à configurer pour le moteur de recherche via la console d’administration de Sun Java System Identity Server.
Lorsque vous sélectionnez les propriétés de recherche dans Gestion des services, une barre de menus bicolore à onglets apparaît. La présentation de cette annexe dépend des rubriques ou onglets affichés dans la partie supérieure de cette barre de menus.
Lorsque l’un de ces onglets est sélectionné, les sous-rubriques correspondantes sont répertoriées dans la barre de menus au-dessous. Serveur/Paramètres est sélectionné dans la page de recherche par défaut. Chaque sous-rubrique contient un ou plusieurs tableaux qui expliquent ses attributs. Les tableaux se divisent en trois colonnes : Attribut, Valeur par défaut et Description. La colonne Attribut indique le libellé fourni dans la page. La colonne Valeur par défaut correspond à la valeur par défaut de l’attribut. La colonne Description fournit une explication du rôle de l’attribut et du format dans lequel il doit apparaître.
Toutes les pages intitulées Propriétés de recherche comportent l’attribut Sélectionner un serveur comme le décrit le Tableau 4.
Tableau 4 Attribut de recherche Sélectionner un serveur
Attribut
|
Valeur par défaut
|
Description
|
Sélectionner un serveur
|
http://nomduserveur:80/portal
|
Nom complet du serveur de recherche.
|
Serveur
La section Serveur vous permet de définir les préférences relatives à votre serveur. Sélectionnez le répertoire à utiliser pour les fichiers temporaires, les informations à consigner et les détails à fournir dans les journaux. Les attributs de serveur sont affichés dans deux pages :
Paramètres
Cette page contient les paramètres élémentaires d’administration et de fonctionnement du serveur de recherche.
Tableau 5 Attributs des paramètres du serveur
Attribut
|
Valeur par défaut
|
Description
|
Racine du serveur
|
/var/opt/SUNWps/https-nomdeserveurcomplet/portal
|
Héberge la configuration, le journal, la base de données et les fichiers d’information du robot. Il s’agit également du répertoire racine de tous les fichiers de recherche générés et mis à jour au cours d’une recherche. Toute configuration est impossible.
|
Fichiers temporaires
|
/var/opt/SUNWps/https-nomdeserveurcomplet/portal/tmp
|
Contient tous les fichiers temporaires utilisés pour gérer une recherche au cours de celle-ci. Inclut les descriptions de ressource récemment générées, mais n’ayant pas encore été ajoutées à la base de données principale. Celles-ci sont supprimées une fois la recherche terminée.
|
Sécurité au niveau du document
|
Désactivé
|
Détermine les utilisateurs autorisés à accéder aux documents.
Une fois ce paramètre modifié, il est nécessaire de redémarrer le serveur.
Valeurs :
- Désactivé (par défaut) signifie que tous les utilisateurs ont accès aux descriptions de ressource.
- Activé signifie que le champ ReadACL d’une description de ressource est vérifié pour s’assurer que l’utilisateur demandant l’accès à la description dispose des autorisations nécessaires, c’est-à-dire qu’il fait partie d’une organisation ou a un rôle reconnus ou encore qu’il est lui-même un utilisateur reconnu. La page Modifier de la base de données permet de paramétrer le champ ReadACL.
|
Avancé
Cette page contient les paramètres avancés d’administration et de fonctionnement du serveur de recherche. Elle sert à configurer les journaux des requêtes des utilisateurs, la gestion de l’index, la gestion des descriptions de ressource et le débogage.
Tableau 6 Attributs des paramètres avancés du serveur
Attribut
|
Valeur par défaut
|
Description
|
Recherche (rdm)
|
/var/opt/SUNWps/https-nomduserveur/portal/logs/rdm.log
|
Permet de consigner les requêtes effectuées par les utilisateurs sur la base de données. Pour supprimer cette journalisation, il suffit de cocher la case Désactiver le journal de recherche.
Dans ce cas, vous n’avez pas la possibilité de visualiser le rapport Requêtes utilisateur (rdm).
|
Désactiver le journal de recherche
|
Faux (désélectionnée) - activée
|
Contrôle l’utilisation du journal de requêtes.
Dans la section Rapport, il est possible de générer un rapport répertoriant les requêtes les plus courantes, sur la base de ce journal.
Valeurs :
- Sélectionnée - désactivée
- Désélectionnée - activée. Toutes les requêtes utilisateur figurent dans ce journal.
|
Gestion de l’index
|
/var/opt/SUNWps/https-nomduserveur/portal/logs/searchengine.log
|
Permet de consigner les transactions impliquant le moteur de recherche, sauf l’enregistrement des descriptions de ressource.
|
Gestionnaire des descriptions de ressource
|
/var/opt/SUNWps/https-nomduserveur/portal/logs/rdmgr.log
|
Permet de consigner l’enregistrement des descriptions de ressource du robot ou les agents d’importation dans la base de données. Vous pouvez consulter ce journal en tant que rapport du gestionnaire des descriptions de ressource (rdmgr).
|
Serveur du gestionnaire des descriptions de ressource
|
/var/opt/SUNWps/https-nomduserveur/portal/logs/rdmserver.log
|
Permet de consigner les informations du débogage effectué sur les transactions du gestionnaire des descriptions de ressource. Le niveau de détail est déterminé par le niveau du journal. Vous pouvez consulter ce journal en tant que rapport du serveur du gestionnaire des descriptions de ressource (rdmsvr).
|
Niveau du journal
|
1
|
Détermine la quantité d’informations incluse dans le journal du serveur du gestionnaire des descriptions de ressource.
Il est possible de régler le niveau sur 2, 10, 20, 50, 100 et 999.
La valeur 1 (par défaut) ne permet de consigner que les erreurs graves. Plus la valeur est élevée, plus la quantité d’informations incluse dans le journal du serveur du gestionnaire des descriptions de ressource est importante.
|
Robot
Les propriétés du robot sont relativement complexes. Il est possible de sélectionner les sites à rechercher, de vérifier la validité d’un site, de définir les types de document à sélectionner et de programmer le moment où une recherche doit avoir lieu.
Cette section est organisée de la façon suivante :
Présentation
Le panneau Présentation du robot permet de vérifier l’état actuel de celui-ci : désactivé, inactif, en cours d’exécution ou en pause. Si le robot est en cours d’exécution, vous pouvez vérifier la progression de la recherche, dans la mesure où le panneau est actualisé toutes les 30 secondes. Le paramètre robot-refresh du fichier search.conf définit le taux de rafraîchissement.
Les deux boutons situés en haut à droite s’adaptent à l’état du robot. Les boutons Démarrer et Supprimer correspondent à l’état Désactivé. Les boutons Arrêter et Pause correspondent aux états En cours d’exécution ou Inactif. Les boutons Arrêter et Reprendre correspondent quant à eux à l’état En pause. Sélectionnez l’un ou l’autre des attributs pour accéder à la section Rapports, à partir de laquelle il est possible d’obtenir un rapport détaillé de cet attribut à la minute près.
Tableau 7 Attributs de présentation du robot
Attribut
|
Valeur par défaut
|
Description
|
Le robot est
|
Activité en cours
|
État du robot. La valeur peut correspondre à Inactif, En cours d'exécution, En pause ou Désactivé.
|
Mis à jour
|
Date et heure de la dernière actualisation.
|
Cette page est actualisée pour vous permettre de vérifier la progression du robot.
|
Points de départ
|
Nombre défini
|
Nombre de sites sélectionnés pour la recherche. Pour désactiver un site (l’exclure de la recherche), utilisez la page Robot, Site.
|
Pool d’URL
|
Nombre d’URL en attente
|
Nombre d’URL devant encore être examinées. Au début d’une recherche, les URL du point de départ sont entrées dans le pool d’URL. Au fur et à mesure que la recherche progresse, le robot trouve des liens vers d’autres URL. Ces URL sont alors ajoutées au pool. Une fois que toutes les URL du pool ont été vérifiées, le pool d’URL est vide et le robot devient inactif.
|
Extraction
|
Nombre de connexions par seconde
|
Nombre de ressources vérifiées à la seconde.
L’extraction consiste à détecter ou à localiser des ressources, des documents ou des liens hypertexte à inclure dans la base de données, ainsi qu’à filtrer les éléments superflus.
|
Filtrage
|
Nombre d’URL rejetées
|
Nombre total d’URL exclues.
|
Indexation
|
Nombre d’URL par seconde
|
Nombre de ressources ou de documents convertis en description de ressource par seconde.
L’indexation est la phase qui suit la collecte de toutes les informations relatives à un document, au cours de laquelle ces dernières sont converties en description de ressource à inclure dans la base de données.
|
URL exclues
|
Nombre d’URL exclues par les filtres
|
Nombre d’URL ne correspondant pas aux critères de filtrage.
|
|
Nombre d’URL exclues pour cause d’erreur
|
Nombre d’URL pour lesquelles le robot a rencontré des erreurs de type « fichier introuvable ».
|
Descriptions des ressources
|
Nombre de descriptions de ressources fournies
|
Nombre de descriptions de ressource ajoutées à la base de données.
|
|
Nombre d’octets de descriptions de ressources fournis
|
Nombre d’octets ajoutés à la base de données.
|
Statistiques globales
|
Nombre d’URL extraites
|
Nombre d’URL extraites pendant l’exécution.
|
|
Taille moyenne des descriptions de ressources en octets
|
Nombre moyen d’octets par description de ressource.
|
|
Temps d’exécution en jours, heures, minutes et secondes
|
Durée d’exécution du robot.
|
Sites
La page initiale de cette section présente les sites disponibles pour la recherche.
Il est possible d’activer (Activé) et de désactiver (Désactivé) un site à l’aide des boutons radio. Un site désactivé est exclu de la recherche pendant l’exécution du robot. Le lien Modifier affiche une page qui permet de modifier la définition d’un site recherché.
Pour supprimer un site, cochez la case correspondante, puis cliquez sur Supprimer.
Pour ajouter un site, sélectionnez Nouveau. Indiquez une URL ou un domaine dans la zone de texte, puis sélectionnez l’étendue de la recherche. Choisissez Créer pour utiliser les valeurs par défaut. Vous pouvez aussi sélectionner l’option Créer et modifier afin de choisir des valeurs autres que celles proposées par défaut et d’accéder à la page Modifier qui permet de définir le site recherché.
Tableau 8 Attributs de gestion des sites du robot
Attribut
|
Valeur par défaut
|
Description
|
État du site
|
Graphique représentant un verrou ou un cluster
|
Un verrou ouvert signifie que l’URL est accessible. Si le verrou est fermé, le site se trouve sur un serveur Web sécurisé et utilise un certificat SSL. Le cluster signifie que le site est un domaine.
|
Activé/Désactivé
|
Activé
|
Indiquez si ce site doit ou non faire l’objet d’une recherche pendant l’exécution du robot.
|
La page Nouveau site permet de configurer l’ensemble d’un site en vue de l’indexation.
Tableau 9 Attributs Nouveau site du robot
Attribut
|
Valeur par défaut
|
Description
|
Nouveau site
|
URL
|
Format de l’URL : http://www.sesta.com
Format du domaine : *.sesta.com
|
Profondeur
|
10
|
Les possibilités sont les suivantes : 1 pour cette URL uniquement, 2 pour cette URL et les premiers liens, 3 à 10 ou illimité. La page Robot, Recherche permet de définir la valeur par défaut.
|
Le site peut être défini de manière plus exhaustive dans la page de modification. Il est possible d’indiquer le type de serveur, de redéfinir la profondeur (l’étendue) de la recherche et de sélectionner le type de fichier à ajouter à la base de données. Les attributs d’URL et des sites du domaine sont en grande partie identiques. La colonne supplémentaire de ce tableau différencie les attributs partagés et les attributs uniques.
Plusieurs opérations peuvent être effectuées à partir de cette page. Vous avez la possibilité de vérifier le nom du serveur du site recherché saisi. Dans la section Groupe de serveurs, cliquez sur Ajouter pour ajouter d’autres serveurs à ce groupe. Dans la section Points de départ, cliquez sur Ajouter pour ajouter d’autres points de départ. Dans la section Définition de filtre, il est possible d’ajouter, de supprimer, d’exclure ou d’inclure certains types de fichier, ainsi que de modifier l’ordre d’application des filtres pour ces fichiers.
Tableau 10 Attributs de modification des sites du robot
Attribut
|
URL/Domaine
|
Valeur par défaut
|
Description
|
Surnom du site
|
URL/D
|
Site saisi : www.sesta.com
|
Nom affiché dans la page initiale. Le nom par défaut correspond à celui de l’URL ou du domaine saisi. Vous pouvez modifier ce nom dans ce champ.
|
Case à cocher pour supprimer ou vérifier le site
|
URL/D
|
Désélectionnée
|
Désélectionnée - désactivée
Sélectionnée - activée
|
Groupe de serveurs - Nom
|
URL
|
URL : www.sesta.com
|
Serveur simple ou partie d’un serveur simple. Le nom d’hôte complet doit figurer dans cette entrée. Si vous indiquez juste le nom de l’hôte, le site se limite à cet hôte. Si vous fournissez des informations sur le répertoire en plus du nom d’hôte, le site est uniquement défini par ce répertoire et ses sous-répertoires.
|
Suffixe du domaine
|
D
|
Domaine saisi : *.sesta.com
|
Inclut tous les serveurs d’un domaine, tels que *.sesta.com.
|
Port
|
URL/D
|
80 pour l’URL ; vide pour le domaine
|
Si le site recherché utilise un port différent, indiquez-le ici.
|
Type
|
URL
|
Serveur Web
|
Serveur Web, Serveur de fichiers, Serveur FTP, Serveur Web sécurisé
|
Protocoles autorisés
|
D
|
Toutes les cases sont cochées.
|
Cases à cocher pour http, fichier, ftp, https
|
Points de départ : case à cocher permettant de sélectionner le site à supprimer.
|
URL/D
|
Désélectionnée
|
Désélectionnée - désactivée
Sélectionnée - activée
|
Points de départ - URL
|
URL/D
|
http:// URL:80
|
URL ou domaine
|
Points de départ - Profondeur
|
URL/D
|
10
|
1 : uniquement cette URL
2 : cette URL et les premiers liens
3-10
illimité
|
Définition de filtre : case à cocher permettant de sélectionner le type de fichier à supprimer.
|
URL/D
|
Désélectionnée
|
Désélectionnée - désactivée
Sélectionnée - activée
|
Définitions de filtre
|
URL/D
|
Les options par défaut sont, dans l’ordre : fichiers d’archive ; fichiers audio ; fichiers de sauvegarde ; fichiers binaires ; fichiers CGI ; fichiers d’images ; fichiers CSS, Java ou Javascript ; journaux ; fichiers de commande de révision ; fichiers de code source ; fichiers temporaires ; fichiers vidéo.
|
Il est possible de sélectionner : fichiers d’archive ; fichiers audio ; fichiers de sauvegarde ; fichiers binaires ; fichiers CGI ; fichiers d’images ; fichiers CSS, Java ou Javascript ; journaux ; fichiers PowerPoint ; fichiers de commande de révision ; fichiers de code source ; fichiers temporaires ; fichiers vidéo ; fichiers de feuilles de calcul ; fichiers plug-in ; documents Lotus Domino ; Lotus Domino OpenViews ; répertoires système (UNIX) ; répertoires système (NT).
|
Commentaire
|
URL/D
|
Vierge
|
Champ de texte qui fournit une description du site. Il n’est pas utilisé par le robot.
|
Traduction DNS
|
URL
|
Vierge
|
La traduction DNS modifie l’URL et le mode de recherche en remplaçant un nom de domaine ou un alias par un cname. Format : alias1->cname1,alias2->cname1
|
Filtres
La page initiale de cette section montre toutes les règles de filtrage définies et les définitions de site qui les utilisent. Chaque nom de filtre est accompagné d’une case à cocher qui permet de sélectionner le type de document, ainsi que de deux boutons radio qui permettent d’activer ou de désactiver la règle du filtre. Lorsque la case est cochée, le filtre correspondant est sélectionné et peut être supprimé. Pour ajouter un nouveau filtre, sélectionnez Nouveau. La nouvelle page de filtre est une version abrégée de la page de modification. Elle ne nécessite qu’un surnom et qu’une seule règle. Il est également possible de cliquer sur le lien Modifier afin d’accéder à la page dans laquelle vous pouvez définir les règles applicables à un type de fichier ou encore la fonction du filtre. Chaque règle se compose d’une liste déroulante de sources de filtre, d’une liste déroulante Filtrer par et d’une zone de texte permettant de saisir les particularités relatives à la chaîne de filtre.
Tableau 11 Attributs de modification de filtre du robot
Attribut
|
Valeur par défaut
|
Description
|
Nom du filtre
|
Vous invite à entrer un nouveau nom. Nom du type sélectionné pour modification.
|
Nom descriptif qui indique le type de fichier auquel le filtre s’applique.
|
Liste déroulante de sources de filtre
|
URL du nouveau filtre. Affiche les informations précédemment sélectionnées pour ce type de fichier.
|
URL, protocole, hôte, chemin, type MIME
|
Liste déroulante de positions
|
est pour le nouveau filtre. Affiche les informations précédemment sélectionnées pour ce type de fichier. Par exemple, le type Fichiers binaires se termine par exe.
|
est, contient, commence par, finit par, expression standard
|
Zone de texte réservée aux particularités du type (répertoire, protocole, extensions de fichier).
|
Vierge dans le cas d’un nouveau filtre. Affiche les informations précédemment saisies pour ce type de fichier. Par exemple, le type Fichiers temporaires contient /tmp/.
|
Dans cette zone de texte, dressez la liste des éléments avec lesquels vous souhaitez établir une correspondance. Dans cet exemple, une correspondance est possible pour http://docs.sesta.com/manual.html.
Le protocole est http ; l’hôte contient sesta ; le fichier se termine par html.
|
Description
|
Vous invite à entrer une nouvelle description. Affiche la description précédemment saisie pour ce type de fichier.
|
Description de la règle du filtre, à usage personnel. Le robot ne l’utilise pas.
|
Nouveau site
|
Vrai (sélectionné) pour un nouveau filtre. Affiche la valeur précédemment sélectionnée pour ce type de fichier.
|
Utilisez cette option comme l’un des filtres par défaut lorsque vous créez des sites. Si vous ne cochez pas cette case, il est toujours possible d’ajouter ce filtre à un nouveau site en modifiant le site dans la page Robot, Sites.
|
Par défaut
|
Aucune sélection pour un nouveau filtre. Paramètre par défaut précédemment sélectionné pour un type de fichier défini.
|
Exclut les documents correspondant à ce filtre.
Inclut les documents correspondant à ce filtre.
La sélection d’un nouveau filtre n’affecte pas les définitions de site existantes. Pour utiliser votre nouveau filtre sur un site existant, vous devez l’ajouter en modifiant le site dans la page Robot, Sites.
|
Mise en place
|
Dresse la liste des sites qui utilisent ce filtre.
|
|
Recherche
Cette page permet de gérer les paramètres opérationnels du robot et les valeurs par défaut. Elle se divise en plusieurs sections : Vitesse, Actions de réalisation, Paramètres du fichier journal, Conformité aux normes, Paramètres d’authentification, Proxy, Paramètres avancés et Extraction des liens.
Tableau 12 Attributs de recherche du robot
Attribut
|
Valeur par défaut
|
Description
|
Temps d’attente du serveur
|
Aucun
|
Aucun (par défaut), 1 seconde, 2 secondes, 5 secondes, 10 secondes, 30 secondes, 1 minute, 5 minutes.
|
Nombre de connexions maximum - Nombre maximal d’URL extraites simultanément
|
8
|
1, 2, 4, 8 (par défaut), 10, 12, 16, 20.
|
Nombre maximum de connexions par site
|
2
|
(aucune limite), 1, 2, 4, 8, 10, 12, 16, 20.
|
Envoyer les descriptions de ressources à l’indexation toutes les
|
30 minutes
|
3 minutes, 5 minutes, 10 minutes, 15 minutes, 30 minutes (par défaut), 1 heure, 2 heures, 4 heures, 8 heures.
|
Script à lancer
|
aucun (par défaut)
|
aucun (par défaut). Pour obtenir des exemples de fichier, consultez les fichiers cmdHook dans le répertoire /opt/SUNWps/samples/robot (dans le cas d’une installation par défaut).
|
Après traitement de toutes les URL
|
devient inactif (par défaut)
|
devient inactif (par défaut), s’arrête, recommence.
|
Adresse électronique du contact
|
utilisateur@domaine
|
Entrez votre propre adresse.
|
Niveau du journal
|
1 - Génération
|
0 - Erreurs uniquement, 1 - Génération (par défaut), 2 - Énumération, Conversion, 3 - Filtrage, 4 - Génération dynamique, 5 - Extraction
|
Agent utilisateur
|
SunONERobot/6.0
|
Version du serveur de recherche.
|
Ignorer le protocole robots.txt
|
Faux (désélectionné)
|
Certains serveurs disposent d’un fichier robots.txt qui mentionne que les robots ne parviennent pas jusque-là. Si votre robot de recherche rencontre ce fichier sur un site et que cet attribut soit faux, le robot n’effectue aucune recherche sur le site. Si cet attribut est vrai, le robot ne tient pas compte du fichier et procède à la recherche sur le site.
|
Effectuer l’authentification
|
Oui
|
Oui
Non
|
Nom d’utilisateur du robot
|
anonyme
|
Le robot accède à un site en tant qu’utilisateur anonyme.
|
Mot de passe
|
utilisateur@domaine
|
Un site permettant un accès anonyme requiert souvent une adresse e-mail en tant que mot de passe. Cette adresse est indiquée en texte brut.
|
Nom d’utilisateur du proxy
|
anonyme
|
Le robot accède à un site en tant qu’utilisateur anonyme.
|
Mot de passe
|
utilisateur@domaine
|
Un site permettant un accès anonyme requiert souvent une adresse e-mail en tant que mot de passe. Cette adresse est indiquée en texte brut.
|
Type de connexion au proxy
|
Connexion directe à Internet
|
Connexion directe à Internet, Proxy - Configuration automatique, Proxy - Configuration manuelle
|
Type de configuration automatique du proxy
|
Fichier proxy local
|
Fichier proxy local, Fichier proxy distant
|
Emplacement de la configuration automatique du proxy
|
Vierge
|
La configuration automatique du proxy est incluse dans un fichier qui répertorie toutes les informations requises sur le proxy.
Le fichier robot.pac est un exemple de fichier proxy local et http://proxy.sesta.com:8080/proxy.pac un exemple de fichier proxy distant.
|
Configuration manuelle du proxy HTTP
|
Vierge
|
Format : server1.sesta.com:8080. Ces trois valeurs de configuration manuelle sont placées dans le fichier robot.pac, situé dans le répertoire /var/opt/SUNWps/https-nomduserveur/portal/config.
|
Configuration manuelle du proxy HTTPS
|
Vierge
|
Cette valeur de configuration manuelle est placée dans le fichier robot.pac.
Format : server1.sesta.com:8080
|
Configuration manuelle du proxy FTP
|
Vierge
|
Cette valeur de configuration manuelle est placée dans le fichier robot.pac.
Format : server1.sesta.com:8080
|
Suivre les liens en HTML
|
Vrai (sélectionné)
|
Extrait les liens hypertexte en code HTML.
|
nombre de liens maximal
|
1024
|
Limite le nombre de liens que le robot peut extraire d’une ressource HTML. À mesure que le robot parcourt des sites et découvre des liens vers d’autres ressources, il se peut qu’il soit amené à effectuer le suivi d’un nombre considérable de liens situés à une grande distance de son point de départ.
|
Suivre les liens en texte brut
|
Faux (désélectionné)
|
Extrait les liens hypertexte en texte brut.
|
nombre de liens maximal
|
1024
|
Limite le nombre de liens que le robot peut extraire d’une ressource texte.
|
Utiliser les cookies
|
Faux (désélectionné)
|
Si cet attribut est vrai (sélectionné), il permet au robot de se servir des cookies au cours d’une recherche. L’utilisation des cookies est indispensable sur certains sites pour faciliter la navigation. Le robot conserve les cookies dans un fichier dénommé cookies.txt, situé dans son répertoire d’état. Le format du fichier cookies.txt est identique à celui utilisé par le navigateur Netscape Communicator.
|
Utiliser l’adresse IP comme source
|
Vrai (sélectionné)
|
Dans la plupart des cas, le robot n’intervient que sur le nom de domaine d’une ressource. Il est parfois utile de pouvoir filtrer ou classer des ressources en fonction des sous-réseaux, par leur adresse IP (Internet Protocol). Dans ce cas précis, vous devez clairement accorder au robot la permission d’extraire l’adresse IP en plus du nom de domaine. L’extraction d’adresses IP requiert une recherche DNS supplémentaire susceptible de ralentir l’activité du robot. Si vous n’avez pas besoin de cette option, il est conseillé de la désactiver pour améliorer les performances.
|
Heuristique de l’hôte actif
|
Faux (désélectionné)
|
Si cet attribut est vrai (sélectionné), il permet au robot de convertir les noms d’hôte secondaires courants utilisés par un serveur en un nom simple. Cela peut se révéler utile lorsqu’un site fait appel à plusieurs serveurs dont l’alias est redirigé vers la même adresse, telle que www.sesta.com, qui prend souvent la forme de www1.sesta.com, www2.sesta.com, etc.
Une fois cette option activée, le robot traduit en interne tous les noms d’hôte commençant par wwwn en www, n représentant un nombre entier quelconque. Cet attribut n’agit que sur les noms d’hôte commençant par wwwn.
Il est impossible de l’employer lorsque la résolution du CNAME est désactivée (faux).
|
Convertir les noms d’hôte en CNAME
|
Faux (désélectionné)
|
Si cet attribut est sélectionné, le robot valide les noms d’hôte rencontrés et les convertit en nom d’hôte canonique. Ainsi, il peut rechercher précisément des descriptions de ressource uniques. Si cet attribut est désélectionné, le robot valide les noms d’hôte, mais ne les convertit pas sous une forme canonique. Dans ce cas, il est possible d’obtenir une liste où figurent plusieurs fois les mêmes descriptions de ressource associées aux différents noms d’hôte détectés par le robot.
Par exemple, devedge.sesta.com est un alias de developer.sesta.com. Si la résolution du CNAME est activée, l’URL devedge.sesta.com est automatiquement mise en correspondance avec developer.sesta.com. En revanche, si cette résolution est désactivée, la description de ressource retient devedge.sesta.com en tant que référence d’origine.
Il est impossible d’activer l’heuristique de l’hôte actif lorsque la résolution du CNAME est désactivée (faux).
|
Accepter les commandes de tout hôte
|
Faux (désélectionné)
|
La plupart des fonctions de contrôle du robot s’effectuent par l’intermédiaire d’un port TCP/IP. Cet attribut détermine si les ordres donnés au robot doivent provenir du système de l’hôte local (faux) ou d’un emplacement quelconque du réseau (vrai).
Il est recommandé de restreindre le contrôle direct du robot à l’hôte local (faux). Il reste possible de commander à distance le robot via la console d’administration.
|
Profondeur du point de départ par défaut
|
10
|
1 - points de départ uniquement, 2 - style de signet, 3-10, illimité.
Valeur par défaut des niveaux des liens hypertexte atteints par le robot à partir d’un point de départ quelconque. Vous pouvez définir la profondeur d’un point de départ en modifiant le site dans la page Robot, Sites.
|
Répertoire de travail
|
/var/opt/SUNWps/https-snomdeserveurcomplet/portal/tmp
|
Chemin d’accès complet à un répertoire de travail temporaire utilisé par le robot pour le stockage de données. Le robot extrait le contenu intégral des documents dans ce répertoire, souvent pour plusieurs documents simultanément ; il est donc préférable que cet espace soit suffisamment grand pour permettre un traitement simultané de tous les documents.
|
Répertoire d’état
|
/var/opt/SUNWps/https-snomdeserveurcomplet/portal/robot
|
Chemin d’accès complet à un répertoire temporaire utilisé par le robot pour le stockage des informations d’état, notamment la liste des URL visitées et le pool d’URL. Cette base de données peut être relativement volumineuse ; il est donc souhaitable de la placer dans une partition différente de celle du répertoire de travail.
|
Indexation
Le robot effectue une recherche sur les sites et collecte les documents en fonction des filtres sélectionnés. Les formats des documents collectés peuvent être différents. Pour les uniformiser et faciliter la lecture des documents, il est nécessaire de tous les convertir au format HTML. Cette page permet de configurer certaines des parties entrant dans les descriptions de ressource.
Tableau 13 Attributs d’indexation du robot
Attribut
|
Valeur par défaut
|
Description
|
Texte complet ou Texte partiel
|
Texte partiel
|
Le texte complet permet d’utiliser la totalité du document dans la description de ressource. Le texte partiel n’utilise que le nombre d’octets indiqué dans la description de ressource.
|
extraire les # premiers octets
|
4096
|
Saisissez le nombre d’octets approprié.
|
Extraire la table des matières
|
Vrai (sélectionné)
|
Vrai permet d’insérer la table des matières dans la description de ressource.
|
Extraire les données des balises META
|
Vrai (sélectionné)
|
Vrai permet d’insérer les balises META dans la description de ressource.
|
Convertisseurs de documents
|
Tous cochés (vrai) ; dans le cas contraire (faux), le type de document correspondant ne peut pas être indexé.
|
Adobe PDF
Corel Presentations
Corel Quattro Pro
FrameMaker
Lotus Ami Pro
Lotus Freelance
Lotus Word Pro
Lotus 1-2-3
Microsoft Excel
Microsoft PowerPoint
Microsoft RTF
Microsoft Word
Microsoft Works
Microsoft Write
WordPerfect
StarOffice Calc
StarOffice Impress
StarOffice Writer
XyWrite
|
Délai du convertisseur
|
600
|
Durée, en secondes, accordée pour la conversion d’un document au format HTML. Si ce délai est dépassé, l’URL est exclue.
|
Simulateur
Cette page est un outil de débogage qui effectue une simulation partielle du filtrage du robot sur une URL. Il est possible de saisir une nouvelle URL à vérifier. Le simulateur vérifie l’URL, les traductions DNS (notamment Heuristique de l’hôte actif), ainsi que les redirections de sites. En revanche, il ne vérifie pas le contenu du document indiqué par l’URL ; il est donc incapable de détecter les doublons, les types MIME, les erreurs de réseau, les autorisations, etc. Le simulateur indique si la liste des sites est susceptible d’être acceptée (ACCEPTÉ) ou non (AVERTISSEMENT) par le robot.
Tableau 14 Propriétés du simulateur du robot
Attribut
|
Valeur par défaut
|
Description
|
URL
|
URL déjà définies et zone de texte vierge.
|
Il est possible de vérifier l’accès à un nouveau site en saisissant son URL dans la zone de texte vierge. Cette vérification permet de déterminer si le nouveau site accepte la recherche.
Format : http://www.sesta.com:80/
|
Vérifier les alias DNS
|
Vrai (sélectionné)
|
Lorsque cet attribut est vrai (sélectionné), il permet de vérifier le nombre de serveurs dont l’alias dépend de la même adresse.
|
Vérifier la redirection du serveur (302)
|
Vrai (sélectionné)
|
Si la valeur de cet attribut est Vrai (il est sélectionné), les éventuelles redirections du serveur sont vérifiées.
|
Sonde du site
Cette page est un outil de débogage qui vérifie les alias DNS, les redirections du serveur et les serveurs virtuels. Cet outil renvoie des informations sur le site, mais ne vérifie pas si ce dernier accepte la recherche.
Tableau 15 Attributs de la sonde du site du robot
Attribut
|
Valeur par défaut
|
Description
|
Site
|
Vierge
|
Saisissez l’URL au format http://www.sesta.com:80.
|
Afficher les informations avancées sur le DNS
|
Faux (désélectionné)
|
Si la valeur de cet attribut est Vrai (il est sélectionné), davantage d’informations sur le site sont affichées, notamment son adresse IP.
|
Base de données
Les attributs de la base de données sont classés dans deux catégories :
- Page des attributs de recherche
|
Note
|
Pour partitionner la base de données, vous devez faire appel à la fonction de ligne de commande car cette opération exige l’interruption du serveur de recherche.
|
|
Gestion
La page Gestion initiale répertorie les bases de données disponibles. Vous avez la possibilité de créer une base de données, ou de réindexer, purger ou faire expirer une base de données existante. Utilisez la case à cocher pour sélectionner la base de données sur laquelle vous voulez exécuter une action. Utilisez les petites icônes situées au-dessus de la case pour sélectionner ou désélectionner toutes les bases de données. Lorsque vous sélectionnez Réindexer, Purger ou Expirer, un message vous invitant à confirmer l’opération et comportant une liste de noms de base de données apparaît. Pour exécuter l’action, cliquez sur OK.
Il est recommandé de réindexer la base de données si vous en avez modifié le schéma pour ajouter ou supprimer un champ indexé (par exemple, l’auteur) ou si une erreur liée au disque a endommagé l’index.
Le temps nécessaire à la réindexation de la base de données est proportionnel au nombre de descriptions de ressource dans la base de données. Il est donc recommandé de réindexer une base de données volumineuse lorsque le serveur n’est pas trop sollicité.
Lorsque vous effacez le contenu de la base de données, il est possible de récupérer l’espace disque utilisé pour les index, mais non celui utilisé par la base de données principale : cet espace disque est réutilisé au fur et à mesure que de nouvelles données sont ajoutées à la base.
Enfin, en procédant à l’expiration d’une base de données, vous supprimez toutes les descriptions de ressource jugées obsolètes. Cette opération ne permet pas de réduire la taille de la base de données. Par défaut, une description de ressource est programmée pour arriver à expiration 90 jours après sa date de création.
Vous pouvez également modifier la base de données dans la page vous permettant de définir les attributs de la base, qui est accessible à l’aide du lien Modifier.
Tableau 16 Attributs de gestion de la base de données
Attribut
|
Valeur par défaut
|
Description
|
Nom
|
Par défaut
|
Nom de la base de données utilisé par la fonction de recherche.
|
Titre
|
Vierge
|
Intitulé de la base de données.
|
Description
|
Vierge
|
Entrez une description de la base de données pour votre usage personnel.
|
Agents d’importation
Les agents d’importation sont des processus grâce auxquels les descriptions de ressource d’autres serveurs ou bases de données peuvent être importées en vue d’être incluses dans votre base de données de recherche.
La page d’importation initiale répertorie les agents d’importation disponibles. Il est possible de créer un agent, ou d’exécuter, de modifier ou de supprimer un agent existant. Sélectionnez l’agent à supprimer en cochant la case correspondante. Utilisez les petites icônes situées au-dessus de la case à cocher pour sélectionner ou désélectionner tous les agents d’importation. Utilisez les boutons radio pour activer ou désactiver une action réalisée par un agent. Pour programmer les agents d’importation, sélectionnez Programmer dans la barre de menus inférieure.
Si vous choisissez de modifier un agent d’importation existant ou d’en créer un, les attributs ci-après sont affichés.
Tableau 17 Attributs d’agent d’importation de la base de données
Attribut
|
Valeur par défaut
|
Description
|
Importer de
|
Fichier local
|
Sélectionnez Fichier local ou Serveur de recherche (si l’une de ces options est activée).
|
Chemin d’accès au fichier local
|
Vierge dans le cas d’un nouveau jeu
|
Donne le chemin d’accès complet à un fichier local contenant des descriptions de ressource valides au format SOIF (Summary Object Interchange Format). Il peut s’agir d’un fichier sur un autre serveur, tant que le chemin correspond à une adresse locale.
|
Nom de base de données
|
Par défaut
|
Nom de la base de données de destination.
|
Serveur distant
|
Vierge dans le cas d’un nouveau jeu
|
Indique l’URL du serveur de recherche duquel les descriptions de ressource doivent être extraites ; format : http://www.sesta.com:80.
|
Nom d’instance
|
Vierge dans le cas d’un nouveau jeu
|
Nom d’instance de serveur utilisé par le serveur de recherche. Ce nom d’instance figure dans les préférences du serveur à partir duquel vous importez des données. La valeur peut être uniquement 3.01C ou 3.01C SP1.
|
Rechercher dans l’URI
|
Vierge dans le cas d’un nouveau URI
|
Saisissez dans leur intégralité les chemins d’accès et noms de fichier. Utilisez /portal/search.
|
S’agit-il de Compass Server 3.01X ?
|
Faux (désélectionné)
|
Le serveur à partir duquel vous effectuez l’importation est-il Compass Server 3.01X ?
|
Activer SSL
|
Faux (désélectionné)
|
S’il s’agit d’une transaction de serveur à serveur, indiquez si vous souhaitez que les serveurs utilisent le protocole SSL (Secure Sockets Layer).
|
Authentification
|
Aucune (par défaut)
|
Aucune (par défaut) ou Utiliser utilisateur/mot de passe.
Indiquez ici la manière dont l’agent doit s’identifier auprès du système à partir duquel il effectue l’importation. Par défaut, aucune authentification n’est effectuée. Si le serveur à partir duquel vous souhaitez importer requiert une authentification, indiquez le nom d’utilisateur et le mot de passe que l’agent d’importation doit employer. Une importation réalisée à partir d’un serveur 3.01C ne requiert aucune authentification. En revanche, une importation de données réalisée à partir d’un serveur 3.01C SP1 nécessite une authentification.
|
Utilisateur
|
Vierge pour un nouveau mot de passe ou aucun mot de passe
|
Si vous avez sélectionné l’option Utiliser utilisateur/mot de passe, entrez le nom de l’utilisateur.
|
Mot de passe
|
Vierge pour un nouveau mot de passe ou aucun mot de passe
|
Si vous avez sélectionné l’option Utiliser utilisateur/mot de passe, entrez un mot de passe (affiché à l’écran sous forme de *).
|
Transfert de contenu
|
Utiliser le rassemblement par incrément des contenus pleins (par défaut)
|
Possibilité de choisir entre Utiliser le rassemblement par incrément des contenus pleins (par défaut) ou Utiliser la requête de recherche.
Ces options précisent les descriptions de ressource à importer à partir de la source.
Par défaut, un agent d’importation demande toutes les descriptions de ressource ajoutées ou modifiées depuis la dernière importation effectuée à partir de la même source.
La requête de recherche indique que l’agent d’importation ne doit importer que certaines descriptions de ressource à partir de la source. Cette procédure est similaire aux demandes de listes de ressources effectuées par les utilisateurs de la base de données de recherche.
Utilisez les champs Étendue, Afficher les attributs et Afficher les occurrences pour définir la requête.
|
Étendue
|
Vierge dans le cas d’un nouveau jeu
|
Texte de la requête. La syntaxe de la requête est identique à celle utilisée pour les requêtes des utilisateurs à partir du serveur.
|
Afficher les attributs
|
Vierge dans le cas d’un nouveau jeu
|
Dresse la liste des champs (sans distinction entre majuscules et minuscules) dont le contenu doit être importé dans chaque description de ressource. Il s’agit par exemple du titre et de l’auteur. Tous les champs sont sélectionnés par défaut.
|
Afficher les occurrences
|
Vierge dans le cas d’un nouveau jeu
|
Nombre maximal de descriptions de ressource correspondant aux critères de recherche à importer. La valeur par défaut est de 20.
|
Description de l’agent
|
Vierge dans le cas d’un nouveau jeu
|
Figure dans la liste des agents d’importation disponibles, dans la page d’importation initiale. Le programme n’en tient pas compte. Si ce champ est vierge, le nom de fichier ou de serveur de la source des descriptions de ressource sert à identifier l’agent d’importation. Notez si un nom d’utilisateur et un mot de passe sont nécessaires.
|
Description des ressources la plus récente
|
Vierge dans le cas d’un nouveau jeu
|
Date de création de la description de ressource la plus récente, précédemment importée par l’agent d’importation. Cette date sert de repère à l’option Utiliser le rassemblement par incrément des contenus pleins pour déterminer les nouvelles ressources à importer.
|
Délai du réseau en secondes
|
Vierge dans le cas d’un nouveau jeu
|
Indique le délai d’attente, en secondes, de l’agent d’importation avant la déconnexion du réseau. Il est possible de régler ce délai en fonction des variations de la qualité et du trafic sur le réseau.
|
Jeu de caractères
|
Vierge dans le cas d’un nouveau jeu
|
Indique le jeu de caractères du flux SOIF d’entrée (par exemple, ISO8859-1, UTF-8, UTF-16). Les jeux de caractères allant d’ISO8859-1 à ISO8859-15 sont pris en charge.
|
Descriptions des ressources
La page Descriptions des ressources initiale permet de rechercher les descriptions de ressource dans la base de données. Par exemple, il est possible de corriger une erreur typographique à l’intérieur d’une description de ressource ou d’affecter manuellement à des catégories de nouvelles descriptions de ressource découvertes par le robot.
Tableau 18 Attributs des descriptions de ressource
Attribut
|
Valeur par défaut
|
Description
|
Rechercher
|
Toutes les descriptions de ressource
|
Toutes les descriptions de ressource, les descriptions de ressource non catégorisées, les descriptions de ressource catégorisées, les descriptions de ressource par catégorie, toute description de ressource particulière par URL, les descriptions de ressource contenant.
|
Zone de texte
|
Vierge
|
Entrez une chaîne de texte unique afin d’identifier les descriptions de ressource recherchées. À utiliser avec les descriptions de ressource par catégorie, toute description de ressource particulière par URL et les descriptions de ressource contenant des valeurs d’attribut.
|
Base de données
|
Par défaut
|
Nom de la base de données dans laquelle effectuer la recherche.
|
Pour limiter la recherche par catégorie, choisissez Sélectionner la catégorie. Dans la page de l’Éditeur de catégories qui apparaît, vous pouvez indiquer la catégorie à partir de la taxinomie pour la recherche. Vous pouvez indiquer la catégorie dans la zone de texte Catégorie sélectionnée ou parcourir la taxinomie pour la sélectionner. Une fois la catégorie précisée, cliquez sur OK pour revenir à la page de recherche des descriptions de ressource.
Tableau 19 Attributs de l’Éditeur de catégories
Attribut
|
Valeur par défaut
|
Description
|
Catégories sélectionnées
|
Vierge
|
Zone de texte dans laquelle saisir la catégorie.
|
Tout développer
|
|
Développe la taxinomie de manière à afficher toutes les entrées de la hiérarchie.
|
Tout réduire
|
Vierge
|
Réduit la taxinomie de manière à afficher uniquement les catégories appartenant aux deux premiers niveaux de la hiérarchie.
|
Catégories par page
|
25
|
Liste déroulante des nombres de catégories à afficher dans chaque page. Les valeurs possibles sont 25, 50, 100, 250, 500 et Toutes.
|
Après une recherche réussie, le nombre de descriptions de ressource trouvées et une zone de texte détaillant ces descriptions sont affichés. Une fois l’une de ces ressources sélectionnées, les attributs ci-après (modifiables) et une partie du texte de la description de ressource apparaissent. Hormis la classification, tous ces attributs sont définis comme étant modifiables dans la page Base de données/Schéma.
Tableau 20 Attributs modifiables des descriptions de ressource de la base de données
Attribut
|
Valeur par défaut
|
Description
|
Classification
|
Nom de la catégorie de la description de ressource sélectionnée.
|
Nom de la catégorie si elle est classée ; Aucune classification si la catégorie n’est pas classée.
|
ReadACL
|
Vierge
|
Relatif à la sécurité au niveau du document.
|
Description
|
Description issue de la description de ressource sélectionnée.
|
Description provenant de la description de ressource.
|
Mots-clés
|
Mots-clés issus de la description de ressource sélectionnée, le cas échéant.
|
Mots-clés extraits des balises META.
|
Titre
|
Intitulé de la description de ressource sélectionnée.
|
Intitulé de la description de ressource.
|
Schéma
Le schéma détermine les informations figurant dans une description de ressource, ainsi que leur présentation. Il est possible d’ajouter de nouveaux attributs ou champs à une description de ressource et de configurer ceux qui pourront être modifiés ou faire l’objet d’une indexation. Lors de l’importation de nouvelles descriptions de ressource, vous pouvez convertir les schémas intégrés à ces descriptions en votre propre schéma.
Tableau 21 Attributs de modification du schéma de base de données
Attribut
|
Valeur par défaut
|
Description
|
Nom
|
Vierge
|
Indique le nom du schéma sélectionné : Auteur, Auteur-Message électronique, Jeu de caractères du contenu, Encodage du contenu, Langue du contenu, Longueur du contenu, Type du contenu, Description, Expire, Texte complet, Mots-clés, Dernière modification, Texte partiel, Téléphone, ReadACL, Titre, URL
|
Description
|
Vierge
|
Ces descriptions correspondent aux schémas de la liste ci-dessus. Cette zone de texte est réservée à vos commentaires. Elle n’est pas prise en compte par le serveur de recherche.
Auteur(s) du document.
Adresse e-mail à laquelle contacter l’auteur ou les auteurs du document.
Informations sur le jeu de caractères du contenu issues du serveur HTTP.
Informations sur le codage du contenu issues du serveur HTTP.
Informations sur la langue du contenu issues du serveur HTTP.
Informations sur la longueur du contenu issues du serveur HTTP.
Informations sur le type du contenu issues du serveur HTTP.
Brève description du document, en une seule ligne.
Date à laquelle la description de ressource devient non valide.
Contenu intégral du document.
Mots-clés servant à décrire le document.
Date de la dernière modification du document.
Extrait du document.
Numéro de téléphone de l’auteur.
Utilisé par les serveurs de recherche pour garantir la sécurité.
Titre du document.
URL (Uniform Resource Locator), ou adresse Web, du document.
|
Alias
Nom
Description
|
Vierge
|
Lors de l’importation de nouvelles descriptions de ressource, vous pouvez convertir les schémas intégrés à ces descriptions en votre propre schéma. La conversion est utile en cas de divergence entre les noms utilisés pour les champs dans le schéma de la base de données d’importation et le schéma employé pour les descriptions de ressource dans votre base de données. À titre d’exemple, imaginez que vous tentiez d’importer des descriptions de ressource pour lesquelles le champ de l’auteur serait Rédacteur, alors que vous avez choisi Auteur dans vos descriptions de ressource. Vous pouvez procéder à la conversion de Rédacteur en Auteur, en entrant Rédacteur dans cette zone de texte.
|
Type de données
|
Chaîne
|
Définit le type de données.
|
Modifiable
|
Faux (désélectionné)
|
Vrai (sélectionné) signifie que l’attribut sélectionné (champ) figure dans l’éditeur des descriptions de ressource de la base de données. Il est donc possible de modifier ses valeurs.
Les champs Description, Mots-clés, Titre et ReadACL sont modifiables.
|
Indexable
|
Vrai
|
Vrai (sélectionné) signifie que l’attribut sélectionné (champ) peut servir de base pour l’indexation.
Auteur, Titre et URL figurent dans le menu de l’écran Recherche avancée. Les utilisateurs peuvent ainsi rechercher des valeurs dans ces champs.
Auteur, Expire, Mots-clés, Dernière modification, Titre, URL et ReadACL peuvent servir de base pour l’indexation.
|
Multiplicateur de pertinence
|
1.0
|
Champ de pondération pour déterminer la pertinence d’un élément particulier. Toute valeur positive est valide.
|
Analyse
La page Analyse contient la liste triée de tous les sites et le nombre de ressources du site actuellement dans la base de données de recherche. Sélectionnez Mettre à jour l’analyse pour mettre à jour l’analyse sur le fichier.
Tableau 22 Attributs d’analyse de la base de données
Attribut
|
Valeur par défaut
|
Description
|
Nombre total des descriptions de ressources
|
Nombre de descriptions de ressource actuellement présentes dans la base de données.
|
Indique le nombre total de descriptions de ressource actuellement présentes dans la base de données.
|
Nombre de serveurs
|
Nombre de serveurs sur lesquels figure une partition de la base de données.
|
Il est possible de partitionner la base de données et de répartir ses partitions sur plusieurs serveurs.
|
Site
|
URL ou domaine sur lequel le robot a réalisé une recherche réussie.
|
URL ou domaine à partir duquel des descriptions de ressource ont été ajoutées à la base de données.
|
Nombre de descriptions de ressources
|
Nombre actuel de descriptions de ressource disponibles sur ce site.
|
Indique le nombre actuel de descriptions de ressource disponibles sur le site.
|
Type
|
Type de description de ressource.
|
Les descriptions de ressource peuvent être de plusieurs types, par exemple http.
|
Pourcentage
|
Type de description de ressource/nombre total de descriptions de ressource.
|
Pourcentage d’un type de document par rapport au nombre total de descriptions de ressource.
|
Catégories
Les utilisateurs disposent de deux façons distinctes de communiquer avec la base de données de recherche : ils peuvent entrer des requêtes directes pour faire une recherche dans la base de données ou en parcourir le contenu à l’aide de catégories préalablement définies. Dans une base de données de recherche, des ressources sont affectées à des catégories pour plus de facilité. Si la base de données contient un grand nombre d’éléments, il est utile de regrouper les éléments apparentés. Lors de la configuration des catégories, vous devez avant tout vous préoccuper de leur facilité d’utilisation afin que les utilisateurs puissent localiser plus rapidement des éléments bien particuliers.
Le serveur de recherche utilise une hiérarchie de catégories intitulée taxinomie. En règle générale, le terme taxinomie désigne un système quelconque de catégories. Dans le contexte d’une base de données de ressources en réseau, telle que la base de données du serveur de recherche, ce terme décrit toute méthode de catégorisation des ressources du réseau pour en faciliter l’extraction.
La rubrique Catégories se décompose en différentes sous-rubriques :
Éditeur de catégories
La page Éditeur de catégories contient la liste des catégories de la taxinomie dans laquelle vous pouvez sélectionner les catégories voulues. Une fois la catégorie voulue sélectionnée, vous pouvez cliquer sur le lien Catégorie pour afficher l’Éditeur de règles de classification afin de configurer les collections Robot dans des catégories spécifiques.
Tableau 23 Attributs de l’Éditeur de catégories
Attribut
|
Valeur par défaut
|
Description
|
Tout développer
|
|
Développe la taxinomie de manière à afficher toutes les entrées de la hiérarchie.
|
Tout réduire
|
|
Réduit la taxinomie de manière à afficher uniquement les catégories appartenant aux deux premiers niveaux de la hiérarchie.
|
Réindexer
|
|
Génère un nouvel index pour la base de données. Si vous venez de créer votre taxinomie, vous devez indexer votre base de données pour permettre aux utilisateurs de rechercher des catégories. Si vous avez modifié vos catégories, vous devez créer un nouvel index pour votre base de données afin de la mettre à jour. Enregistrez l’arborescence des catégories avant de réindexer la base de données.
|
Catégories par page
|
25
|
Liste déroulante des nombres de catégories à afficher dans chaque page. Les valeurs possibles sont 25, 50, 100, 250, 500 et Toutes.
|
Nom
|
Catégorie sélectionnée
|
Nom de la catégorie à modifier.
|
Description
|
Vierge
|
Votre description de la catégorie.
|
Règle de correspondance
|
Vierge
|
Règle de correspondance à utiliser.
|
Mettre à jour
|
|
Met à jour la définition de la catégorie.
|
Ajouter en tant qu’enfant
|
|
Ajoute la catégorie en tant qu’enfant.
|
Ajouter en tant que sur
|
|
Ajoute la catégorie en tant que sur.
|
Éditeur de règles de classification
Après avoir configuré les catégories de votre base de données, utilisez cette page pour définir ou modifier les règles suivies par le robot au moment de l’affectation des ressources aux catégories.
Tableau 24 Attributs de l’Éditeur de règles de classification des catégories
Attribut
|
Valeur par défaut
|
Description
|
Source
|
Sélectionné
|
Auteur, Auteur-Message électronique, Jeu de caractères du contenu, Encodage du contenu, Langue du contenu, Longueur du contenu, Type du contenu, Description, Expire, Texte complet, Mots-clés, Dernière modification, Texte partiel, Téléphone, ReadACL, Titre, URL, hôte, protocole, URI, IP, chemin, type
|
Méthode
|
est
|
est, contient, commence par, finit par, expression standard
|
Critères
|
Vierge
|
Indique les critères de la règle.
|
Classification
|
Vierge
|
Catégorie dans laquelle doit être classée la description de ressource si les conditions de la règle sont remplies. Saisissez la catégorie ou sélectionnez-la dans la page Sélectionner la catégorie à modifier.
|
Classification automatique
Cette page permet de gérer la fonction Classification automatique.
Tableau 25 Attributs de la classification automatique des catégories
Attribut
|
Valeur par défaut
|
Description
|
Chemin d’accès au journal
|
|
Emplacement du fichier journal utilisé par la fonction Classification automatique.
|
Descriptions de ressources en mémoire
|
10000
|
Taille de la mémoire cache pour les descriptions de ressource stockées en mémoire. Lorsque les descriptions de ressource collectées excèdent la taille indiquée, elles sont transférées vers la mémoire temporaire de la base de données. Vous pouvez indiquer une taille plus élevée pour de meilleures performances, mais l’inconvénient de cette solution est l’utilisation d’une plus grande quantité de mémoire.
|
Chemin d’accès à la base de données :
|
|
Fichier utilisé pour la base de données de stockage temporaire des descriptions de ressource.
|
Rapports
La section Rapports permet de surveiller le serveur de recherche. Il est possible de consulter un récapitulatif de son activité : sites explorés, URL exclues et la raison de leur exclusion, informations détaillées sur les URL visitées par le robot et centres d’intérêt des utilisateurs.
La rubrique Rapports se décompose en plusieurs sous-rubriques :
Points de départ
Le robot visite tous les sites activés à chaque démarrage.
Tableau 26 Attributs des points de départ des rapports
Attribut
|
Valeur par défaut
|
Description
|
Activé
|
Valeur actuelle du site.
|
Oui ou Non.
Cette option est définie dans la page Robot, Sites.
|
Point de départ
|
URL:80 choisie.
|
Ce lien permet d’accéder à l’URL choisie.
|
dans la définition du site
|
URL choisie.
|
Établit un lien vers la page de modification Robot, Sites.
|
Profondeur
|
Indique le niveau de recherche sélectionné.
|
1-n est défini dans la page de modification Robot, Sites.
|
URL exclues
Cette page présente la liste des exécutions du robot. Pour afficher la liste des motifs pour lesquels des URL ont été exclues, choisissez la session d’exécution du robot à examiner, puis sélectionnez Afficher la sélection et enfin l’un des motifs d’exclusion. La liste des URL exclues pour ce motif apparaît. Les exclusions en double et les avertissements d’exclusion ont été supprimés.
Tableau 27 Attributs des URL exclues des rapports
Attribut
|
Valeur par défaut
|
Description
|
Journal
|
Affiche le journal de l’exécution la plus récente.
|
Répertorie tous les journaux d’exécution disponibles.
|
Nombre
|
Nombres
|
Liste des nombres associés aux motifs d’exclusion.
|
Motif de l’exclusion
|
Liste des motifs pour lesquels des sites n’ont pas reçu d’autorisation. Chaque motif est lié à la liste des URL exclues à ce titre.
|
Les motifs d’exclusion des URL peuvent être les suivants : règles de filtre, fichier introuvable, site non autorisé, protocole non autorisé, erreurs, doublons.
|
Rapports avancés du robot
Cette page vous donne accès à différents rapports concernant le robot. Sélectionnez le rapport souhaité dans l’une des listes déroulantes pour en afficher le contenu. Le bouton Actualiser permet d’obtenir des informations mises à jour.
Tableau 28 Attribut des rapports avancés du robot
Attribut
|
Valeur par défaut
|
Description
|
Rapports avancés du robot
|
Version
|
Version, Vidage mémoire cache DNS, Performance, Serveurs trouvés - Tous, Serveur trouvé - Gestionnaire de description des ressources, État - Configuration actuelle, État - Base de données (interne), État - Libnet, État - Modules, État - Présentation, URL - prêts à l’extraction, URL - prêts à l’indexation, URL - en attente de filtrage (pool d’URL), URL - en attente d’indexation, tous les rapports.
|
Fichiers journaux
Cette page permet d’afficher les entrées ou des lignes déterminées d’un fichier journal. Faites défiler la liste des journaux. Saisissez le nombre de lignes que vous souhaitez voir s’afficher après avoir cliqué sur le bouton Afficher.
Tableau 29 Attributs des rapports Afficher les journaux
Attribut
|
Valeur par défaut
|
Description
|
Afficher ce journal
|
URL exclues (filtre)
|
URL exclues (filtre), Gestionnaire de description des ressources, Serveur du gestionnaire de description des ressources, Activités du robot (robot), Moteur de recherche (searchengine), Requêtes utilisateur (rdm).
|
Nombre de lignes
|
25
|
Nombre d’entrées les plus récentes du journal à afficher (à préciser).
|
Recherches les plus fréquentes
Cette page permet de vérifier ce que recherchent les utilisateurs. Les recherches les plus fréquentes apparaissent en premier dans le rapport.
Tableau 30 Attribut des rapports Recherches les plus fréquentes
Attribut
|
Valeur par défaut
|
Description
|
Exclure la navigation
|
Faux (désélectionné)
|
Faux (désélectionné) permet d’inclure les informations relatives aux catégories parcourues par les utilisateurs. Vrai (sélectionné) permet d’exclure les statistiques de navigation.
|
Programmation
Démarrer le robot
Cette page permet de définir l’heure du démarrage automatique du robot.
Tableau 31 Attributs de programmation du démarrage du robot
Attribut
|
Valeur par défaut
|
Description
|
Horaires
|
00:00
|
Heure à laquelle le robot lance sa recherche.
|
Jours
|
aucun sélectionné
|
Dim, Lun, Mar, Mer, Jeu, Ven ou Sam
|
Arrêter le robot
Cette page permet de définir l’heure de l’arrêt automatique du robot.
Tableau 32 Attributs de programmation de l’arrêt du robot
Attribut
|
Valeur par défaut
|
Description
|
Heure
|
00:00
|
Si vous prévoyez d’exécuter le robot en permanence, il est recommandé de l’arrêter, puis de le redémarrer au moins une fois par jour. Le robot peut ainsi publier des ressources et se réinitialiser.
|
Jours
|
aucun sélectionné
|
Dim, Lun, Mar, Mer, Jeu, Ven ou Sam
|
Lancer l’importation
Cette page permet de programmer l’exécution des agents d’importation.
Tableau 33 Attributs de programmation du lancement de l’agent d’importation
Attribut
|
Valeur par défaut
|
Description
|
Heure
|
00:00
|
Heure à laquelle l’agent d’importation commence l’importation.
|
Jours
|
aucun sélectionné
|
Dim - Sam
|
Démarrer la classification automatique
Cette page vous permet de définir les heures de démarrage de la fonction Classification automatique.
Tableau 34 Attributs de programmation du démarrage de la classification automatique
Attribut
|
Valeur par défaut
|
Description
|
Heure
|
00:00
|
Heure à laquelle démarre la fonction Classification automatique.
|
Jours
|
aucun sélectionné
|
Dim - Sam
|