Sommaire    

Page des attributs de recherche

Cette annexe décrit les attributs à configurer pour le moteur de recherche via la console d’administration de Sun Java System Identity Server.

Lorsque vous sélectionnez les propriétés de recherche dans Gestion des services, une barre de menus bicolore à onglets apparaît. La présentation de cette annexe dépend des rubriques ou onglets affichés dans la partie supérieure de cette barre de menus.

Lorsque l’un de ces onglets est sélectionné, les sous-rubriques correspondantes sont répertoriées dans la barre de menus au-dessous. Serveur/Paramètres est sélectionné dans la page de recherche par défaut. Chaque sous-rubrique contient un ou plusieurs tableaux qui expliquent ses attributs. Les tableaux se divisent en trois colonnes : Attribut, Valeur par défaut et Description. La colonne Attribut indique le libellé fourni dans la page. La colonne Valeur par défaut correspond à la valeur par défaut de l’attribut. La colonne Description fournit une explication du rôle de l’attribut et du format dans lequel il doit apparaître.

Toutes les pages intitulées Propriétés de recherche comportent l’attribut Sélectionner un serveur comme le décrit le Tableau 4.

Tableau 4  Attribut de recherche Sélectionner un serveur

Attribut

Valeur par défaut

Description

Sélectionner un serveur

http://nomduserveur:80/portal

Nom complet du serveur de recherche.

Serveur

La section Serveur vous permet de définir les préférences relatives à votre serveur. Sélectionnez le répertoire à utiliser pour les fichiers temporaires, les informations à consigner et les détails à fournir dans les journaux. Les attributs de serveur sont affichés dans deux pages :

Paramètres

Cette page contient les paramètres élémentaires d’administration et de fonctionnement du serveur de recherche.

Tableau 5  Attributs des paramètres du serveur 

Attribut

Valeur par défaut

Description

Racine du serveur

/var/opt/SUNWps/https-nomdeserveurcomplet/portal

Héberge la configuration, le journal, la base de données et les fichiers d’information du robot. Il s’agit également du répertoire racine de tous les fichiers de recherche générés et mis à jour au cours d’une recherche. Toute configuration est impossible.

Fichiers temporaires

/var/opt/SUNWps/https-nomdeserveurcomplet/portal/tmp

Contient tous les fichiers temporaires utilisés pour gérer une recherche au cours de celle-ci. Inclut les descriptions de ressource récemment générées, mais n’ayant pas encore été ajoutées à la base de données principale. Celles-ci sont supprimées une fois la recherche terminée.

Sécurité au niveau du document

Désactivé

Détermine les utilisateurs autorisés à accéder aux documents.

Une fois ce paramètre modifié, il est nécessaire de redémarrer le serveur.

Valeurs :

  • Désactivé (par défaut) signifie que tous les utilisateurs ont accès aux descriptions de ressource.
  • Activé signifie que le champ ReadACL d’une description de ressource est vérifié pour s’assurer que l’utilisateur demandant l’accès à la description dispose des autorisations nécessaires, c’est-à-dire qu’il fait partie d’une organisation ou a un rôle reconnus ou encore qu’il est lui-même un utilisateur reconnu. La page Modifier de la base de données permet de paramétrer le champ ReadACL.

Avancé

Cette page contient les paramètres avancés d’administration et de fonctionnement du serveur de recherche. Elle sert à configurer les journaux des requêtes des utilisateurs, la gestion de l’index, la gestion des descriptions de ressource et le débogage.

Tableau 6  Attributs des paramètres avancés du serveur 

Attribut

Valeur par défaut

Description

Recherche (rdm)

/var/opt/SUNWps/https-nomduserveur/portal/logs/rdm.log

Permet de consigner les requêtes effectuées par les utilisateurs sur la base de données. Pour supprimer cette journalisation, il suffit de cocher la case Désactiver le journal de recherche.

Dans ce cas, vous n’avez pas la possibilité de visualiser le rapport Requêtes utilisateur (rdm).

Désactiver le journal de recherche

Faux (désélectionnée) - activée

Contrôle l’utilisation du journal de requêtes.

Dans la section Rapport, il est possible de générer un rapport répertoriant les requêtes les plus courantes, sur la base de ce journal.

Valeurs :

  • Sélectionnée - désactivée
  • Désélectionnée - activée. Toutes les requêtes utilisateur figurent dans ce journal.

Gestion de l’index

/var/opt/SUNWps/https-nomduserveur/portal/logs/searchengine.log

Permet de consigner les transactions impliquant le moteur de recherche, sauf l’enregistrement des descriptions de ressource.

Gestionnaire des descriptions de ressource

/var/opt/SUNWps/https-nomduserveur/portal/logs/rdmgr.log

Permet de consigner l’enregistrement des descriptions de ressource du robot ou les agents d’importation dans la base de données. Vous pouvez consulter ce journal en tant que rapport du gestionnaire des descriptions de ressource (rdmgr).

Serveur du gestionnaire des descriptions de ressource

/var/opt/SUNWps/https-nomduserveur/portal/logs/rdmserver.log

Permet de consigner les informations du débogage effectué sur les transactions du gestionnaire des descriptions de ressource. Le niveau de détail est déterminé par le niveau du journal. Vous pouvez consulter ce journal en tant que rapport du serveur du gestionnaire des descriptions de ressource (rdmsvr).

Niveau du journal

1

Détermine la quantité d’informations incluse dans le journal du serveur du gestionnaire des descriptions de ressource.

Il est possible de régler le niveau sur 2, 10, 20, 50, 100 et 999.

La valeur 1 (par défaut) ne permet de consigner que les erreurs graves. Plus la valeur est élevée, plus la quantité d’informations incluse dans le journal du serveur du gestionnaire des descriptions de ressource est importante.

Robot

Les propriétés du robot sont relativement complexes. Il est possible de sélectionner les sites à rechercher, de vérifier la validité d’un site, de définir les types de document à sélectionner et de programmer le moment où une recherche doit avoir lieu.

Cette section est organisée de la façon suivante :

Présentation

Le panneau Présentation du robot permet de vérifier l’état actuel de celui-ci : désactivé, inactif, en cours d’exécution ou en pause. Si le robot est en cours d’exécution, vous pouvez vérifier la progression de la recherche, dans la mesure où le panneau est actualisé toutes les 30 secondes. Le paramètre robot-refresh du fichier search.conf définit le taux de rafraîchissement.

Les deux boutons situés en haut à droite s’adaptent à l’état du robot. Les boutons Démarrer et Supprimer correspondent à l’état Désactivé. Les boutons Arrêter et Pause correspondent aux états En cours d’exécution ou Inactif. Les boutons Arrêter et Reprendre correspondent quant à eux à l’état En pause. Sélectionnez l’un ou l’autre des attributs pour accéder à la section Rapports, à partir de laquelle il est possible d’obtenir un rapport détaillé de cet attribut à la minute près.

Tableau 7  Attributs de présentation du robot 

Attribut

Valeur par défaut

Description

Le robot est

Activité en cours

État du robot. La valeur peut correspondre à Inactif, En cours d'exécution, En pause ou Désactivé.

Mis à jour

Date et heure de la dernière actualisation.

Cette page est actualisée pour vous permettre de vérifier la progression du robot.

Points de départ

Nombre défini

Nombre de sites sélectionnés pour la recherche. Pour désactiver un site (l’exclure de la recherche), utilisez la page Robot, Site.

Pool d’URL

Nombre d’URL en attente

Nombre d’URL devant encore être examinées. Au début d’une recherche, les URL du point de départ sont entrées dans le pool d’URL. Au fur et à mesure que la recherche progresse, le robot trouve des liens vers d’autres URL. Ces URL sont alors ajoutées au pool. Une fois que toutes les URL du pool ont été vérifiées, le pool d’URL est vide et le robot devient inactif.

Extraction

Nombre de connexions par seconde

Nombre de ressources vérifiées à la seconde.

L’extraction consiste à détecter ou à localiser des ressources, des documents ou des liens hypertexte à inclure dans la base de données, ainsi qu’à filtrer les éléments superflus.

Filtrage

Nombre d’URL rejetées

Nombre total d’URL exclues.

Indexation

Nombre d’URL par seconde

Nombre de ressources ou de documents convertis en description de ressource par seconde.

L’indexation est la phase qui suit la collecte de toutes les informations relatives à un document, au cours de laquelle ces dernières sont converties en description de ressource à inclure dans la base de données.

URL exclues

Nombre d’URL exclues par les filtres

Nombre d’URL ne correspondant pas aux critères de filtrage.

 

Nombre d’URL exclues pour cause d’erreur

Nombre d’URL pour lesquelles le robot a rencontré des erreurs de type « fichier introuvable ».

Descriptions des ressources

Nombre de descriptions de ressources fournies

Nombre de descriptions de ressource ajoutées à la base de données.

 

Nombre d’octets de descriptions de ressources fournis

Nombre d’octets ajoutés à la base de données.

Statistiques globales

Nombre d’URL extraites

Nombre d’URL extraites pendant l’exécution.

 

Taille moyenne des descriptions de ressources en octets

Nombre moyen d’octets par description de ressource.

 

Temps d’exécution en jours, heures, minutes et secondes

Durée d’exécution du robot.

Sites

La page initiale de cette section présente les sites disponibles pour la recherche.

Il est possible d’activer (Activé) et de désactiver (Désactivé) un site à l’aide des boutons radio. Un site désactivé est exclu de la recherche pendant l’exécution du robot. Le lien Modifier affiche une page qui permet de modifier la définition d’un site recherché.

Pour supprimer un site, cochez la case correspondante, puis cliquez sur Supprimer.

Pour ajouter un site, sélectionnez Nouveau. Indiquez une URL ou un domaine dans la zone de texte, puis sélectionnez l’étendue de la recherche. Choisissez Créer pour utiliser les valeurs par défaut. Vous pouvez aussi sélectionner l’option Créer et modifier afin de choisir des valeurs autres que celles proposées par défaut et d’accéder à la page Modifier qui permet de définir le site recherché.

Tableau 8  Attributs de gestion des sites du robot

Attribut

Valeur par défaut

Description

État du site

Graphique représentant un verrou ou un cluster

Un verrou ouvert signifie que l’URL est accessible. Si le verrou est fermé, le site se trouve sur un serveur Web sécurisé et utilise un certificat SSL. Le cluster signifie que le site est un domaine.

Activé/Désactivé

Activé

Indiquez si ce site doit ou non faire l’objet d’une recherche pendant l’exécution du robot.

La page Nouveau site permet de configurer l’ensemble d’un site en vue de l’indexation.

Tableau 9  Attributs Nouveau site du robot

Attribut

Valeur par défaut

Description

Nouveau site

URL

Format de l’URL :  http://www.sesta.com

Format du domaine :  *.sesta.com

Profondeur

10

Les possibilités sont les suivantes : 1 pour cette URL uniquement, 2 pour cette URL et les premiers liens, 3 à 10 ou illimité. La page Robot, Recherche permet de définir la valeur par défaut.

Le site peut être défini de manière plus exhaustive dans la page de modification. Il est possible d’indiquer le type de serveur, de redéfinir la profondeur (l’étendue) de la recherche et de sélectionner le type de fichier à ajouter à la base de données. Les attributs d’URL et des sites du domaine sont en grande partie identiques. La colonne supplémentaire de ce tableau différencie les attributs partagés et les attributs uniques.

Plusieurs opérations peuvent être effectuées à partir de cette page. Vous avez la possibilité de vérifier le nom du serveur du site recherché saisi. Dans la section Groupe de serveurs, cliquez sur Ajouter pour ajouter d’autres serveurs à ce groupe. Dans la section Points de départ, cliquez sur Ajouter pour ajouter d’autres points de départ. Dans la section Définition de filtre, il est possible d’ajouter, de supprimer, d’exclure ou d’inclure certains types de fichier, ainsi que de modifier l’ordre d’application des filtres pour ces fichiers.

Tableau 10  Attributs de modification des sites du robot 

Attribut

URL/Domaine

Valeur par défaut

Description

Surnom du site

URL/D

Site saisi : www.sesta.com

Nom affiché dans la page initiale. Le nom par défaut correspond à celui de l’URL ou du domaine saisi. Vous pouvez modifier ce nom dans ce champ.

Case à cocher pour supprimer ou vérifier le site

URL/D

Désélectionnée

Désélectionnée - désactivée

Sélectionnée - activée

Groupe de serveurs - Nom

URL

URL : www.sesta.com

Serveur simple ou partie d’un serveur simple. Le nom d’hôte complet doit figurer dans cette entrée. Si vous indiquez juste le nom de l’hôte, le site se limite à cet hôte. Si vous fournissez des informations sur le répertoire en plus du nom d’hôte, le site est uniquement défini par ce répertoire et ses sous-répertoires.

Suffixe du domaine

D

Domaine saisi : *.sesta.com

Inclut tous les serveurs d’un domaine, tels que *.sesta.com.

Port

URL/D

80 pour l’URL ; vide pour le domaine

Si le site recherché utilise un port différent, indiquez-le ici.

Type

URL

Serveur Web

Serveur Web, Serveur de fichiers, Serveur FTP, Serveur Web sécurisé

Protocoles autorisés

D

Toutes les cases sont cochées.

Cases à cocher pour http, fichier, ftp, https

Points de départ : case à cocher permettant de sélectionner le site à supprimer.

URL/D

Désélectionnée

Désélectionnée - désactivée

Sélectionnée - activée

Points de départ - URL

URL/D

http:// URL:80

URL ou domaine

Points de départ - Profondeur

URL/D

10

1 : uniquement cette URL

2 : cette URL et les premiers liens

3-10

illimité

Définition de filtre : case à cocher permettant de sélectionner le type de fichier à supprimer.

URL/D

Désélectionnée

Désélectionnée - désactivée

Sélectionnée - activée

Définitions de filtre

URL/D

Les options par défaut sont, dans l’ordre : fichiers d’archive ; fichiers audio ; fichiers de sauvegarde ; fichiers binaires ; fichiers CGI ; fichiers d’images ; fichiers CSS, Java ou Javascript ; journaux ; fichiers de commande de révision ; fichiers de code source ; fichiers temporaires ; fichiers vidéo.

 

Il est possible de sélectionner : fichiers d’archive ; fichiers audio ; fichiers de sauvegarde ; fichiers binaires ; fichiers CGI ; fichiers d’images ; fichiers CSS, Java ou Javascript ; journaux ; fichiers PowerPoint ; fichiers de commande de révision ; fichiers de code source ; fichiers temporaires ; fichiers vidéo ; fichiers de feuilles de calcul ; fichiers plug-in ; documents Lotus Domino ; Lotus Domino OpenViews ; répertoires système (UNIX) ; répertoires système (NT).

Commentaire

URL/D

Vierge

Champ de texte qui fournit une description du site. Il n’est pas utilisé par le robot.

Traduction DNS

URL

Vierge

La traduction DNS modifie l’URL et le mode de recherche en remplaçant un nom de domaine ou un alias par un cname. Format : alias1->cname1,alias2->cname1

Filtres

La page initiale de cette section montre toutes les règles de filtrage définies et les définitions de site qui les utilisent. Chaque nom de filtre est accompagné d’une case à cocher qui permet de sélectionner le type de document, ainsi que de deux boutons radio qui permettent d’activer ou de désactiver la règle du filtre. Lorsque la case est cochée, le filtre correspondant est sélectionné et peut être supprimé. Pour ajouter un nouveau filtre, sélectionnez Nouveau. La nouvelle page de filtre est une version abrégée de la page de modification. Elle ne nécessite qu’un surnom et qu’une seule règle. Il est également possible de cliquer sur le lien Modifier afin d’accéder à la page dans laquelle vous pouvez définir les règles applicables à un type de fichier ou encore la fonction du filtre. Chaque règle se compose d’une liste déroulante de sources de filtre, d’une liste déroulante Filtrer par et d’une zone de texte permettant de saisir les particularités relatives à la chaîne de filtre.

Tableau 11  Attributs de modification de filtre du robot

Attribut

Valeur par défaut

Description

Nom du filtre

Vous invite à entrer un nouveau nom. Nom du type sélectionné pour modification.

Nom descriptif qui indique le type de fichier auquel le filtre s’applique.

Liste déroulante de sources de filtre

URL du nouveau filtre. Affiche les informations précédemment sélectionnées pour ce type de fichier.

URL, protocole, hôte, chemin, type MIME

Liste déroulante de positions

est pour le nouveau filtre. Affiche les informations précédemment sélectionnées pour ce type de fichier. Par exemple, le type Fichiers binaires se termine par exe.

est, contient, commence par, finit par, expression standard

Zone de texte réservée aux particularités du type (répertoire, protocole, extensions de fichier).

Vierge dans le cas d’un nouveau filtre. Affiche les informations précédemment saisies pour ce type de fichier. Par exemple, le type Fichiers temporaires contient /tmp/.

Dans cette zone de texte, dressez la liste des éléments avec lesquels vous souhaitez établir une correspondance. Dans cet exemple, une correspondance est possible pour http://docs.sesta.com/manual.html.

Le protocole est http ; l’hôte contient sesta ; le fichier se termine par html.

Description

Vous invite à entrer une nouvelle description. Affiche la description précédemment saisie pour ce type de fichier.

Description de la règle du filtre, à usage personnel. Le robot ne l’utilise pas.

Nouveau site

Vrai (sélectionné) pour un nouveau filtre. Affiche la valeur précédemment sélectionnée pour ce type de fichier.

Utilisez cette option comme l’un des filtres par défaut lorsque vous créez des sites. Si vous ne cochez pas cette case, il est toujours possible d’ajouter ce filtre à un nouveau site en modifiant le site dans la page Robot, Sites.

Par défaut

Aucune sélection pour un nouveau filtre. Paramètre par défaut précédemment sélectionné pour un type de fichier défini.

Exclut les documents correspondant à ce filtre.

Inclut les documents correspondant à ce filtre.

La sélection d’un nouveau filtre n’affecte pas les définitions de site existantes. Pour utiliser votre nouveau filtre sur un site existant, vous devez l’ajouter en modifiant le site dans la page Robot, Sites.

Mise en place

Dresse la liste des sites qui utilisent ce filtre.

 

Recherche

Cette page permet de gérer les paramètres opérationnels du robot et les valeurs par défaut. Elle se divise en plusieurs sections : Vitesse, Actions de réalisation, Paramètres du fichier journal, Conformité aux normes, Paramètres d’authentification, Proxy, Paramètres avancés et Extraction des liens.

Tableau 12  Attributs de recherche du robot 

Attribut

Valeur par défaut

Description

Temps d’attente du serveur

Aucun

Aucun (par défaut), 1 seconde, 2 secondes, 5 secondes, 10 secondes, 30 secondes, 1 minute, 5 minutes.

Nombre de connexions maximum - Nombre maximal d’URL extraites simultanément

8

1, 2, 4, 8 (par défaut), 10, 12, 16, 20.

Nombre maximum de connexions par site

2

(aucune limite), 1, 2, 4, 8, 10, 12, 16, 20.

Envoyer les descriptions de ressources à l’indexation toutes les

30 minutes

3 minutes, 5 minutes, 10 minutes, 15 minutes, 30 minutes (par défaut), 1 heure, 2 heures, 4 heures, 8 heures.

Script à lancer

aucun (par défaut)

aucun (par défaut). Pour obtenir des exemples de fichier, consultez les fichiers cmdHook dans le répertoire /opt/SUNWps/samples/robot (dans le cas d’une installation par défaut).

Après traitement de toutes les URL

devient inactif (par défaut)

devient inactif (par défaut), s’arrête, recommence.

Adresse électronique du contact

utilisateur@domaine

Entrez votre propre adresse.

Niveau du journal

1 - Génération

0 - Erreurs uniquement, 1 - Génération (par défaut), 2 - Énumération, Conversion, 3 - Filtrage, 4 - Génération dynamique, 5 - Extraction

Agent utilisateur

SunONERobot/6.0

Version du serveur de recherche.

Ignorer le protocole robots.txt

Faux (désélectionné)

Certains serveurs disposent d’un fichier robots.txt qui mentionne que les robots ne parviennent pas jusque-là. Si votre robot de recherche rencontre ce fichier sur un site et que cet attribut soit faux, le robot n’effectue aucune recherche sur le site. Si cet attribut est vrai, le robot ne tient pas compte du fichier et procède à la recherche sur le site.

Effectuer l’authentification

Oui

Oui

Non

Nom d’utilisateur du robot

anonyme

Le robot accède à un site en tant qu’utilisateur anonyme.

Mot de passe

utilisateur@domaine

Un site permettant un accès anonyme requiert souvent une adresse e-mail en tant que mot de passe. Cette adresse est indiquée en texte brut.

Nom d’utilisateur du proxy

anonyme

Le robot accède à un site en tant qu’utilisateur anonyme.

Mot de passe

utilisateur@domaine

Un site permettant un accès anonyme requiert souvent une adresse e-mail en tant que mot de passe. Cette adresse est indiquée en texte brut.

Type de connexion au proxy

Connexion directe à Internet

Connexion directe à Internet, Proxy - Configuration automatique, Proxy - Configuration manuelle

Type de configuration automatique du proxy

Fichier proxy local

Fichier proxy local, Fichier proxy distant

Emplacement de la configuration automatique du proxy

Vierge

La configuration automatique du proxy est incluse dans un fichier qui répertorie toutes les informations requises sur le proxy.

Le fichier robot.pac est un exemple de fichier proxy local et http://proxy.sesta.com:8080/proxy.pac un exemple de fichier proxy distant.

Configuration manuelle du proxy HTTP

Vierge

Format : server1.sesta.com:8080. Ces trois valeurs de configuration manuelle sont placées dans le fichier robot.pac, situé dans le répertoire /var/opt/SUNWps/https-nomduserveur/portal/config.

Configuration manuelle du proxy HTTPS

Vierge

Cette valeur de configuration manuelle est placée dans le fichier robot.pac.

Format : server1.sesta.com:8080

Configuration manuelle du proxy FTP

Vierge

Cette valeur de configuration manuelle est placée dans le fichier robot.pac.

Format : server1.sesta.com:8080

Suivre les liens en HTML

Vrai (sélectionné)

Extrait les liens hypertexte en code HTML.

nombre de liens maximal

1024

Limite le nombre de liens que le robot peut extraire d’une ressource HTML. À mesure que le robot parcourt des sites et découvre des liens vers d’autres ressources, il se peut qu’il soit amené à effectuer le suivi d’un nombre considérable de liens situés à une grande distance de son point de départ.

Suivre les liens en texte brut

Faux (désélectionné)

Extrait les liens hypertexte en texte brut.

nombre de liens maximal

1024

Limite le nombre de liens que le robot peut extraire d’une ressource texte.

Utiliser les cookies

Faux (désélectionné)

Si cet attribut est vrai (sélectionné), il permet au robot de se servir des cookies au cours d’une recherche. L’utilisation des cookies est indispensable sur certains sites pour faciliter la navigation. Le robot conserve les cookies dans un fichier dénommé cookies.txt, situé dans son répertoire d’état. Le format du fichier cookies.txt est identique à celui utilisé par le navigateur Netscape™ Communicator.

Utiliser l’adresse IP comme source

Vrai (sélectionné)

Dans la plupart des cas, le robot n’intervient que sur le nom de domaine d’une ressource. Il est parfois utile de pouvoir filtrer ou classer des ressources en fonction des sous-réseaux, par leur adresse IP (Internet Protocol). Dans ce cas précis, vous devez clairement accorder au robot la permission d’extraire l’adresse IP en plus du nom de domaine. L’extraction d’adresses IP requiert une recherche DNS supplémentaire susceptible de ralentir l’activité du robot. Si vous n’avez pas besoin de cette option, il est conseillé de la désactiver pour améliorer les performances.

Heuristique de l’hôte actif

Faux (désélectionné)

Si cet attribut est vrai (sélectionné), il permet au robot de convertir les noms d’hôte secondaires courants utilisés par un serveur en un nom simple. Cela peut se révéler utile lorsqu’un site fait appel à plusieurs serveurs dont l’alias est redirigé vers la même adresse, telle que www.sesta.com, qui prend souvent la forme de www1.sesta.com, www2.sesta.com, etc.

Une fois cette option activée, le robot traduit en interne tous les noms d’hôte commençant par wwwn en www, n représentant un nombre entier quelconque. Cet attribut n’agit que sur les noms d’hôte commençant par wwwn.

Il est impossible de l’employer lorsque la résolution du CNAME est désactivée (faux).

Convertir les noms d’hôte en CNAME

Faux (désélectionné)

Si cet attribut est sélectionné, le robot valide les noms d’hôte rencontrés et les convertit en nom d’hôte canonique. Ainsi, il peut rechercher précisément des descriptions de ressource uniques. Si cet attribut est désélectionné, le robot valide les noms d’hôte, mais ne les convertit pas sous une forme canonique. Dans ce cas, il est possible d’obtenir une liste où figurent plusieurs fois les mêmes descriptions de ressource associées aux différents noms d’hôte détectés par le robot.

Par exemple, devedge.sesta.com est un alias de developer.sesta.com. Si la résolution du CNAME est activée, l’URL devedge.sesta.com est automatiquement mise en correspondance avec developer.sesta.com. En revanche, si cette résolution est désactivée, la description de ressource retient devedge.sesta.com en tant que référence d’origine.

Il est impossible d’activer l’heuristique de l’hôte actif lorsque la résolution du CNAME est désactivée (faux).

Accepter les commandes de tout hôte

Faux (désélectionné)

La plupart des fonctions de contrôle du robot s’effectuent par l’intermédiaire d’un port TCP/IP. Cet attribut détermine si les ordres donnés au robot doivent provenir du système de l’hôte local (faux) ou d’un emplacement quelconque du réseau (vrai).

Il est recommandé de restreindre le contrôle direct du robot à l’hôte local (faux). Il reste possible de commander à distance le robot via la console d’administration.

Profondeur du point de départ par défaut

10

1 - points de départ uniquement, 2 - style de signet, 3-10, illimité.

Valeur par défaut des niveaux des liens hypertexte atteints par le robot à partir d’un point de départ quelconque. Vous pouvez définir la profondeur d’un point de départ en modifiant le site dans la page Robot, Sites.

Répertoire de travail

/var/opt/SUNWps/https-snomdeserveurcomplet/portal/tmp

Chemin d’accès complet à un répertoire de travail temporaire utilisé par le robot pour le stockage de données. Le robot extrait le contenu intégral des documents dans ce répertoire, souvent pour plusieurs documents simultanément ; il est donc préférable que cet espace soit suffisamment grand pour permettre un traitement simultané de tous les documents.

Répertoire d’état

/var/opt/SUNWps/https-snomdeserveurcomplet/portal/robot

Chemin d’accès complet à un répertoire temporaire utilisé par le robot pour le stockage des informations d’état, notamment la liste des URL visitées et le pool d’URL. Cette base de données peut être relativement volumineuse ; il est donc souhaitable de la placer dans une partition différente de celle du répertoire de travail.

Indexation

Le robot effectue une recherche sur les sites et collecte les documents en fonction des filtres sélectionnés. Les formats des documents collectés peuvent être différents. Pour les uniformiser et faciliter la lecture des documents, il est nécessaire de tous les convertir au format HTML. Cette page permet de configurer certaines des parties entrant dans les descriptions de ressource.

Tableau 13  Attributs d’indexation du robot 

Attribut

Valeur par défaut

Description

Texte complet ou Texte partiel

Texte partiel

Le texte complet permet d’utiliser la totalité du document dans la description de ressource. Le texte partiel n’utilise que le nombre d’octets indiqué dans la description de ressource.

extraire les # premiers octets

4096

Saisissez le nombre d’octets approprié.

Extraire la table des matières

Vrai (sélectionné)

Vrai permet d’insérer la table des matières dans la description de ressource.

Extraire les données des balises META

Vrai (sélectionné)

Vrai permet d’insérer les balises META dans la description de ressource.

Convertisseurs de documents

Tous cochés (vrai) ; dans le cas contraire (faux), le type de document correspondant ne peut pas être indexé.

Adobe PDF

Corel Presentations

Corel Quattro Pro

FrameMaker

Lotus Ami Pro

Lotus Freelance

Lotus Word Pro

Lotus 1-2-3

Microsoft Excel

Microsoft PowerPoint

Microsoft RTF

Microsoft Word

Microsoft Works

Microsoft Write

WordPerfect

StarOffice™ Calc

StarOffice™ Impress

StarOffice™ Writer

XyWrite

Délai du convertisseur

600

Durée, en secondes, accordée pour la conversion d’un document au format HTML. Si ce délai est dépassé, l’URL est exclue.

Simulateur

Cette page est un outil de débogage qui effectue une simulation partielle du filtrage du robot sur une URL. Il est possible de saisir une nouvelle URL à vérifier. Le simulateur vérifie l’URL, les traductions DNS (notamment Heuristique de l’hôte actif), ainsi que les redirections de sites. En revanche, il ne vérifie pas le contenu du document indiqué par l’URL ; il est donc incapable de détecter les doublons, les types MIME, les erreurs de réseau, les autorisations, etc. Le simulateur indique si la liste des sites est susceptible d’être acceptée (ACCEPTÉ) ou non (AVERTISSEMENT) par le robot.

Tableau 14  Propriétés du simulateur du robot

Attribut

Valeur par défaut

Description

URL

URL déjà définies et zone de texte vierge.

Il est possible de vérifier l’accès à un nouveau site en saisissant son URL dans la zone de texte vierge. Cette vérification permet de déterminer si le nouveau site accepte la recherche.

Format : http://www.sesta.com:80/

Vérifier les alias DNS

Vrai (sélectionné)

Lorsque cet attribut est vrai (sélectionné), il permet de vérifier le nombre de serveurs dont l’alias dépend de la même adresse.

Vérifier la redirection du serveur (302)

Vrai (sélectionné)

Si la valeur de cet attribut est Vrai (il est sélectionné), les éventuelles redirections du serveur sont vérifiées.

Sonde du site

Cette page est un outil de débogage qui vérifie les alias DNS, les redirections du serveur et les serveurs virtuels. Cet outil renvoie des informations sur le site, mais ne vérifie pas si ce dernier accepte la recherche.

Tableau 15  Attributs de la sonde du site du robot

Attribut

Valeur par défaut

Description

Site

Vierge

Saisissez l’URL au format http://www.sesta.com:80.

Afficher les informations avancées sur le DNS

Faux (désélectionné)

Si la valeur de cet attribut est Vrai (il est sélectionné), davantage d’informations sur le site sont affichées, notamment son adresse IP.

Base de données

Les attributs de la base de données sont classés dans deux catégories :

Gestion

La page Gestion initiale répertorie les bases de données disponibles. Vous avez la possibilité de créer une base de données, ou de réindexer, purger ou faire expirer une base de données existante. Utilisez la case à cocher pour sélectionner la base de données sur laquelle vous voulez exécuter une action. Utilisez les petites icônes situées au-dessus de la case pour sélectionner ou désélectionner toutes les bases de données. Lorsque vous sélectionnez Réindexer, Purger ou Expirer, un message vous invitant à confirmer l’opération et comportant une liste de noms de base de données apparaît. Pour exécuter l’action, cliquez sur OK.

Il est recommandé de réindexer la base de données si vous en avez modifié le schéma pour ajouter ou supprimer un champ indexé (par exemple, l’auteur) ou si une erreur liée au disque a endommagé l’index.

Le temps nécessaire à la réindexation de la base de données est proportionnel au nombre de descriptions de ressource dans la base de données. Il est donc recommandé de réindexer une base de données volumineuse lorsque le serveur n’est pas trop sollicité.

Lorsque vous effacez le contenu de la base de données, il est possible de récupérer l’espace disque utilisé pour les index, mais non celui utilisé par la base de données principale : cet espace disque est réutilisé au fur et à mesure que de nouvelles données sont ajoutées à la base.

Enfin, en procédant à l’expiration d’une base de données, vous supprimez toutes les descriptions de ressource jugées obsolètes. Cette opération ne permet pas de réduire la taille de la base de données. Par défaut, une description de ressource est programmée pour arriver à expiration 90 jours après sa date de création.

Vous pouvez également modifier la base de données dans la page vous permettant de définir les attributs de la base, qui est accessible à l’aide du lien Modifier.

Tableau 16  Attributs de gestion de la base de données

Attribut

Valeur par défaut

Description

Nom

Par défaut

Nom de la base de données utilisé par la fonction de recherche.

Titre

Vierge

Intitulé de la base de données.

Description

Vierge

Entrez une description de la base de données pour votre usage personnel.

Agents d’importation

Les agents d’importation sont des processus grâce auxquels les descriptions de ressource d’autres serveurs ou bases de données peuvent être importées en vue d’être incluses dans votre base de données de recherche.

La page d’importation initiale répertorie les agents d’importation disponibles. Il est possible de créer un agent, ou d’exécuter, de modifier ou de supprimer un agent existant. Sélectionnez l’agent à supprimer en cochant la case correspondante. Utilisez les petites icônes situées au-dessus de la case à cocher pour sélectionner ou désélectionner tous les agents d’importation. Utilisez les boutons radio pour activer ou désactiver une action réalisée par un agent. Pour programmer les agents d’importation, sélectionnez Programmer dans la barre de menus inférieure.

Si vous choisissez de modifier un agent d’importation existant ou d’en créer un, les attributs ci-après sont affichés.

Tableau 17  Attributs d’agent d’importation de la base de données 

Attribut

Valeur par défaut

Description

Importer de

Fichier local

Sélectionnez Fichier local ou Serveur de recherche (si l’une de ces options est activée).

Chemin d’accès au fichier local

Vierge dans le cas d’un nouveau jeu

Donne le chemin d’accès complet à un fichier local contenant des descriptions de ressource valides au format SOIF (Summary Object Interchange Format). Il peut s’agir d’un fichier sur un autre serveur, tant que le chemin correspond à une adresse locale.

Nom de base de données

Par défaut

Nom de la base de données de destination.

Serveur distant

 

Vierge dans le cas d’un nouveau jeu

Indique l’URL du serveur de recherche duquel les descriptions de ressource doivent être extraites ; format : http://www.sesta.com:80.

Nom d’instance

Vierge dans le cas d’un nouveau jeu

Nom d’instance de serveur utilisé par le serveur de recherche. Ce nom d’instance figure dans les préférences du serveur à partir duquel vous importez des données. La valeur peut être uniquement 3.01C ou 3.01C SP1.

Rechercher dans l’URI

Vierge dans le cas d’un nouveau URI

Saisissez dans leur intégralité les chemins d’accès et noms de fichier. Utilisez /portal/search.

S’agit-il de Compass Server 3.01X ?

Faux (désélectionné)

Le serveur à partir duquel vous effectuez l’importation est-il Compass Server 3.01X ?

Activer SSL

Faux (désélectionné)

S’il s’agit d’une transaction de serveur à serveur, indiquez si vous souhaitez que les serveurs utilisent le protocole SSL (Secure Sockets Layer).

Authentification

Aucune (par défaut)

Aucune (par défaut) ou Utiliser utilisateur/mot de passe.

Indiquez ici la manière dont l’agent doit s’identifier auprès du système à partir duquel il effectue l’importation. Par défaut, aucune authentification n’est effectuée. Si le serveur à partir duquel vous souhaitez importer requiert une authentification, indiquez le nom d’utilisateur et le mot de passe que l’agent d’importation doit employer. Une importation réalisée à partir d’un serveur 3.01C ne requiert aucune authentification. En revanche, une importation de données réalisée à partir d’un serveur 3.01C SP1 nécessite une authentification.

Utilisateur

Vierge pour un nouveau mot de passe ou aucun mot de passe

Si vous avez sélectionné l’option Utiliser utilisateur/mot de passe, entrez le nom de l’utilisateur.

Mot de passe

Vierge pour un nouveau mot de passe ou aucun mot de passe

Si vous avez sélectionné l’option Utiliser utilisateur/mot de passe, entrez un mot de passe (affiché à l’écran sous forme de *).

Transfert de contenu

Utiliser le rassemblement par incrément des contenus pleins (par défaut)

Possibilité de choisir entre Utiliser le rassemblement par incrément des contenus pleins (par défaut) ou Utiliser la requête de recherche.

Ces options précisent les descriptions de ressource à importer à partir de la source.

Par défaut, un agent d’importation demande toutes les descriptions de ressource ajoutées ou modifiées depuis la dernière importation effectuée à partir de la même source.

La requête de recherche indique que l’agent d’importation ne doit importer que certaines descriptions de ressource à partir de la source. Cette procédure est similaire aux demandes de listes de ressources effectuées par les utilisateurs de la base de données de recherche.

Utilisez les champs Étendue, Afficher les attributs et Afficher les occurrences pour définir la requête.

Étendue

Vierge dans le cas d’un nouveau jeu

Texte de la requête. La syntaxe de la requête est identique à celle utilisée pour les requêtes des utilisateurs à partir du serveur.

Afficher les attributs

Vierge dans le cas d’un nouveau jeu

Dresse la liste des champs (sans distinction entre majuscules et minuscules) dont le contenu doit être importé dans chaque description de ressource. Il s’agit par exemple du titre et de l’auteur. Tous les champs sont sélectionnés par défaut.

Afficher les occurrences

Vierge dans le cas d’un nouveau jeu

Nombre maximal de descriptions de ressource correspondant aux critères de recherche à importer. La valeur par défaut est de 20.

Description de l’agent

Vierge dans le cas d’un nouveau jeu

Figure dans la liste des agents d’importation disponibles, dans la page d’importation initiale. Le programme n’en tient pas compte. Si ce champ est vierge, le nom de fichier ou de serveur de la source des descriptions de ressource sert à identifier l’agent d’importation. Notez si un nom d’utilisateur et un mot de passe sont nécessaires.

Description des ressources la plus récente

Vierge dans le cas d’un nouveau jeu

Date de création de la description de ressource la plus récente, précédemment importée par l’agent d’importation. Cette date sert de repère à l’option Utiliser le rassemblement par incrément des contenus pleins pour déterminer les nouvelles ressources à importer.

Délai du réseau en secondes

Vierge dans le cas d’un nouveau jeu

Indique le délai d’attente, en secondes, de l’agent d’importation avant la déconnexion du réseau. Il est possible de régler ce délai en fonction des variations de la qualité et du trafic sur le réseau.

Jeu de caractères

Vierge dans le cas d’un nouveau jeu

Indique le jeu de caractères du flux SOIF d’entrée (par exemple, ISO8859-1, UTF-8, UTF-16). Les jeux de caractères allant d’ISO8859-1 à ISO8859-15 sont pris en charge.

Descriptions des ressources

La page Descriptions des ressources initiale permet de rechercher les descriptions de ressource dans la base de données. Par exemple, il est possible de corriger une erreur typographique à l’intérieur d’une description de ressource ou d’affecter manuellement à des catégories de nouvelles descriptions de ressource découvertes par le robot.

Tableau 18  Attributs des descriptions de ressource

Attribut

Valeur par défaut

Description

Rechercher

Toutes les descriptions de ressource

Toutes les descriptions de ressource, les descriptions de ressource non catégorisées, les descriptions de ressource catégorisées, les descriptions de ressource par catégorie, toute description de ressource particulière par URL, les descriptions de ressource contenant.

Zone de texte

Vierge

Entrez une chaîne de texte unique afin d’identifier les descriptions de ressource recherchées. À utiliser avec les descriptions de ressource par catégorie, toute description de ressource particulière par URL et les descriptions de ressource contenant des valeurs d’attribut.

Base de données

Par défaut

Nom de la base de données dans laquelle effectuer la recherche.

Pour limiter la recherche par catégorie, choisissez Sélectionner la catégorie. Dans la page de l’Éditeur de catégories qui apparaît, vous pouvez indiquer la catégorie à partir de la taxinomie pour la recherche. Vous pouvez indiquer la catégorie dans la zone de texte Catégorie sélectionnée ou parcourir la taxinomie pour la sélectionner. Une fois la catégorie précisée, cliquez sur OK pour revenir à la page de recherche des descriptions de ressource.

Tableau 19  Attributs de l’Éditeur de catégories

Attribut

Valeur par défaut

Description

Catégories sélectionnées

Vierge

Zone de texte dans laquelle saisir la catégorie.

Tout développer

 

Développe la taxinomie de manière à afficher toutes les entrées de la hiérarchie.

Tout réduire

Vierge

Réduit la taxinomie de manière à afficher uniquement les catégories appartenant aux deux premiers niveaux de la hiérarchie.

Catégories par page

25

Liste déroulante des nombres de catégories à afficher dans chaque page. Les valeurs possibles sont 25, 50, 100, 250, 500 et Toutes.

Après une recherche réussie, le nombre de descriptions de ressource trouvées et une zone de texte détaillant ces descriptions sont affichés. Une fois l’une de ces ressources sélectionnées, les attributs ci-après (modifiables) et une partie du texte de la description de ressource apparaissent. Hormis la classification, tous ces attributs sont définis comme étant modifiables dans la page Base de données/Schéma.

Tableau 20  Attributs modifiables des descriptions de ressource de la base de données 

Attribut

Valeur par défaut

Description

Classification

Nom de la catégorie de la description de ressource sélectionnée.

Nom de la catégorie si elle est classée ; Aucune classification si la catégorie n’est pas classée.

ReadACL

Vierge

Relatif à la sécurité au niveau du document.

Description

Description issue de la description de ressource sélectionnée.

Description provenant de la description de ressource.

Mots-clés

Mots-clés issus de la description de ressource sélectionnée, le cas échéant.

Mots-clés extraits des balises META.

Titre

Intitulé de la description de ressource sélectionnée.

Intitulé de la description de ressource.

Schéma

Le schéma détermine les informations figurant dans une description de ressource, ainsi que leur présentation. Il est possible d’ajouter de nouveaux attributs ou champs à une description de ressource et de configurer ceux qui pourront être modifiés ou faire l’objet d’une indexation. Lors de l’importation de nouvelles descriptions de ressource, vous pouvez convertir les schémas intégrés à ces descriptions en votre propre schéma.

Tableau 21  Attributs de modification du schéma de base de données 

Attribut

Valeur par défaut

Description

Nom

Vierge

Indique le nom du schéma sélectionné : Auteur, Auteur-Message électronique, Jeu de caractères du contenu, Encodage du contenu, Langue du contenu, Longueur du contenu, Type du contenu, Description, Expire, Texte complet, Mots-clés, Dernière modification, Texte partiel, Téléphone, ReadACL, Titre, URL

Description

Vierge

Ces descriptions correspondent aux schémas de la liste ci-dessus. Cette zone de texte est réservée à vos commentaires. Elle n’est pas prise en compte par le serveur de recherche.

Auteur(s) du document.

Adresse e-mail à laquelle contacter l’auteur ou les auteurs du document.

Informations sur le jeu de caractères du contenu issues du serveur HTTP.

Informations sur le codage du contenu issues du serveur HTTP.

Informations sur la langue du contenu issues du serveur HTTP.

Informations sur la longueur du contenu issues du serveur HTTP.

Informations sur le type du contenu issues du serveur HTTP.

Brève description du document, en une seule ligne.

Date à laquelle la description de ressource devient non valide.

Contenu intégral du document.

Mots-clés servant à décrire le document.

Date de la dernière modification du document.

Extrait du document.

Numéro de téléphone de l’auteur.

Utilisé par les serveurs de recherche pour garantir la sécurité.

Titre du document.

URL (Uniform Resource Locator), ou adresse Web, du document.

Alias

Nom

Description

Vierge

Lors de l’importation de nouvelles descriptions de ressource, vous pouvez convertir les schémas intégrés à ces descriptions en votre propre schéma. La conversion est utile en cas de divergence entre les noms utilisés pour les champs dans le schéma de la base de données d’importation et le schéma employé pour les descriptions de ressource dans votre base de données. À titre d’exemple, imaginez que vous tentiez d’importer des descriptions de ressource pour lesquelles le champ de l’auteur serait Rédacteur, alors que vous avez choisi Auteur dans vos descriptions de ressource. Vous pouvez procéder à la conversion de Rédacteur en Auteur, en entrant Rédacteur dans cette zone de texte.

Type de données

Chaîne

Définit le type de données.

Modifiable

Faux (désélectionné)

Vrai (sélectionné) signifie que l’attribut sélectionné (champ) figure dans l’éditeur des descriptions de ressource de la base de données. Il est donc possible de modifier ses valeurs.

Les champs Description, Mots-clés, Titre et ReadACL sont modifiables.

Indexable

Vrai

Vrai (sélectionné) signifie que l’attribut sélectionné (champ) peut servir de base pour l’indexation.

Auteur, Titre et URL figurent dans le menu de l’écran Recherche avancée. Les utilisateurs peuvent ainsi rechercher des valeurs dans ces champs.

Auteur, Expire, Mots-clés, Dernière modification, Titre, URL et ReadACL peuvent servir de base pour l’indexation.

Multiplicateur de pertinence

1.0

Champ de pondération pour déterminer la pertinence d’un élément particulier. Toute valeur positive est valide.

Analyse

La page Analyse contient la liste triée de tous les sites et le nombre de ressources du site actuellement dans la base de données de recherche. Sélectionnez Mettre à jour l’analyse pour mettre à jour l’analyse sur le fichier.

Tableau 22  Attributs d’analyse de la base de données

Attribut

Valeur par défaut

Description

Nombre total des descriptions de ressources

Nombre de descriptions de ressource actuellement présentes dans la base de données.

Indique le nombre total de descriptions de ressource actuellement présentes dans la base de données.

Nombre de serveurs

Nombre de serveurs sur lesquels figure une partition de la base de données.

Il est possible de partitionner la base de données et de répartir ses partitions sur plusieurs serveurs.

Site

URL ou domaine sur lequel le robot a réalisé une recherche réussie.

URL ou domaine à partir duquel des descriptions de ressource ont été ajoutées à la base de données.

Nombre de descriptions de ressources

Nombre actuel de descriptions de ressource disponibles sur ce site.

Indique le nombre actuel de descriptions de ressource disponibles sur le site.

Type

Type de description de ressource.

Les descriptions de ressource peuvent être de plusieurs types, par exemple http.

Pourcentage

Type de description de ressource/nombre total de descriptions de ressource.

Pourcentage d’un type de document par rapport au nombre total de descriptions de ressource.

Catégories

Les utilisateurs disposent de deux façons distinctes de communiquer avec la base de données de recherche : ils peuvent entrer des requêtes directes pour faire une recherche dans la base de données ou en parcourir le contenu à l’aide de catégories préalablement définies. Dans une base de données de recherche, des ressources sont affectées à des catégories pour plus de facilité. Si la base de données contient un grand nombre d’éléments, il est utile de regrouper les éléments apparentés. Lors de la configuration des catégories, vous devez avant tout vous préoccuper de leur facilité d’utilisation afin que les utilisateurs puissent localiser plus rapidement des éléments bien particuliers.

Le serveur de recherche utilise une hiérarchie de catégories intitulée taxinomie. En règle générale, le terme taxinomie désigne un système quelconque de catégories. Dans le contexte d’une base de données de ressources en réseau, telle que la base de données du serveur de recherche, ce terme décrit toute méthode de catégorisation des ressources du réseau pour en faciliter l’extraction.

La rubrique Catégories se décompose en différentes sous-rubriques :

Éditeur de catégories

La page Éditeur de catégories contient la liste des catégories de la taxinomie dans laquelle vous pouvez sélectionner les catégories voulues. Une fois la catégorie voulue sélectionnée, vous pouvez cliquer sur le lien Catégorie pour afficher l’Éditeur de règles de classification afin de configurer les collections Robot dans des catégories spécifiques.

Tableau 23  Attributs de l’Éditeur de catégories 

Attribut

Valeur par défaut

Description

Tout développer

 

Développe la taxinomie de manière à afficher toutes les entrées de la hiérarchie.

Tout réduire

 

Réduit la taxinomie de manière à afficher uniquement les catégories appartenant aux deux premiers niveaux de la hiérarchie.

Réindexer

 

Génère un nouvel index pour la base de données. Si vous venez de créer votre taxinomie, vous devez indexer votre base de données pour permettre aux utilisateurs de rechercher des catégories. Si vous avez modifié vos catégories, vous devez créer un nouvel index pour votre base de données afin de la mettre à jour. Enregistrez l’arborescence des catégories avant de réindexer la base de données.

Catégories par page

25

Liste déroulante des nombres de catégories à afficher dans chaque page. Les valeurs possibles sont 25, 50, 100, 250, 500 et Toutes.

Nom

Catégorie sélectionnée

Nom de la catégorie à modifier.

Description

Vierge

Votre description de la catégorie.

Règle de correspondance

Vierge

Règle de correspondance à utiliser.

Mettre à jour

 

Met à jour la définition de la catégorie.

Ajouter en tant qu’enfant

 

Ajoute la catégorie en tant qu’enfant.

Ajouter en tant que sur

 

Ajoute la catégorie en tant que sur.

Éditeur de règles de classification

Après avoir configuré les catégories de votre base de données, utilisez cette page pour définir ou modifier les règles suivies par le robot au moment de l’affectation des ressources aux catégories.

Tableau 24  Attributs de l’Éditeur de règles de classification des catégories

Attribut

Valeur par défaut

Description

Source

Sélectionné

Auteur, Auteur-Message électronique, Jeu de caractères du contenu, Encodage du contenu, Langue du contenu, Longueur du contenu, Type du contenu, Description, Expire, Texte complet, Mots-clés, Dernière modification, Texte partiel, Téléphone, ReadACL, Titre, URL, hôte, protocole, URI, IP, chemin, type

Méthode

est

est, contient, commence par, finit par, expression standard

Critères

Vierge

Indique les critères de la règle.

Classification

Vierge

Catégorie dans laquelle doit être classée la description de ressource si les conditions de la règle sont remplies. Saisissez la catégorie ou sélectionnez-la dans la page Sélectionner la catégorie à modifier.

Classification automatique

Cette page permet de gérer la fonction Classification automatique.

Tableau 25  Attributs de la classification automatique des catégories

Attribut

Valeur par défaut

Description

Chemin d’accès au journal

 

Emplacement du fichier journal utilisé par la fonction Classification automatique.

Descriptions de ressources en mémoire

10000

Taille de la mémoire cache pour les descriptions de ressource stockées en mémoire. Lorsque les descriptions de ressource collectées excèdent la taille indiquée, elles sont transférées vers la mémoire temporaire de la base de données. Vous pouvez indiquer une taille plus élevée pour de meilleures performances, mais l’inconvénient de cette solution est l’utilisation d’une plus grande quantité de mémoire.

Chemin d’accès à la base de données :

 

Fichier utilisé pour la base de données de stockage temporaire des descriptions de ressource.

Rapports

La section Rapports permet de surveiller le serveur de recherche. Il est possible de consulter un récapitulatif de son activité : sites explorés, URL exclues et la raison de leur exclusion, informations détaillées sur les URL visitées par le robot et centres d’intérêt des utilisateurs.

La rubrique Rapports se décompose en plusieurs sous-rubriques :

Points de départ

Le robot visite tous les sites activés à chaque démarrage.

Tableau 26  Attributs des points de départ des rapports

Attribut

Valeur par défaut

Description

Activé

Valeur actuelle du site.

Oui ou Non.

Cette option est définie dans la page Robot, Sites.

Point de départ

URL:80 choisie.

Ce lien permet d’accéder à l’URL choisie.

dans la définition du site

URL choisie.

Établit un lien vers la page de modification Robot, Sites.

Profondeur

Indique le niveau de recherche sélectionné.

1-n est défini dans la page de modification Robot, Sites.

URL exclues

Cette page présente la liste des exécutions du robot. Pour afficher la liste des motifs pour lesquels des URL ont été exclues, choisissez la session d’exécution du robot à examiner, puis sélectionnez Afficher la sélection et enfin l’un des motifs d’exclusion. La liste des URL exclues pour ce motif apparaît. Les exclusions en double et les avertissements d’exclusion ont été supprimés.

Tableau 27  Attributs des URL exclues des rapports

Attribut

Valeur par défaut

Description

Journal

Affiche le journal de l’exécution la plus récente.

Répertorie tous les journaux d’exécution disponibles.

Nombre

Nombres

Liste des nombres associés aux motifs d’exclusion.

Motif de l’exclusion

Liste des motifs pour lesquels des sites n’ont pas reçu d’autorisation. Chaque motif est lié à la liste des URL exclues à ce titre.

Les motifs d’exclusion des URL peuvent être les suivants : règles de filtre, fichier introuvable, site non autorisé, protocole non autorisé, erreurs, doublons.

Rapports avancés du robot

Cette page vous donne accès à différents rapports concernant le robot. Sélectionnez le rapport souhaité dans l’une des listes déroulantes pour en afficher le contenu. Le bouton Actualiser permet d’obtenir des informations mises à jour.

Tableau 28  Attribut des rapports avancés du robot

Attribut

Valeur par défaut

Description

Rapports avancés du robot

Version

Version, Vidage mémoire cache DNS, Performance, Serveurs trouvés - Tous, Serveur trouvé - Gestionnaire de description des ressources, État - Configuration actuelle, État - Base de données (interne), État - Libnet, État - Modules, État - Présentation, URL - prêts à l’extraction, URL - prêts à l’indexation, URL - en attente de filtrage (pool d’URL), URL - en attente d’indexation, tous les rapports.

Fichiers journaux

Cette page permet d’afficher les entrées ou des lignes déterminées d’un fichier journal. Faites défiler la liste des journaux. Saisissez le nombre de lignes que vous souhaitez voir s’afficher après avoir cliqué sur le bouton Afficher.

Tableau 29  Attributs des rapports Afficher les journaux

Attribut

Valeur par défaut

Description

Afficher ce journal

URL exclues (filtre)

URL exclues (filtre), Gestionnaire de description des ressources, Serveur du gestionnaire de description des ressources, Activités du robot (robot), Moteur de recherche (searchengine), Requêtes utilisateur (rdm).

Nombre de lignes

25

Nombre d’entrées les plus récentes du journal à afficher (à préciser).

Recherches les plus fréquentes

Cette page permet de vérifier ce que recherchent les utilisateurs. Les recherches les plus fréquentes apparaissent en premier dans le rapport.

Tableau 30  Attribut des rapports Recherches les plus fréquentes

Attribut

Valeur par défaut

Description

Exclure la navigation

Faux (désélectionné)

Faux (désélectionné) permet d’inclure les informations relatives aux catégories parcourues par les utilisateurs. Vrai (sélectionné) permet d’exclure les statistiques de navigation.

Programmation

Démarrer le robot

Cette page permet de définir l’heure du démarrage automatique du robot.

Tableau 31  Attributs de programmation du démarrage du robot

Attribut

Valeur par défaut

Description

Horaires

00:00

Heure à laquelle le robot lance sa recherche.

Jours

aucun sélectionné

Dim, Lun, Mar, Mer, Jeu, Ven ou Sam

Arrêter le robot

Cette page permet de définir l’heure de l’arrêt automatique du robot.

Tableau 32  Attributs de programmation de l’arrêt du robot

Attribut

Valeur par défaut

Description

Heure

00:00

Si vous prévoyez d’exécuter le robot en permanence, il est recommandé de l’arrêter, puis de le redémarrer au moins une fois par jour. Le robot peut ainsi publier des ressources et se réinitialiser.

Jours

aucun sélectionné

Dim, Lun, Mar, Mer, Jeu, Ven ou Sam

Lancer l’importation

Cette page permet de programmer l’exécution des agents d’importation.

Tableau 33  Attributs de programmation du lancement de l’agent d’importation

Attribut

Valeur par défaut

Description

Heure

00:00

Heure à laquelle l’agent d’importation commence l’importation.

Jours

aucun sélectionné

Dim - Sam

Démarrer la classification automatique

Cette page vous permet de définir les heures de démarrage de la fonction Classification automatique.

Tableau 34  Attributs de programmation du démarrage de la classification automatique

Attribut

Valeur par défaut

Description

Heure

00:00

Heure à laquelle démarre la fonction Classification automatique.

Jours

aucun sélectionné

Dim - Sam


Sommaire