Página “Atributos de búsqueda”
Este apéndice describe los atributos que puede configurar para el motor de búsqueda en la consola de administración de Sun Java System Identity Server.
Cuando se seleccionan las “Propiedades de búsqueda” en la “Vista de administración de servicios”, aparece una barra de menús de dos tonos con fichas. Este apéndice se organiza en función de los temas o fichas que aparecen en la parte superior de la barra de menús.
Cuando se selecciona una de estas fichas, la barra de menú inferior muestra los subtemas relacionados con el tema en cuestión. La página de búsqueda predeterminada selecciona “Servidor/Preferencias”. En cada subtema se utilizan una o varias tablas para explicar los atributos de dicho subtema. Las tablas se dividen en tres columnas: “Atributo”, “Valor predeterminado” y “Descripción”. El atributo proporciona el texto descriptivo encontrado en la página; el valor predeterminado proporciona el valor predeterminado del atributo; y, por último, la descripción explica el atributo y su formato.
Cada página de “Propiedades de búsqueda” le proporciona el atributo “Seleccionar servidor” tal y como se describe en la Tabla 4.
Tabla 4 Atributo Seleccionar servidor de búsqueda
Atributo
|
Valor predeterminado
|
Descripción
|
Seleccionar servidor
|
http://nombredelservidor:80/portal
|
El nombre totalmente cualificado del servidor de búsqueda.
|
Servidor
En la sección “Servidor”, se configuran las preferencias de su servidor. Aquí seleccionará en qué directorio se van a guardar los archivos temporales, qué información se deberá registrar y qué cantidad de detalle se debe incluir en los registros. Los atributos de servidor se muestran en dos páginas:
Preferencias
Esta página contiene las preferencias básicas para la administración y el funcionamiento del servidor de búsqueda.
Tabla 5 Atributos de preferencias del servidor
Atributo
|
Valor predeterminado
|
Descripción
|
Raíz del servidor
|
/var/opt/SUNWps/https-nombrecompletodelservidor/portal
|
Aloja la configuración, registro, base de datos y archivos de información del robot. También es el directorio raíz de todos los archivos de búsqueda que se generan y actualizan cuando se lleva a cabo una búsqueda. No se puede configurar.
|
Archivos temporales
|
/var/opt/SUNWps/https-nombrecompletodelservidor/portal/tmp
|
Contiene todos los archivos temporales utilizados para administrar una búsqueda durante su desarrollo. Incluye las nuevas descripciones de recursos generadas que aún no se han añadido a la base de datos principal. Estas descripciones se eliminan cuando se completa la búsqueda.
|
Seguridad de nivel de documento
|
Desactivado
|
Controla quién tiene acceso a los documentos.
Cuando se modifica esta preferencia, el servidor debe reiniciarse.
Valores:
- Desactivado (predeterminado) significa que todos los usuarios tienen acceso a las RD (descripciones de recursos).
- Si está Activado significa que el campo ReadACL se activa para comprobar si el usuario que solicita la RD está autorizado por estar en una organización o un rol aceptable o por tratarse de un usuario individual aceptable. El campo ReadACL se define en la página “Editar” de la base de datos.
|
Avanzado
Esta página contiene las preferencias avanzadas para la administración y funcionamiento del servidor de búsqueda. Aquí se configuran los archivos de registro de las consultas de usuario, el mantenimiento de índice, la administración de descripción de recursos y la depuración.
Tabla 6 Atributos de preferencias avanzadas del servidor
Atributo
|
Valor predeterminado
|
Descripción
|
Buscar (administrador de carpeta raíz, rdm)
|
/var/opt/SUNWps/https-nombredelservidor/portal/logs/rdm.log
|
Registra las consultas que realizan los usuarios finales en la base de datos. Puede activar la casilla “Desactivar registro de búsqueda” para suprimir dicho registro.
Si lo hace, no podrá visualizar el informe (rdm) de consultas del usuario.
|
Desactivar registro de búsqueda
|
Falso (desactivado): habilitado
|
Controla el uso del registro de consultas.
En la sección “Informes”, puede generar un informe en el que se enumeran las consultas más solicitadas basándose en este registro.
Valores:
|
Mantenimiento del índice
|
/var/opt/SUNWps/https-nombredelservidor/portal/logs/searchengine.log
|
Registra las transacciones en las que participa el motor de búsqueda, excepto las descripciones de recursos.
|
Administrador de la carpeta raíz (RD)
|
/var/opt/SUNWps/https-nombredelservidor/portal/logs/rdmgr.log
|
Incluye el registro de las descripciones de recursos del robot o agentes de importación en la base de datos. Puede visualizar este registro como un informe de Administrador RD (rdmgr).
|
Servidor RDM
|
/var/opt/SUNWps/https-nombredelservidor/portal/logs/rdmserver.log
|
Registra la información de depuración en transacciones RDM. El nivel de registro controla el nivel de detalle. Puede ver este registro como un informe de Servidor RDM (rdmsvr).
|
Nivel de registro
|
1
|
Controla la cantidad de detalle que contiene el archivo de registro del servidor RDM.
Los niveles posibles son 2, 10, 20, 50, 100 y 999.
Una preferencia de 1 (predeterminado) registra sólo los errores graves. Cuanto mayor sea el número, más detalle contendrá el archivo de registro del servidor RDM.
|
Robot
Las propiedades del robot son bastante complejas. Puede seleccionar los sitios en los que desea realizar la búsqueda o rastrear, comprobar si se trata de un sitio válido, definir qué tipos de documentos se deben seleccionar y programar cuándo desea que tengan lugar las búsquedas.
Esta sección se organiza de la siguiente manera:
Visión general
En el panel de “Visión general del robot” se puede observar lo que está haciendo el robot: si está desactivado, inactivo, en funcionamiento o en pausa; y, si está en funcionamiento, cómo avanza en el proceso de búsqueda, puesto que el panel se actualiza cada 30 segundos. El índice de actualización se define utilizando el parámetro robot-refresh en el archivo search.conf.
Los dos botones de la parte superior derecha vienen determinados por su estado. Si el robot está desactivado, los botones son “Iniciar estado” y “Eliminar estado”. Si está en funcionamiento o inactivo, los dos botones son “Detener” y “Detener en pausa”. Si está en pausa, los dos botones son “Detener” y “Reanudar”. Si selecciona cualquiera de los atributos, accederá a la sección “Informes”, donde puede conseguir un informe detallado y actualizado sobre aquel atributo.
Tabla 7 Atributos de visión general del robot
Atributo
|
Valor predeterminado
|
Descripción
|
El robot está:
|
Actividad actual
|
El estado del robot. Los valores pueden ser Inactivo, En funcionamiento, En pausa o Desactivado.
|
Actualizada en la fecha
|
Fecha y hora en la que se actualizó por última vez.
|
Esta página se actualiza para mantenerle informado sobre el progreso que realiza el robot.
|
Puntos de inicio
|
Número definido
|
Número de sitios seleccionados en los que desea realizar la búsqueda. Un sitio se desactiva (no se incluye en una búsqueda) en la página “Sitio” del robot.
|
Conjunto de URL
|
Número de URL en espera
|
Número de direcciones URL que todavía se tienen que examinar. Al iniciar una búsqueda, las URL de punto de inicio se introducen en el conjunto de URL. A medida que la búsqueda avanza, el robot detecta enlaces a otras URL. Estas URL se añaden al conjunto. Cuando se han procesado todas las URL del conjunto, el conjunto de URL se vacía y el robot queda inactivo.
|
Extracción
|
Número de conexiones por segundo
|
Número de recursos examinados en un segundo.
La extracción es el proceso de detección o localización de recursos, documentos o hipervínculos que se van a incluir en la base de datos y de filtración de elementos no deseados.
|
Filtración
|
Número de URL rechazadas
|
El número total de URL que se excluyen.
|
Indexación
|
Número de URL por segundo
|
Número de recursos o documentos transformados en una descripción de recurso en un segundo.
La indexación es la fase en la cual toda la información recogida sobre un documento se transforma en una descripción de recurso para su inclusión en la base de datos de búsqueda.
|
URL excluidas
|
Número de URL excluidas por los filtros
|
Número de URL que no cumplieron los criterios de filtración.
|
|
Número de URL excluidas por errores
|
Número de URL en las que el robot encontró errores tales como “no se ha encontrado archivo”.
|
Descripciones de recursos
|
Número de RD incluidas
|
Número de descripciones de recursos añadidas a la base de datos.
|
|
Número de bytes de RD incluidos
|
Número de bytes añadidos a la base de datos.
|
Estadísticas generales
|
Número de URL recuperadas
|
Número de URL recuperadas durante la ejecución.
|
|
Número del tamaño medio en bytes de RD
|
Número medio de bytes por descripción de recurso.
|
|
Tiempo funcionando en días, horas, minutos y segundos
|
La cantidad de tiempo que ha estado funcionando el robot.
|
Sitios
La página inicial en esta sección muestra cuáles son los sitios disponibles para la búsqueda.
Los botones de opción sirven para activar (On) y desactivar (Off) un sitio. Un sitio desactivado no se puede incluir en la búsqueda si el robot está en funcionamiento. El enlace “Editar” muestra una página en la que puede cambiar el modo de definición de un sitio de búsqueda.
Para suprimir un sitio, active la casilla y haga clic en “Suprimir”.
Para añadir un nuevo sitio, seleccione “Nuevo sitio”. Añada una URL o un dominio en el cuadro de texto y seleccione una profundidad para la búsqueda. Seleccione “Crear” para utilizar los valores predeterminados. De lo contrario, haga clic en “Crear” y “Editar” para seleccionar los valores no predeterminados y vaya a la página “Editar” para definir el sitio de búsqueda.
Tabla 8 Atributos de sitios de administración del robot
Atributo
|
Valor predeterminado
|
Descripción
|
Estado del sitio
|
Gráfico de grupo o de candado
|
Si el candado está abierto, significa que se puede acceder a la URL. Si el candado está cerrado, quiere decir que el sitio es un servidor Web seguro y utiliza SSL. El grupo significa que el sitio es un dominio.
|
Activado/Desactivado
|
Activado
|
Seleccione si desea realizar o no una búsqueda en este sitio cuando el robot esté en funcionamiento.
|
La página “Nuevo sitio” le permite configurar un sitio entero para su indexación.
Tabla 9 Atributos de nuevo sitio del robot
Atributo
|
Valor predeterminado
|
Descripción
|
Nuevo sitio
|
URL
|
URL: formato: http://www.sesta.com
Dominio: formato: *.sesta.com
|
Profundidad
|
10
|
Puede seleccionar 1 sólo para esta URL, 2 para esta URL y los primeros enlaces, 3 - 10 o ilimitado. El valor predeterminado se define en la página “Rastreo” del robot.
|
En la página “Editar” es donde puede definir el sitio de búsqueda de manera más completa. Puede especificar el tipo de servidor, volver a definir la profundidad de búsqueda y seleccionar el tipo de archivos que se van a añadir a la base de datos de búsqueda. Los atributos de los sitios “URL” y “Dominio” son prácticamente los mismos. La columna adicional de esta tabla muestra qué atributos se comparten y cuáles son exclusivos.
En esta página se llevan a cabo varias acciones. Puede verificar el nombre del servidor para el sitio de búsqueda que ha introducido. Puede añadir más servidores al grupo de servidores seleccionando “Añadir” en la sección “Grupo del servidor”. Puede añadir más puntos de inicio seleccionando “Añadir” en la sección “Puntos de inicio”. En la sección “Descripción del filtro”, puede añadir o suprimir, excluir o incluir determinados tipos de archivos, así como cambiar el orden en el que se aplican los filtros para estos archivos.
Tabla 10 Atributos de edición de sitios del robot
Atributo
|
URL/ Dominio
|
Valor predeterminado
|
Descripción
|
Apodo del sitio
|
URL/D
|
Sitio introducido: www.sesta.com
|
Nombre que se muestra en la página inicial. El valor predeterminado es la URL o dominio introducido. Puede modificar este nombre aquí.
|
Active la casilla para seleccionar el sitio que desee suprimir o verificar
|
URL/D
|
Desactivada
|
Desactivada: no seleccionada
Activada: seleccionada
|
Grupo de servidores - Nombre
|
URL
|
URL: www.sesta.com
|
Es un único servidor o una parte de un único servidor. La entrada debe incluir el nombre completo del host. Si especifica sólo un nombre de host, el sitio se limita a dicho host. Si proporciona información sobre el directorio además del nombre del host, el sitio se define sólo como dicho directorio y cualquiera de sus subdirectorios.
|
Sufijo del dominio
|
D
|
Dominio introducido: *.sesta.com
|
Incluye todos los servidores de un dominio, como, por ejemplo, *.sesta.com.
|
Puerto
|
URL/D
|
80para URL; vacío para el Dominio
|
Si el sitio que está buscando utiliza un puerto diferente, introdúzcalo aquí.
|
Tipo
|
URL
|
Servidor Web
|
Servidor Web, servidor de archivos, servidor FTP, servidor Web seguro
|
Protocolos permitidos
|
D
|
Todas las casillas activadas
|
Casillas para http, archivo, ftp, https
|
Casilla para seleccionar el sitio que desea suprimir
|
URL/D
|
Desactivada
|
Desactivada: no seleccionada
Activada: seleccionada
|
Puntos de inicio - URL
|
URL/D
|
http:// URL:80
|
URL o dominio
|
Puntos de inicio - Profundidad
|
URL/D
|
10
|
1: esta URL sólo
2: esta URL y los primeros enlaces
3-10
ilimitado
|
Descripción del filtro: active la casilla para seleccionar el sitio que desea suprimir
|
URL/D
|
Desactivada
|
Desactivada: no seleccionada
Activada: seleccionada
|
Descripción del filtro
|
URL/D
|
Los valores predeterminados son, en el siguiente orden, archivos de archivo, archivos de audio, archivos de copia de seguridad, archivos binarios, archivos CGI, archivos de imagen, archivos SS, Javascript y Java, archivos de registro, archivos de control de revisión, archivos de códigos origen, archivos temporales y archivos de vídeo.
|
Por lo tanto, puede elegir entre archivos de archivo, archivos de audio, archivos de copia de seguridad, archivos binarios, archivos CGI, archivos de imagen, archivos SS, Javascript y Java, archivos de registro, archivos PowerPoint, archivos de control de revisión, archivos de códigos origen, archivos temporales, archivos de vídeo, archivos de hojas de cálculo, archivos de plug-in, documentos Lotus Domino, Lotus Domino OpenViews, directorios del sistema (UNIX) y directorios de sistema (NT).
|
Comentario
|
URL/D
|
Vacío
|
Campo de texto que le ofrece una descripción del sitio. El robot no lo utiliza.
|
Traducción DNS
|
URL
|
Vacío
|
La traducción DNS modifica la URL y la forma en la que se rastrea sustituyendo un nombre de dominio o un alias por “cname”. Formato: alias1->cname1,alias2->cname1
|
Filtros
La página inicial de esta sección muestra todas las reglas de filtro establecidas y las definiciones sobre los sitios que las usan. Cada nombre de filtro viene precedido por una casilla para seleccionar el tipo de documento y por dos botones de opción para activar o desactivar el filtro. Si se activa una casilla, el filtro se selecciona y, entonces, puede suprimirse. Puede añadir un filtro nuevo haciendo clic en “Nuevo”. La página de filtro nuevo es una página de edición abreviada, que sólo requiere el apodo y una regla. Otra opción es seleccionar el enlace “Editar”, que le lleva a una página en la que puede definir las reglas para el tipo de archivo o lo que debe hacer el filtro. Cada regla está compuesta por una lista desplegable de “Fuentes de filtro”, una lista desplegable “Filtrar por” y un cuadro de texto para introducir la cadena de filtro concreta.
Tabla 11 Atributos de edición de filtros del robot
Atributo
|
Valor predeterminado
|
Descripción
|
Nombre del filtro
|
Le pide que introduzca un nombre nuevo. Nombre de archivo del tipo de archivo que desea editar.
|
Un nombre descriptivo que refleje el tipo de archivo al que se aplica el filtro.
|
Lista desplegable de “Fuentes de filtros”
|
URL para filtro nuevo. Muestra la información seleccionada anteriormente para el tipo de archivo especificado.
|
URL, protocolo, host, ruta, tipo MIME
|
Lista desplegable de posiciones
|
es para nuevo filtro. Muestra la información seleccionada anteriormente para el tipo de archivo especificado. Por ejemplo, los archivos binarios acaban con exe.
|
es, contiene, empieza por, acaba con, expresión regular
|
Cuadro de texto de las características del tipo (directorio, protocolo, extensiones de archivo)
|
Vacío para filtro nuevo. Muestra la información introducida anteriormente para el tipo de archivo especificado. Por ejemplo, los archivos temporales contienen /tmp/.
|
En este cuadro de texto, incluya en la lista lo que desea hacer coincidir. ¿Qué haría coincidir en este ejemplo - http://docs.sesta.com/manual.html?
el protocolo es http; el host contiene sesta; el archivo acaba con html.
|
Descripción
|
Le pide que introduzca una descripción nueva. Muestra la descripción introducida anteriormente para el tipo de archivo especificado.
|
Describa la regla del filtro para usted. El robot no la utiliza.
|
Nuevo sitio
|
“Verdadero” (activado) para un filtro nuevo. Muestra el valor seleccionado anteriormente para el tipo de archivo especificado.
|
Utilícelo como uno de los filtros predeterminados al crear sitios nuevos. Aunque no lo active, podrá añadir este filtro a un sitio nuevo editando el sitio en la página “Sitios” del robot.
|
Predeterminado
|
Nada seleccionado para un filtro nuevo. Valor predeterminado seleccionado anteriormente para un tipo de archivo definido.
|
Excluye documentos que coinciden con este filtro.
Incluye documentos que coinciden con este filtro.
La selección de un filtro nuevo no afecta a las definiciones de sitio existentes. Para utilizar el filtro nuevo en un sitio existente, debe añadirlo editando el sitio en la página “Sitios” del robot.
|
Implementación
|
Enumera los sitios que utiliza este filtro.
|
|
Rastreo
Las preferencias en esta página controlan los parámetros operativos del robot y los valores predeterminados. Se divide en las siguientes secciones: “Velocidad”, “Acciones de finalización”, “Preferencias del archivo de registro”, “Cumplimiento de los estándares”, “Parámetros de autenticación”, “Configuración de proxy”, “Preferencias avanzadas” y “Seguir enlaces”.
Tabla 12 Atributos de rastreo del robot
Atributo
|
Valor predeterminado
|
Descripción
|
Retraso del servidor
|
Sin retraso
|
Sin retraso (predeterminado), 1 segundo, 2 segundos, 5 segundos, 10 segundos, 30 segundos, 1 minuto, 5 minutos.
|
Conexiones máximas: número máx. de recuperación de URL
|
8
|
1, 2, 4, 8 (predeterminado), 10, 12, 16, 20.
|
Conexiones máximas por sitio
|
2
|
(ilimitadas), 1, 2, 4, 8, 10, 12, 16, 20.
|
Enviar RD a Indexación cada
|
30 minutos
|
3 minutos, 5 minutos, 10 minutos, 15 minutos, 30 minutos (predeterminado), 1 hora, 2 horas, 4 horas, 8 horas.
|
Archivo de comandos para iniciar
|
nada (predeterminado)
|
nada (predeterminado). Para observar archivos de muestra, consulte los archivos cmdHook en el directorio /opt/SUNWps/samples/robot (para la instalación predeterminada).
|
Después de procesar todas las URL
|
desactivarse (predeterminado)
|
desactivarse (predeterminado), apagar, comenzar de nuevo.
|
Dirección de correo electrónico de contacto
|
usuario@dominio
|
Introduzca la suya.
|
Nivel de registro
|
1 - Generación
|
0 Errores sólo; 1 Generación (predeterminado); 2 Enumeración, Conversión; 3 Filtración; 4 Creación; 5 Recuperación
|
Agente usuario
|
SunONERobot/6.0
|
Versión del servidor de búsqueda.
|
Ignorar el protocolo de robots.txt
|
Falso (desactivado)
|
Algunos servidores tienen un archivo robot.txt que indica a los robots que no deben acceder a él. Si el robot de búsqueda encuentra este archivo en un sitio y este atributo es falso, no busca en el sitio. Si el atributo es verdadero, el robot ignora el archivo y busca en el sitio.
|
Llevar a cabo autenticación
|
Sí
|
Sí
No
|
Nombre del usuario del robot
|
anónimo
|
El robot utiliza el nombre de usuario anónimo para acceder a un sitio.
|
Contraseña
|
usuario@dominio
|
Normalmente, un sitio que permite el acceso de usuarios anónimos requiere la introducción de una dirección de correo electrónico como contraseña. Esta dirección está en texto sin formato.
|
Nombre de usuario de proxy
|
anónimo
|
El robot utiliza el nombre de usuario anónimo para acceder a un sitio.
|
Contraseña
|
usuario@dominio
|
Normalmente, un sitio que permite el acceso de usuarios anónimos requiere la introducción de una dirección de correo electrónico como contraseña. Esta dirección está en texto sin formato.
|
Tipo de conexión proxy
|
Conexión de Internet directa
|
Conexión directa a Internet, Proxy: configuración automática, Proxy: configuración manual
|
Tipo de configuración proxy automática
|
Archivo proxy local
|
Archivo proxy local, archivo proxy remoto
|
Ubicación de la configuración proxy automática
|
Vacío
|
El proxy automático tiene un archivo en el que se enumera toda la información de proxy necesaria.
Un ejemplo de un archivo proxy local es robot.pac. Un ejemplo de un archivo proxy remoto es http://proxy.sesta.com:8080/proxy.pac
|
Proxy HTTP de configuración manual
|
Vacío
|
Formato: servidor1.sesta.com:8080 Estos tres valores de configuración manual se colocan en el archivo robot.pac en el directorio /var/opt/SUNWps/https-nombredelservidor/portal/config .
|
Proxy HTTPS de configuración manual
|
Vacío
|
Este valor de configuración manual se coloca en el archivo robot.pac.
Formato: servidor1.sesta.com:8080
|
Proxy FTP de configuración manual
|
Vacío
|
Este valor de configuración manual se coloca en el archivo robot.pac.
Formato: servidor1.sesta.com:8080
|
Seguir enlaces en HTML
|
Verdadero (activado)
|
Extraer hipervínculos de HTML
|
enlaces máximos
|
1024
|
Limita el número de enlaces que puede extraer el robot de cualquier recurso HTML. Como el robot busca en sitios y detecta enlaces a otros recursos, es muy posible que termine siguiendo un número enorme de enlaces a mucha distancia de su punto de inicio original.
|
Seguir enlaces en texto normal
|
Falso (desactivado)
|
Extraer hipervínculos de texto normal.
|
enlaces máximos
|
1024
|
Limita el número de enlaces que puede extraer el robot de cualquier recurso de texto.
|
Utilizar cookies
|
Falso (desactivado)
|
Si está activado, el robot utiliza cookies al rastrear. Algunos sitios requieren el uso de cookies para que se pueda navegar por ellos correctamente. El robot guarda sus cookies en un archivo con el nombre cookies.txt en el directorio de estado del robot. El formato de cookies.txt es el mismo formato que el que utiliza el explorador Netscape Communicator.
|
Utilizar IP como origen
|
Verdadero (activado)
|
En la mayoría de los casos, el robot sólo utiliza el nombre de dominio de un recurso. En algunos casos, es posible que desee filtrar o clasificar los recursos basándose en subredes por dirección de IP (protocolo de Internet). En ese caso, debe permitir explícitamente que el robot recupere la dirección IP además del nombre del dominio. La recuperación de direcciones IP requiere una consulta DNS adicional, que puede ralentizar el funcionamiento del robot. Si no necesita esta opción, puede desactivarla para mejorar el rendimiento.
|
Smart Host Heuristics
|
Falso (desactivado)
|
Si está activado, el robot convierte los nombres de host alternativos comunes utilizados por un servidor en un único nombre. Resulta muy útil en casos en los que un sitio tiene un número de servidores que se reúnen bajo una misma dirección, como www.sesta.com, que, a menudo, tienen nombres tales como www1.sesta.com, www2.sesta.com, etc.
Si selecciona esta opción, el robot traducirá internamente todos los nombres de host que comiencen por wwwn a www, donde n es cualquier entero. Este atributo sólo funciona en nombres de host que comiencen por wwwn.
Este atributo no puede utilizarse si la resolución CNAME está desactivada (falso).
|
Transformar nombres de host a CNAME
|
Falso (desactivado)
|
Si está activado, el robot valida y transforma cualquier nombre de host que encuentra en un nombre de host canónico. Esto permite que el robot realice un seguimiento preciso de RD únicas. Si está desactivado, el robot valida los nombres de host sin convertirlos a la forma canónica. Por lo tanto, puede obtener RD duplicadas que aparecen enumeradas con los nombres de host diferentes encontrados por el robot.
Por ejemplo, devedge.sesta.com es un alias de developer.sesta.com. Con la resolución CNAME activada, una URL a la que se hace referencia como devedge.sesta.com se enumera como si se hubiera encontrado en developer.sesta.com. Si la resolución CNAME está desactivada, la RD retiene la referencia original en devedge.sesta.com.
“Heurística inteligente del host” no puede activarse si la resolución CNAME está desactivada (falso).
|
Acepta comandos de CUALQUIER host
|
Falso (desactivado)
|
La mayoría de las funciones de control del robot funcionan a través de un puerto TCP/IP. Este atributo controla si los comandos que se formulan al robot deben proceder del sistema de host local (falso) o de cualquier lugar de la red (verdadero).
Se recomienda restringir el control del robot directo al host local (falso). Aún así, puede administrar el robot de forma remota a través de la consola de administración.
|
Profundidad de punto de inicio predeterminada
|
10
|
1: sólo puntos de inicio, 2: estilo marcador, 3-10: ilimitado.
Valor predeterminado para los niveles de los hipervínculos que el robot recorre desde cualquier punto de inicio. Puede definir la profundidad de cualquier punto de inicio dado editando el sitio en la página “Sitios” del robot.
|
Directorio de trabajo
|
/var/opt/SUNWps/https-nombrecompletodelservidor/portal/tmp
|
Nombre de ruta completo de un directorio de trabajo temporal que pueda utilizar el robot para almacenar datos. El robot recupera todo el contenido de los documentos en este directorio (normalmente mucho contenido al mismo tiempo); por lo tanto, este espacio debe ser lo suficientemente grande como para manejar todo el contenido a la vez.
|
Directorio de estado
|
/var/opt/SUNWps/https-nombrecompletodelservidor/portal/robot
|
Nombre de ruta completo de un directorio temporal que utiliza el robot para almacenar información sobre su estado, incluida la lista de direcciones URL que ha visitado, el conjunto de URL, etc. Esta base de datos puede ser bastante grande, por lo que puede que tenga que ubicarla en una partición distinta del directorio de trabajo.
|
Indexación
El robot busca sitios y recoge documentos en función de los filtros que ha seleccionado. Los documentos recopilados están en diferentes formatos. Para unificarlos y facilitar su lectura, deben estar en un único formato, HTML. Esta página controla algunas de las partes que entran en cada descripción de recurso.
Tabla 13 Atributos de índice del robot
Atributo
|
Valor predeterminado
|
Descripción
|
Texto parcial o completo
|
Texto parcial
|
El texto completo utiliza todo el documento en la descripción del recurso. El texto parcial sólo utiliza el número especificado de bytes en la descripción del recurso.
|
extraer primero # bytes
|
4096
|
Introducir el número de bytes.
|
Extraer índice
|
Verdadero (activado)
|
“Verdadero” incluye el índice en la descripción de recurso.
|
Extraer datos en etiquetas META
|
Verdadero (activado)
|
“Verdadero” incluye las etiquetas META en la descripción del recurso.
|
Conversores de documentos
|
Todos activados (verdadero); si es falso, aquel tipo de documento no se puede indexar.
|
Adobe PDF
Corel Presentations
Corel Quattro Pro
FrameMaker
Lotus Ami Pro
Lotus Freelance
Lotus Word Pro
Lotus 1-2-3
Microsoft Excel
Microsoft PowerPoint
Microsoft RTF
Microsoft Word
Microsoft Works
Microsoft Write
WordPerfect
StarOffice Calc
StarOffice Impress
StarOffice Writer
XyWrite
|
Tiempo de espera del conversor
|
600
|
Tiempo en segundos del que dispone un documento para convertirse a HTML. Si se excede este tiempo, se excluye la URL.
|
Simulador
Esta página es una herramienta de depuración que realiza una simulación parcial del filtrado de un robot en una URL. Puede escribir una URL nueva para comprobarla. Comprueba la URL, las traducciones DNS (incluyendo la Smart Host Heuristics) y los redireccionamientos de sitios. No comprueba el contenido del documento especificado por la URL, por lo que no detecta duplicaciones, tipos MIME, errores de red, permisos y similares. El simulador indica la probabilidad que existe de que los sitios listados sean aceptados (ACEPTADO) o no (ADVERTENCIA) por el robot.
Tabla 14 Propiedades del simulador del robot
Atributo
|
Valor predeterminado
|
Descripción
|
URL
|
Las URL que ya ha definido y un cuadro de texto vacío.
|
Puede comprobar el acceso a un sitio nuevo escribiendo su URL en el cuadro de texto vacío. De esta manera, se comprueba si el sitio nuevo acepta el rastreo.
Formato http://www.sesta.com:80/
|
Compruebe los alias DNS
|
Verdadero (activado)
|
“Verdadero” (activado) comprueba el número de servidores reunidos bajo un alias en la misma dirección.
|
Compruebe los redireccionamientos de servidor (302)
|
Verdadero (activado)
|
“Verdadero” (activado) comprueba cualquier redireccionamiento del servidor.
|
Rastreo de sitio
Esta página es una herramienta de depuración que comprueba los alias DNS, los redireccionamientos DNS y los servidores virtuales. Devuelve información sobre el sitio pero no comprueba su aceptación de rastreo.
Tabla 15 Atributos de rastreo de sitios del robot
Atributo
|
Valor predeterminado
|
Descripción
|
Sitio
|
Vacío
|
Escriba la URL en formato http://www.sesta.com:80
|
Mostrar información DNS avanzada
|
Falso (desactivado)
|
“Verdadero” (activado) muestra más información sobre el sitio, incluida la dirección IP.
|
Base de datos
Los atributos de la base de datos son los siguientes:
- Página “Atributos de búsqueda”
|
Note
|
Para dividir la base de datos, debe utilizar la función de línea de comandos, porque se requiere detener el servidor de búsqueda.
|
|
Administración
La página inicial “Administración” enumera las bases de datos disponibles. Puede crear una base nueva o volver a indexar, depurar o cesar alguna existente. Use la casilla para seleccionar la base de datos en la que desea ejecutar la acción. Utilice los iconos pequeños situados que están encima de la casilla de verificación para seleccionar o deseleccionar todas las bases de datos. Si selecciona “Volver a indexar”, “Depurar” o “Cesar”, aparecerá una confirmación que indica su deseo de realizar la acción elegida con las bases de datos que se enumeran. Para realizar la acción, seleccione “Aceptar”.
Debe indexar de nuevo la base de datos si ha editado el esquema para añadir o eliminar un campo indexado (por ejemplo, autor), si un error de disco ha dañado el índice.
El tiempo necesario para indexar de nuevo la base de datos es proporcional al número de RD de la base de datos. Una base de datos grande debería indexarse de nuevo cuando el servidor no esté muy ocupado.
Al depurar el contenido de una base de datos, el espacio en disco utilizado para los índices se recuperará, pero el espacio en disco utilizado por la base de datos principal no se recuperará; en su lugar, será reutilizado a medida que se vayan añadiendo datos nuevos a la base de datos.
Al cesar una base de datos, se suprimen todas las RD que hayan caducado. No hace que disminuya el tamaño de la base de datos. De manera predeterminada, las RD se programan para que caduquen en el plazo de 90 días desde el momento de su creación.
También puede editar las bases de datos seleccionando el enlace “Editar”, que le lleva a una página en la que puede definir los atributos de la base de datos.
Tabla 16 Atributos de administración de la base de datos
Atributo
|
Valor predeterminado
|
Descripción
|
Nombre
|
Autenticación
|
Nombre de la base de datos utilizada para la búsqueda.
|
Título
|
Vacío
|
Título para la base de datos.
|
Descripción
|
Vacío
|
Describe la base de datos por usted.
|
Agentes de importación
Los agentes de importación son los procesos que recogen descripciones de recursos de otros servidores o bases de datos y los fusionan en su base de datos de búsqueda.
La página inicial “Importar” muestra los agentes de importación disponibles. Puede crear un agente nuevo o ejecutar, editar o suprimir alguno existente. Utilice la casilla de verificación para activar el agente que desee suprimir. Utilice los iconos pequeños situados encima de la casilla de verificación para seleccionar o deseleccionar todos los agentes de importación. Utilice los botones de opción para activar o desactivar una acción de un agente. Seleccione “Programar” en la barra de menús inferior para programar los agentes de importación.
Si decide editar o modificar un agente de importación existente o crear uno nuevo, se muestran los siguientes atributos.
Tabla 17 Atributos de agente de la base de datos
Atributo
|
Valor predeterminado
|
Descripción
|
Importar desde
|
Archivo local
|
Seleccione “Archivo local” o “Servidor de búsqueda” (si hay alguno activado).
|
Ruta del archivo local
|
Vacío para los nuevos
|
Proporciona el nombre completo de la ruta del archivo local que contiene las descripciones de recursos válidas en SOIF (Summary Object Interchange Format). Puede tratarse de un archivo de otro servidor, siempre y cuando se pueda dirigir la ruta como si estuviera colocada de manera local.
|
Nombre de base de datos
|
Autenticación
|
Nombre de la base de datos de destino.
|
Servidor remoto
|
Vacío para los nuevos
|
Proporciona la URL del servidor de búsqueda desde la que se van a recuperar las descripciones de recursos; formato http://www.sesta.com:80
|
Nombre de instancia
|
Vacío para los nuevos
|
Nombre de instancia del servidor utilizado por el servidor de búsqueda. Puede encontrar este nombre de instancia en las preferencias del servidor desde el que esté importando. El valor debe ser 3.01C o 3.01C SP1.
|
URI de búsqueda
|
vacío para los nuevos
|
Introduzca la ruta completa y los nombres de archivo. Utilice /portal/search.
|
¿Es Compass Server 3.01x?
|
Falso (desactivado)
|
¿El servidor desde el cual está importando es un Compass Server 3.01X?
|
Activar SSL
|
Falso (desactivado)
|
Si se trata de una transacción de un servidor a otro, seleccione si desea que los servidores utilicen el protocolo SSL (Secure Sockets Layer).
|
Autenticación
|
Ninguna (predeterminado)
|
“Ninguno” (predeterminado) o “Utilizar autenticación de usuario/contraseña”.
Especifica cómo se debe identificar el agente de importación en el sistema desde el que importa. De manera predeterminada, no se utiliza ninguna autenticación. Si el servidor desde el que desea importar requiere autenticación, puede especificar un nombre de usuario y una contraseña para que el agente de importación lo utilice. Si importa desde 3.01C, no se requiere autenticación. Si importa datos desde 3.01C SP1, sí se requiere autenticación.
|
Usuario
|
Vacío para nuevos o ninguno
|
Si ha seleccionado “Utilizar autenticación de usuario/contraseña”, introduzca un usuario.
|
Contraseña
|
Vacío para nuevos o ninguno
|
Si ha seleccionado “Utilizar autenticación de usuario/contraseña”, introduzca una contraseña (se muestra con *).
|
Transferencia de contenido
|
Utilizar recopilación gradual del contenido completo (predeterminado)
|
Puede seleccionar “Utilizar recopilación gradual del contenido completo (predeterminado)” o “Utilizar Buscar consulta”.
Estas opciones especifican cuáles son las descripciones de recursos que se van a importar desde el origen.
De manera predeterminada, un agente de importación solicita todas las descripciones de recursos añadidas o cambiadas desde su última importación desde el mismo origen.
La consulta de búsqueda especifica que el agente de importación debe solicitar sólo determinadas descripciones de recursos del origen. Es muy similar al modo en el que los usuarios solicitan listados de recursos de la base de datos de búsqueda.
Utilizar los campos “Ámbito”, “Ver-Atributos” y “Ver-Resultados” para especificar la consulta.
|
Ámbito
|
Vacío para los nuevos
|
Texto de la consulta. La sintaxis de la consulta es idéntica a la utilizada en consultas de usuario final desde el servidor.
|
Ver-Atributos
|
Vacío para los nuevos
|
Se enumeran los campos (no distingue entre mayúsculas y minúsculas) que desea importar en cada descripción de recurso. Por ejemplo, título y autor. El valor predeterminado es todos.
|
Ver-Resultados
|
Vacío para los nuevos
|
Número máximo de descripciones de recursos coincidentes que se van a importar. Si no se especifica ningún resultado, toma el valor predeterminado 20.
|
Descripción de agente
|
Vacío para los nuevos
|
Aparece en la lista de agentes de importación disponibles en la página inicial “Importar”. El programa lo ignora. Si este campo está vacío, el nombre del archivo del origen de la descripción de recurso o el nombre del servidor se utilizan para identificar el agente de importación. Observe aquí si se requiere introducir el nombre del usuario y la contraseña.
|
Descripción de recursos más recientes
|
Vacío para los nuevos
|
Fecha de creación de la descripción del recurso más reciente, importada anteriormente por el agente de importación. La opción “Utilizar recopilación gradual del contenido completo” utiliza esta fecha para determinar los recursos que son nuevos y se deben importar.
|
Tiempo de espera de la red en segundos
|
Vacío para los nuevos
|
Especifica el número de segundos que el agente de importación esperará antes de interrumpir la conexión con la red por haberse superado el tiempo de espera. Puede ajustarlo para permitir diferentes niveles de calidad y tráfico de red.
|
Conjunto de caracteres
|
Vacío para los nuevos
|
Especifica el conjunto de caracteres del flujo SOIF de entrada. Por ejemplo, ISO8859-1, UTF-8, UTF-16. Se admiten conjuntos de caracteres ISO8859-1 a través de ISO8859-15.
|
Descripciones de recursos
La página inicial “Descripciones de recursos” le permite realizar búsquedas de descripciones de recursos en la base de datos. Por ejemplo, puede corregir un error tipográfico en una RD o asignar manualmente las RD detectadas por el robot a las categorías.
Tabla 18 Atributos de descripción de recursos
Atributo
|
Valor predeterminado
|
Descripción
|
Buscar
|
Todas las RD
|
Todas las RD, RD sin categorizar, RD categorizadas, RD por categoría, RD específicas por URL, RD que contienen.
|
Cuadro de texto
|
Vacío
|
Introduzca una cadena de texto única para identificar las RD que busca. Utilice RD por categoría, RD específicas por URL y RD que contienen valores de atributo.
|
Base de datos
|
Autenticación
|
Nombre de la base de datos en la que buscar.
|
Para limitar la búsqueda por categorías, elija “Seleccionar categorías”. Se muestra la página “Editor de categoría”, que le permite especificar la categoría de la taxonomía de la búsqueda. Puede especificar la categoría en el cuadro de texto “Categorías seleccionadas” o buscar en la taxonomía para seleccionarla. Una vez especificada la categoría, seleccione “Aceptar” para volver a la página RD.
Tabla 19 Atributos del editor de categorías
Atributo
|
Valor predeterminado
|
Descripción
|
Categorías seleccionadas
|
Vacío
|
Campo de texto en el que se debe escribir la categoría.
|
Expandir todo
|
|
Expande la taxonomía de forma que todas las entradas de la jerarquía se muestren para desplazarse por ellas.
|
Contraer todo
|
Vacío
|
Contrae la taxonomía de forma que sólo se muestren las categorías pertenecientes a los niveles primero y segundo para desplazarse por ellas.
|
Categorías por página
|
25
|
Lista desplegable de los números de categorías para mostrarlos por página. Los valores son 25, 50, 100, 250, 500, etc.
|
Una búsqueda realizada con éxito muestra el número de RD encontradas y un cuadro de texto en el que se listan dichas RD. Después de seleccionar una, se muestran los siguientes atributos (que puede editar) y el texto parcial de la RD. Todos estos atributos, a excepción de “Clasificación” están configurados para poder ser editados en la página “Base de datos/Esquema”.
Tabla 20 Atributos que se pueden editar de las RD de la base de datos
Atributo
|
Valor predeterminado
|
Descripción
|
Clasificación
|
Nombre de la categoría de la RD seleccionada.
|
Nombre de la categoría, si está clasificada; no existe clasificación si no está clasificada.
|
ReadACL
|
Vacío
|
Relativo a la seguridad a nivel de documento.
|
Descripción
|
Descripción de la RD seleccionada.
|
Descripción desde RD.
|
Palabras clave
|
Palabras clave, si existe alguna, de la RD seleccionada.
|
Palabras clave tomadas de las etiquetas meta.
|
Título
|
Título de la RD seleccionada.
|
Título de la RD.
|
Esquema
El esquema determina qué información está en una descripción de recurso y qué forma presenta dicha información. Puede añadir nuevos atributos o campos a una RD y definir cuáles de ellos se pueden editar y cuáles se pueden indexar. Cuando importe nuevas RD, puede convertir los esquemas incorporados en las RD nuevas en su propio esquema.
Tabla 21 Atributos de edición de esquema de base de datos
Atributo
|
Valor predeterminado
|
Descripción
|
Nombre
|
Vacío
|
Nombra el esquema seleccionado: Autor, Autor-Correo electrónico, Contenido-Conjunto de caracteres, Contenido-Codificación, Contenido-Idioma, Contenido-Longitud, Contenido-Tipo, Descripción, Cesa, Texto completo, Palabras clave, Modificado por última vez, Texto parcial, Teléfono, ReadACL, Título, URL
|
Descripción
|
Vacío
|
Estas descripciones coinciden con los esquemas enumerados más arriba. Este cuadro de texto es para que introduzca sus comentarios. El servidor de búsqueda no lo utiliza.
Autor(es) del documento.
Dirección de correo electrónico para contactar con el autor o los autores del documento.
Información de contenido-conjunto de caracteres del servidor HTTP.
Información de contenido-codificación del servidor HTTP.
Información de contenido-idioma del servidor HTTP.
Información de contenido-longitud del servidor HTTP.
Información del contenido-tipo del servidor HTTP.
Descripción breve de una línea para el documento.
Fecha a partir de la cual la descripción del recurso deja de ser válida.
Todo el contenido del documento.
Palabras clave que mejor describen el documento.
Fecha en la que se modificó por última vez el documento.
Selección parcial del texto del documento.
Número de teléfono de contacto del autor.
Utilizado por los servidores de búsqueda para garantizar la seguridad.
Título del documento.
Localizador de recursos uniformes o dirección Web del documento.
|
Alias
Nombre
Descripción
|
Vacío
|
Cuando importe nuevas RD, puede convertir los esquemas incorporados en nuevas RD a su propio esquema. Puede utilizar esta conversión cuando se produzca un conflicto entre los nombres utilizados para los campos en el esquema de la base de datos de importación y el esquema utilizado para las RD en su base de datos. Por ejemplo, si está importando RD en las que se ha utilizado “Escritor” como campo para el autor y ha utilizado “Autor” en las RD como campo para el autor. La conversión sería de “Escritor” a “Autor”, por lo que introduciría “Escritor” en este cuadro de texto.
|
Tipo de datos
|
Cadena
|
Define el tipo de datos.
|
Se puede editar
|
Falso (desactivado)
|
Si el valor es verdadero (activado), el atributo (campo) seleccionado aparece en el Editor de RD de la base de datos, para que pueda cambiar sus valores.
Se pueden editar “Descripción”, “Palabras clave”, “Título” y “ReadACL”.
|
Se puede indexar
|
Verdadero
|
Si el valor es verdadero (activado), el atributo (campo) seleccionado se puede utilizar como base para la indexación.
“Autor”, “Título” y “URL” aparecen en el menú de la pantalla “Búsqueda avanzada” para el usuario final. Esto permite a los usuarios finales buscar valores en esos campos específicos.
“Autor”, “Cesa”, “Palabras clave”, “Modificado por última vez”, “Título” y “ReadACL” pueden utilizarse como base para la indexación.
|
Multiplicador de resultado
|
1.0
|
Campo de medida para evaluar un elemento determinado. Se puede usar cualquier valor positivo.
|
Análisis
Esta página muestra una lista clasificada de todos los sitios y el número de recursos de aquel sitio que se encuentran en la actualidad en la base de datos de búsqueda. Seleccione “Actualizar análisis” para actualizar el análisis del archivo.
Tabla 22 Atributos de análisis de la base de datos
Atributo
|
Valor predeterminado
|
Descripción
|
Número total de RD
|
Número actual de RD en la base de datos.
|
Lista el número total de descripciones de recursos incluidas en la base de datos.
|
Número de servidores
|
Lista el número actual de servidores en los que se divide la base de datos.
|
La base de datos se puede dividir y colocar en un número de servidores.
|
Sitio
|
Lista la URL o dominio que ha buscado con éxito el robot.
|
Una URL o dominio que ha añadido descripciones de recursos a la base de datos.
|
Número de RD
|
Lista el número actual de RD de aquel sitio.
|
Lista el número actual de RD de aquel sitio.
|
Tipo
|
Tipo de RD
|
Las descripciones de los recursos pueden ser de muchos tipos diferentes, por ejemplo, http.
|
Porcentaje
|
Tipo de RD/número total de RD
|
Porcentaje de este tipo de documento comparado con el número total de descripciones de recursos.
|
Categorías
Los usuarios finales interactúan con la base de datos de búsqueda de dos maneras distintas: Pueden introducir consultas directas para buscar en la base de datos o pueden examinar el contenido de la base de datos mediante el conjunto de categorías diseñado. El usuario asigna recursos de una base de datos de búsqueda a las categorías para simplificar la complejidad. Si existe un gran número de elementos en la base de datos, resulta útil agrupar los elementos relacionados. Su prioridad a la hora de configurar las categorías debería ser su uso práctico, para que los usuarios finales encuentren con mayor rapidez determinados tipos de elementos.
El servidor de búsqueda utiliza una jerarquía de categorías denominada taxonomía. El término taxonomía describe, en general, cualquier sistema de categorías. En el contexto de una base de datos de recursos en la red, como, por ejemplo, la base de datos del servidor de búsqueda, describe cualquier método seleccionado para categorizar los recursos de la red con el fin de facilitar su recuperación.
El tema “Categorías” se divide en los siguientes subtemas:
Editor de categoría
La página “Editor de categoría” muestra una lista de categorías de la taxonomía que le permite desplazarse por ellas. Después de examinar la categoría, puede seleccionar el enlace pertinente para acceder al “Editor de reglas de clasificación” para configurar las colecciones de robot en las categorías específicas.
Tabla 23 Atributos del editor de categorías
Atributo
|
Valor predeterminado
|
Descripción
|
Expandir todo
|
|
Expande la taxonomía de forma que todas las entradas de la jerarquía se muestren para desplazarse por ellas.
|
Contraer todo
|
|
Contrae la taxonomía de forma que sólo se muestren las categorías pertenecientes a los niveles primero y segundo para desplazarse por ellas.
|
Volver a indexar
|
|
Indexar de nuevo la base de datos. Si acaba de crear su taxonomía, debe indexar la base de datos para permitir que los usuarios finales realicen la búsqueda por categorías. Si ha cambiado las categorías, debe volver a indexar la base de datos para actualizarla. Guarde el árbol de categorías antes de volver a indexar la base de datos.
|
Categorías por página
|
25
|
Lista desplegable de los números de categorías para mostrarlos por página. Los valores son 25, 50, 100, 250, 500, etc.
|
Nombre
|
Categorías seleccionadas
|
Nombre de la categoría para editarla.
|
Descripción
|
Vacío
|
Descripción de la categoría.
|
Regla de coincidencia
|
Vacío
|
Regla de coincidencia que se debe usar.
|
Actualizar
|
|
Actualiza la definición de la categoría.
|
Añadir como hijo
|
|
Añade la categoría como hija.
|
Añadir como hermano
|
|
Añade la categoría como hermana.
|
Editor de reglas de clasificación
Después de que haya configurado las categorías de su base de datos, utilice esta página para definir o cambiar las reglas que el robot utiliza para asignar los recursos a las categorías.
Tabla 24 Atributos del editor de reglas de clasificación de categorías
Atributo
|
Valor predeterminado
|
Descripción
|
Origen
|
Seleccionado
|
Autor, Autor-Correo electrónico, Contenido-Conjunto de caracteres, Contenido-Codificación, Contenido-Idioma, Contenido-Longitud, Contenido-Tipo, Descripción, Cesa, Texto completo, Palabras clave, Modificado por última vez, Texto parcial, Teléfono, ReadACL, Título, URL, host, protocolo, uri, ip, ruta, tipo.
|
Método
|
es
|
es, contiene, empieza por, acaba con, expresión regular
|
Criterios
|
Vacío
|
Especifica el criterio para la regla.
|
Clasificación
|
Vacío
|
Categoría en la que se debe clasificar la RD si se cumplen las condiciones de la regla. Escriba la categoría o use la página “Seleccionar edición de categoría” para acceder a ella.
|
Clasificación automática
Esta página controla la función de clasificación automática.
Tabla 25 Atributos de la clasificación automática de categorías
Atributo
|
Valor predeterminado
|
Descripción
|
Ruta del registro
|
|
Ubicación del archivo de registro que está usando la función de clasificación automática.
|
Descripciones de recursos en memoria
|
10000
|
Tamaño de memoria caché usada para las descripciones de recursos almacenadas en memoria. Si las descripciones de recursos recopiladas superan el tamaño especificado, éstas se pasarán a un almacenamiento de base de datos temporal. Especifique un tamaño mayor para obtener un mejor rendimiento, pero se obtendrá mayor beneficio usando más memoria.
|
Ruta de la base de datos:
|
|
Archivo usado para la base de datos de almacenamiento de RD temporal.
|
Informes
La sección “Informes” le permite supervisar el servidor de búsqueda. Puede observar un resumen de su actividad: cuáles fueron los sitios en los que se realizó la búsqueda, cuáles fueron las URL excluidas y por qué, información detallada sobre las URL visitadas por el robot y qué es lo que interesa a sus usuarios finales.
El tema “Informes” se divide en los siguientes subtemas:
Puntos de inicio
El robot visitará todos los sitios activados cada vez que se inicie.
Tabla 26 Atributos de puntos de inicio de los informes
Atributo
|
Valor predeterminado
|
Descripción
|
Activado
|
Valor actual del sitio.
|
Sí o No.
Se configura en la página “Robot/Sitios”.
|
Puntos de inicio
|
Seleccionada URL:80
|
El enlace le conduce a la URL elegida.
|
en la definición del sitio
|
URL seleccionada
|
Enlaces a la página de edición “Robot/Sitios”.
|
Profundidad
|
Lista el nivel de búsqueda seleccionado.
|
1-n Se define en la página de edición “Robot/Sitios”.
|
URL excluidas
Esta página muestra una lista de las ejecuciones del robot. Para ver una lista de razones por las que se han excluido determinadas URL, seleccione una ejecución de robot que desee examinar, haga clic en “Ver seleccionadas” y, a continuación, seleccione una de las razones para la exclusión. Se muestra una lista de las URL excluidas por dicha razón. Se han eliminado las exclusiones de advertencia y de duplicación.
Tabla 27 Atributos de URL excluidas de los informes
Atributo
|
Valor predeterminado
|
Descripción
|
Registro
|
Se muestra el registro de la ejecución más reciente.
|
Lista todos los registros de ejecución disponibles.
|
Número
|
Números
|
Lista de números con razones para la exclusión.
|
Razón para la exclusión
|
Lista de motivos por los que no se ha permitido la inclusión de determinados sitios. Cada motivo se vincula a una lista de todas las URL que fueron excluidas por dicho motivo.
|
Las reglas de filtros, no se ha encontrado archivo, no se ha encontrado sitio, protocolo no admitido, errores o duplicación son algunas de las razones por las que se excluyen URL.
|
Informes avanzados de robot
Esta página le da acceso a un número de informes diferentes desde el robot. Seleccione un informe en la lista desplegable para obtener información sobre él. El botón “Actualizar” le presenta la información actual.
Tabla 28 Atributo de informes avanzados de robot
Atributo
|
Valor predeterminado
|
Descripción
|
Informes avanzados del robot
|
Versión
|
Versión, Volcado de caché DNS, Rendimiento, Servidores Encontrados-Todos, Servidor encontrado-RDM, Estado - Configuración actual, Estado-Base de datos (interna), Estado- Libnet, Estado-Módulos, Estado -Resumen, URL-listas para extracción, URL- listas para indexación, URL- en espera para filtración (conjunto URL), URL- en espera para indexación, todos los informes.
|
Archivos de registro
Esta página le permite ver entradas o líneas específicas de un archivo de registro. Lista desplegable de archivos de registro. Introduzca el número de líneas que desea mostrar al seleccionar el botón “Ver”.
Tabla 29 Atributos de archivos de registro de visualización de informes
Atributo
|
Valor predeterminado
|
Descripción
|
Ver este archivo de registro
|
URL excluidas (filtro)
|
URL excluidas, Administrador de RD (rdmgr), Servidor RDM (rdmsvr), Actividades de robot (robot), Motor de búsqueda (searchengine), Consultas del usuario (rdm).
|
Número de líneas
|
25
|
Número que puede introducir para visualizar las entradas más actuales del archivo de registro.
|
Búsquedas populares
Esta página le permite ver lo que buscan los usuarios. Las búsquedas más frecuentes aparecen en primer lugar en el informe.
Tabla 30 Atributo de búsquedas populares de los informes
Atributo
|
Valor predeterminado
|
Descripción
|
Excluir exploración
|
Falso (desactivado)
|
“Falso” (desactivado) incluye las categorías examinadas por los usuarios. “Verdadero” (activado) excluye las estadísticas de exploración.
|
Programa
Iniciar robot
En esta página es donde se define el tiempo de inicio automático para el robot.
Tabla 31 Programar el inicio de los atributos del robot
Atributo
|
Valor predeterminado
|
Descripción
|
Horas
|
00:00
|
Es la hora a la que empieza a buscar el robot.
|
Días
|
ninguno seleccionado
|
“Dom.”, “Lun.”, “Mar.”, “Miér.”, “Jue.”, “Vie.” o “Sáb.”.
|
Detener robot
En esta página es donde se define el tiempo de detención automática para el robot.
Tabla 32 Programar la detención de los atributos del robot
Atributo
|
Valor predeterminado
|
Descripción
|
Hora
|
00:00
|
Si va a ejecutar el robot de manera continua, se recomienda que lo detenga y lo reinicie, al menos, una vez al día. De esta manera, el robot podrá liberar los recursos y reinicializarse.
|
Días
|
ninguno seleccionado
|
“Dom.”, “Lun.”, “Mar.”, “Miér.”, “Jue.”, “Vie.” o “Sáb.”.
|
Iniciar importación
Esta página le permite definir la programación para ejecutar los agentes de importación.
Tabla 33 Programar el inicio de los atributos de los agentes de importación
Atributo
|
Valor predeterminado
|
Descripción
|
Tiempo
|
00:00
|
Hora a la que comienza a importar el agente de importación.
|
Días
|
ninguno seleccionado
|
Dom. - Sáb.
|
Iniciar clasificación automática
Esta página le permite definir la programación para iniciar la función de clasificación automática.
Tabla 34 Programar el inicio de los atributos de la clasificación automática
Atributo
|
Valor predeterminado
|
Descripción
|
Tiempo
|
00:00
|
Momento en que se inicia la clasificación automática.
|
Días
|
ninguno seleccionado
|
Dom. - Sáb.
|