目次    

検索属性ページ

この付録では、Sun Java System Identity Server 管理コンソールを使用して検索エンジンに設定できる属性について説明します。

「サービス設定」ページのナビゲーション区画から「検索」プロパティを選択すると、2 色に色分けされたタブによるメニューバーが表示されます。この付録は、このメニューバーのトピック、またはメニューバーの上部にあるタブを基準にして構成されています。

これらのタブのいずれか 1 つを選択すると、タブのトピックに関連するサブトピックが下部のメニューバーに一覧表示されます。デフォルトでは、「検索」ページで「サーバー」の「設定」が選択されています。各サブトピックでは、そのサブトピックに対応する属性を説明するために 1 つまたは複数の表が使用されています。これらの表には、「属性」、「デフォルト値」、および「説明」という 3 つの列があります。「属性」列にはページ上に表示される属性名、「デフォルト値」列にはその属性のデフォルト値、「説明」列には属性の説明と形式が記載されています。

各「検索プロパティ」ページに表示されるサーバー選択属性は、表 4 のとおりです。

表 4 検索のサーバー選択属性

属性

デフォルト値

説明

サーバーの選択

http://servername:80/portal

検索サーバーの完全修飾サーバー名

サーバー

「サーバー」セクションでは、サーバーについての設定を行います。一時ファイル用に使用するディレクトリ、ログに記録する情報の種類、およびログに記録する情報の精度を選択します。サーバーの属性は、次の 2 つのページに表示されます。

設定

このページには、検索サーバーの管理および操作に関する基本的な設定が表示されます。

表 5 サーバーの設定属性 

属性

デフォルト値

説明

サーバールート

/var/opt/SUNWps/https-servernamefull/portal

設定、ログ、データベース、およびロボットの情報ファイルを格納する。このディレクトリは、検索の実行時に生成および更新されるすべての検索ファイルのルートディレクトリにもなる。これは、設定可能な属性ではない

一時ファイル

/var/opt/SUNWps/https-servernamefull/portal/tmp

検索時に検索の管理に使用されるすべての一時ファイルが含まれる。メインデータベースに追加されていない、新たに生成されたリソース記述が含まれる。これらの一時ファイルは、検索が完了すると削除される

ドキュメントレベルセキュリティ

オフ

ドキュメントにアクセスできるユーザーを制御する

この設定を変更した場合は、サーバーを再起動する必要がある

値:

  • オフ (デフォルト) の場合、すべてのユーザーが RD にアクセスできる
  • オン の場合、RD の ReadACL フィールドがオンになる。これにより、RD を要求するユーザーが受け入れ可能な組織またはロールに属するか、受け入れ可能な個別ユーザーであるために、アクセス権を持っているかどうかが確認される。ReadACL フィールドは、「データベース」の「編集」ページで設定される

詳細

このページには、検索サーバーの管理および操作に関する詳細な設定が表示されます。ここでは、ユーザークエリのログファイル、インデックスのメンテナンス、リソース記述の管理、およびデバッグについて設定します。

表 6 サーバーの詳細設定属性 

属性

デフォルト値

説明

検索 (rdm)

/var/opt/SUNWps/https-servername/portal/logs/rdm.log

エンドユーザーがデータベースに発行したクエリをログに記録する。「検索ログを無効にする」チェックボックスをオンにすると、このログの記録を止めることができる

ログの記録を止めた場合、ユーザークエリ (rdm) レポートを表示できない

検索ログを無効にする

False (オフ) - 有効

クエリログの使用を制御する

レポートセクションでは、このログに基づいて、主要なクエリを一覧表示するレポートを作成できる

値:

  • オン - 無効
  • オフ - 有効。すべてのユーザークエリがこのログに入力される

インデックスのメンテナンス

/var/opt/SUNWps/https-servername/portal/logs/searchengine.log

リソース記述に登録されていないものを除き、検索エンジンに関連するトランザクションをログに記録する

RD マネージャ

/var/opt/SUNWps/https-servername/portal/logs/rdmgr.log

ロボットによるリソース記述の登録をログに記録する。または、エージェントをデータベースにインポートする。このログは、RD マネージャ (rdmgr) レポートとして表示できる

RDM サーバー

/var/opt/SUNWps/https-servername/portal/logs/rdmserver.log

RDM トランザクションのデバッグ情報をログに記録する。詳細のレベルは、ログレベルによって制御される。このログは、RDM サーバー (rdmsvr) レポートとして表示できる

ログレベル

1

RDM サーバーのログファイルに記録される詳細情報の量を制御する

レベルは、2、10、20、50、100、999 に設定できる

1 (デフォルト) に設定すると、サーバーエラーのみがログに記録される。数字が大きくなるほど、より詳細な情報が RDM サーバーのログファイルに記録される

ロボット

ロボットのプロパティは非常に複雑です。検索またはクローリングの対象となるサイトを選択したり、サイトが有効かどうかを確認したり、どのタイプのドキュメントを取り出すかを定義したり、検索の実行スケジュールを作成したりできます。

このセクションは、次のトピックで構成されます。

概要

「ロボットの概要」パネルでは、ロボットの動作、つまりオフ、アイドル、実行中、または一時停止中のいずれかを確認できます。実行中の場合、検索の状況を示すパネルが 30 秒間隔で更新されます。画面の更新間隔は、search.conf ファイルの robot-refresh パラメータで定義します。

画面の左上には、現在の状態に対応する 2 つのボタンが表示されます。ロボットがオフの場合、「開始」および「状態を削除」のボタンが表示されます。実行中またはアイドルの場合、「終了」および「一時停止」のボタンが表示されます。一時停止中の場合、「終了」および「再開」のボタンが表示されます。いずれかの属性を選択すると、「レポート」セクションにその属性に関する最新の詳細なレポートが表示されます。

表 7 ロボットの概要属性 

属性

デフォルト値

説明

ロボットの状態

現在の動作

ロボットの状態。値はアイドル実行中一時停止中、またはオフ

更新時刻

最後に更新された日付および時刻

このページは、ロボットの動作の状態が反映されるように定期的に更新される

開始位置

定義された数

検索対象として選択したサイトの数。サイトを無効にする (検索対象から外す) には、ロボットの「サイト」ページで指定する

URL プール

待機中の URL 数

検査が済んでいない URL の数。検索を開始すると、開始位置の URL が URL プールに入力される。検索を進める過程で、ロボットは他の URL へのリンクを検出する。これらの URL はプールに追加される。プール内のすべての URL が処理されると、URL プールは空になり、ロボットはアイドル状態になる

抽出

1 秒当たりの接続数

1 秒間に検索されるリソースの数

抽出とは、データベースに含めるリソース、ドキュメント、またはハイパーリンクを検出し、フィルタによって不要な項目を除外する処理

フィルタリング

拒否された URL の数

除外された URL の総数

インデックス作成

1 秒当たりの URL 数

1 秒間にリソース記述に変換されるリソースまたはドキュメントの数

インデックス作成とは、ドキュメント上に収集されたすべての情報を検索データベースに取り込むために、これらの情報をリソース記述に変換する段階

除外 URL

フィルタによって除外された URL の数

フィルタ基準に一致しなかった URL の数

 

エラーによって除外された URL の数

ファイルが見つからなかったためにロボットでエラーが発生した URL の数

リソース記述

提供されている RD の数

データベースに追加されたリソース記述の数

 

提供されている RD のバイト数

データベースに追加されたバイト数

全体の状態

取得した URL の数

実行時に取得した URL の数

 

RD の平均サイズ (バイト単位)

各リソース記述の平均バイト数

 

実行の日数、時間、分、秒

ロボットを実行した時間

サイト

このセクションの最初のページには、検索対象として利用可能なサイトが示されます。

サイトは、ラジオボタンを使用して、有効 (オン) にしたり無効 (オフ) にしたりできます。無効なサイトは、ロボットの実行時に検索対象になりません。「編集」リンクから表示されるページで、検索サイトの定義方法を変更できます。

サイトを削除するには、チェックボックスをオンにして「削除」を選択します。

新しいサイトを追加するには、「新規」を選択します。テキストボックスに URL またはドメインを追加して、検索の深さを選択します。デフォルト値を使用する場合は、「作成」を選択します。それ以外の場合は、「作成」および「編集」を選択してデフォルト値以外の値を選択し、「編集」ページで検索サイトを定義します。

表 8 ロボットのサイト管理属性

属性

デフォルト値

説明

サイト

錠またはクラスタのマーク

錠が開いているマークの場合、その URL にアクセス可能できることを示す。錠が閉じているマークの場合、そのサイトがセキュアな Web サーバーであり SSL を使用していることを示す。クラスタは、そのサイトがドメインであることを示す

オン/オフ

オン

ロボットの実行時にこのサイトを検索するかどうかを選択する

「新規サイト」ページで、サイト全体を設定してインデックスを作成することができます。

表 9 ロボットの新規サイト属性

属性

デフォルト値

説明

新規サイト

URL

URL - 形式:  http://www.sesta.com

ドメイン - 形式:  *.sesta.com

深さ

10

選択肢は、1 (この URL のみ)、2 (この URL と最初のリンク)、3 〜 10、または無制限。デフォルト値は、ロボットの「クローリング」ページで設定する

編集ページでは、検索サイトをさらに詳細に定義できます。検索サイトのサーバーのタイプを指定したり、検索の深さを再定義したり、検索データベースに追加するファイルのタイプを選択したりできます。URL およびドメインサイトの属性は、ほとんど同じです。次の表の 2 番目の列には、これらの属性が共有されるか、固有であるかを示しています。

このページでは、多くのアクションが実行されます。たとえば、入力した検索サイトのサーバー名を確認できます。「サーバーグループ」セクションで「追加」を選択すると、サーバーグループに新たなサーバーを追加できます。「開始位置」セクションで「追加」を選択すると、新たな開始位置を追加できます。「フィルタ定義」セクションでは、特定のタイプのファイルを追加、削除、除外、または許容したり、これらのファイルに適用されるフィルタの順序を変更したりできます。

表 10 ロボットのサイト編集属性 

属性

URL/ドメイン

デフォルト値

説明

サイトのニックネーム

URL/D

入力されたサイト - www.sesta.com

最初のページに表示される名前。デフォルトは、ユーザーが入力した URL またはドメイン。この名前は、ここで変更できる

削除またはサーバー名を確認するサイトを選択するチェックボックス

URL/D

オフ

オフ - 選択されない

オン - 選択される

サーバーグループ - 名前

URL

URL - www.sesta.com

単一のサーバー、または単一のサーバーの一部分のいずれか。このエントリには、完全ホスト名を含める必要がある。ホスト名のみを指定した場合、サイトはそのホストに限定される。ホスト名の他にディレクトリ情報を指定した場合、サイトは指定したディレクトリおよびそのサブディレクトリのみとして定義される

ドメインサフィックス

D

入力されたドメイン - *.sesta.com

*.sesta.com など、ドメイン内のすべてのサーバーが含まれる

ポート

URL/D

80 (URL の場合)、空白 (ドメインの場合)

検索するサイトが別のポートを使用する場合は、ここで入力する

タイプ

URL

Web サーバー

Web サーバー、ファイルサーバー、FTP サーバー、セキュア Web サーバー

許可されたプロトコル

D

すべてのチェックボックスがオン

http、file、ftp、https のチェックボックス

開始位置 - 削除するサイトを選択するチェックボックス

URL/D

オフ

オフ - 選択されない

オン - 選択される

開始位置 - URL

URL/D

http:// URL:80

URL またはドメイン

開始位置 - 深さ

URL/D

10

1 - この URL のみ

2 - この URL と最初のリンク

3-10

無制限

フィルタ定義 - 削除するファイルタイプを選択するチェックボックス

URL/D

オフ

オフ - 選択されない

オン - 選択される

フィルタ定義

URL/D

デフォルトの順序は、アーカイブファイル、オーディオファイル、バックアップファイル、バイナリファイル、CGI ファイル、イメージファイル、Java、Javascript、スタイルシートファイル、ログファイル、改定管理ファイル、ソースコードファイル、一時ファイル、ビデオファイル

 

選択できるのは、アーカイブファイル、オーディオファイル、バックアップファイル、バイナリファイル、CGI ファイル、イメージファイル、Java、Javascript、スタイルシートファイル、ログファイル、Power Point ファイル、改定管理ファイル、ソースコードファイル、一時ファイル、ビデオファイル、スプレッドシートファイル、プラグインファイル、Lotus Domino ドキュメント、Lotus Domino OpenViews、システムディレクトリ (UNIX)、システムディレクトリ (NT)

コメント

URL/D

空白

ユーザーがサイトの説明を入力するためのテキストフィールド。ロボットはこのフィールドを使用しない

DNS 変換

URL

空白

DNS 変換では、ドメイン名またはエイリアスを cname に置換することによって、URL および URL をクローリング経路を変更する。形式: alias1->cname1,alias2->cname1

フィルタ

このセクションの最初のページには、定義済みのすべてのフィルタルールおよびこれらのルールを使用するサイト定義が表示されます。各フィルタ名の後には、ドキュメントタイプを選択するチェックボックス、およびフィルタルールのオンとオフを切り替える 2 つのラジオボタンがあります。チェックボックスがオンの場合、フィルタは選択されていて、削除することができます。新しいフィルタを追加するには、「新規」を選択します。新規フィルタのページは、簡略化された「編集」ページで、必要なものはニックネームと 1 つのルールだけです。また、「編集」リンクを選択することもできます。これにより、そのファイルタイプに関するルールまたはそのフィルタの役割を定義するページが表示されます。各ルールは、「フィルタソース」ドロップダウンリスト、「選択基準」ドロップダウンリスト、および固有のフィルタ文字列を入力するためのテキストボックスで構成されます。

表 11 ロボットのフィルタ編集属性 

属性

デフォルト値

説明

フィルタ名

新しい名前の確認。編集のために選択したファイルタイプのファイル名

フィルタが適用されるファイルのタイプを反映し、内容が分かるような名前

フィルタソースのドロップダウンリスト

新しいフィルタの URL。特定のファイルタイプに対してすでに選択されている情報が表示される

URL、プロトコル、ホスト、パス、MIME タイプ

位置のドロップダウンリスト

新しいフィルタの場合は「が次と等しい」。特定のファイルタイプに対してすでに選択されている情報が表示される たとえば、名前が exe で終わるバイナリファイル

「が次と等しい」、「が次を含む」、「が次から始まる」、「が次で終る」、「が次の正規表現と一致する」

特定のタイプ (ディレクトリ、プロトコル、ファイル拡張子) のテキストボックス

新しいフィルタの場合は空白。その特定のファイルタイプに対してすでに入力されている情報が表示される。たとえば、名前に /tmp/ を含む一時ファイル

このテキストボックスには、一致させる事項を入力する。次の例は以下の事項に一致する - http://docs.sesta.com/manual.html

プロトコルは http。ホスト名に sesta という文字列が含まれる。ファイル名が html で終わる

説明

新しい説明の確認。その特定のファイルタイプに対してすでに入力されている説明が表示される

ユーザー自身がフィルタルールの説明を入力する。ロボットはこれを使用しない

新規サイト

新しいフィルタの場合は True (オン)。その特定のファイルタイプに対してすでに選択されている値が表示される

新規サイトの作成時に、デフォルトフィルタの 1 つとして使用する。この属性がオフの場合、ロボットの「サイト」ページでサイトを編集することにより、このフィルタを新規サイトに追加できる

デフォルト

新しいフィルタの場合は何も選択されていない。定義済みのファイルタイプの場合はすでに選択した内容がデフォルトになる

このフィルタに一致するドキュメントを除外する

このフィルタに一致するドキュメントを含める

新しいフィルタを選択しても、既存のサイト定義には影響がない。既存のサイトで新しいフィルタを使用するには、ロボットの「サイト」ページでサイトを編集することによって、新しいフィルタを追加する必要がある

配備

このフィルタを使用するサイトのリスト

 

クローリング

このページの設定によって、ロボットの操作パラメータおよびデフォルトを制御します。このページは、「スピード」、「完了アクション」「ログファイル設定」、「標準準拠」、「認証パラメータ」、「プロキシ設定」、「詳細設定」、および「リンクの追跡」の各セクションに分割されています。

表 12 ロボットのクローリング属性 

属性

デフォルト値

説明

サーバー遅延

遅延なし

遅延なし (デフォルト)、1 秒、2 秒、5 秒、10 秒、30 秒、1 分、5 分

最大接続数 - 同時に取得する URL の最大数

8

1、2、4、8 (デフォルト)、10、12、16、20

サイトあたりの最大接続

2

(制限なし)、1、2、4、8、10、12、16、20

RD をインデックス作成用に送信 (次の時間毎)

30 分

3 分、5 分、10 分、15 分、30 分 (デフォルト)、1 時間、2 時間、4 時間、8 時間

起動スクリプト

なし (デフォルト)

なし (デフォルト)。サンプルファイルについては、/opt/SUNWps/samples/robot ディレクトリ (デフォルトインストールの場合) の cmdHook ファイルを参照

すべての URL の処理後

アイドル (デフォルト)

アイドル (デフォルト)、シャットダウン、処理の再開

連絡先の電子メール

user@domain

ユーザーの電子メールアドレスを入力する

ログレベル

1- 生成

0 - エラーのみ、1 - 生成 (デフォルト)、2 - 列挙、変換、3 - フィルタリング、4 - 作成、5 - 取得

ユーザーエージェント

SunONERobot/6.0

検索サーバーのバージョン

robots.txt プロトコルを無視

False (オフ)

一部のサーバーには、そのサーバーを検索対象から外すようにロボットに伝えるための robot.txt ファイルがある。あるサイト上で検索ロボットがこのファイルを検出して、この属性がオフになっている場合、ロボットはそのサイトを検索しない。この属性がオンの場合、ロボットは robot.txt ファイルを無視して、そのサイトを検索する

認証の実行

はい

はい

いいえ

ロボットのユーザー名

匿名

ロボットは、匿名ユーザー名を使用してサイトにアクセスする

パスワード

user@domain

多くの場合、匿名ユーザーのアクセスを許可するサイトでは、パスワードとして電子メールアドレスを要求する。このアドレスは、プレーンテキストで記述する

プロキシのユーザー名

匿名

ロボットは、匿名ユーザー名を使用してサイトにアクセスする

パスワード

user@domain

多くの場合、匿名ユーザーのアクセスを許可するサイトでは、パスワードとして電子メールアドレスを要求する。このアドレスは、プレーンテキストで記述する

プロキシ接続タイプ

インターネットに直接接続

インターネットに直接接続、プロキシ - 自動設定、プロキシ - 手動設定

自動プロキシ設定タイプ

ローカルプロキシファイル

ローカルプロキシファイル、リモートプロキシファイル

自動プロキシ設定 - 位置

空白

自動プロキシの場合、必要なすべてのプロキシ情報が一覧表示されたファイルを使用する

robot.pac はローカルプロキシファイルの例である。リモートプロキシファイルの例は、http://proxy.sesta.com:8080/proxy.pac

手動設定 - HTTP プロキシ

空白

形式: server1.sesta.com:8080。これら 3 つの手動設定値は、/var/opt/SUNWps/https-servername/portal/config ディレクトリ内にある robot.pac ファイルに入力する

手動設定 - HTTPS プロキシ

空白

この手動設定値は、robot.pac ファイルに入力する

形式: server1.sesta.com:8080

手動設定 - FTP プロキシ

空白

この手動設定値は、robot.pac ファイルに入力する

形式: server1.sesta.com:8080

HTML のリンクを追跡

True (オン)

HTML からハイパーリンクを抽出する

最大リンク数

1024

ロボットが 1 つの HTML リソースから抽出できるリンクの数を制限する。ロボットはサイトを検索して他のリソースへのリンクを検出するため、この制限がないと、元の開始位置から遠く離れた膨大な数のリンクを追跡することになる

プレーンテキストのリンクを追跡

False (オフ)

プレーンテキストからハイパーリンクを抽出する

最大リンク数

1024

ロボットが 1 つのテキストリソースから抽出できるリンクの数を制限する

Cookie の使用

False (オフ)

オンになっている場合、ロボットはクローリングするときに Cookie を使用する。一部のサイトでは、そのサイトを正しくナビゲートできるように Cookie を使用する必要がある。ロボットは、ロボット状態ディレクトリ内の cookies.txt というファイルに Cookie を保存している。cookies.txt の形式は、NetscapeTM Communicator ブラウザで使用されるファイルの形式と同じ

IP をソースとして使用

True (オン)

多くの場合、ロボットによる操作はリソースのドメイン名のみに対して実行される。ただし、IP (Internet Protocol) アドレスによるサブネットに基づいて、リソースにフィルタをかけたり、リソースを分類する必要が生じることもある。この場合、ロボットがドメイン名の他に IP アドレスも取得できるように、ユーザーが明示的に許可する必要がある。IP アドレスを取得するには、ロボットの動作速度を遅くすることができる特別な DNS 検索を実行する必要がある。このオプションを選択する必要がない場合は、このオプションをオフにするとパフォーマンスが向上する

ホストの発見的解決

False (オフ)

このオプションがオンの場合、ロボットはサーバーで使用される共通代替ホスト名を 1 つの名前に変換する。これは、1 つのサイトに複数のサーバーが対応していて、これらのサーバーのエイリアスすべてが同じアドレスに割り当てられている場合に特に便利である。たとえば、www.sesta.comwww1.sesta.comwww2.sesta.com などのエイリアスを持つ場合である

このオプションを選択すると、ロボットは wwwn で始まるすべてのホスト名を内部で www に変換する。n は任意の整数を表す。この属性は、wwwn で始まるホスト名のみに対して適用される

CNAME 解決がオフ (False) の場合、この属性は使用できない

ホスト名を CNAME に解決

False (オフ)

このオプションがオンの場合、ロボットは検出したホスト名を確認して、正規のホスト名に解決する。これより、ロボットは一意の RD を正確に追跡できる。オフの場合、ロボットはホスト名を確認するが、これらを正規の形式には変換しない。したがって、RD がロボットによって異なるホスト名で検出されて重複する可能性がある

たとえば、devedge.sesta.comdeveloper.sesta.com のエイリアスであるとする。CNAME 解決をオンにすると、devedge.sesta.com として参照される URL は、developer.sesta.com で検出されたものとして一覧表示される。CNAME 解決をオフにすると、RD は devedge.sesta.com に対する元の参照を保持する

CNAME 解決がオフ (False) の場合、ホストの発見的解決は有効にできない

すべてのホストからのコマンドを受け入れる

False (オフ)

ロボットのほとんどの制御機能は、TCP/IP ポートを介して実行される。この属性では、ロボットに対するコマンドがローカルホストシステムから入力されるように制限するか (False)、ネットワーク上の任意の場所からの入力を許可するか (True) を制御する

ロボットを直接制御する許可をローカルホストのみに限定すること (False) を推奨する。管理コンソールを使用して、ロボットをリモート管理することもできる

デフォルトの開始位置の深さ

10

1 - 開始位置のみ、2 - ブックマークスタイル、3-10、無制限

ハイパーリンクのレベルのデフォルト値であり、ロボットは任意の開始位置からこの値の位置までを通過する。任意の開始位置の深さを設定するには、ロボットの「サイト」ページでサイトを編集する

ワークディレクトリ

/var/opt/SUNWps/https-servernamefull/portal/tmp

ロボットがデータの保存に使用する一時作業ディレクトリのフルパス名。多くの場合、ロボットは一度に多数のドキュメントの内容全体をこのディレクトリに取得する。したがって、このディレクトリには、このようなデータを一度に扱えるだけの十分な容量が必要になる

状態ディレクトリ

/var/opt/SUNWps/https-servernamefull/portal/robot

ロボットが状態情報 (訪問した URL のリストや URL プールなど) の保存に使用する一時ディレクトリのフルパス名。このデータベースのサイズは非常に大きくなる可能性があるので、このデータベースは作業ディレクトリとは別のパーティション上に配置する必要がある

インデックス作成

ロボットはサイトを検索し、ユーザーが選択したフィルタに基づいてドキュメントを収集します。収集されるドキュメントの形式は多種多様です。これらの形式を統一して読みやすくするには、1 つの形式 (HTML) にする必要があります。このページでは、各リソース記述に関連する形式の一部を制御します。

表 13 ロボットのインデックス属性 

属性

デフォルト値

説明

完全なテキスト、部分的なテキスト

部分的なテキスト

完全なテキストは、リソース記述内のすべてのドキュメントを使用する。部分的なテキストは、リソース記述で指定されたバイト数のみを使用する

最初に抽出するバイト数

4096

バイト数を入力する

目次を抽出

True (オン)

True の場合、リソース記述に目次が含まれる

META タグのデータを抽出

True (オン)

True の場合、リソース記述に META タグが含まれる。

ドキュメントコンバータ

すべてオン (True)。False に設定されているタイプのドキュメントのインデックスは作成できない

Adobe PDF

Corel Presentations

Corel Quattro Pro

FrameMaker

Lotus Ami Pro

Lotus Freelance

Lotus Word Pro

Lotus 1-2-3

Microsoft Excel

Microsoft Powerpoint

Microsoft RTF

Microsoft Word

Microsoft Works

Microsoft Write

WordPerfect

StarOfficeTM Calc

StarOfficeTM Impress

StarOfficeTM Writer

XyWrite

コンバータのタイムアウト

600

1 つのドキュメントを HTML に変換するときに許容される時間 (秒単位)。この時間を超過すると、その URL は除外される

シミュレータ

このページには、ロボットによる URL へのフィルタの適用について、部分的なシミュレーションを実行するデバッグツールがあります。新しい URL を入力することによって、確認できます。これにより、URL、DNS 変換 (ホストの発見的解決など)、サイトのリダイレクトが確認されます。URL で指定されたドキュメントの内容は確認されないため、重複、MIME タイプ、ネットワークエラー、およびアクセス権などは検出されません。シミュレータは、一覧表示された各サイトをロボットが受け入れたか (ACCEPTED)、受け入れなかったか (WARNING) を示します。

表 14 ロボットのシミュレータ属性

属性

デフォルト値

説明

URL

ユーザーが定義済みの URL および 1 つの空白のテキストボックス

空白のテキストボックスに URL を入力すると、新しいサイトにアクセスできるかどうかを確認できる。これにより、新しいサイトがクローリングを受け入れるかどうかを確認できる

形式 http://www.sesta.com:80/

DNS エイリアスを確認

True (オン)

True (オン) の場合、同じアドレスにエイリアスが割り当てられているサーバーの数を確認する

サーバーリダイレクトを確認 (302)

True (オン)

True (オン) の場合、サーバーリダイレクトを確認する

サイトプローブ

このページには、DNS エイリアス、サーバーリダイレクト、および仮想サーバーを確認するデバッグツールがあります。このツールはサイトに関する情報を返しますが、クローリングの受け入れのテストは実行しません。

表 15 ロボットのサイトプローブ属性

属性

デフォルト値

説明

サイト

空白

次の形式で URL を入力する。http://www.sesta.com:80

DNS 情報の詳細を表示

False (オフ)

True (オン) の場合、IP アドレスなど、サイトに関する詳細情報が表示される

データベース

データベース属性は、次のように分類されます。

管理

最初の「管理」ページには、使用可能なデータベースが一覧表示されます。管理ページでは、新しいデータベースの作成、既存データベースの破棄、期限切れの設定、およびインデックスの再作成が可能です。アクションを実行するデータベースを選択するには、チェックボックスを使用します。チェックボックスの上にある小さいアイコンを使用すると、すべてのデータベースを選択または選択解除できます。「インデックスの再作成」、「破棄」、または「期限切れ」を選択すると、アクションの実行を確認するメッセージがデータベース名のリストとともに表示されます。アクションを実行するには、「了解」を選択します。

スキーマを編集してインデックスを使用するフィールドを (作成者として) 追加または削除した場合、またはディスクエラーによってインデックスが破損した場合は、データベースのインデックスを再作成する必要があります。

データベースのインデックスの再作成に要する時間はデータベース内の RD の数に比例するため、大規模なデータベースのインデックスの再作成は、サーバーへのアクセスが少ない時間帯に実行する必要があります。

データベースのコンテンツを破棄すると、インデックスに使用されたディスクスペースは回復されますが、メインデータベースが使用したディスクスペースは回復されません。代わりに、このスペースは、新しいデータとして再使用され、データベースに追加されます。

データベースを期限切れにすると、期限切れとみなされたすべての RD が削除されます。このとき、データベースのサイズは小さくなりません。デフォルトでは、RD は作成の時点から 90 日後に期限切れになるように設定されています。

「編集」リンクを選択すると、データベースを定義するページが表示されるので、ここでデータベースを編集することもできます。

表 16 データベースの管理属性

属性

デフォルト値

説明

名前

Default

検索で使用するデータベースの名前

タイトル

空白

データベースのタイトル

説明

空白

ユーザー自身がデータベースの説明を入力する

エージェントのインポート

インポートエージェントは、他のサーバーまたはデータベースからリソース記述を取得して、これらをマージして検索データベースにインポートする処理を実行します。

最初の「インポート」ページには、使用可能なインポートエージェントが一覧表示されます。新しいインポートエージェントを作成したり、既存のインポートエージェントを実行、編集、または削除したりできます。チェックボックスを使用して、削除するエージェントを選択します。チェックボックスの上にある小さいアイコンを使用して、すべてのインポートエージェントを選択または選択解除できます。ラジオボタンを使用して、エージェントのアクションをオンまたはオフに切り替えることができます。インポートエージェントのスケジュールを作成するには、下部のメニューバーで「スケジュール」を選択します。

既存のインポートエージェントを編集または変更する場合、または新しいインポートエージェントを作成する場合は、次の属性が表示されます。

表 17 データベースのインポートエージェント属性 

属性

デフォルト値

説明

インポート元

ローカルファイル

「ローカルファイル」または「検索サーバー」 (有効な場合) を選択する

ローカルファイルパス

新規の場合は空白

有効なリソース記述を含んでいるローカルファイルのフルパス名を SOIF (Summary Object Interchange Format) で指定する。このファイルは、ローカルに配置されているファイルと同じようにアドレスを指定できるパスであれば、別のサーバー上のファイルでも構わない

データベース名

Default

インポート先データベースの名前

リモートサーバー

新規の場合は空白

リソース記述の取得元となる検索サーバーの URL を指定する。形式は次のとおり。http://www.sesta.com:80

インスタンス名

新規の場合は空白

検索サーバーで使用するサーバーインスタンスの名前。このインスタンス名は、インポート元となるサーバーの「サーバー設定」で確認できる。値は 3.01C または 3.01C SP1

検索 URI

新規の場合は空白

フルパス名およびファイル名を入力する。/portal/search を使用する

コンパスサーバー 3.01X を使用

False (オフ)

 

インポート元のサーバーがコンパスサーバー 3.01X であるかどうかを指定する

SSL を有効

False (オフ)

サーバー間のトランザクションの場合、サーバーが SSL (Secure Sockets Layer) プロトコルを使用するように選択する

認証

なし (デフォルト)

「なし」 (デフォルト) または「ユーザー/パスワード認証を使用」

ここでは、インポートエージェントがインポート元のシステムを確認する方法を指定する。デフォルトでは、認証は使用されない。インポート元のサーバーが認証を必要とする場合、使用するインポートエージェントにユーザー名とパスワードを指定できる。3.01C からインポートする場合、認証は不要。3.01C SP1 からインポートする場合は、認証が必要になる

ユーザー

新規またはなしの場合は空白

「ユーザー/パスワード認証を使用」を選択した場合は、ユーザーを入力する

パスワード

新規またはなしの場合は空白

「ユーザー/パスワード認証を使用」を選択した場合は、パスワードを入力する (アスタリスク * で表示される)

コンテンツの転送

フルコンテンツの増分収集を使用 (デフォルト)

「フルコンテンツの増分収集を使用」 (デフォルト) または「検索クエリの使用」を選択する

ここでは、ソースからインポートするリソース記述を指定する

デフォルトでは、インポートエージェントは、同じソースから最後にインポートした後に追加または変更されたすべてのリソース記述を要求する

検索クエリでは、インポートエージェントがソースの特定のリソース記述のみを要求するように指定する。これは、ユーザーが検索データベースのリソースのリストを要求する方法とまったく同じである

「範囲」、「表示属性」、および「表示ヒット」フィールドを使用して、クエリを指定する

範囲

新規の場合は空白

クエリのテキスト。クエリの構文は、サーバーからのエンドユーザークエリの構文と同じ

表示属性

新規の場合は空白

各リソース記述にインポートするフィールドを一覧表示する (大文字と小文字は区別されない)。たとえば、タイトルと作成者など。デフォルトは、すべて

表示ヒット

新規の場合は空白

条件に一致するリソース記述をインポートするときの最大数。指定しない場合、デフォルトの 20 が適用される

エージェント記述

新規の場合は空白

最初の「インポート」ページで、使用可能なインポートエージェントのリスト内に表示される。プログラムからは無視される。このフィールドが空白の場合、インポートエージェントの識別には「リソース記述のソース」のファイル名とサーバー名が使用される。ユーザー名とパスワードが必要な場合は、ここに入力する

最新のリソース記述

新規の場合は空白

このインポートエージェントによってインポートされたリソース記述の中で、最新のリソース記述の作成日付。この日付は、新しいリソースおよびインポートする必要があるリソースを判定するために、「フルコンテンツの増分収集を使用」オプションで使用される

ネットワークタイムアウト (秒)

新規の場合は空白

インポートエージェントでネットワークとの接続がタイムアウトになるまでに許容される秒数を指定する。ネットワークのトラフィックや品質の変化に対応できるように、この秒数を調整することができる

文字セット

新規の場合は空白

入力 SOIF ストリームの文字セットを指定する。たとえば、ISO8859-1、UTF-8、UTF-16 など。文字セット ISO8859-1 〜 15 がサポートされている

リソース記述

最初の「リソース記述」ページでは、データベース内のリソース記述を検索できます。たとえば、RD に含まれる表記上のエラーを修正したり、ロボットによって検出された RD を手動で各カテゴリに割り当てたりできます。

表 18 リソース記述の属性

属性

デフォルト値

説明

検索対象

すべての RD

「すべての RD」、「カテゴリ化されていない RD」、「カテゴリ化された RD」、「カテゴリごとの RD」、「URL 特定の RD」、「RD を検索」

テキストボックス

空白

検索対象となる RD を識別するための一意のテキスト文字列を入力する。「カテゴリごとの RD」、「URL 特定の RD」、および「RD を検索」とともに使用する

データベース

Default

検索対象となるデータベースの名前

検索範囲をカテゴリ別に限定するには、「カテゴリの選択」を選択します。「カテゴリエディタ」ページでは、検索に関する分類学的な視点からカテゴリを指定できます。「カテゴリの選択」テキストボックスでカテゴリを指定することも、分類を参照して選択することもできます。カテゴリを指定して「了解」を選択すると、RD の検索ページに戻ります。

表 19 カテゴリエディタの属性

属性

デフォルト値

説明

カテゴリの選択

空白

カテゴリを入力するテキストフィールド

すべて展開

 

分類の表示を展開して、階層内のすべてのエントリを参照できるようにする

すべて縮小

空白

分類の表示を縮小して、階層内の最初の 2 つのレベルにあるカテゴリのみを参照できるようにする

各ページのカテゴリ

25

1 つのページに表示されるカテゴリの数を指定するドロップダウンリスト。値は、25、50、100、250、500、すべて

検索が正常に終了すると、検出された RD の数および検出された RD のリストを示すテキストボックスが表示されます。いずれかの RD を選択すると、次の (編集可能な) 属性および RD の部分テキストが表示されます。「分類」以外の属性は、「データベース」または「スキーマ」ページで編集できます。

表 20 データベースの RD 編集可能属性 

属性

デフォルト値

説明

分類

選択した RD のカテゴリ名

分類されている場合はカテゴリ名、分類されていない場合は「分類なし」

ReadACL

空白

ドキュメントレベルセキュリティに関連する

説明

選択した RD の説明

RD の説明

キーワード

指定されている場合、選択した RD のキーワード

META タグのキーワードが使用される

タイトル

選択した RD のタイトル

RD のタイトル

スキーマ

スキーマによって、リソース記述に含める情報およびその情報を記述する形式を決定します。このとき、新しい属性またはフィールドを RD に追加したり、編集およびインデックス作成が可能な RD を設定したりできます。新しい RD をインポートするときに、新しい RD に組み込まれているスキーマを独自のスキーマに変換できます。

表 21 データベースのスキーマ編集属性 

属性

デフォルト値

説明

名前

空白

選択したスキーマの名前。作成者作成者の電子メールコンテンツの文字セットコンテンツのエンコードコンテンツの言語コンテンツの長さコンテンツのタイプ説明有効期限完全なテキストキーワード最終更新部分的なテキスト電話ReadACLタイトルURL など

説明

空白

これらの説明は、上記のスキーマに対応する。このテキストボックスには、ユーザーのコメントを入力する。検索サーバーはこの情報を使用しない

ドキュメントの作成者

ドキュメントの作成者と連絡を取るための電子メールアドレス

HTTP サーバーのコンテンツの文字セットに関する情報

HTTP サーバーのコンテンツのエンコーディングに関する情報

HTTP サーバーのコンテンツの言語に関する情報

HTTP サーバーのコンテンツの長さに関する情報

HTTP サーバーのコンテンツのタイプに関する情報

ドキュメントについての 1 行の短い説明

リソース記述が無効になる日付

ドキュメントのすべてのコンテンツ

ドキュメントを適切に表現するキーワード

ドキュメントが最後に更新された日付

ドキュメントのテキストの一部分の選択

作成者と連絡を取るための電話番号

セキュリティを適用するために、検索サーバーによって使用される

ドキュメントのタイトル

ドキュメントの URL (Uniform Resource Locator) または Web アドレス

エイリアス

名前

説明

空白

新しい RD をインポートするときに、新しい RD に組み込まれているスキーマを独自のスキーマに変換できる。インポートデータベースのフィールドに使用される名前についてのスキーマとユーザーのデータベースの RD に使用されるスキーマが異なる場合に、この変換を使用することがある。たとえば、作成者のフィールドとして「開発者」を使用した RD をインポートし、自分の RD 内で作成者のフィールドとして「作成者」を使用する場合などである。「開発者」から「作成者」に変換されるので、このテキストボックスには「開発者」と入力する

データタイプ

文字列

データテイプを定義する

編集可能

False (オフ)

True (オン) の場合、選択した属性 (フィールド) が「データベース RD エディタ」に表示され、ユーザーはその値を変更できる

「説明」、「キーワード」、「タイトル」、および「ReadACL」は編集可能

インデックス作成可能

True

True (オン) の場合、選択した属性 (フィールド) をインデックス作成の基礎値として使用できる

エンドユーザー用の「詳細検索」画面のメニューには、作成者、タイトル、および URL が表示される。これにより、エンドユーザーは特定のフィールドの値を検索できる

作成者、有効期限、キーワード、最終更新、タイトル、URL、および ReadACL は、インデックス作成の基礎値として使用できる

乗数のスコア

1.0

特定の要素を計算するための加重フィールド。任意の正の数が有効

解析

「解析」ページには、すべてのサイトをソートしたリスト、および検索データベース内の各サイトのリソース数が表示されます。ファイルの分析を更新するには、「分析の更新」を選択します。

表 22 データベースの分析属性 

属性

デフォルト値

説明

RD の総数

現在、データベース内に存在する RD の数

現在、データベース内にあるリソース記述の総数が表示される

サーバーの数

データベースがパーティションに分割されている現在のサーバー数

データベースを複数のパーティションに分割して、複数のサーバーを配置できる

サイト

ロボットによって正常に検索された URL またはドメイン

データベースに追加されたリソース記述の URL またはドメイン

RD の数

そのサイトの現在の RD 数

そのサイトの現在の RD 数が表示される

タイプ

RD のタイプ

リソース記述では、さまざなタイプが許容される (http など)

割合

RD のタイプ/RD の総数

リソース記述の総数に対する、このタイプのドキュメントの割合

カテゴリ

エンドユーザーは、2 つの方法で検索データベースと対話できます。クエリを直接入力してデータベースを検索する方法と、ユーザーが設計したカテゴリのセットを使用してデータベースのコンテンツ全体を参照する方法です。検索データベース内のリソースをカテゴリに割り当てることで、複雑な構造をわかりやすくします。データベースに含まれる項目が多い場合は、関連する項目をグループ化すると便利です。カテゴリの設定時に最も留意すべきことは、使いやすさです。これはエンドユーザーが特定のタイプの項目をすばやく見つけられるようにするためです。

検索サーバーでは、分類と呼ばれるカテゴリの階層を使用します。一般的に、「分類」という用語はカテゴリのシステムを指します。検索サーバーデータベースなどのネットワーク化されたリソースデータベースでは、検索を効率化するためにネットワークリソースのカテゴリを分類する方法を指します。

このトピックは、次のサブトピックで構成されます。

カテゴリエディタ

「カテゴリエディタ」ページには、分類に基づくカテゴリが一覧表示されます。ユーザーは、これによってカテゴリを参照します。カテゴリを参照した後、カテゴリのリンクを選択すると分類ルールエディタが起動し、ロボットが特定のカテゴリでデータ収集を行うように設定できます。

表 23 カテゴリエディタの属性 

属性

デフォルト値

説明

すべて展開

 

分類の表示を展開して、階層内のすべてのエントリを参照できるようにする

すべて縮小

 

分類の表示を縮小して、階層内の最初の 2 つのレベルにあるカテゴリのみを参照できるようにする

インデックスの再作成

 

データベースのインデックスを再作成する。分類の作成直後に、エンドユーザーがカテゴリ検索を実行できるように、データベースのインデックスを作成する必要がある。カテゴリを変更した場合には、データベースのインデックスを再作成して最新の状態に保つ必要がある。データベースのインデックスを再作成する前に、カテゴリツリーを保存する

各ページのカテゴリ

25

1 つのページに表示されるカテゴリの数を指定するドロップダウンリスト。値は、25、50、100、250、500、すべて

名前

選択したカテゴリ

編集するカテゴリの名前

説明

空白

ユーザーによるカテゴリの説明

一致のルール

空白

使用する一致のルール

更新

 

カテゴリの定義を更新する

子として追加

 

カテゴリを子として追加する

兄弟として追加

 

カテゴリを兄弟として追加する

分類ルールエディタ

データベースのカテゴリを設定した後、このページを使用して、ロボットがリソースをカテゴリに割り当てるときに使用するルールを設定または変更します。

表 24 カテゴリの分類ルールエディタ属性 

属性

デフォルト値

説明

ソース

選択されている

作成者、作成者の電子メール、コンテンツの文字セット、コンテンツのエンコーディング、コンテンツの言語、コンテンツの長さ、コンテンツのタイプ、説明、有効期限、完全なテキスト、キーワード、最終更新、部分的なテキスト、電話、ReadACL、タイトル、URL、ホスト、プロトコル、URI、IP、パス、タイプなど

メソッド

「が次と等しい」

「が次と等しい」、「が次を含む」、「が次から始まる」、「が次で終る」、「が次の正規表現と一致する」

基準

空白

ルールの基準を指定する

分類

空白

ルールの条件に一致する場合に、RD の分類に使用するカテゴリ。カテゴリを入力するか、「カテゴリの選択」ボタンをクッリクして編集ページを使用して参照する

自動分類

このページで、自動分類機能を制御します。

表 25 カテゴリの自動分類属性

属性

デフォルト値

説明

ログのパス

 

自動分類機能で使用するログファイルの場所

メモリ内のリソース記述

10000

メモリーに格納されるリソース記述のキャッシュサイズ。収集されたリソース記述のサイズが指定されたサイズを超えた場合、これらのリソース記述はデータベースの一時記憶域にフラッシュされる。このサイズを大きい値に指定するほどパフォーマンスは向上するが、その一方でメモリーの使用量が増加する

データベースのパス

 

RD の一時保存データベースに使用されるファイル

レポート

「レポート」セクションでは、検索サーバーを監視できます。検索されたサイト、除外された URL とその理由、ロボットが訪問した URL に関する詳細情報、エンドユーザーの検索内容など、検索サーバーのアクションのサマリーを見ることができます。

このトピックは、次のサブトピックで構成されます。

開始位置

ロボットは、起動するたびに有効なサイトをすべて訪問します。

表 26 レポートの開始位置属性

属性

デフォルト値

説明

有効

サイトの現在の値

「はい」または「いいえ」

これは「ロボット/サイト」ページで設定する

開始位置

選択した URL:80

選択した URL へのリンク

サイト定義

選択した URL

「ロボット/サイト」編集ページへのリンク

深さ

選択された検索レベルのリスト

「ロボット/サイト」編集ページで 1 〜 n に設定する

除外 URL

このページには、ロボットの実行についてのリストが表示されます。除外された URL の理由のリストを表示するには、確認したいロボットの実行を選択し、「選択内容の表示」を選択して、除外の理由を 1 つ選択します。すると選択した理由で除外された URL のリストが表示されます。重複および警告による除外は削除されています。

表 27 レポートの除外 URL 属性

属性

デフォルト値

説明

ログ

最新の実行のログのリスト

使用可能なすべての実行ログが一覧表示される

カウント

番号

除外の理由を示す番号のリスト

除外の理由

許可されないサイトの理由のリスト。各理由は、その理由で除外されたすべての URL のリストにリンクしている

URL が除外される理由の一例として、フィルタルール、ファイルが見つからない、許可されないサイト、許可されないプロトコル、エラー、重複などがある

ロボットの詳細レポート

このページを使用して、ロボットから各種のレポートにアクセスできます。ドロップダウンリストから選択して表示することで、選択したレポートを表示し、その情報を取得できます。最新の情報に更新するには、「更新」ボタンを使用します。

表 28 レポートのロボットの詳細レポート属性

属性

デフォルト値

説明

ロボットの詳細レポート

バージョン

バージョン、DNS キャッシュダンプ、パフォーマンス、検出されたサーバー - すべて、検出されたサーバー - RDM、状態 - 現在の設定、状態 - データベース (内部)、状態 -Libnet、状態 - モジュール、状態 - 概要、抽出可能な URL、インデックス作成が可能な URL、URL - フィルタを待機中 (URL プール)、URL - インデックス作成を待機中、すべてのレポート

ログファイル

このページでは、ログファイルのエントリまたは特定の行を表示できます。ドロップダウンリストに、ログファイルが一覧表示されます。表示したい行の番号を入力して、「表示」ボタンを選択します。

表 29 レポートのログファイル表示属性

属性

デフォルト値

説明

このログファイルを表示

除外 URL (フィルタ)

除外 URL (filter)、RD マネージャ (rdmgr)、RDM サーバー (rdmsvr)、ロボットの活動 (robot)、検索エンジン (searchengine)、ユーザークエリ (rdm)

行数

25

ログファイルの最新のエントリを表示するときに、ユーザーが入力可能な行数

頻度の高い検索

このページでは、ユーザーによる検索の内容を確認できます。レポートには、頻度が高いものから順に検索内容が表示されます。

表 30 レポートの頻度の高い検索属性

属性

デフォルト値

説明

ブラウザの閲覧は対象外

False (オフ)

False (オフ) の場合、ユーザーが参照するカテゴリが含まれる。True (オン) の場合、参照の統計が除外される

スケジュール

ロボットの開始

このページで、ロボットの自動開始時刻を設定します。

表 31 スケジュールのロボットの開始属性

属性

デフォルト値

説明

時刻

00:00

ロボットが検索を開始する時刻

曜日

選択されていない

日、月、火、水、木、金、土

ロボットの終了

このページで、ロボットの自動終了時刻を設定します。

表 32 スケジュールのロボットの終了属性

属性

デフォルト値

説明

時刻

00:00

ロボットを継続的に実行する必要がある場合は、ロボットを終了させ、1 日に少なくとも 1 回はロボットを再起動することを推奨する。これにより、ロボットがリソースを解放し、ロボット自体を再初期化する機会を確保できる

曜日

選択されていない

日、月、火、水、木、金、土

インポートの開始

このページでは、インポートエージェントの実行スケジュールを設定します。

表 33 スケジュールのインポートエージェントの開始属性

属性

デフォルト値

説明

時刻

00:00

インポートエージェントがインポートを開始する時刻

曜日

選択されていない

日〜土

自動分類の開始

このページでは、自動分類機能の開始スケジュールを設定します。

表 34 スケジュールの自動分類の開始属性

属性

デフォルト値

説明

時刻

00:00

自動分類を開始する時刻

曜日

選択されていない

日〜土


目次