JP2003303202A - Knowledge information collection system and knowledge information collection method - Google Patents
Knowledge information collection system and knowledge information collection methodInfo
- Publication number
- JP2003303202A JP2003303202A JP2002108478A JP2002108478A JP2003303202A JP 2003303202 A JP2003303202 A JP 2003303202A JP 2002108478 A JP2002108478 A JP 2002108478A JP 2002108478 A JP2002108478 A JP 2002108478A JP 2003303202 A JP2003303202 A JP 2003303202A
- Authority
- JP
- Japan
- Prior art keywords
- setting
- file
- information
- collection
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
(57)【要約】
【課題】インターネット上からファイル形式の異なる様
々な種類の文書ファイルを知識情報として効率よく収集
する。
【解決手段】Web収集モジュール111は、設定ファ
イル203に設定された、収集するファイル形式に従
い、起点URLおよび辿るリンク先の各URLに対し、
収集しようとする文書ファイルのファイル形式が、設定
ファイル203に設定されたファイル形式に合致するか
否かを調べ、合致しなければ収集対象から除外し、合致
する際に、その文書ファイルをネットワーク上より収集
する処理を行う。
(57) [Summary] [PROBLEMS] To efficiently collect various types of document files having different file formats from the Internet as knowledge information. According to a file format to be collected, which is set in a setting file, a Web collection module (111) provides a starting URL and a link destination to be followed.
It checks whether the file format of the document file to be collected matches the file format set in the setting file 203, and if it does not match, excludes the file from the collection target. Perform the process of collecting more.
Description
【0001】[0001]
【発明の属する技術分野】本発明はナレッジマネジメン
トシステムで用いられる知識情報収集システムおよび知
識情報収集方法に関し、特に知識データベースに登録す
べき文書情報をネットワーク上から収集するための知識
情報収集システムおよび知識情報収集方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a knowledge information collecting system and a knowledge information collecting method used in a knowledge management system, and particularly to a knowledge information collecting system and knowledge for collecting document information to be registered in a knowledge database from a network. Regarding information collection method.
【0002】[0002]
【従来の技術】近年、企業を中心に複数のユーザ間で情
報共有を行うためのグループウェアの導入が進められて
いる。代表的なグループウェアとしては、電子メールシ
ステムやワークフローシステムなどが知られているが、
最近では、知識情報の共有支援を図るためのナレッジマ
ネジメントシステムも開発され始めている。2. Description of the Related Art In recent years, the introduction of groupware for sharing information among a plurality of users has been promoted mainly in companies. E-mail systems and workflow systems are known as typical groupware,
Recently, a knowledge management system to support sharing of knowledge information is also being developed.
【0003】このナレッジマネジメントシステムは、個
人のノウハウなどの知識情報を知識データベースに蓄積
・管理するためのものであり、自然言語検索などの検索
機能と組み合わせることにより、蓄積された知識情報の
効率的な活用が可能となる。This knowledge management system is for accumulating and managing knowledge information such as personal know-how in a knowledge database. By combining it with a search function such as natural language search, the accumulated knowledge information can be efficiently stored. It is possible to make full use of it.
【0004】ところで、このようなナレッジマネジメン
トシステムに於いては、知識情報をいかに効率よく収集
・蓄積するかが重要なポイントとなる。特にインターネ
ット上のWeb情報は知識の宝庫であるので、インター
ネット上から必要な情報を効率良く収集するための仕組
みが必要とされている。By the way, in such a knowledge management system, how to efficiently collect and store knowledge information is an important point. In particular, since Web information on the Internet is a treasure trove of knowledge, a mechanism for efficiently collecting necessary information from the Internet is needed.
【0005】[0005]
【発明が解決しようとする課題】しかし、最近では、ホ
ームページにはHTMLドキュメントなどのテキストベ
ースの文書ファイルのみならず、各種アプリケーション
プログラムによって作成された様々なファイル形式の文
書ファイルも利用され始めている。この場合、インター
ネットから取得した文書ファイルをそのまま知識データ
ベースに登録したのでは知識データベース上の文書ファ
イルの検索が困難となり、知識の有効活用を行うことが
できなくなる。Recently, however, not only text-based document files such as HTML documents but also document files of various file formats created by various application programs have begun to be used for homepages. In this case, if the document file acquired from the Internet is directly registered in the knowledge database, it becomes difficult to search the document file in the knowledge database, and the knowledge cannot be effectively used.
【0006】本発明はこのような事情を考慮してなされ
たものであり、インターネット上からファイル形式の異
なる様々な種類の文書ファイルを知識情報として効率よ
く収集することが可能な知識情報収集システムおよび知
識情報収集方法を提供することを目的とする。The present invention has been made in consideration of such circumstances, and a knowledge information collecting system and a knowledge information collecting system capable of efficiently collecting various types of document files having different file formats from the Internet as knowledge information. The purpose is to provide a method for collecting knowledge information.
【0007】[0007]
【課題を解決するための手段】上述の課題を解決するた
め、本発明は、知識データベースに登録すべき文書情報
をネットワーク上から収集する知識情報収集システムに
於いて、前記知識データベースに登録すべき文書情報を
収集するための起点URLの設定フィールド、および収
集可能な複数種の文書ファイル形式を選択可能に提示し
た収集ファイル形式の設定項目を含んだ設定画面を表示
する設定画面表示手段と、前記設定画面表示手段により
表示された設定画面上の設定内容をもとに記述した設定
ファイルを作成する設定ファイル作成手段と、前記設定
ファイル作成手段で作成された設定ファイルの記述内容
をもとに前記知識データベースに登録すべき文書情報を
前記ネットワーク上から収集する情報収集手段とを具備
し、前記情報収集手段は、前記設定ファイルに記述され
た起点URLおよび辿るリンク先より文書情報を取得す
る際に、当該文書情報が前記設定ファイルに記述された
収集ファイル形式に合致するか否かを調べ、前記設定フ
ァイルに記述された収集ファイル形式に合致する文書情
報のみを選択して前記ネットワーク上から収集すること
を特徴とする。In order to solve the above-mentioned problems, the present invention is a knowledge information collecting system for collecting document information to be registered in a knowledge database from a network, which should be registered in the knowledge database. A setting screen displaying unit for displaying a setting screen including a setting field of a starting point URL for collecting document information and a setting item of a collected file format that presents a plurality of types of collectable document file formats in a selectable manner; A setting file creating means for creating a setting file described based on the setting contents on the setting screen displayed by the setting screen displaying means, and the above described based on the description contents of the setting file created by the setting file creating means. An information collecting unit that collects document information to be registered in a knowledge database from the network, When acquiring the document information from the origin URL described in the setting file and the link destination to trace, the step checks whether the document information matches the collection file format described in the setting file, and sets the setting. It is characterized in that only the document information matching the collection file format described in the file is selected and collected from the network.
【0008】この知識情報収集システムに於いては、ネ
ットワークからの情報の収集条件を指定する設定情報に
基づいて、ネットワーク上からの文書ファイルの収集が
情報収集手段によって実行される。前記情報収集手段
は、前記設定ファイルに記述された起点URLおよび辿
るリンク先より文書情報を取得する際に、当該文書情報
が前記設定ファイルに記述された収集ファイル形式に合
致するか否かを調べ、前記設定ファイルに記述された収
集ファイル形式に合致する文書情報のみを選択して前記
ネットワーク上から収集する。これにより、収集対象と
なる文書情報のファイル形式を、必要に応じ選択的に指
定して、所望するファイル形式の文書情報を選択的に指
定して収集でき、ネットワーク上の知識情報を効率よく
収集できる。更に、所望する知識情報をより適切に絞り
込んで収集することができることから、より高度の知識
データベースを容易かつ迅速に効率よく構築できる。In this knowledge information collecting system, the information collecting means executes the collection of the document file from the network based on the setting information designating the collecting condition of the information from the network. When acquiring the document information from the origin URL described in the setting file and the link destination to be followed, the information collecting unit checks whether the document information matches the collection file format described in the setting file. , Only the document information matching the collection file format described in the setting file is selected and collected from the network. As a result, the file format of the document information to be collected can be selectively designated as needed, and the document information of the desired file format can be selectively designated and collected, and the knowledge information on the network can be collected efficiently. it can. Further, since desired knowledge information can be more appropriately narrowed down and collected, a higher-level knowledge database can be constructed easily, quickly and efficiently.
【0009】また、本発明は、知識データベースに登録
すべき文書情報をネットワーク上から収集する知識情報
収集方法に於いて、収集可能な複数種の文書ファイル形
式を設定対象に、収集する文書情報のファイル形式を設
定する設定項目、および起点URLの設定フィールドを
有する設定画面を表示する設定画面表示ステップと、前
記設定画面表示ステップで表示された設定画面上で設定
された起点URLおよび辿るリンク先より収集する文書
情報各々について、当該文書情報のファイル形式が、前
記設定画面上で設定されたファイル形式に合致するか否
かを判定する判定ステップと、前記判定ステップで前記
設定されたファイル形式に合致しないと判定された文書
情報を収集対象から除外するステップとを有して、前記
設定されたファイル形式に合致する文書情報のみを前記
ネットワーク上から収集することを特徴とする。Further, according to the present invention, in a knowledge information collecting method for collecting document information to be registered in a knowledge database from a network, a plurality of kinds of document file formats that can be collected are set, and the document information to be collected is set. From a setting screen display step of displaying a setting screen having a setting item for setting a file format and a setting field of a starting point URL, a starting point URL set on the setting screen displayed in the setting screen displaying step and a link destination to be followed. For each piece of document information to be collected, a determination step of determining whether the file format of the document information matches the file format set on the setting screen, and the file format set in the determination step And excluding the document information that is determined not to be collected from the collection target. Only the document information that matches the format and wherein the collected from over the network.
【0010】この知識情報収集方法によれば、設定画面
上で設定したファイル形式に合致する文書情報のみを前
記ネットワーク上から収集することができ、収集対象と
なる文書情報のファイル形式を、必要に応じ選択的に指
定して、任意のファイル形式の文書情報を選択的に収集
できる。これにより、所望する知識情報をより適切に絞
り込んで収集することができ、より高度の知識データベ
ースを容易かつ迅速に効率よく構築できる。According to this knowledge information collecting method, only the document information matching the file format set on the setting screen can be collected from the network, and the file format of the document information to be collected is required. It is possible to selectively collect the document information in any file format by selectively specifying it. As a result, desired knowledge information can be more appropriately narrowed down and collected, and a higher-level knowledge database can be constructed easily, quickly and efficiently.
【0011】[0011]
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。図1には、本発明の一実施形態に係
る知識情報収集システムを用いたナレッジマネジメント
システム全体の構成が示されている。このナレッジマネ
ジメントシステムは知識情報の収集・分析・検索等のサ
ービスを提供するためのものであり、Web収集システ
ム11、登録モジュール12、および知識エンジン13
などから構成されている。これらWeb収集システム1
1、登録モジュール12および知識エンジン13は、サ
ーバコンピュータ上で実行されるプログラムとして実現
されている。Web収集システム11および登録モジュ
ール12は、ナレッジマネジメントシステムで用いられ
る知識情報を収集するための知識情報システムを構成す
る。この知識情報収集システムは、Webページなどの
文書をインターネット/イントラネット30上から収集
して、その文書の内容をナレッジマネジメントシステム
の知識データベース(知識DB)131に登録するとい
う処理を実行する。Web収集システム11は、Web
収集モジュール111、管理インターフェース112、
および登録ディレクトリ113から構成されている。BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows the overall configuration of a knowledge management system using a knowledge information collecting system according to an embodiment of the present invention. This knowledge management system is for providing services such as collection, analysis, and search of knowledge information, and includes a Web collection system 11, a registration module 12, and a knowledge engine 13.
Etc. These Web collection system 1
1, the registration module 12, and the knowledge engine 13 are realized as a program executed on the server computer. The web collection system 11 and the registration module 12 constitute a knowledge information system for collecting knowledge information used in the knowledge management system. This knowledge information collecting system collects documents such as Web pages from the Internet / Intranet 30 and registers the contents of the documents in the knowledge database (knowledge DB) 131 of the knowledge management system. Web collection system 11
Collection module 111, management interface 112,
And a registration directory 113.
【0012】Web収集モジュール111は、インター
ネット/イントラネット30上の各種文書ファイルを収
集して、それを知識DB131に登録できる形式で出力
するためプログラムである。このWeb収集モジュール
111は、マルチスレッド構造を有しており、HTTP
(HyperText Transfer Protocol)によるインターネッ
ト/イントラネット30上からの文書ファイル取得処理
を並列的に行うことができる。HTTPはインターネッ
ト/イントラネット30上の情報サイトである各Web
サーバ31からHTML(Hyper Text Markup Languag
e)で記述された文書を取得するための通信プロトコル
である。Web収集モジュール111は、Web収集条
件を指定する設定情報で指定されたURL(Uniform Re
source Locator)の文書ファイルをインターネット/イ
ントラネット30上から取得し、取得した文書ファイル
にリンク先のURLが含まれていれば、そのURLの文
書ファイルをさらに取得する、という再帰的な処理を行
って、インターネット/イントラネット30上から関連
する文書ファイル群を順次取得する。この場合、他の文
書ファイルへのリンク情報(URL)を検出するために
は取得した文書ファイルを解析することが必要となる
が、その解析処理の中では、リンク情報の検出のみなら
ず、知識DB131に登録すべきテキストデータの抽出
も併せて実行される。The Web collection module 111 is a program for collecting various document files on the Internet / Intranet 30 and outputting them in a format that can be registered in the knowledge DB 131. This Web collection module 111 has a multi-thread structure, and HTTP
Document file acquisition processing from the Internet / Intranet 30 by (HyperText Transfer Protocol) can be performed in parallel. HTTP is an information site on the Internet / Intranet 30 for each Web
From server 31 to HTML (Hyper Text Markup Languag
It is a communication protocol for acquiring the document described in e). The web collection module 111 uses the URL (Uniform Reload) specified by the setting information that specifies the web collection conditions.
Source Locator) document file is acquired from the Internet / Intranet 30, and if the acquired document file contains the URL of the link destination, the document file of that URL is further acquired. , The related document files are sequentially acquired from the Internet / Intranet 30. In this case, it is necessary to analyze the acquired document file in order to detect the link information (URL) to another document file. In the analysis process, not only the detection of the link information but also the knowledge Extraction of text data to be registered in the DB 131 is also executed.
【0013】収集対象の文書ファイルは、他のファイル
へのリンク情報であるURLを記述可能なハイパーテキ
ストファイル(HTMLファイル)のみならず、テキス
トファイル(plane text)、さらには各種アプリケーシ
ョンプログラムによって作成された様々なファイル形式
の文書ファイル(例えば、Portable Docu
ment Format形式のファイル、ワードプロッ
セッサソフトウェアで作成した文書ファイル、表計算ソ
フトウェアで作成したファイル、プレゼンテーションデ
ータの作成ソフトウェアで作成したプレゼンテーション
データのファイルなど、各種汎用ファイル形式の添付フ
ァイル)も収集対象となる。The document file to be collected is created not only by a hypertext file (HTML file) capable of describing a URL that is link information to another file, but also by a text file (plane text) and various application programs. Document files in various file formats (for example, Portable Docu
ment Format files, document files created with word processor software, spreadsheet files, presentation data files created with presentation data creation software, etc.) Become.
【0014】Web収集モジュール111では、インタ
ーネット/イントラネット30上から収集した各文書フ
ァイルに対して知識DB131に登録すべき属性情報の
取得と上述のテキストデータの抽出が行われる。各文書
ファイルから取得される属性情報は、例えば、当該文書
ファイルのURL、ファイル作成日時(更新日時)等で
ある。そして、Web収集モジュール111では、それ
ら各文書ファイルの属性情報とテキストデータが記述さ
れた登録ファイルが作成されて、それが登録ディレクト
リ113上に出力される。ここで、登録ファイルとは、
ファイル形式の異なる複数種の文書ファイルそれぞれの
文書情報を知識DB131に登録するための共通インタ
ーフェースとして予め決められた記述形式を持つファイ
ルを意味する。この登録ファイルは、複数種の文書ファ
イルそれぞれの文書情報を知識DB131に共通フォー
マットで登録するために利用される。本実施形態では、
登録ファイルとしてXML(eXtensible Markup Langua
ge)を使用する。The Web collection module 111 acquires attribute information to be registered in the knowledge DB 131 and extracts the above-mentioned text data for each document file collected from the Internet / Intranet 30. The attribute information acquired from each document file is, for example, the URL of the document file, file creation date / time (update date / time), and the like. Then, the Web collection module 111 creates a registration file in which the attribute information of each of the document files and the text data are described, and outputs it to the registration directory 113. Here, the registration file is
It means a file having a predetermined description format as a common interface for registering document information of each of a plurality of types of document files having different file formats in the knowledge DB 131. This registration file is used to register the document information of each of a plurality of types of document files in the knowledge DB 131 in a common format. In this embodiment,
XML (eXtensible Markup Langua) as a registration file
ge) is used.
【0015】管理インターフェース112は、Web収
集モジュール111に実行させる各Web収集処理(以
下、Web収集処理タスクという)の内容を設定するた
めのプログラムであり、各Web収集処理タスク毎にそ
のWeb収集条件の設定および管理、Web収集モジュ
ール111の起動・停止の制御、さらには各Web収集
処理タスクの収集状況の管理・提示等の機能を有してい
る。この管理インターフェース112は、管理者ユーザ
がそのユーザ端末のWebブラウザ21上から必要な操
作を行えるように、Webサーバ22がCGI(Common
Gateway Interface)を通じて起動可能な外部プログラ
ム(CGIプログラム)として実現されている。The management interface 112 is a program for setting the contents of each Web collection process (hereinafter referred to as a Web collection process task) to be executed by the Web collection module 111, and the Web collection conditions for each Web collection process task. Of the Web collection module 111, and the functions of managing and presenting the collection status of each Web collection processing task. This management interface 112 allows the web server 22 to execute CGI (Common) so that an administrator user can perform necessary operations on the web browser 21 of the user terminal.
It is realized as an external program (CGI program) that can be started through the Gateway Interface.
【0016】またWeb収集システム11には、Web
収集モジュール111の動作を管理・制御するためのフ
ァイルとして、図示のように、ロックファイル201、
制御ファイル202、設定ファイル203、結果ファイ
ル204、およびログファイル205が設けられてい
る。Further, the Web collection system 11 includes a Web
As a file for managing and controlling the operation of the collection module 111, a lock file 201,
A control file 202, a setting file 203, a result file 204, and a log file 205 are provided.
【0017】ロックファイル201はWeb収集モジュ
ール111の2重起動を防止するための排他制御用のフ
ァイルである。制御ファイル202は管理インターフェ
ース112がWeb収集モジュール111を停止させる
ために使用するファイルであり、例えば、管理者ユーザ
からの指示に応答して、実行中のWeb収集処理タスク
を途中で中断させる場合などに利用される。収集実行中
における中断の指定は、管理者ユーザが管理インターフ
ェース112を通じて行うことができる。The lock file 201 is a file for exclusive control for preventing double activation of the Web collection module 111. The control file 202 is a file used by the management interface 112 to stop the Web collection module 111. For example, in the case of interrupting a Web collection processing task that is being executed in response to an instruction from an administrator user. Used for. The administrator user can specify the interruption during the collection execution through the management interface 112.
【0018】設定ファイル203は、各Web収集処理
タスク毎にそのWeb収集条件を指定する設定情報を記
述するためのファイルであり、ここには複数のWeb収
集処理タスクそれぞれに対応する複数の設定情報を保持
することができる。各Web収集処理タスクのWeb収
集条件は、管理者ユーザによって設定される。Web収
集条件には、少なくとも、インターネット/イントラネ
ット30からの情報収集の起点とすべき文書ファイルの
所在を示す起点アドレス情報(起点URL)と、収集範
囲をドメイン内のみに指定したり、収集するURLのパ
ターン、収集しないURLのパターンを指定したり、収
集対象とすべき文書ファイル数またはリンク段数の上限
値を指定したり、収集するファイル形式を指定したりす
る複数種の収集範囲情報等が含まれている。このWeb
収集条件に基づいてWeb収集モジュール111のWe
b収集動作が制御される。すなわち、Web収集モジュ
ール111は、起点URLで指定される文書ファイルを
起点にそれに関連する文書ファイル群を、収集範囲情報
で規定される範囲内で順次収集する。尚、上記設定ファ
イル203に記述される複数種の収集範囲情報と、その
設定手段については、後にGUI画面を参照して説明す
る。The setting file 203 is a file for describing the setting information for designating the Web collection condition for each Web collection processing task, and here, a plurality of setting information corresponding to each of the plurality of Web collection processing tasks is set. Can be held. The web collection condition of each web collection processing task is set by the administrator user. In the Web collection condition, at least the origin address information (origin URL) indicating the location of the document file to be the origin of the information collection from the Internet / Intranet 30 and the collection range are specified only within the domain, or the URL for collection is specified. Includes multiple types of collection range information, such as specifying the pattern of URLs that are not collected, specifying the maximum number of document files or links that should be collected, and specifying the file format to be collected. Has been. This Web
We of the Web collection module 111 based on the collection condition
b The collection operation is controlled. That is, the Web collection module 111 sequentially collects the document file group related to the document file specified by the starting point URL within the range defined by the collection range information. The plurality of types of collection range information described in the setting file 203 and the setting means will be described later with reference to the GUI screen.
【0019】また、Web収集条件には、登録先の知識
データベースを指定する知識データベース名も含まれて
いる。すなわち、知識DB131に於いては蓄積文書の
種類が互いに異なる複数の知識データベースが定義され
ており、それら複数の知識データベースがそれぞれの知
識データベース名で管理されている。上記した設定ファ
イル203の設定情報によって、Web収集タスク毎に
登録先の知識データベース名を指定することにより、収
集した文書情報を知識DB131内の任意の知識データ
ベースに登録することができる。The Web collection condition also includes a knowledge database name that specifies the knowledge database of the registration destination. That is, in the knowledge DB 131, a plurality of knowledge databases having different types of accumulated documents are defined, and the plurality of knowledge databases are managed by respective knowledge database names. By designating the knowledge database name of the registration destination for each Web collection task by the setting information of the setting file 203 described above, the collected document information can be registered in any knowledge database in the knowledge DB 131.
【0020】さらに、収集範囲情報として、再収集を行
う時の収集条件を設定することもできる。ここで、再収
集とは、例えばWeb収集モジュール111に同一のW
eb収集処理タスクを定期的に実行させる場合における
2度目以降のWeb収集処理や、一旦中断したWeb収
集処理タスクを再開させた場合のWeb収集処理を言
う。Further, as the collection range information, a collection condition for recollecting can be set. Here, recollection means, for example, the same W as the Web collection module 111.
The eb collection processing is the second and subsequent Web collection processing when the eb collection processing task is periodically executed, and the Web collection processing when the once interrupted Web collection processing task is restarted.
【0021】結果ファイル204は、Web収集処理の
結果として収集した文書ファイルの一覧等を各Web収
集タスク毎に管理するためのファイルであり、ここに
は、Web収集の結果として取得したURLのリスト、
取得した文書ファイル件数、などが各Web収集処理タ
スク毎に出力される。この結果ファイル204はWeb
収集処理タスクそれぞれの収集状況をユーザに提示する
目的と、再収集の効率化の目的に用いられる。この結果
ファイル204を用いることにより、過去に収集済みの
文書ファイルの中でインターネット/イントラネット3
0上の情報サイトから削除された文書ファイルを検出し
たり、Web収集処理を途中で中断した場合における再
開ポイントを検出することもできる。The result file 204 is a file for managing a list of document files collected as a result of Web collection processing for each Web collection task, and here, a list of URLs acquired as a result of Web collection. ,
The number of acquired document files and the like are output for each Web collection processing task. This result file 204 is a web
It is used for the purpose of presenting the collection status of each collection processing task to the user and for the purpose of improving the efficiency of recollection. By using this result file 204, the Internet / Intranet 3 can be used among the document files collected in the past.
It is also possible to detect a document file deleted from the information site on 0 or a restart point when the Web collection process is interrupted midway.
【0022】ログフィル205は、Web収集モジュー
ル111による文書ファイルの取得の成否やエラーの種
類などを管理するファイルである。The log fill 205 is a file for managing the success or failure of acquisition of a document file by the Web collection module 111 and the type of error.
【0023】登録ディレクトリ113は、知識DB11
3に登録すべき文書内容を出力するための記憶領域であ
る。ここには、Web収集モジュール111によって各
文書ファイルから抽出された属性情報とテキストデータ
が記述された上述の登録ファイル114が出力される。
Web収集モジュール111は、テキストデータの抽出
に関して第1および第2の2つの処理モードを有する。The registration directory 113 is a knowledge DB 11
3 is a storage area for outputting the content of the document to be registered. The registration file 114 in which the attribute information and the text data extracted from each document file by the Web collection module 111 are described is output here.
The web collection module 111 has two processing modes, first and second, regarding extraction of text data.
【0024】第1処理モードでは、全てのファイル形式
の文書ファイルを対象に解析処理を行ってテキストデー
タの抽出、さらにはリンク情報(URL)の検出が行わ
れる(URLの検出はHTMLファイルのみが対象)。
第2処理モードでは、HTMLファイルとテキストファ
イル(PlainText)のみを対象に解析処理を行ってテキ
ストデータの抽出、さらにはリンク情報(URL)の検
出が行われ(URLの検出はHTMLファイルのみが対
象)、例えばPortable Document F
ormat形式のファイル等、他のファイル形式の文書
ファイル(以下、コンテンツファイルという)に対して
は解析処理は行われない。In the first processing mode, analysis processing is performed on document files of all file formats, text data is extracted, and link information (URL) is detected (URL is detected only in HTML files. Target).
In the second processing mode, only the HTML file and the text file (PlainText) are analyzed to extract the text data and further the link information (URL) is detected (URL is detected only in the HTML file. ), For example, Portable Document F
The analysis process is not performed on a document file of another file format (hereinafter referred to as a content file) such as an ormat format file.
【0025】第2処理モードを使用した場合、HTML
とPlainTextについては、そのテキストデータ
と属性情報が登録ファイル114上に記述されて登録デ
ィレクトリ113上に出力される。一方、Portab
le Document Format形式のファイル
等、他の形式のファイルについてはそのコンテンツファ
イル115がそのまま登録ディレクトリ113上に出力
され、登録ファイル114上には当該ファイルの属性情
報とコンテンツファイル115のパス名が記述される。
尚、第2処理モードに於いては、リンク情報の検出のた
めの解析処理が必要なファイルを対象にその解析処理の
中でテキストデータの抽出も併せて実行するという点が
肝要であるので、HTMLファイルのみを対象にテキス
トデータの抽出を行うようにしてもよい。When the second processing mode is used, HTML
For PlainText and PlainText, the text data and attribute information are described in the registration file 114 and output to the registration directory 113. On the other hand, Portab
For files in other formats, such as files in the le Document Format format, the content file 115 is output to the registration directory 113 as it is, and the registration file 114 describes the attribute information of the file and the path name of the content file 115. It
Note that in the second processing mode, it is important that the text data extraction is also executed in the analysis process for the file that requires the analysis process for detecting the link information. The text data may be extracted only for the HTML file.
【0026】第1および第2のどちらの処理モードに於
いても、Web収集モジュール111は実行中のWeb
収集タスクの処理が完了した時に、登録モジュール12
に対して登録要求ファイルを発行して、文書の登録を登
録モジュール12に要求する。登録要求ファイルには、
登録ファイルのファイル名、登録先の知識データベース
名などが記述されている。In both of the first and second processing modes, the Web collection module 111 executes the Web being executed.
When the processing of the collection task is completed, the registration module 12
A registration request file is issued to request registration of the document from the registration module 12. In the registration request file,
The file name of the registration file and the knowledge database name of the registration destination are described.
【0027】登録モジュール12は、Web収集モジュ
ール111によって収集された各文書ファイルの属性情
報およびテキストデータを知識DB131に登録する。
すなわち、登録モジュール12は、Web収集モジュー
ル111からの登録要求に応答して該当する登録ファイ
ル114を取得し、その登録ファイル114上に文書フ
ァイル毎に記述されている属性情報およびテキストデー
タを取り出して、知識DB131の登録先知識データベ
ースに登録する。また、この登録モジュール12はテキ
ストデータの抽出機能も有しており、登録ファイル11
4にコンテンツファイル115のパス名が記述されてい
る場合は、登録モジュール12は、そのパス名で指定さ
れるコンテンツファイル115からテキストデータを抽
出して知識DB131の該当する登録先知識データベー
スに登録する。The registration module 12 registers the attribute information and text data of each document file collected by the Web collection module 111 in the knowledge DB 131.
That is, the registration module 12 acquires the corresponding registration file 114 in response to the registration request from the Web collection module 111, and extracts the attribute information and text data described for each document file on the registration file 114. , The registration destination knowledge database of the knowledge DB 131 is registered. The registration module 12 also has a text data extraction function, and the registration file 11
When the path name of the content file 115 is described in 4, the registration module 12 extracts text data from the content file 115 specified by the path name and registers it in the corresponding registration destination knowledge database of the knowledge DB 131. .
【0028】さらに、登録モジュール12は、Web収
集モジュール111以外の他の収集モジュールによって
収集された文書の登録処理も実行する。他の収集モジュ
ールとしては、例えば、電子ファイリングシステムのフ
ァイルサーバから文書情報を収集するファイル収集モジ
ュール、RDBデータベースサーバからそこに管理され
ている文書情報を収集するRDB収集モジュール、電子
掲示板形式のコミュニティからそこに投稿された文書情
報を収集するコミュニティ収集モジュール、ユーザが任
意の各種アプリケーションプログラムの文書ファイルを
登録ファイル(XML)の出力形式に変換するために使
用するユーザ収集モジュール等がある。登録モジュール
12はこれら各収集モジュールによって共通に利用され
る。どの収集モジュールについても、登録モジュール1
2に対するインターフェースとしては上述のXML形式
の登録ファイルが用いられる。Further, the registration module 12 also executes a registration process of the documents collected by the collection modules other than the Web collection module 111. Other collection modules include, for example, a file collection module that collects document information from a file server of an electronic filing system, an RDB collection module that collects document information managed by the RDB database server, and an electronic bulletin board format community. There are a community collection module that collects the document information posted therein, a user collection module that the user uses to convert the document files of various application programs into the output format of the registration file (XML), and the like. The registration module 12 is commonly used by each of these collection modules. Registration module 1 for all collection modules
The above-mentioned XML-formatted registration file is used as an interface for 2.
【0029】知識エンジン13は、知識DB131に蓄
積された情報を活用するための知識分析処理を行う。こ
の知識分析処理では、知識DB131に蓄積された大量
の文書情報それぞれの特徴を分析して重要語を抽出する
処理や、特徴別に複数のカテゴリに分類および整理する
クラスタリング処理などが行われる。この知識エンジン
13には自然言語検索を行うための知識エンジン132
が設けられており、各ユーザはそのユーザ端末のWeb
ブラウザ41からWebサーバ42を通じて知識エンジ
ン132をアクセスすることにより、Webブラウザ4
1上から知識DB131に蓄積された知識の検索を行う
ことができる。知識DB131に蓄積された各文書の属
性情報にはその文書のURLも含まれているので、その
オリジナル文書を該当する情報サイトから取得してWe
bブラウザ41上に表示することができる。尚、、検索
処理は、ある知識データベース名を選択してその選択し
た知識データベースのみを対象に行ったり、あるいは知
識DB131内の全ての知識データベースを対象に行う
ことができる。The knowledge engine 13 performs a knowledge analysis process for utilizing the information accumulated in the knowledge DB 131. In this knowledge analysis process, a process of analyzing the features of each of a large amount of document information accumulated in the knowledge DB 131 to extract important words, a clustering process of classifying and organizing features into a plurality of categories, and the like are performed. This knowledge engine 13 includes a knowledge engine 132 for performing a natural language search.
Is provided for each user, and each user
By accessing the knowledge engine 132 from the browser 41 through the web server 42, the web browser 4
The knowledge accumulated in the knowledge DB 131 can be searched from above. Since the attribute information of each document stored in the knowledge DB 131 also includes the URL of the document, the original document is acquired from the corresponding information site and we
b It can be displayed on the browser 41. The search process can be performed by selecting a certain knowledge database name and targeting only the selected knowledge database, or by targeting all knowledge databases in the knowledge DB 131.
【0030】次に、図2を参照して、Web収集モジュ
ール111の機能構成について説明する。Web収集モ
ジュール111は、図示のように、収集制御部301、
属性抽出部302、テキスト抽出部303、およびフォ
ーマット変換部304を有している。収集制御部301
は、設定ファイル203に保持されている全ての設定情
報それぞれについて、その設定情報で指定されたWeb
収集タスクを順番に一つずつ実行する。各Web収集タ
スク毎に設定情報で指定された起点URLを起点とし
て、インターネット/イントラネット30から関連する
文書ファイル群を順次収集する。取得した文書ファイル
に含まれるリンク先文書へのURLはURLリスト30
5に追加されて行き、URLリスト305からURLを
取得しながらが収集処理が再帰的に実行される。URL
リスト305としては、上述の結果ファイル204を用
いることができる。収集範囲は設定ファイル203に保
持されている収集条件によって制限される。Next, the functional configuration of the Web collection module 111 will be described with reference to FIG. The web collection module 111 includes a collection control unit 301,
It has an attribute extraction unit 302, a text extraction unit 303, and a format conversion unit 304. Collection control unit 301
For each of all the setting information held in the setting file 203, the Web specified by the setting information
Run collection tasks one at a time. A group of related document files is sequentially collected from the Internet / Intranet 30 starting from the starting point URL designated by the setting information for each Web collecting task. The URL to the linked document included in the acquired document file is the URL list 30
5, the collection processing is recursively executed while acquiring URLs from the URL list 305. URL
The result file 204 described above can be used as the list 305. The collection range is limited by the collection conditions held in the setting file 203.
【0031】収集された各文書ファイルは、まず属性抽
出部302に送られ、そこで各文書ファイルの属性情報
が取得される。次いで、テキスト抽出部303にて文書
の解析処理が行われ、知識DB131に登録すべきテキ
ストデータと、次に取得すべきリンク先URLの抽出が
行われる。例えば、HTMLファイルに対しては、テキ
ストデータの抽出は、HTMLのタグ以外の部分を抜き
出すことによって行う。抽出されたテキストはタイトル
とボディ(本文)とに分けられる。リンク先URLの取得
は、Aタグ、AREFタグのHREFの値、FRAME
タグ、IFRAMEタグ、LAYERタグのSRCの
値、METAタグのREFRESHの値を取得すること
によって行われる。上述の第2の処理モードで動作する
場合には、テキスト抽出部303の処理はHTMLファ
イルとテキストファイルに対してのみ行われ、Port
able Document Format形式のファ
イル等、他のファイル形式の文書ファイルに対しては行
われない。Each collected document file is first sent to the attribute extraction unit 302, where the attribute information of each document file is acquired. Next, the text extraction unit 303 analyzes the document and extracts the text data to be registered in the knowledge DB 131 and the link destination URL to be acquired next. For example, for an HTML file, extraction of text data is performed by extracting a portion other than the HTML tag. The extracted text is divided into a title and a body (body). To obtain the link destination URL, the A tag, the HREF value of the AREF tag, FRAME
This is performed by acquiring the SRC value of the tag, the IFRAME tag, the LAYER tag, and the REFRESH value of the META tag. When operating in the second processing mode described above, the processing of the text extraction unit 303 is performed only on the HTML file and the text file, and Port
It is not performed for a document file of another file format such as a file of the Document Format format.
【0032】各文書ファイルから取得された属性情報と
テキストデータは、フォーマット変換部304に送ら
れ、そこでXMLの登録ファイルの記述形式に従う出力
フォーマットに整形されて登録ディレクトリ113上に
出力される。一つの登録ファイル114には、例えば1
000個程度の文書ファイルについての属性情報および
テキストデータが記述される。テキスト抽出が行われな
かった文書ファイルについては属性情報とパス名が登録
ファイル114上に記述される。The attribute information and text data obtained from each document file are sent to the format conversion unit 304, where they are shaped into an output format according to the description format of the XML registration file and output on the registration directory 113. In one registration file 114, for example, 1
Attribute information and text data for about 000 document files are described. The attribute information and path name of the document file for which text extraction has not been performed are described in the registration file 114.
【0033】次に、図3および図4を参照して、登録フ
ァイル114の出力フォーマットの例を説明する。Next, an example of the output format of the registration file 114 will be described with reference to FIGS. 3 and 4.
【0034】図3は、テキスト抽出部303にてテキス
ト抽出を行う場合の出力フォーマットの例を示してい
る。ファイルの先頭のタグ<?xml version="1.0" encod
ing="Shift_JIS"?>、<KnowledgeSystem>はファイル
の始まりを示し、また末尾のタグ</KnowledgeSystem>
はファイルの終わりを示している。FIG. 3 shows an example of an output format when the text extraction unit 303 extracts text. Tag at the beginning of the file <? Xml version = "1.0" encod
ing = "Shift_JIS"?>, <KnowledgeSystem> indicates the beginning of the file, and the end tag </ KnowledgeSystem>
Indicates the end of the file.
【0035】<RECORD>と</RECORD>で囲まれた各レ
コード内に、1つの文書ファイルの属性情報とテキスト
データが記述される。各レコード内のタグの意味は次の
通りである。Attribute information and text data of one document file is described in each record enclosed by <RECORD> and </ RECORD>. The meaning of the tag in each record is as follows.
【0036】MODE :登録モジュール12の動作モード
を指定するモード情報である。このモード情報は、各文
書ファイル毎に知識DB131に対する文書情報(テキ
ストデータおよび属性)の登録または削除を指示する。
2=登録(上書き)か、0=削除、のいずれかとなる。削除
の場合は、下記のタグのうち、TYPEとUNIQUE以外は出力
されない。MODE: Mode information for designating the operation mode of the registration module 12. This mode information instructs registration or deletion of document information (text data and attributes) in the knowledge DB 131 for each document file.
Either 2 = registration (overwrite) or 0 = delete. In case of deletion, only TYPE and UNIQUE of the following tags are output.
【0037】TYPE :収集のタイプを示す。本例では常
に“Web収集”となる。
UNIQUE :知識DB131に登録される当該文書ファイ
ルを識別するためのユニークキーである。通常は、当該
文書のURLがユニークキーとして用いられる。TYPE: Indicates the type of collection. In this example, it is always "Web collection". UNIQUE: A unique key for identifying the document file registered in the knowledge DB 131. Usually, the URL of the document is used as a unique key.
【0038】ORGDATE :文書ファイルの作成日時(ま
たは更新日時)を示す。
TITLE :文書ファイルのタイトルを示す。HTMLフ
ァイルのタイトル部から抽出されたテキストデータがタ
イトルとなる。HTMLファイル以外のファイルについ
てはタイトルは出力されない。このタイトルは、検索画
面上の文書ファイルのタイトルとして出力される。ORGDATE: Indicates the creation date (or update date) of the document file. TITLE: Indicates the title of the document file. The text data extracted from the title part of the HTML file becomes the title. No title is output for files other than HTML files. This title is output as the title of the document file on the search screen.
【0039】AUTHOR :文書ファイルを所有する情報サ
イトのホスト名(URLのホストアドレス)を記述す
る。
DATE :上記ORGDATEの日付部分を記述する。
URL :文書ファイルのURL。UNIQUEと同じ値であ
る。
BODY :文書ファイルから抽出されたテキストデータが
記述される。AUTHOR: Describe the host name (host address of URL) of the information site that owns the document file. DATE: Describe the date part of ORGDATE above. URL: URL of the document file. It has the same value as UNIQUE. BODY: The text data extracted from the document file is described.
【0040】図4は、テキスト抽出部303にてテキス
ト抽出を行わなかった文書ファイルに関する出力フォー
マットの例を示している。FIG. 4 shows an example of an output format relating to a document file in which the text extraction unit 303 has not performed text extraction.
【0041】BODYにはテキストデータは記述されず、<
BDYFILE></BDYFILE>で囲まれた領域のPATH1に、登録
ディレクトリ113上に出力される上記コンテンツファ
イル115へのパス名が記述される。DEL=1は、登録モ
ジュール12に対してコンテンツファイル115からの
テキストデータの抽出後に登録ディレクトリ113上の
元ファイルを削除することを指示するものである。We
b収集モジュール111が第2処理モードで動作する場
合には、HTMLファイルとプレーンテキストについて
はBODYにはテキストデータが記述され、他のファイル形
式の文書ファイル(コンテンツファイル)についてはBD
YFILEにそのコンテンツファイルのパス名が記述される
ことになる。No text data is described in BODY.
In PATH1 in the area enclosed by BDYFILE></BDYFILE>, the path name to the content file 115 output on the registration directory 113 is described. DEL = 1 instructs the registration module 12 to delete the original file in the registration directory 113 after extracting the text data from the content file 115. We
When the b collection module 111 operates in the second processing mode, text data is described in BODY for HTML files and plain text, and BD for document files (content files) in other file formats.
The path name of the content file will be described in YFILE.
【0042】次に、図5のフローチャートを参照して、
収集した文書ファイルに対してWeb収集モジュール1
11内で実行される一連の処理の手順について説明す
る。Next, referring to the flowchart of FIG.
Web collection module 1 for collected document files
A procedure of a series of processing executed in 11 will be described.
【0043】まず、収集した文書ファイルから知識DB
131に登録すべき属性情報(URL、AUTHOR、ORGDATE、
DATE)が取得される(ステップS101)。属性情報の
取得は、HTTPによって情報サイトから返される値
や、収集した文書ファイル内に付加されている値などを
用いることができる。この後、第2処理モードに於いて
は、収集した文書ファイルの拡張子などに基づいてその
ファイル種別が判定され、HTMLファイルまたはプレ
ーンテキストファイルであるか、あるいはそれ以外の他
のファイル形式のファイルであるかが判別される(ステ
ップS102,S103)。収集した文書ファイルがH
TMLファイルまたはプレーンテキストファイルである
場合には(ステップS103のYES)、上述のテキス
ト抽出処理(HTMLファイルの場合はテキスト抽出と
リンクURLの検出)が実行され(ステップS10
4)、そして属性情報とテキストデータを上述の形式で
登録ファイル114上に記述する処理(テキストデータ
をBODYに挿入)が行われる(ステップS105)。一
方、HTMLファイルまたはプレーンテキストファイル
以外の他のファイル形式のファイルであれば(ステップ
S103のNO)、当該ファイルが登録ディレクトリ1
13上にそのまま出力され(ステップS106)、その
後、属性情報と当該ファイルのパス名を登録ファイル1
14上に記述する処理(パス名をBDYFILEに記述)が行
われる(ステップS107)。First, from the collected document files, the knowledge DB
Attribute information to be registered in 131 (URL, AUTHOR, ORGDATE,
DATE) is acquired (step S101). The attribute information can be acquired by using the value returned from the information site by HTTP, the value added in the collected document file, or the like. After that, in the second processing mode, the file type is determined based on the extension of the collected document file, and the file is an HTML file or a plain text file, or a file of other file format. Is determined (steps S102 and S103). The collected document file is H
If the file is a TML file or a plain text file (YES in step S103), the above-mentioned text extraction processing (text extraction and link URL detection in the case of an HTML file) is executed (step S10).
4) Then, the attribute information and the text data are described in the above-mentioned format on the registration file 114 (the text data is inserted into BODY) (step S105). On the other hand, if the file has a file format other than the HTML file or the plain text file (NO in step S103), the file is the registration directory 1
13 is output as it is (step S106), and then the attribute information and the path name of the file are registered file 1
The process described in 14 (the path name is described in BDYFILE) is performed (step S107).
【0044】尚、、目的のURLの文書ファイルがイン
ターネット/イントラネット30上から取得できなかっ
た場合には、当該文書ファイルの内容が既に知識DB1
31に登録されていることを条件に、モード情報(MOD
E)=0(削除)が登録ファイル114上に記述される。If the document file of the target URL cannot be acquired from the Internet / Intranet 30, the content of the document file is already in the knowledge DB1.
Mode information (MOD
E) = 0 (delete) is described on the registration file 114.
【0045】また、第1処理モードに於いては、ステッ
プS102,S103の処理は行われず、全ての取得フ
ァイルを対象にステップS104,S105の処理が実
行される。Further, in the first processing mode, the processes of steps S102 and S103 are not performed, and the processes of steps S104 and S105 are executed for all the acquired files.
【0046】次に、図6のフローチャートを参照して、
登録モジュール12によって実行される登録処理の手順
を説明する。Next, referring to the flowchart of FIG.
The procedure of the registration process executed by the registration module 12 will be described.
【0047】Web収集モジュール111から登録要求
を受けた登録モジュール12は、Web収集モジュール
111からの登録要求ファイルで指定された登録ファイ
ル(XMLファイル)から1つずつレコードを取り出し
ながら、レコード毎に以下の処理を行う。まず、処理対
象レコード内のモード情報がMODE=0であるかMODE=2
であるかが調べられる(ステップS111,S11
2)。The registration module 12, which has received the registration request from the Web collection module 111, retrieves the records one by one from the registration file (XML file) specified by the registration request file from the Web collection module 111, and Process. First, is the mode information in the processing target record MODE = 0 or MODE = 2
Is checked (steps S111 and S11).
2).
【0048】MODE=2の場合は、登録モジュール12
は、レコード内の各タグに従って、そのタグ内に記述さ
れたデータ項目(TYPE、UNIQUE、ORGDATE、TITLE、AUTH
OR、DATE、URL、BODYそれぞれの内容)を、登録要求フ
ァイルで指定された知識DB131内の登録先知識デー
タベースに登録する(ステップS113)。BODYのタグ
内にテキストデータが存在しない場合には、そのテキス
トデータの登録は行われない。次いで、BDYFILEのタグ
内にパス名が記述されているかどうかが判定される(ス
テップS114)。パス名が記述されている場合には
(ステップS114のYES)、そのパス名で指定され
る記憶領域から該当するコンテンツファイルが取得され
(ステップS115)、そのコンテンツファイルからテ
キストデータを抽出する処理が行われる(ステップS1
16)。そして、その抽出された内容が該当する文書フ
ァイルのテキストデータとして登録先知識データベース
に登録される(ステップS117)。When MODE = 2, the registration module 12
Is the data item (TYPE, UNIQUE, ORGDATE, TITLE, AUTH) described in each tag according to each tag in the record.
The contents of OR, DATE, URL, and BODY) are registered in the registration destination knowledge database in the knowledge DB 131 specified by the registration request file (step S113). If the text data does not exist in the BODY tag, the text data will not be registered. Then, it is judged whether or not the path name is described in the tag of BDYFILE (step S114). If the path name is described (YES in step S114), the corresponding content file is acquired from the storage area specified by the path name (step S115), and the process of extracting text data from the content file is executed. Performed (step S1
16). Then, the extracted contents are registered in the registration destination knowledge database as text data of the corresponding document file (step S117).
【0049】MODE=0の場合は、レコード内のUNIQUEで
指定される登録済みの文書ファイルの属性情報とテキス
トデータが知識DB131からサーチされ、その登録内
容が登録先知識データベースから削除される(ステップ
S118)。When MODE = 0, the attribute information and text data of the registered document file designated by UNIQUE in the record are searched from the knowledge DB 131, and the registered content is deleted from the registration destination knowledge database (step S118).
【0050】図7には、インターネット/イントラネッ
ト30上における文書ファイル(Webコンテンツ)の
状態と知識DB131に対して行うべき登録/削除処理
との関係が示されている。本実施形態に於いては、でき
る限りインターネット/イントラネット30上における
最新のWebコンテンツの状態を知識DB131に反映
させるというポリシーに基づき、以下の処理が行われ
る。FIG. 7 shows the relationship between the state of the document file (Web content) on the Internet / Intranet 30 and the registration / deletion process to be performed on the knowledge DB 131. In the present embodiment, the following processing is performed based on the policy of reflecting the state of the latest Web content on the Internet / Intranet 30 in the knowledge DB 131 as much as possible.
【0051】(1)更新されたWebコンテンツは、知
識DB131に上書きする(MODE=2)。更新されたW
ebコンテンツの属性情報およびテキストデータを登録
する場合、そのUNIQUEは、知識DB131に既に登録さ
れている更新前のWebコンテンツのUNIQUEと同一であ
る。よって、MODE=2により、知識DB131に既に登
録されている更新前のWebコンテンツの属性情報およ
びテキストデータが、更新されたWebコンテンツの属
性情報およびテキストデータに更新(上書き)される。(1) The updated Web content is overwritten on the knowledge DB 131 (MODE = 2). Updated W
When registering the attribute information and text data of the eb content, the UNIQUE is the same as the UNIQUE of the pre-update Web content already registered in the knowledge DB 131. Therefore, MODE = 2 updates (overwrites) the attribute information and text data of the pre-update Web content already registered in the knowledge DB 131 with the updated Web content attribute information and text data.
【0052】(2)追加されたWebコンテンツは、知
識DB131に追加登録する(MODE=2)。追加された
Webコンテンツの属性情報およびテキストデータを登
録する場合、そのUNIQUEは、知識DB131に未登録で
ある。よって、MODE=2により、追加されたWebコン
テンツの属性情報およびテキストデータを知識DB13
1に追加登録することができる。(2) The added Web contents are additionally registered in the knowledge DB 131 (MODE = 2). When registering the attribute information and text data of the added Web content, the UNIQUE is not registered in the knowledge DB 131. Therefore, by setting MODE = 2, the attribute information and text data of the added Web contents are stored in the knowledge DB 13.
1 can be additionally registered.
【0053】(3)削除されたWebコンテンツは、知
識DB131からも削除する(MODE=0)。(3) The deleted Web contents are also deleted from the knowledge DB 131 (MODE = 0).
【0054】次に、管理インターフェース112によっ
て提供される機能を具体的に説明する。管理インターフ
ェース112は上述のようにWeb収集タスクの設定・
管理・実行を行うためのユーザインタフェースであり、
1)Web収集タスクの設定を複数個作成して設定ファ
イル204に保存する機能、2)収集の設定の、一覧、
削除、などの管理作業を行う機能、3)収集の起動と終
了(中断と再開)を行う機能、4)収集の状況や実績を
リアルタイムに確認する機能、を管理者ユーザに提供す
る。Next, the functions provided by the management interface 112 will be specifically described. As described above, the management interface 112 sets the Web collection task settings /
It is a user interface for managing and executing,
1) A function of creating a plurality of settings of a web collection task and saving them in the setting file 204. 2) A list of collection settings,
The administrator user is provided with a function of performing management work such as deletion, 3) a function of starting and ending (suspending and resuming) collection, and 4) a function of confirming the status and achievement of collection in real time.
【0055】管理インターフェース112によって管理
者ユーザのWebブラウザ21に表示される画面は、図
8に示すように、「一覧画面」、「設定画面」、「状況
画面」の3つの画面より構成され、管理インターフェー
ス112を起動すると、一覧画面が最初に表示される。
3つの画面は各画面上で管理者ユーザによって行われる
操作に応じて遷移する。一覧画面には、現在作成されて
いる設定の一覧と各設定の最新の収集結果が表示され
る。この一覧画面上で、例えば、作成済みの設定を選択
してその選択して設定に関する設定画面または状況画面
に遷移した場合には、設定画面上では当該設定内容の追
加/削除等を行うことが出来、また状況画面上では当該
設定に関する起動と終了(中断と再開)の指定などを行
うことができる。また、一覧画面上で、設定の新規作成
を選択すると設定画面に遷移し、その設定画面上で設定
の新規作成のための処理を行うことができる。以下、一
覧画面、設定画面、状況画面それぞれについて具体的に
説明する。The screen displayed on the Web browser 21 of the administrator user by the management interface 112 is composed of three screens of "list screen", "setting screen" and "status screen" as shown in FIG. When the management interface 112 is activated, the list screen is first displayed.
The three screens transit according to the operation performed by the administrator user on each screen. The list screen displays a list of currently created settings and the latest collection result of each setting. On this list screen, for example, when a created setting is selected and the selected setting transitions to the setting screen or status screen related to the setting, addition / deletion of the setting content can be performed on the setting screen. It is possible to perform, and on the status screen, it is possible to specify activation and termination (suspension and resumption) of the setting. If a new setting is selected on the list screen, the setting screen is displayed, and a process for creating a new setting can be performed on the setting screen. The list screen, the setting screen, and the status screen will be specifically described below.
【0056】図9には、一覧画面の例が示されている。
この一覧画面上には、図示のように、「一覧」アンカ5
01、「設定アンカ」502、「状況」アンカ503が
表示される。これら「一覧」アンカ501、「設定アン
カ」502、「状況」アンカ503は、それぞれ一覧画
面、設定画面、状況画面それぞれに対するリンクであ
る。一覧画面上で「一覧」アンカ501がクリックされ
ると、一覧画面の表示内容が最新状態に更新される。さ
らに、一覧画面上には、「新規設定」フィールド50
4、「作成」ボタン505、および状態一覧表示部50
6が設けられている。新規作成すべきWeb収集タスク
の設定名を「新規設定」フィールド504に入力して、
「作成」ボタン505をクリックすると、設定画面に遷
移してその設定名に関する設定情報を新規作成すること
ができる。FIG. 9 shows an example of the list screen.
On this list screen, as shown in the figure, "List" anchor 5
01, “Setting anchor” 502, and “Status” anchor 503 are displayed. These “list” anchor 501, “setting anchor” 502, and “status” anchor 503 are links to the list screen, setting screen, and status screen, respectively. When the “list” anchor 501 is clicked on the list screen, the display content of the list screen is updated to the latest state. Further, on the list screen, the "new setting" field 50
4, "Create" button 505, and status list display section 50
6 is provided. Enter the setting name of the Web collection task to be newly created in the "New setting" field 504,
When the "Create" button 505 is clicked, the screen changes to the setting screen and new setting information regarding the setting name can be created.
【0057】状態一覧表示部506には、上述の結果フ
ァイル204に保持されている内容等に基づき、既に作
成・登録済みのWeb収集タスクそれぞれについての収
集状況が一覧表示される。Web収集タスク毎に以下の
項目が表示される。The status list display unit 506 displays a list of collection statuses for each of the Web collection tasks that have already been created and registered, based on the contents held in the result file 204 described above. The following items are displayed for each Web collection task.
【0058】「設定名」:登録してある設定の名称
「知識データベース名」:収集したデータを登録するデ
ータベース名
「状態」:設定の現在の状態(未収集/収集中/終了/中
断/異常終了のいずれか)
「開始」:最後に起動した日時
「終了」:最後に終了した日時
「ファイル」:前回のタスク実行で収集したファイル数
(今回)と、これまでに実行した中で収集されたファイル
の総数の最大値(全体)
このように、本実施形態に於いては、複数のWeb収集
タスクを設定することが出来、しかもそれら複数のWe
b収集タスクそれぞれの収集状況を一覧画面上で確認す
ることができる。"Setting name": Name of registered setting "Knowledge database name": Name of database to register collected data "Status": Current status of setting (uncollected / collecting / finished / interrupted / abnormal) Either end) "Start": Date and time of last start "End": Date and time of last end "File": Number of files collected by the previous task execution
(This time) and the maximum value of the total number of files collected so far (whole) As described above, in this embodiment, a plurality of Web collection tasks can be set and Multiple We
b The collection status of each collection task can be confirmed on the list screen.
【0059】次に、図10を参照して、設定画面の例に
ついて説明する。設定画面上には、図示のように、上述
の「一覧」アンカ501、「設定アンカ」502、「状
況」アンカ503の他、「設定名」フィールド601、
「知識データベース名」フィールド602、「プロキシ
サーバ」設定フォーム603、「収集ファイル形式」設
定フォーム604、「取得要求」設定フォーム605、
「認証情報」設定フォーム606、および収集サイト設
定画面を構成する「収集サイト」設定フォーム607等
が設けられており、これらを用いて以下の設定編集操作
を行うことができる。Next, an example of the setting screen will be described with reference to FIG. On the setting screen, as shown in the figure, in addition to the “list” anchor 501, the “setting anchor” 502, the “status” anchor 503, a “setting name” field 601,
“Knowledge database name” field 602, “proxy server” setting form 603, “collection file format” setting form 604, “acquisition request” setting form 605,
An “authentication information” setting form 606 and a “collection site” setting form 607 that constitutes a collection site setting screen are provided, and the following setting editing operations can be performed using these.
【0060】(1)設定名: 「設定名」フィールド6
01には一覧画面にて新規設定の作成または既存の設定
の選択により指定された設定名が表示される。
(2)DB選択: 「知識データベース名」フィールド
602に知識データベース名を入力することにより、収
集したデータを登録する登録先知識データベースを選択
する。(1) Setting name: "Setting name" field 6
In 01, the setting name designated by creating a new setting or selecting an existing setting on the list screen is displayed. (2) DB selection: By inputting the knowledge database name in the “knowledge database name” field 602, the registration destination knowledge database for registering the collected data is selected.
【0061】(3)プロキシ: 「プロキシサーバ」設
定フォーム603を用いて、収集に使用するプロキシサ
ーバの設定を行う。
(4)収集するファイル形式: 「収集ファイル形式」
設定フォーム604上で収集対象のファイル形式を選択
する。本実施形態では、HTMLおよびTEXTファイ
ルは、デフォルトで選択されており(HTMLおよびT
EXTファイルの指定を解除できない)、この他、例え
ば、Portable Document Forma
t形式のファイル、ワードプロッセッサソフトウェアで
作成した文書ファイル、表計算ソフトウェアで作成した
ファイル、プレゼンテーションデータの作成ソフトウェ
アで作成したプレゼンテーションデータのファイルのフ
ァイルなど、各種汎用ファイル形式の添付ファイルを収
集対象として選択することができる。本実施形態では収
集可能な文書ファイルのファイル形式を6種とした例を
示し、それぞれチェックボックスにより、任意に指定す
ることができる。例えば6種のファイル形式(HTM
L,PDF,PPT,DOC,XLOS,JBW)のす
べてをチェックボックスで指定することにより、その指
定されたすべてのファイル形式の文書ファイルを収集対
象とすることができる。また、不要となったファイル形
式の文書ファイルについて、チェックボックスで指定を
解除することにより、そのファイル形式の文書ファイル
が、知識DB131から削除される。(3) Proxy: The proxy server used for collection is set using the "proxy server" setting form 603. (4) File format to collect: “Collecting file format”
A file format to be collected is selected on the setting form 604. In this embodiment, the HTML and TEXT files are selected by default (HTML and T
(You cannot cancel the specification of the EXT file.) In addition to this, for example, Portable Document Format
Attachment files of various general-purpose file formats, such as t format files, document files created with word processor software, files created with spreadsheet software, presentation data files created with presentation data creation software, etc. You can choose. In the present embodiment, an example in which the file formats of the collectable document files are set to 6 types is shown, and each can be arbitrarily designated by a check box. For example, 6 file formats (HTM
By specifying all (L, PDF, PPT, DOC, XLOS, JBW) with check boxes, it is possible to collect document files of all the specified file formats. Further, by deselecting the check box for the unnecessary document file in the file format, the document file in the file format is deleted from the knowledge DB 131.
【0062】(5)取得要求: 「取得要求」設定フォ
ーム605上でURL取得時のタイムアウト時間、リト
ライ回数を指定する。
(6)認証情報: 「認証情報」設定フォーム606上
で、ユーザ認証が必要なURLをアクセスするときに必
要な認証情報を設定する。(5) Acquisition request: The timeout time and the number of retries for URL acquisition are specified on the "acquisition request" setting form 605. (6) Authentication Information: On the “authentication information” setting form 606, the authentication information required when accessing a URL that requires user authentication is set.
【0063】(7)収集サイト: 「収集サイト」設定
フォーム607上では以下の項目の設定を行う。(7) Collection site: The following items are set on the "collection site" setting form 607.
【0064】・起点URLの設定 : 収集の起点とな
るURLを指定する。本実施形態では、起点URLの設
定フィールド上で、半角、特殊文字を除いた最大100
0文字まで入力可能としている。Setting of starting URL: The URL which is the starting point of collection is specified. In this embodiment, a maximum of 100 excluding half-width characters and special characters is set on the setting field of the origin URL.
You can enter up to 0 characters.
【0065】・リンク段数の上限設定: 収集する起点
URLからの最大リンク段数を指定する。
・ファイル数の上限設定: 収集する最大ファイル数を
指定する。
・収集範囲: 「ドメイン内のみ収集する」を指定する
と、起点URLのドメイン内のみ収集を行う。デフォル
トは指定無しである。この「ドメイン内のみ収集する」
をチェックボックスで指定すると、上記起点URLの設
定フィールドに設定された起点URLについて、そのド
メイン内のみを対象に、インターネット/イントラネッ
ト30上の該当する情報サイトから文書情報を収集す
る。Setting the upper limit of the number of link stages: Designate the maximum number of link stages from the collection origin URL. -Upper limit setting of the number of files: Specify the maximum number of files to be collected. -Collecting range: If "Collect only in domain" is specified, only the domain of the origin URL is collected. The default is no specification. This "collect only within the domain"
Is specified in the check box, the document information is collected from the corresponding information site on the Internet / Intranet 30 for the origin URL set in the origin URL setting field only within the domain.
【0066】・収集するURLのパターン: 収集対象
とすべきURLの文字列のパターンを指定する。収集し
ようとするURLの中で、指定された文字列のパターン
を含んだURLのファイルのみが収集される。本実施形
態では、この収集するURLのパターンを設定する設定
フィールドに、1行に1パターンずつ、最大1000バ
イトの設定を可能としている。URL pattern to be collected: Designate the character string pattern of the URL to be collected. Of the URLs to be collected, only the files of URLs that include the specified character string pattern are collected. In the present embodiment, it is possible to set a maximum of 1000 bytes, one pattern per line, in the setting field for setting the pattern of the collected URL.
【0067】・ 収集しないURLのパターン: 収
集対象から除外すべきURLの文字列のパターンを指定
する。収集しようとするURLの中で、指定された文字
列のパターンを含んだURLのファイルは収集されな
い。本実施形態では、この収集しないURLのパターン
を設定する設定フィールドに、1行に1パターンずつ、
最大1000バイトの設定を可能としている。URL pattern not to be collected: Specifies the pattern of the URL character string that should be excluded from the collection target. Among the URLs to be collected, the URL file including the specified character string pattern is not collected. In the present embodiment, one pattern per line is set in the setting field for setting the pattern of URLs that are not collected.
A maximum of 1000 bytes can be set.
【0068】尚、収集するパターンと、収集しないパタ
ーンの両方に適合するURLが存在した場合は、収集し
ないパターンが優先する。即ち、収集するパターンと、
収集しないパターンの両方に適合するURLが存在した
場合は、そのURLのファイルは収集されない。If there is a URL that matches both the collected pattern and the uncollected pattern, the uncollected pattern takes precedence. That is, the pattern to collect,
If there is a URL that matches both of the patterns that are not collected, the file of that URL is not collected.
【0069】・再収集の設定: 設定対象の収集タスク
が同じ起点URLからの再収集を行った時の振る舞いを
指定する。再収集には3つのモード(「全てのファイル
を新たに収集」、「未収集のファイルのみ収集」、「更
新されたファイルのみ収集(削除機能あり)」)があり、
任意の一つのモードを指定することができる。ここで、
「全てのファイルを新たに収集」モードとは、収集対象
のURLを全て再収集するモードを意味する。即ち、過
去に取得したどうかにかかわらず、起点URLから新た
に収集しなおす。また、「未収集のファイルのみ収集」
モードは、以前収集したURLは収集しないモードであ
る。「更新されたファイルのみ収集(削除機能あり)」モ
ードは、以前の収集時点から更新された文書ファイルの
み収集するモードである。更新の有無のチェック対象と
なる文書は、以前の収集に於いて、現在よりも指定日数
以上前に収集したURLである。「更新チェック頻度」
フィールドに入力された値が指定日数となる。指定日数
のデフォルトは「1日」である。以前の収集に於いて、
現在よりも指定日数以上前に収集したURLがインター
ネット/イントラネット30上の該当する情報サイトか
ら削除されており、当該URLから文書ファイルを取得
できなかった場合には、その文書ファイルに対応する登
録情報は知識DB131から削除される。Recollection settings: Specify the behavior when the collection task to be set recollects from the same origin URL. There are three modes for recollection ("collect all files newly", "collect only uncollected files", "collect only updated files (with delete function)",
Any one mode can be specified. here,
The "collect all files newly" mode means a mode in which all the collection target URLs are collected again. That is, regardless of whether it has been acquired in the past, it is newly collected from the origin URL. Also, "collect only uncollected files"
The mode is a mode in which previously collected URLs are not collected. The "collect only updated files (with deletion function)" mode is a mode in which only the document files that have been updated from the previous collection point are collected. The document whose update is to be checked is the URL collected in the previous collection more than the specified number of days before the current collection. "Update check frequency"
The value entered in the field becomes the specified number of days. The default number of designated days is "1 day". In the previous collection,
If the URL collected more than the specified number of days before the present is deleted from the corresponding information site on the Internet / Intranet 30 and the document file cannot be acquired from the URL, the registration information corresponding to the document file Is deleted from the knowledge DB 131.
【0070】図11には、状況画面の例が示されてい
る。例えば、一覧画面または設定画面上で「状況」アン
カ503を選択することで、現在表示しているタスクの
状況画面に遷移する。この状況画面上には、当該タスク
の「設定名」、「知識データベース名」、「状態」等が
表示される。「設定名」の横には、収集開始/中止(再
開/中断)を指示するためのボタン701が表示されて
いる。「状態」には、タスクの状態(収集中/終了/未
収集/中断/異常終了)が表示され、さらに、当該タス
クの起点URL、収集したリンク段数(今回/最大/上
限)、およびファイル数(今回/全体/上限)等の状況情報
702も表示される。FIG. 11 shows an example of the status screen. For example, selecting the “status” anchor 503 on the list screen or the setting screen causes a transition to the status screen of the currently displayed task. The "setting name", "knowledge database name", "state", etc. of the task are displayed on this status screen. Next to the “setting name”, a button 701 for instructing start / stop (restart / interrupt) of collection is displayed. In "Status", the status of the task (collecting / finished / not collected / suspended / abnormally terminated) is displayed, and further, the starting URL of the task, the number of link stages collected (current / maximum / upper limit), and the number of files The status information 702 such as (current / total / upper limit) is also displayed.
【0071】当該タスクの状態が未収集、終了、または
中断の場合には、図11に示すように、ボタン701に
は「収集開始」と表示される。「収集開始」ボタン70
1を選択すると、当該タスクの実行がWeb収集モジュ
ール111によって開始される。現在の状態が終了また
は中断の場合には、再収集が開始されることになる。ま
た、当該タスクの現在の状態が収集中である場合には、
図12に示すように、ボタン701には「収集中断」と
表示される。「収集中断」ボタン701を選択すると、
稼働中の収集タスクは中断される。中断される以前まで
に収集されたURLのリストは結果ファイル204内に
保持される。When the status of the task is not collected, finished, or suspended, the button 701 displays "collection started", as shown in FIG. "Start collection" button 70
When 1 is selected, the execution of the task is started by the web collection module 111. If the current state is ended or suspended, recollection will be started. If the current status of the task is being collected,
As shown in FIG. 12, the button 701 displays “collection interruption”. If you select the “Collect collection” button 701,
Collection tasks that are running are suspended. The list of URLs collected before the interruption is held in the results file 204.
【0072】次に、図13乃至図15を参照して、状況
画面上のボタン操作による収集処理の中断および再開
(再収集)動作について具体的に説明する。Next, with reference to FIG. 13 to FIG. 15, the interruption and resumption (recollection) operation of the collection process by the button operation on the status screen will be specifically described.
【0073】この中断・再開機能は、実行中のWeb収
集処理を一旦停止して、後日再開する様な場合に利用さ
れる機能である。Web収集モジュール111によるW
eb収集処理は、インターネット/イントラネット30
からの文書ファイルの取得を行う度にそのURLや成否
を示すステータスコード等を進捗状況情報として結果フ
ァイル204に書き込みながら実行される。取得した文
書ファイルにリンク先のURLがあればそのURLが結
果ファイル204に追加され、結果ファイル204に未
収集のURLが無くなるまで、処理が繰り返される。こ
の収集処理の途中で「収集中断」ボタン701が押され
ると、実行中のWeb収集タスクはその時点で中断され
る。そして、後に、その中断されたWeb収集タスクを
選択した状態で「収集開始」ボタン701が押される
と、中断されていたWeb収集タスクが再開されて再収
集が開始される。例えば、再収集モードとして「未収集
のファイルのみ収集」モードが選択されていた場合に
は、結果ファイル204に保持されている未収集のUR
Lから収集処理が再開されることになる。The suspend / resume function is a function used when the Web collection processing in progress is temporarily stopped and restarted at a later date. W by Web collection module 111
The eb collection process is performed by the internet / intranet 30
Each time a document file is acquired from the URL, the URL, a status code indicating success or failure, and the like are written in the result file 204 as the progress status information. If the acquired document file has a URL of the link destination, the URL is added to the result file 204, and the process is repeated until there is no uncollected URL in the result file 204. If the "collection suspension" button 701 is pressed during this collection processing, the Web collection task in execution is suspended at that point. Then, later, when the "collection start" button 701 is pressed with the interrupted Web collection task selected, the interrupted Web collection task is restarted and recollection is started. For example, when the “collect only uncollected files” mode is selected as the recollection mode, the uncollected URs held in the result file 204 are collected.
The collection process will be restarted from L.
【0074】図14には、結果ファイル204に進捗状
況情報として保持されるURLリストの例が示されてい
る。結果ファイル204には、図示のように、取得対象
のURL毎にその「URL」に加え、「収集日」、「収
集日時」、「ステータスコード」、「起点URL」、お
よび「リンク段数」が記録される。「リンク段数」は、
起点URLから見た場合の取得対象URLのリンクの段
数を示す。未収集のURLについては「収集日」、「収
集日時」、「ステータスコード」の情報は空欄となる。
これにより、Web収集処理を途中で中断した場合にお
ける再開ポイントを検出することができる。「ステータ
スコード」は収集処理の成否を示すものであり、これ
は、Webページ取得先の相手先Webサーバから返さ
れるHTTPステータスコードである。このHTTPス
テータスコードの種類には、ファイル取得が成功したこ
と(正常終了)を示す「200」、アクセス権限による
エラーを示す「403」、該当ファイルが見つからない
(削除された文書ファイルの取得要求に対するレスポン
ス)場合のエラーを示す「404」、タイムアウトエラ
ー「408」等が含まれる。FIG. 14 shows an example of a URL list held as progress status information in the result file 204. As shown in the figure, in the result file 204, in addition to the “URL” of each URL to be acquired, “collection date”, “collection date and time”, “status code”, “starting URL”, and “number of link stages” are included. Will be recorded. "Number of links" is
Indicates the number of links in the acquisition target URL when viewed from the starting URL. For the uncollected URLs, the information of “collection date”, “collection date and time”, and “status code” is blank.
This makes it possible to detect the restart point when the Web collection process is interrupted midway. The "status code" indicates the success or failure of the collection process, which is an HTTP status code returned from the partner web server from which the web page is acquired. The type of this HTTP status code is "200" indicating that the file acquisition was successful (normal end), "403" indicating an error due to the access authority, and the corresponding file cannot be found (for the request to acquire the deleted document file). “Response”) includes an error “404”, a timeout error “408”, and the like.
【0075】図15のフローチャートには、Web収集
が開始されてから中断されるまでの一連の処理手順が示
されている。The flowchart of FIG. 15 shows a series of processing procedures from the start of Web collection to the interruption thereof.
【0076】Web収集モジュール111は、最初に、
起点URLで指定される文書ファイルの取得を行い(ス
テップS121)、その結果(収集日、収集日時、ステ
ータスコード、起点URL、リンク段数、URL(起点
URLと同じ)を結果ファイル204に登録して進捗状
況情報の更新を行う(ステップS122)。取得が成功
した場合には、収集した文書ファイルから知識DB13
1に登録すべき属性情報が取得され(ステップS12
2)、次いでテキスト抽出処理(HTMLファイルの場
合はテキスト抽出とリンク先URLの検出)が実行され
る(ステップS124)。リンク先URLが検出された
場合には、そのURLと、上述の起点URLおよびリン
ク段数が結果ファイル204のURLリストに追加登録
される(ステップS125)。この後、属性情報とテキ
ストデータを登録ファイル上に記述する処理が行われる
(ステップS126)。ここで、中断指示の有無が判定
される(ステップS127)。中断指示が無い場合には
(ステップS127のNO)、結果ファイル204に未
収集のURLが登録されているかどうかによってWeb
収集処理が完了したかどうかが判断される(ステップS
128)。The Web collection module 111 first
The document file specified by the origin URL is acquired (step S121), and the result (collection date, collection date and time, status code, origin URL, link stage number, URL (same as origin URL) is registered in the result file 204. The progress status information is updated (step S122) If the acquisition is successful, the knowledge DB 13 is acquired from the collected document files.
The attribute information to be registered in 1 is acquired (step S12
2) Next, text extraction processing (text extraction and detection of link destination URL in the case of HTML file) is executed (step S124). When the link destination URL is detected, the URL, the starting point URL, and the link stage number described above are additionally registered in the URL list of the result file 204 (step S125). After that, a process of describing the attribute information and the text data on the registration file is performed (step S126). Here, it is determined whether or not there is an interruption instruction (step S127). If there is no interruption instruction (NO in step S127), it is determined whether or not the uncollected URL is registered in the result file 204.
It is determined whether the collection process is completed (step S
128).
【0077】結果ファイル204に未収集のURLが登
録されている場合には(ステップS128のNO)、上
述のステップS121からの処理が繰り返される。すな
わち、結果ファイル204に追加されたURLで指定さ
れる文書ファイルの取得を行い(ステップS121)、
その結果(収集日、収集日時、ステータスコード)を結
果ファイル204に登録して進捗状況情報の更新を行う
(ステップS122)。取得が成功した場合には、収集
した文書ファイルから知識DB131に登録すべき属性
情報が取得され(ステップS122)、次いでテキスト
抽出処理(HTMLファイルの場合はテキスト抽出とリ
ンク先URLの検出)が実行される(ステップS12
4)。リンク先URLが検出された場合には、そのUR
Lと、起点URLおよびリンク段数が結果ファイル20
4のURLリストに追加登録される(ステップS12
5)。この後、属性情報とテキストデータを登録ファイ
ル114上に記述する処理が行われる(ステップS12
6)。このようなWeb収集処理が、設定ファイル20
3に設定されたWeb収集条件の収集範囲に於いて収集
完了となるまで再帰的に実行される。このWeb収集時
に於いて、「収集中断」ボタン701が押されると、制
御ファイル202を通じて管理インターフェース112
からWeb収集モジュール111に中断指示が発行され
され(ステップS127のYES)、Web収集モジュ
ール111によって実行中のWeb収集タスクが中断さ
れる。If uncollected URLs are registered in the result file 204 (NO in step S128), the processes from step S121 described above are repeated. That is, the document file specified by the URL added to the result file 204 is acquired (step S121),
The result (collection date, collection date and time, status code) is registered in the result file 204 to update the progress status information (step S122). If the acquisition is successful, the attribute information to be registered in the knowledge DB 131 is acquired from the collected document file (step S122), and then the text extraction process (text extraction and detection of link destination URL in the case of HTML file) is executed. (Step S12
4). If the linked URL is detected, its UR
L, the starting URL and the number of links are the result file 20
4 is additionally registered in the URL list (step S12).
5). After that, a process of writing the attribute information and the text data on the registration file 114 is performed (step S12).
6). Such Web collection processing is performed by the setting file 20.
It is recursively executed until the collection is completed within the collection range of the Web collection condition set to 3. When the "collection suspension" button 701 is pressed during this Web collection, the management interface 112 is accessed through the control file 202.
Issues an interruption instruction to the Web collection module 111 (YES in step S127), and the Web collection task being executed by the Web collection module 111 is interrupted.
【0078】ここで、収集範囲として、図10に示す設
定画面の「収集ファイル形式」設定フォーム604上で
設定された収集対象のファイル形式に従い、Web収集
モジュール111で実行されるWeb収集処理につい
て、図16に示すフローチャートを参照して説明する。Here, as the collection range, according to the file format of the collection target set on the “collection file format” setting form 604 of the setting screen shown in FIG. 10, regarding the Web collection processing executed by the Web collection module 111, This will be described with reference to the flowchart shown in FIG.
【0079】図9に示される一覧画面上で「設定アン
カ」502をクリックすると、図8の画面遷移図に示す
ように、図9に示される一覧画面から図10に示される
設定画面に遷移し、当該設定画面上で、「収集ファイル
形式」設定フォーム604、「収集サイト」設定フォー
ム607等の設定を行うことにより、その各設定フォー
ムの設定内容を含んだ設定ファイル203が作成される
(ステップS241,242)。When "Setting anchor" 502 is clicked on the list screen shown in FIG. 9, the list screen shown in FIG. 9 is changed to the setting screen shown in FIG. 10 as shown in the screen transition diagram of FIG. By setting the “collection file format” setting form 604, the “collection site” setting form 607, etc. on the setting screen, the setting file 203 including the setting contents of each setting form is created (step S241, 242).
【0080】本実施形態では、上記「収集ファイル形
式」設定フォーム604に於いて、収集したい文書情報
(文書ファイル)のファイル形式を設定する。ここで
は、収集可能な6種の文書ファイル形式(HTML,P
DF,PPT,DOC,XLOS,JBW)の中から、
デフォルトで設定されたHTMLおよびTEXTファイ
ル以外に収集したい文書ファイル形式がある際に、その
収集したい文書ファイル形式をチェックボックスで指定
することにより、その指定されたすべてのファイル形式
の文書ファイルを収集対象とすることができる。In the present embodiment, the "collected file format" setting form 604 sets the file format of the document information (document file) to be collected. Here, 6 types of document file formats that can be collected (HTML, P
DF, PPT, DOC, XLOS, JBW)
When there is a document file format you want to collect other than the HTML and TEXT files set by default, by specifying the document file format you want to collect with the check box, you can collect the document files of all the specified file formats. Can be
【0081】更に、上記設定画面上の「収集サイト」設
定フォーム607に於いて、起点URLの設定フィール
ドに、収集するサイトの起点URLを設定する。この
際、起点URLの設定と同時に、収集するURLパター
ンの設定、収集しないURLパターンの設定、ドメイン
内のみ収集の設定、収集対象とすべき文書ファイル数の
上限値設定、リンク段数の上限値設定等の各種収集範囲
の設定が可能であり、これらの設定を上記文書ファイル
形式の設定と組み合わせることによって、収集する文書
ファイル形式に加え、収集するURLパターン、収集し
ないURLパターン、ドメイン内のみ収集、文書ファイ
ル数の上限、リンク段数の上限等の各絞り込み(フィル
タリング)機能が可能となるが、本実施形態では、収集
するファイル形式の設定以外の収集範囲の設定について
は特に言及しない。Further, in the "collection site" setting form 607 on the above setting screen, the starting point URL of the site to be collected is set in the starting point URL setting field. At this time, at the same time as the setting of the starting URL, the setting of the collected URL pattern, the setting of the non-collected URL pattern, the setting of the collection only within the domain, the upper limit setting of the number of document files to be collected, the upper limit setting of the link stage It is possible to set various collection ranges such as, etc., and by combining these settings with the setting of the above document file format, in addition to the document file format to be collected, URL patterns to be collected, URL patterns not to be collected, only patterns within the domain, Each narrowing (filtering) function such as the upper limit of the number of document files and the upper limit of the number of link stages is possible, but in the present embodiment, the setting of the collection range other than the setting of the file format to be collected is not particularly mentioned.
【0082】図10に示される設定画面上で、上記した
ように「収集ファイル形式」設定フォーム604、およ
び「収集サイト」設定フォーム607の設定を行った
後、当該設定画面上で「状況アンカ」503をクリック
すると、図8の画面遷移図に示すように、図10に示さ
れる設定画面から図11に示される状況画面に遷移し
(ステップS243)、当該状況画面上で、「収集開
始」ボタン701を選択すると、図15に示したWeb
収集の処理が開始され、当該Web収集処理に於いて、
上記「収集ファイル形式」設定フォーム604の設定内
容に従う収集範囲の絞り込みによるWeb収集が可能と
なる。After setting the "collection file format" setting form 604 and the "collection site" setting form 607 as described above on the setting screen shown in FIG. 10, "status anchor" is displayed on the setting screen. When 503 is clicked, as shown in the screen transition diagram of FIG. 8, the setting screen shown in FIG. 10 transits to the status screen shown in FIG. 11 (step S243), and the “collection start” button is pressed on the status screen. If 701 is selected, the web shown in FIG.
The collection process is started, and in the Web collection process,
Web collection can be performed by narrowing the collection range according to the setting contents of the “collection file format” setting form 604.
【0083】この収集範囲の絞り込みとして、本実施形
態では「収集ファイル形式」設定フォーム604に設定
されたファイル形式に従い、収集する文書情報(文書フ
ァイル)を選り分けて収集処理を行う。In order to narrow down the collection range, in this embodiment, according to the file format set in the "collected file format" setting form 604, the document information (document file) to be collected is selected and the collection processing is performed.
【0084】この収集処理では、設定ファイル203を
参照して、まず起点URLを読み込み(ステップS24
4〜S246)、URLで指定するサイト、即ちWeb
サーバ31をアクセスして、ファイル要求を行う。この
要求に応じてWebサーバ31からは収集対象ファイル
のコンテンツタイプを返す。In this collection processing, the starting point URL is read by referring to the setting file 203 (step S24).
4 to S246), the site specified by the URL, that is, the Web
The server 31 is accessed to make a file request. In response to this request, the web server 31 returns the content type of the collection target file.
【0085】Web収集モジュール111は上記URL
で指定した各Webサーバ31からコンテンツタイプを
取得すると、そのコンテンツタイプの内容をチェックし
て(ステップS247)、収集しようとする文書ファイ
ルが、上記「収集ファイル形式」設定フォーム604で
設定されたファイル形式に合致するか否かを判断する
(ステップS248)。The Web collection module 111 uses the above URL
When the content type is acquired from each Web server 31 designated in step S247, the contents of the content type are checked (step S247), and the document file to be collected is the file set in the "collected file format" setting form 604. It is determined whether or not the format matches (step S248).
【0086】ここで、収集しようとする文書ファイル
が、上記「収集ファイル形式」設定フォーム604で設
定されたファイル形式に合致する場合は(ステップS2
48のYES)、収集処理が開始される(ステップS2
49)。Here, if the document file to be collected matches the file format set by the "collected file format" setting form 604 (step S2).
If YES at 48, the collecting process is started (step S2).
49).
【0087】また、収集しようとする文書ファイルが、
上記「収集ファイル形式」設定フォーム604で設定さ
れたファイル形式に合致しない場合は(ステップS24
8のNO)、リンク先を調べ、リンク先があるときは
(ステップS250のNO)、そのリンク先の各Web
サーバ31に対して上記同様のアクセスを行う(ステッ
プS246,S247,…)。The document files to be collected are
If it does not match the file format set in the "collected file format" setting form 604 (step S24)
8), the link destination is checked, and if there is a link destination (NO in step S250), each Web of the link destination
The same access as described above is made to the server 31 (steps S246, S247, ...).
【0088】このようにして、Web収集モジュール1
11は、設定ファイル203に設定された、収集するフ
ァイル形式に従って、収集する文書ファイルを選り分
け、ネットワーク上から文書情報を収集する。これによ
り、必要とするファイル形式の文書ファイルを指定して
ネットワーク上より収集でき、収集する文書ファイルを
絞り込むことで、ネットワーク上の知識情報を効率よく
収集できる。In this way, the Web collection module 1
Reference numeral 11 selects document files to be collected according to the file format to be collected set in the setting file 203, and collects document information from the network. As a result, a document file of a required file format can be designated and collected on the network, and by narrowing down the document files to be collected, knowledge information on the network can be efficiently collected.
【0089】更に、上記した、収集するファイル形式の
指定に加えて、収集するURLのパターンの設定、収集
しないURLのパターンの設定、ドメイン内のみ収集の
設定、収集対象とすべき文書ファイル数の上限値設定、
リンク段数の上限値設定、収集するファイル形式の設定
等、複数種の収集範囲が同時に設定可能であり、これら
を組み合わせて収集する文書ファイルにフィルタリング
を施すことで、所望する知識情報を、より適切に絞り込
んで収集することができ、これにより、より高度の知識
データベースを容易かつ迅速に効率よく構築できる。例
えば、上記した、収集するファイル形式と、収集するU
RLのパターン、収集しないURLのパターンとを組み
合わせて設定することにより、指定したファイル形式の
中で、かつ収集するURLのパターン、収集しないUR
Lのパターンを指定して、所望の知識情報を収集するこ
とができる。また、上記した、収集するファイル形式
と、ドメイン内のみ収集とを組み合わせて設定すること
により、起点URLのドメイン内のみで、指定したファ
イル形式の知識情報を収集することができる。更に、こ
れに加えて、文書ファイル数の上限値、リンク段数の上
限値等を設定することで、収集するリンク段数、ファイ
ル数等を任意に規制できる。Further, in addition to the above-mentioned specification of the file format to be collected, the setting of the pattern of the URL to be collected, the setting of the pattern of the URL not to be collected, the setting of the collection only within the domain, the number of document files to be collected Upper limit setting,
Multiple types of collection range can be set at the same time, such as setting the upper limit of the number of link stages and setting of the file format to collect.By filtering the document files to be collected by combining these, you can obtain the desired knowledge information more appropriately. Therefore, it is possible to construct a higher-level knowledge database easily, quickly and efficiently. For example, the above-mentioned file format to be collected and U to be collected
By combining and setting the RL pattern and the URL pattern that is not collected, the URL pattern that is collected and the UR that is not collected are in the specified file format.
Desired knowledge information can be collected by designating the L pattern. Further, by setting the file format to be collected and the collection only in the domain, the knowledge information in the specified file format can be collected only in the domain of the origin URL. Furthermore, in addition to this, by setting the upper limit value of the number of document files, the upper limit value of the number of link stages, etc., the number of link stages, the number of files, etc. to be collected can be arbitrarily regulated.
【0090】尚、本実施形態の知識情報収集システムの
機能は全てコンピュータプログラムにより実現されてい
るので、そのコンピュータプログラムをコンピュータ読
み取り可能な記憶媒体に記憶しておき、その記憶媒体を
通じて本コンピュータプログラムを、コンピュータネッ
トワーク接続可能な通常のコンピュータに導入して実行
させるだけで、本実施形態と同様の効果を容易に得るこ
とができる。Since all the functions of the knowledge information collecting system of this embodiment are realized by a computer program, the computer program is stored in a computer-readable storage medium, and this computer program is stored in the storage medium. It is possible to easily obtain the same effect as that of the present embodiment only by installing the program in a normal computer that can be connected to a computer network and executing the program.
【0091】また本発明は、上記実施形態に限定される
ものではなく、実施段階ではその要旨を逸脱しない範囲
で種々に変形することが可能である。更に、上記実施形
態には種々の段階の発明が含まれており、開示される複
数の構成要件における適宜な組み合わせにより種々の発
明が抽出され得る。例えば、実施形態に示される全構成
要件から幾つかの構成要件が削除されても、発明が解決
しようとする課題の欄で述べた課題が解決でき、発明の
効果の欄で述べられている効果が得られる場合には、こ
の構成要件が削除された構成が発明として抽出され得
る。Further, the present invention is not limited to the above-mentioned embodiment, and can be variously modified at the stage of implementation without departing from the spirit of the invention. Furthermore, the embodiments include inventions at various stages, and various inventions can be extracted by appropriately combining a plurality of disclosed constituent elements. For example, even if some constituent elements are deleted from all the constituent elements shown in the embodiment, the problem described in the section of the problem to be solved by the invention can be solved, and the effect described in the section of the effect of the invention can be solved. When the above is obtained, the configuration in which this constituent element is deleted can be extracted as the invention.
【0092】[0092]
【発明の効果】以上説明したように、本発明によれば、
インターネット上からファイル形式の異なる様々な種類
の文書ファイルを知識情報として効率よく収集すること
が可能となる。As described above, according to the present invention,
Various types of document files having different file formats can be efficiently collected as knowledge information from the Internet.
【図1】本発明の一実施形態に係る知識情報収集システ
ムの構成を示すブロック図。FIG. 1 is a block diagram showing the configuration of a knowledge information collecting system according to an embodiment of the present invention.
【図2】同実施形態の知識情報収集システムに設けられ
たWeb収集モジュールの機能構成を示すブロック図。FIG. 2 is an exemplary block diagram showing the functional configuration of a Web collection module provided in the knowledge information collection system of the same embodiment.
【図3】同実施形態の知識情報収集システムで用いられ
る登録ファイルの出力形式の例を示す図。FIG. 3 is a diagram showing an example of an output format of a registration file used in the knowledge information collecting system of the embodiment.
【図4】同実施形態の知識情報収集システムで用いられ
る登録ファイルの出力形式の他の例を示す図。FIG. 4 is an exemplary view showing another example of an output format of a registration file used in the knowledge information collecting system of the embodiment.
【図5】同実施形態の知識情報収集システムに設けられ
たWeb収集モジュールの処理手順を示すフローチャー
ト。FIG. 5 is an exemplary flowchart showing a processing procedure of a Web collection module provided in the knowledge information collection system of the embodiment.
【図6】同実施形態の知識情報収集システムに設けられ
た登録モジュールの処理手順を示すフローチャート。FIG. 6 is an exemplary flowchart showing a processing procedure of a registration module provided in the knowledge information collecting system of the embodiment.
【図7】同実施形態の知識情報収集システムおけるWe
bコンテンツとその登録処理との関係を示す図。FIG. 7: We in the knowledge information collecting system of the same embodiment
The figure which shows the relationship between b content and its registration processing.
【図8】同実施形態の知識情報収集システムによる提供
される3つの画面とその遷移を説明するための図。FIG. 8 is a diagram for explaining three screens provided by the knowledge information collecting system of the embodiment and their transitions.
【図9】同実施形態の知識情報収集システムで用いられ
る一覧画面の例を示す図。FIG. 9 is an exemplary view showing an example of a list screen used in the knowledge information collecting system of the embodiment.
【図10】同実施形態の知識情報収集システムで用いら
れる設定画面の例を示す図。FIG. 10 is an exemplary view showing an example of a setting screen used in the knowledge information collecting system of the embodiment.
【図11】同実施形態の知識情報収集システムで用いら
れる状況画面の例を示す図。FIG. 11 is an exemplary view showing an example of a situation screen used in the knowledge information collecting system of the embodiment.
【図12】同実施形態の知識情報収集システムで用いら
れる状況画面の例を示す図。FIG. 12 is an exemplary view showing an example of a situation screen used in the knowledge information collecting system of the embodiment.
【図13】同実施形態の知識情報収集システムにおける
Web収集処理の中断/再開動作を説明するための図。FIG. 13 is an exemplary view for explaining a suspending / resuming operation of the Web collecting process in the knowledge information collecting system of the embodiment.
【図14】同実施形態の知識情報収集システムに設けら
れた結果ファイルの内容の例を示す図。FIG. 14 is a diagram showing an example of contents of a result file provided in the knowledge information collecting system of the embodiment.
【図15】同実施形態の知識情報収集システムにおける
Web収集処理の開始から中断までの処理手順を示すフ
ローチャート。FIG. 15 is an exemplary flowchart showing a processing procedure from the start to the interruption of the Web collection processing in the knowledge information collection system of the embodiment.
【図16】同実施形態の知識情報収集システムにおけ
る、収集するファイル形式の設定、並びにその設定に伴
うWeb収集処理の手順を示すフローチャート。FIG. 16 is an exemplary flowchart showing a procedure of setting a file format to be collected and a Web collecting process associated with the setting in the knowledge information collecting system of the embodiment.
11…Web収集システム 12…登録モジュール 13…知識エンジン 30…インターネット/イントラネット 111…Web収集モジュール 112…管理インターフェース 113…登録ディレクトリ 131…知識データベース 132…検索エンジン 201…ロックファイル 202…制御ファイル 203…設定ファイル 204…結果ファイル 205…ログファイル 301…収集制御部 302…属性抽出部 303…テキスト抽出部 304…フォーマット変換部 604…「収集ファイル形式」設定フォーム 607…「収集サイト」設定フォーム 11 ... Web collection system 12 ... Registration module 13 ... Knowledge engine 30 ... Internet / Intranet 111 ... Web collection module 112 ... Management interface 113 ... Registration directory 131 ... Knowledge database 132 ... Search engine 201 ... Lock file 202 ... control file 203 ... Setting file 204 ... Result file 205 ... log file 301 ... Collection control unit 302 ... Attribute extraction unit 303 ... Text extraction unit 304 ... Format conversion unit 604 ... “Collection file format” setting form 607 ... "Collection site" setting form
───────────────────────────────────────────────────── フロントページの続き (72)発明者 塩田 弘二 東京都青梅市末広町2丁目9番地 株式会 社東芝青梅工場内 Fターム(参考) 5B075 ND03 NK37 NK44 ─────────────────────────────────────────────────── ─── Continued front page (72) Inventor Koji Shioda 2-9 Suehiro-cho, Ome City, Tokyo Stock Market Company Toshiba Ome Factory F-term (reference) 5B075 ND03 NK37 NK44
Claims (8)
に、ネットワーク上から、知識データベースに登録すべ
き文書情報を収集する知識情報収集システムに於いて、 前記設定手段に、収集するファイル形式を設定する手段
を含み、 前記設定手段により設定されたファイル形式に合致する
文書情報のみを選別して収集する収集処理手段を具備し
たことを特徴とする知識情報収集システム。1. A knowledge information collecting system for collecting document information to be registered in a knowledge database from a network on the basis of information set by the setting means. A knowledge information collecting system including a setting means, and a collecting processing means for selecting and collecting only document information that matches the file format set by the setting means.
をネットワーク上から収集する知識情報収集システムに
於いて、 収集可能な複数種の文書ファイル形式を設定対象に、収
集する文書情報のファイル形式を設定する設定項目、お
よび起点URLの設定フィールドを有する設定画面を表
示するグラフィックユーザインタフェースと、 前記グラフィックユーザインタフェースにより表示され
た設定画面上で設定された起点URLおよび辿るリンク
先より収集する文書情報各々について、当該文書情報の
ファイル形式が、前記グラフィックユーザインタフェー
スにより設定されたファイル形式に合致するか否かをチ
ェックし、前記設定されたファイル形式に合致しない文
書情報を収集対象から除外する収集フィルタとを具備
し、 前記設定画面上で設定されたファイル形式に合致する文
書情報のみを前記ネットワーク上から収集することを特
徴とする知識情報収集システム。2. In a knowledge information collection system for collecting document information to be registered in a knowledge database from a network, a plurality of types of document file formats that can be collected are set, and a file format of the collected document information is set. A setting item to be set, and a graphic user interface displaying a setting screen having a setting field of a starting point URL, and a starting point URL set on the setting screen displayed by the graphic user interface and document information collected from a link destination to be traced A collection filter that checks whether or not the file format of the document information matches the file format set by the graphic user interface, and excludes the document information that does not match the set file format from the collection target. On the setting screen A knowledge information collecting system, characterized in that only the document information that matches the file format set in 1. is collected from the network.
をネットワーク上から収集する知識情報収集システムに
於いて、 前記知識データベースに登録すべき文書情報を収集する
ための起点URLの設定フィールド、および収集可能な
複数種の文書ファイル形式を選択可能に提示した収集フ
ァイル形式の設定項目を含んだ設定画面を表示する設定
画面表示手段と、 前記設定画面表示手段により表示された設定画面上の設
定内容をもとに記述した設定ファイルを作成する設定フ
ァイル作成手段と、 前記設定ファイル作成手段で作成された設定ファイルの
記述内容をもとに前記知識データベースに登録すべき文
書情報を前記ネットワーク上から収集する情報収集手段
とを具備し、 前記情報収集手段は、前記設定ファイルに記述された起
点URLおよび辿るリンク先より文書情報を取得する際
に、当該文書情報が前記設定ファイルに記述された収集
ファイル形式に合致するか否かを調べ、前記設定ファイ
ルに記述された収集ファイル形式に合致する文書情報の
みを選択して前記ネットワーク上から収集することを特
徴とする知識情報収集システム。3. In a knowledge information collecting system for collecting document information to be registered in a knowledge database from a network, a starting URL setting field for collecting document information to be registered in the knowledge database, and a collectable A setting screen display means for displaying a setting screen including the setting items of the collection file format that presents a plurality of different document file formats in a selectable manner, and the setting contents on the setting screen displayed by the setting screen display means. Setting file creating means for creating a setting file described in, and information for collecting document information to be registered in the knowledge database from the network based on the description content of the setting file created by the setting file creating means. And a collecting unit, wherein the information collecting unit is provided with a starting point URL described in the setting file. When the document information is acquired from the traced link destination, it is checked whether the document information matches the collection file format described in the setting file, and the document matching the collection file format described in the setting file. A knowledge information collecting system characterized in that only information is selected and collected from the network.
前記知識データベースに登録可能なファイル形式が初期
設定される請求項3記載の知識情報収集システム。4. The setting items of the collection file format include:
The knowledge information collecting system according to claim 3, wherein a file format that can be registered in the knowledge database is initialized.
前記初期設定されたファイル形式を除くファイルが設定
解除された際に、前記知識データベースに登録されてい
る、前記設定解除したファイル形式の文書情報を前記知
識データベースから削除する処理手段を具備したことを
特徴とする請求項4記載の知識情報収集システム。5. On the setting item of the collection file format,
When a file other than the initially set file format is unset, processing means for deleting document information of the unset file format registered in the knowledge database from the knowledge database is provided. The knowledge information collecting system according to claim 4, characterized in.
設定画面には、収集範囲をドメイン内とする設定項目、
収集するURLの文字列パターンを設定する項目、収集
しないURLの文字列パターンを設定する項目、収集す
るリンクの上限を設定する項目、収集するファイル数の
上限を設定する項目の少なくともいずれかを含み、前記
各項目の設定内容が前記収集ファイル形式の設定項目の
設定内容に反映される請求項3記載の知識情報収集シス
テム。6. The setting screen displayed by the setting screen display means includes setting items whose collection range is within the domain,
Includes at least one of items to set the character string pattern of URLs to be collected, items to set the character string pattern of URLs to not be collected, items to set the upper limit of the links to be collected, and items to set the upper limit of the number of files to be collected. 4. The knowledge information collecting system according to claim 3, wherein the setting content of each item is reflected in the setting content of the setting item of the collection file format.
をネットワーク上から収集する知識情報収集方法に於い
て、 収集可能な複数種の文書ファイル形式を設定対象に、収
集する文書情報のファイル形式を設定する設定項目、お
よび起点URLの設定フィールドを有する設定画面を表
示する設定画面表示ステップと、 前記設定画面表示ステップで表示された設定画面上で設
定された起点URLおよび辿るリンク先より収集する文
書情報各々について、当該文書情報のファイル形式が、
前記設定画面上で設定されたファイル形式に合致するか
否かを判定する判定ステップと、 前記判定ステップで前記設定されたファイル形式に合致
しないと判定された文書情報を収集対象から除外するス
テップとを有して、 前記設定されたファイル形式に合致する文書情報のみを
前記ネットワーク上から収集することを特徴とする知識
情報収集方法。7. A knowledge information collecting method for collecting document information to be registered in a knowledge database from a network, wherein a plurality of types of document file formats that can be collected are set, and a file format of the collected document information is set. A setting screen display step for displaying a setting screen having a setting item for setting and a setting field for the starting point URL, and the starting point URL set on the setting screen displayed in the setting screen displaying step and the document information collected from the link destination to be followed. For each, the file format of the document information is
A determination step of determining whether or not the file format set on the setting screen matches; a step of excluding document information determined not to match the set file format from the collection target from the determination step; A knowledge information collecting method, characterized in that only the document information that matches the set file format is collected from the network.
をネットワーク上から収集する知識情報収集方法に於い
て、 前記知識データベースに登録すべき文書情報を収集する
ための起点URLの設定フィールド、および収集可能な
複数種の文書ファイル形式を選択可能に提示した収集フ
ァイル形式の設定項目を含んだ設定画面を表示する設定
画面表示ステップと、 前記設定画面表示ステップにより表示された設定画面上
の設定内容をもとに記述した設定ファイルを作成する設
定ファイル作成ステップと、 前記設定ファイル作成ステップで作成された設定ファイ
ルの記述内容をもとに前記知識データベースに登録すべ
き文書情報を前記ネットワーク上から収集する収集ステ
ップとを有し、 前記収集ステップでは、前記設定ファイルに記述された
起点URLおよび辿るリンク先より文書情報を取得する
際に、当該文書情報が前記設定ファイルに記述された収
集ファイル形式に合致するか否かを調べ、前記設定ファ
イルに記述された収集ファイル形式に合致する文書情報
のみを選択して前記ネットワーク上から収集することを
特徴とする知識情報収集方法。8. A knowledge information collecting method for collecting document information to be registered in a knowledge database from a network, wherein a setting field of a starting point URL for collecting document information to be registered in the knowledge database and a collectable The setting screen display step for displaying the setting screen including the setting items of the collection file format that presents multiple types of document file formats that can be selected, and the setting contents on the setting screen displayed by the setting screen display step. And a setting file creating step of creating a setting file described in 1., and collecting document information to be registered in the knowledge database from the network based on the description content of the setting file created in the setting file creating step. And in the collecting step, When acquiring the document information from the point URL and the link destination to be followed, it is checked whether the document information matches the collection file format described in the setting file, and it matches the collection file format described in the setting file. A method for collecting knowledge information, characterized in that only the document information to be collected is selected and collected from the network.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002108478A JP3725837B2 (en) | 2002-04-10 | 2002-04-10 | Knowledge information collecting system and knowledge information collecting method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002108478A JP3725837B2 (en) | 2002-04-10 | 2002-04-10 | Knowledge information collecting system and knowledge information collecting method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2003303202A true JP2003303202A (en) | 2003-10-24 |
| JP3725837B2 JP3725837B2 (en) | 2005-12-14 |
Family
ID=29392248
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002108478A Expired - Lifetime JP3725837B2 (en) | 2002-04-10 | 2002-04-10 | Knowledge information collecting system and knowledge information collecting method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3725837B2 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006285506A (en) * | 2005-03-31 | 2006-10-19 | Ricoh Co Ltd | Electronic information disclosure certification apparatus, electronic information disclosure certification method, electronic information disclosure certification program, and recording medium |
| JP2011197742A (en) * | 2010-03-17 | 2011-10-06 | Ricoh Co Ltd | Index generation device, index generation method, index generation program and database search system |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10207759A (en) * | 1997-01-24 | 1998-08-07 | Sharp Corp | Hypertext automatic acquisition device |
| JP2000122912A (en) * | 1998-10-12 | 2000-04-28 | Fuji Xerox Co Ltd | Method and device for gathering resource |
| JP2001034629A (en) * | 1999-07-22 | 2001-02-09 | Just Syst Corp | Storage medium storing data search program |
-
2002
- 2002-04-10 JP JP2002108478A patent/JP3725837B2/en not_active Expired - Lifetime
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10207759A (en) * | 1997-01-24 | 1998-08-07 | Sharp Corp | Hypertext automatic acquisition device |
| JP2000122912A (en) * | 1998-10-12 | 2000-04-28 | Fuji Xerox Co Ltd | Method and device for gathering resource |
| JP2001034629A (en) * | 1999-07-22 | 2001-02-09 | Just Syst Corp | Storage medium storing data search program |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006285506A (en) * | 2005-03-31 | 2006-10-19 | Ricoh Co Ltd | Electronic information disclosure certification apparatus, electronic information disclosure certification method, electronic information disclosure certification program, and recording medium |
| JP2011197742A (en) * | 2010-03-17 | 2011-10-06 | Ricoh Co Ltd | Index generation device, index generation method, index generation program and database search system |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3725837B2 (en) | 2005-12-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6631369B1 (en) | Method and system for incremental web crawling | |
| US6832220B1 (en) | Method and apparatus for file searching, accessing file identifiers from reference page | |
| US7702678B2 (en) | Search capture | |
| US8037107B2 (en) | Document transfer assisting system, monitor apparatus, document transfer assisting apparatus, method and computer readable recording medium | |
| US7406664B1 (en) | System for integrating HTML Web site views into application file dialogs | |
| US20020147805A1 (en) | Software system and methods for generating and graphically representing web site usage data | |
| US6408323B1 (en) | Job execution managing apparatus and computer-readable recording medium with program recorded therein for making a computer function as a job execution managing apparatus | |
| US20090313539A1 (en) | Information processor, information processing method, and recording medium | |
| US20050216825A1 (en) | Local storage of script-containing content | |
| CN101484892B (en) | A method of managing web services using integrated document | |
| US20050216837A1 (en) | Unread-state management | |
| US20050216886A1 (en) | Editing multi-layer documents | |
| US20050240489A1 (en) | Retaining custom item order | |
| US20050216528A1 (en) | Sharing collection-file contents | |
| JP2001154893A (en) | File search device and computer-readable recording medium | |
| JP2009075908A (en) | Web page browsing history management system, web page browsing history management method, and computer program | |
| JP4253315B2 (en) | Knowledge information collecting system and knowledge information collecting method | |
| JP3725088B2 (en) | Knowledge information collecting system and knowledge information collecting method | |
| JP3708893B2 (en) | Knowledge information collecting system and knowledge information collecting method | |
| JP3725087B2 (en) | Knowledge information collecting system and knowledge information collecting method | |
| JP3725837B2 (en) | Knowledge information collecting system and knowledge information collecting method | |
| JP3725836B2 (en) | Knowledge information collecting system and knowledge information collecting method | |
| JP3708894B2 (en) | Knowledge information collecting system and knowledge information collecting method | |
| JP2003303198A (en) | Knowledge information collection method and knowledge information collection system | |
| JP2006048144A (en) | Autopilot device, client terminal and autopilot method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050315 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050516 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050920 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050922 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080930 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090930 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090930 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100930 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100930 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110930 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120930 Year of fee payment: 7 |