JP3945282B2 - Information search apparatus, information search method, program, and recording medium - Google Patents
Information search apparatus, information search method, program, and recording medium Download PDFInfo
- Publication number
- JP3945282B2 JP3945282B2 JP2002076923A JP2002076923A JP3945282B2 JP 3945282 B2 JP3945282 B2 JP 3945282B2 JP 2002076923 A JP2002076923 A JP 2002076923A JP 2002076923 A JP2002076923 A JP 2002076923A JP 3945282 B2 JP3945282 B2 JP 3945282B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- text
- word
- related information
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 33
- 230000008569 process Effects 0.000 claims description 18
- 230000000877 morphologic effect Effects 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 16
- 238000013480 data collection Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 230000004044 response Effects 0.000 description 12
- 238000012937 correction Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 240000000220 Panda oleosa Species 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、データベースの情報を検索する情報検索装置、情報検索方法、プログラムおよび記録媒体に関する。
【0002】
【従来の技術】
企業などでは、例えばLAN(Local Area Network)などのコンピュータネットワーク(以下、単に「ネットワーク」と称する)が構成され、このネットワーク内における各種データの共有により、作業効率の向上化が図られている。具体的には、ネットワークを形成するいずれかのコンピュータにグループウェアやコラボレートウェアなどと呼ばれるソフトウェア(以下、「グループウェア」と称する)が導入されることで、このコンピュータ(以下、「グループウェアサーバ」と称する)が保持する各種データ(例えば、共有文書や各ユーザのスケジュールなど)に対してネットワークに接続された各コンピュータ(以下、「クライアント端末」と称する)からアクセス可能になる。
【0003】
また、グループウェアには、クライアント端末からの要求に応じて、蓄積された文書データから該当する文書データを検索する機能が備えられている。これにより、ユーザは、クライアント端末を用いてグループウェアサーバが管理する大量の文書データから所望の文書データを見つけることが容易となる。
【0004】
【発明が解決しようとする課題】
しかしながら、グループウェアサーバが文書データを検索する時には、全ての文書データを対象に検索処理を実行するのが一般的であり、文書データの数や各文書データの容量に比例して検索時間も長くなるといった問題がある。特に、顧客からの問い合わせに対応するコールセンターでは、グループウェアサーバが顧客からの問い合わせに応じた文書データを素早く検索して取り出す必要があるため、この問題は、より深刻化する。
【0005】
本発明は、上述した事情を鑑みてなされたものであり、データベースに蓄積されている情報のうち、検索条件に該当する情報を特定するに要する時間を短縮することが可能な情報検索装置、情報検索方法、プログラムおよび記録媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】
上記目的を達成するために、本発明は、少なくともテキスト文を含むテキストデータと、当該テキストデータの識別情報とを対応付けるとともに、当該テキスト文に関連した複数の関連情報と、当該複数の関連情報を分類する項目と、当該テキスト文に対応するテキストデータの識別情報とを対応付けるデータベースを検索する情報検索装置であって、前記項目のうち、検索の対象となり得る重み付け単語を含む項目を指定する項目指定情報を記憶する第1の記憶手段と、前記項目指定情報によって指定された項目に分類される関連情報を前記データベースから取得する関連情報取得手段と、前記重み付け単語によって指定された単語を前記テキストデータから抽出して前記テキストデータの付加する重み付け単語付加手段と、前記テキストデータからテキスト文を抽出する本文抽出手段と、前記抽出されたテキスト文を複数の単語に分割して解析する形態素解析手段と、前記複数の単語の各々が前記テキスト文に出現する回数を計数する出現頻度計数手段と、前記関連情報取得手段によって取得された関連情報と、前記単語と当該単語の出現回数と、当該関連情報に対応する前記識別情報とを対応付けて記憶する第2の記憶手段と、前記項目指定情報によって指定された項目に則した検索条件を取得する検索条件取得手段と、前記第2の記憶手段に記憶された関連情報の中から、前記検索条件に該当する関連情報を特定し、当該関連情報に対応する前記識別情報を特定する検索手段と、を備える情報検索装置を提供する。
【0007】
また、上記目的を達成するために、本発明は、CPUと記憶装置とを有し、少なくともテキスト文を含むテキストデータと、当該テキストデータの識別情報とを対応付けるとともに、当該テキスト文に関連した複数の関連情報と、当該複数の関連情報を分類する項目と、当該テキスト文に対応するテキストデータの識別情報とを対応付けるデータベースを検索する情報検索装置における情報検索方法であって、前記CPUが、前記項目のうち、検索の対象となり得る重み付け単語を含む項目を指定する項目指定情報を前記記憶装置に記憶する第1の過程と、前記CPUが、前記項目指定情報によって指定された項目に分類される関連情報を前記データベースから取得する第2の過程と、前記CPUが、前記重み付け単語によって指定された単語を前記テキストデータから抽出して前記テキストデータに付加する第3の過程と、前記CPUが、前記テキストデータからテキスト文を抽出する第4の過程と、前記CPUが、前記抽出されたテキスト文を複数の単語に分割して解析する第5の過程と、前記CPUが、前記複数の単語の各々が前記テキスト文に出現する回数を計数する第6の過程と、前記CPUが、前記関連情報取得手段によって取得された関連情報と、前記単語と当該単語の出現回数と、当該関連情報に対応する前記識別情報とを対応付けて前記記憶装置に記憶する第7の過程と、前記CPUが、前記項目指定情報によって指定された項目に則した検索条件を取得する第8の過程と、前記CPUが、前記記憶装置に記憶された関連情報の中から、前記検索条件に該当する関連情報を特定し、当該関連情報に対応する前記識別情報を特定する第9の過程と、を備える情報検索装置における情報検索方法を提供する。
【0008】
上述した情報検索装置および情報検索方法によれば、データベースに記憶されている複数の項目から検索の対象となり得る項目だけが予め抽出され、そして、その抽出された項目に対して検索が行われる。従って、本発明によれば、該当する文書データを特定するに要する時間が、データベースの全ての項目に対して検索が実行されるときに比べて早くなる。また、利用者は、項目指定情報が指定する項目を変更するだけで、検索の対象とする項目を変更することができる。
【0009】
ここで、上記情報検索装置において、前記テキストデータからテキスト文を抽出する本文抽出手段と、前記抽出されたテキスト文を複数の単語に分割して解析する形態素解析手段と、前記複数の単語の各々が前記テキスト文に出現する回数を計数する出現頻度計数手段とを備え、前記第2の記憶手段は、前記単語と当該単語の出現回数とを、前記テキスト文に対応するテキストデータの識別情報と対応付けて記憶する構成が望ましい。この構成によれば、検索条件として単語が取得された場合に、当該単語を多く含む順にテキストデータの識別情報を特定するといったことが行える。
【0010】
また、上記目的を達成するために、本発明は、少なくともテキスト文を含むテキストデータと、当該テキストデータの識別情報とを対応付けるとともに、当該テキスト文に関連した複数の関連情報と、当該複数の関連情報を分類する項目と、当該テキスト文に対応するテキストデータの識別情報とを対応付けるデータベースを検索するコンピュータを、前記項目のうち、検索の対象となり得る重み付け単語を含む項目を指定する項目指定情報を記憶する第1の記憶手段、前記項目指定情報によって指定された項目に分類される関連情報を前記データベースから取得する関連情報取得手段、前記重み付け単語によって指定された単語を前記テキストデータから抽出して前記テキストデータの付加する重み付け単語付加手段、前記テキストデータからテキスト文を抽出する本文抽出手段、前記抽出されたテキスト文を複数の単語に分割して解析する形態素解析手段、前記複数の単語の各々が前記テキスト文に出現する回数を計数する出現頻度計数手段、前記関連情報取得手段によって取得された関連情報と、前記単語と当該単語の出現回数と、当該関連情報に対応する前記識別情報とを対応付けて記憶する第2の記憶手段と、前記項目指定情報によって指定された項目に則した検索条件を取得する検索条件取得手段、および前記第2の記憶手段に記憶された関連情報の中から、前記検索条件に該当する関連情報を特定し、当該関連情報に対応する前記識別情報を特定する検索手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体に記憶されていても良いことは勿論である。
【0011】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態について説明する。
【0012】
図1は、本発明の実施形態に係る情報検索システムの構成を示す図である。この図において、グループウェアサーバ20は、例えば磁気ディスクなどの記憶装置に格納されたグループウェアデータベース20aを備えている。このグループウェアデータベース20aには、ネットワーク2を介して接続された多数のクライアント端末30の間で共有される文書データが蓄積されている。ここで、文書データとは、テキスト文が含まれるデータのことである。また、グループウェアサーバ20は、共有される文書データが蓄積されたデータベース(すなわち、上述したグループウェアデータベース20a)の他にも、実際には、例えば利用者毎の電子メールデータが蓄積されたデータベースや、利用者毎のスケジュールデータが蓄積されたデータベースといった多種のデータベースを備えている。
【0013】
さて、図1において、情報検索装置10は、パーソナルコンピュータなどから構成されており、ネットワーク2を介してクライアント端末30からの文書データの検索要求を取得し、この検索要求に該当する文書データの候補を当該クライアント端末30に送信するものである。さらに説明すると、情報検索装置10は、例えば磁気ディスクなどの記憶装置を備え、この記憶装置には、検索用データベース10aが格納されている。情報検索装置10は、グループウェアデータベース20aに蓄積されている各文書データに関連する情報を検索用データベース10aに蓄積し、クライアント端末30から検索要求を取得したときに、この検索用データベース10aに蓄積された情報を検索するようになっている。
【0014】
図2は、本実施形態に係る情報検索装置10の構成を示す機能ブロック図である。同図において、設定ファイル解析部100は、設定ファイル200に示される指示に従って、文書データに関連する情報のうち、検索用データベース10aに蓄積すべき情報(以下、「検索用情報」という)を特定し、データ収集部102に出力する。ここで、設定ファイル200は、例えばグループウェアサーバ20の管理者などによって作成されるデータファイルであり、その構成を図3に示す。同図に示すように、設定ファイル200には、取得項目、重み付け単語、格納先アドレスおよび格納元アドレスの各々が指定されている。
【0015】
取得項目は、グループウェアサーバ20が管理するデータ項目のうち、どの項目を取得するかを指定するものである。詳述すると、グループウェアサーバ20は、文書データに関連する関連情報をデータ項目ごとに分けて記録されたグループウェアファイル22を、文書データごとに備えている。図4は、このグループウェアファイルの一例を示す図である。この図において、文字列「ITEM_NAME」は、データ項目を示すものであり、この文字列「ITEM_NAME」と等号(=)にて結ばれた文字列がデータ項目名を示す。例えば、「ITEM_NAME=Classification」である場合、データ項目名は、「分類(Classification)」となる。また、データ項目名(すなわち、文字列「ITEM_NAME」)の次行がデータ項目名に対応する文書データの関連情報である。具体的には、例えば、文字列「ITEM_NAME=Classification」の次行に記載された文字列「TYPE_TEXT=テクニカルノート」は、データ項目名「分類」に対応する文書データの関連情報が「テクニカルノート」であることを示している。そこで、取得項目は、グループウェアファイル22に含まれるデータ項目名(文字列「ITEM_NAME」によって示されるデータ項目名)のうち、取得すべきデータ項目名を指定する。なお、図示を省略するが、このグループウェアファイル22には、当該グループウェアファイル22が、どの文書データに対応しているかも示されている。
【0016】
また、設定ファイル200における重み付け単語は、検索語として頻繁に用いられる単語を指定するためのものである。格納元アドレスは、検索対象となるデータベースが格納されているアドレスを示すものである。詳述すると、グループウェアサーバ20は、上述したように、多数のデータベースを備えるのが一般的であり、このため、どのデータベースを検索対象とするかが特定される必要がある。そこで、アドレスを指定することにより、検索対象となるデータベースを特定するのである。また、格納先アドレスは、上述した格納元アドレスによって特定されるデータベース内の各データから検索用情報に従って抽出した情報を検索用データベース10aに格納するときのアドレスを示すものである。このように、検索対象となるデータベースごとに、異なる格納先アドレスが指定されることで、検索対象となるデータベースごとに抽出した多数の情報を検索用データベース10aに格納することができるようになっている。
【0017】
さて、図2において、データ収集部102は、設定ファイル解析部100からの検索用情報によって示される取得項目をグループウェアサーバ20からネットワーク2を介して受け取り、次の処理を行うものである。すなわち、データ収集部102は、文書データおよびグループウェアファイル22から取得した各項目のうち、文書データにおける本文部分に対応するものから本文データファイル202を生成するとともに、本文部分以外のものから情報データファイル204を生成し、各々をインデキシング部104に出力する。図5に示すように、本文データファイル202には、重み付け単語によって指定された単語(図示例では、「インターフェースデバイスYYY」など)が本文データの末尾に付加される(詳細については、後述)。また、図6に示すように、情報データファイル204に含まれる情報は、例えば、文書データに付されたタイトル(TITLE)や、グループウェアデータベース20aにおける文書データの格納元アドレス(URL:Uniform Resource Locator)などである。なお、データ収集部102がグループウェアサーバ20から文書データを取得する機能は、グループウェアの製造元が提供するAPI(Application Program Interface)によって実現されている。
【0018】
インデキシング部104は、データ収集部102から受け取った本文データファイル202に対して形態素解析を行った後に、インデキシング(目次化)を実行し、この実行結果を、インデックスファイル206に登録するものであり、コンピュータにおけるCPUに相当する。インデックスファイル206は、検索用データベース10aに格納されているものであり、インデックスファイル206には、ページテーブル206a、キーワードテーブル206cおよび単語テーブル206bが含まれている(図7参照)。なお、各データテーブルについては、後述する。
【0019】
ここで、インデキシング部104が実行する形態素解析とは、漢字仮名交じりで記載された日本語の文を単語(形態素)に分解し、各単語の読み仮名や品詞などを特定することである。形態素解析用辞書106は、インデキシング部104における形態素解析に用いられる辞書であり、様々な単語を収録している。さらに説明すると、インデキシング部104は、解析対象となる文の続きの部分と最も長く一致する単語を形態素解析用辞書106から抽出するといったことを繰り返して文を単語(形態素)に分解する。なお、単語同士が空白で区切られる言語(例えば英語)にて本文データファイルの本文が記載されている場合には、形態素解析が必要ないことは勿論である。
【0020】
図8は、上述したページテーブルの一例を示す図である。このページテーブル206aは、各文書データの概要を示す情報を管理するためのものである。このページテーブル206aの1つのレコードには、文書識別情報と、サーバ識別情報と、格納元アドレスと、最終更新日時情報と、題名情報と、本文情報と、分類情報と、総単語数情報と、ソフト別文書識別情報と、参照レベル情報との各々が含まれている。
【0021】
ここで、文書識別情報は、グループウェアデータベース20aから取得した文書データごとに、情報検索装置10が固有に割り当てる識別情報である。サーバ識別情報は、その文書データの取得元であるグループウェアサーバ20を特定する情報であり、本実施形態にあっては、図8に示すように、情報検索装置10がサーバごとに固有に割り当てた番号によって示される。格納元アドレスは、グループウェアデータベース20aにおける文書データの格納アドレスを示すものであり、図8に示すように、URLによって指定されている。最終更新日時情報は、情報検索装置10が文書データの情報を更新した最終日時を示す情報である。題名情報は、その文書データの題名(TITLE)を示す情報であり、例えば256バイトといった所定バイト数の文字列によって示される。本文情報は、その文書データの本文の先頭から所定文字数(例えば256バイト)分の文を示すものである。
【0022】
また、分類情報は、文書データの文書の分類を示す情報である。より具体的には、例えば、文書データがコールセンター内のネットワークで共有されるものである場合、分類情報には、その文書データが製品のテクニカルサポート用文書なのか、製品のマニュアルなのかといったことを示す情報が記録される。総単語情報は、文書データの本文における総単語数を示すものである。ソフト別文書識別情報は、グループウェアサーバ20が文書データに割り当てた固有の識別情報を示すものである。参照レベル情報は、その文書データの閲覧がネットワークに接続された各クライアント端末に限定されているか、または、ネットワーク外の端末にも許可されているかといった情報を示すものである。ここで、サーバ識別情報と、ソフト別文書識別情報とがページテーブル206aに含まれているのは、多数のサーバに同一のグループウェアが導入されている場合に、各々のサーバが同一の識別情報を文書データに割り当てたときでも、どのサーバのどの文書データなのかを一意に特定できるようにするためである。
【0023】
次いで、図9は、上述した単語テーブルの一例を示す図である。この単語テーブル206bは、各文書データの本文に含まれる単語を管理するためのものである。より具体的には、図9に示すように、単語テーブル206bの1つのレコードには、単語と、情報検索装置10が単語ごとに固有に割り当てられる単語識別情報と、グループウェアデータベース20aに蓄積されている全文書データのうち、この単語を本文に含む文書データの数を示す単語使用文書数とが含まれている。ここで、単語使用文書数は、インデキシング部104が文書データの本文データファイル202に対して形態素解析を行った結果に従って算出されるものである。具体的には、インデキシング部104は、1つの本文データファイル202に形態素解析を行って本文を単語(形態素)に分解した後に、各々の単語ごとに固有の識別情報を割り当てて、単語テーブル206bに登録する。そして、インデキシング部104は、登録した単語識別情報に対応する単語使用文書数の値を「1」だけインクリメントする。係る処理がグループウェアデータベース20aに蓄積されている全ての文書データについて行われた結果、単語ごとの単語使用文書数が得られる。
【0024】
また、図10は、上述したキーワードテーブルの一例を示す図である。このキーワードテーブル206cは、各文書データの本文に含まれる単語ごとに、1つの単語が何回出現しているかなどを管理するためのものである。具体的には、図10に示すように、キーワードテーブル206cの1つのレコードには、上述した単語テーブル206bに含まれる単語識別情報と、上述したページテーブル206aに含まれる文書識別情報と、出現回数と、重要度とが含まれている。出現回数は、単語が、文書識別情報によって特定される文書データの本文内に何回出現するかを示すものであり、インデキシング部104が行う形態素解析により得られる。さらに説明すると、インデキシング部104は、文書データの本文データファイル202の本文を単語(形態素)に分解した後に、その本文内に、単語識別情報によって示される単語が幾つ含まれるかを計数することにより、出現頻度を算出する。重要度は、全文書データの本文における単語の頻出度を示すものであり、次の式を用いてインデキシング部104により算出される。
(重要度)=S×log(N/n)
ここで、Sは、出現回数、Nは、グループウェアデータベース20aに蓄積されている文書データの数、nは、上述した単語使用文書数である。この式によって示されるように、本文に同じ単語が含まれる文書データが多くなる程、その単語の重要度が小さくなり、また、1つの文書データの本文に同じ単語が頻繁に出現する程、その単語の重要度が高くなる。ここで、上述したように、文書データの本文データファイル202の末尾には、データ収集部102により重み付け単語が付与されているため、この重み付け単語の重要度は、相対的に高くなるのである。特に、文書データの題目(TITLE)には、その文書データの本文の内容を顕著に反映した単語が含まれることが多いため、この題目を本文データファイル202に重み付けするようにしても良い。
【0025】
図2において、検索要求取得応答部108は、ネットワーク2を介してクライアント端末30から検索要求を受け取り、検索部110に出力する。この検索要求取得応答部108は、コンピュータにおけるネットワークインターフェースデバイスに相当する。また、検索部110は、検索要求取得応答部108からの検索要求に応じて検索用データベース10aに格納されているインデックスファイル206を検索し、検索結果を、検索要求取得応答部108に出力する。検索要求取得応答部108は、検索部110から検索結果を受け取ると、この検索結果をネットワーク2を介してクライアント端末30に送信する。
【0026】
次いで、本実施形態に係る情報検索装置10の動作について説明する。
ここで、以下に説明する各処理手順を規定するプログラムは、情報検索装置10が備えるROMや磁気ディスクなどの記録媒体に格納されている。なお、このプログラムは、例えば、光ディスクや光磁気ディスク、磁気ディスクなどの可搬型の記録媒体に記録されたものが情報検索装置10にインストールされたものでも良く、また、ネットワーク2を介して当該情報検索装置10にインストールされたものであっても良い。
【0027】
さて、情報検索装置10は、グループウェアデータベース20aに蓄積されている各文書データの情報を示すインデックスファイル206に登録するための登録処理を実行する。具体的には、図11に示すように、先ず、設定ファイル解析部100が設定ファイル200を読み出して、設定ファイル200によって指示される取得項目、重み付け単語、格納元アドレスおよび格納先アドレスを特定し、これらの特定した情報を検索用情報としてデータ収集部102に出力する(ステップSa1)。
【0028】
次に、データ収集部102は、設定ファイル解析部100からの検索用情報によって示される取得項目をグループウェアサーバ20からネットワーク2を介して受け取り、本文データファイル202(図5参照)および情報データファイル204(図6参照)を生成し、各々をインデキシング部104に出力する(ステップSa2)。
【0029】
そして、インデキシング部104は、データ収集部102から受け取った本文データファイル202に対して形態素解析を行った後に、インデキシングを実行し、この実行結果を、3つのデータテーブルを含むインデックスファイル206に登録する。(ステップSa3)。これにより、1つの文書データに関する情報がインデックスファイル206に登録されることとなる。次いで、データ収集部102は、グループウェアデータベース20a内に処理されてない文書データがあるかを判別し(ステップSa4)、この判別結果がYESであれば、残りの文書データの情報をインデックスファイル206に登録すべく、処理手順をステップSa2に戻す。一方、ステップSa4における判別結果がNOであれば、データ収集部102は、処理を終了する。これにより、グループウェアデータベース20aに蓄積されている全ての文書データの情報がインデックスファイル206に登録されることとなる。
【0030】
ところで、グループウェアデータベース20aに蓄積されている文書データに対して、追加または削除が行われたり、また、1つの文書データに対して編集が行われたりといった編集処理が頻繁に行われる。そこで、情報検索装置10は、インデックスファイル206に登録されている情報とグループウェアデータベース20a内の各文書データの整合性が崩れないように、次のインデックスファイル修正処理を一定時間ごとに行っている。
【0031】
すなわち、図12に示すように、先ず、データ収集部102は、設定ファイル解析部100からの検索用情報によって示される取得項目をグループウェアサーバ20からネットワーク2を介して受け取り、本文データファイル202および情報データファイル204を生成し、各々をインデキシング部104に出力する(ステップSb1)。インデキシング部104は、本文データファイル202、情報データファイル204およびインデックスファイル206に登録されている情報から、文書データが、▲1▼追加されたものであるか、▲2▼修正されたものであるか、▲3▼編集が加えられていないものか、を判別する(ステップSb2)。
【0032】
より具体的には、インデキシング部104は、情報データファイル204に含まれているサーバ識別情報およびソフト別文書識別情報に該当するものがインデックスファイル206のページテーブル206aに登録されていなければ、この文書データが追加されたものであると判別する。一方、情報データファイル204に含まれているサーバ識別情報およびソフト別文書識別情報に該当するものが、インデックスファイル206のページテーブル206aに既に登録されているものの、最終更新日時情報が情報データファイル204とインデックスファイル206との間で異なる場合には、インデキシング部104は、この文書データが修正されたと判別する。さらにまた、サーバ識別情報、ソフト別文書識別情報および最終更新日時情報の各々がいずれも情報データファイル204とインデックスファイル206との間で同じであれば、インデキシング部104は、この文書データに対して何ら編集処理が成されていないと判別する。
【0033】
さて、ステップSb2における判別結果が、▲1▼追加されたものである、と判別された場合には、インデキシング部104は、上述した登録処理におけるステップSa3と同様の処理を実行し、この文書データの情報をインデックスファイル206に登録する(ステップSb3)。次いで、データ収集部102は、グループウェアデータベース20a内に処理されていない文書データがあるかを判別し(ステップSb4)、この判別結果がYESであれば、残りの文書データを処理すべく、処理手順をステップSb1に戻す。これにより、グループウェアデータベース20aに追加された文書データの情報がインデックスファイル206に新たに登録されることとなる。
【0034】
一方、ステップSb2の判別において、▲2▼修正されたものである、と判別された場合には、インデキシング部104は、この文書データに対応するインデックスファイル206の情報を一旦削除した後に、この文書データに対応する情報を新たに生成し、インデックスファイル206に登録する。より具体的には、インデキシング部104は、先ず、この文書データに対応する文書識別情報(図8参照)を特定し(ステップSb5)、インデックスファイル206に含まれるページテーブル206a、単語テーブル206b、キーワードテーブル206cの各々のテーブルから、特定した文書識別情報に関する情報を一括して削除する(ステップSb6)。次いで、インデキシング部104は、この文書データに対応する情報を上述したインデキシング処理により生成し、インデックスファイル206に登録する(ステップSb7)。次いで、データ収集部102は、グループウェアデータベース20a内に処理されていない文書データがあるかを判別し(ステップSb4)、この判別結果がYESであれば、残りの文書データを処理すべく、処理手順をステップSb1に戻す。これにより、文書データに対して行われた修正がインデックスファイル206に反映されることとなる。また、ステップSb2における判別結果が、▲3▼編集が加えられていないものであると判別された場合にも、インデキシング部104は、処理ステップをステップSb4に進める。
【0035】
次いで、ステップSb4における判別結果がNOであれば、グループウェアデータベース20a内の全ての文書データに対して処理が実行されたこととなる。従って、上述した一連の処理の間、インデックスファイル206(ページテーブル206a)において、一度も参照されなかった文書識別情報に対応する文書データは、グループウェアデータベース20a内に存在しないこととなる。従って、インデキシング部104は、インデックスファイル206のページテーブル206aから、参照されなかった文書識別情報を全て抽出し(ステップSb8)、抽出した文書識別情報に対応する各情報を、インデックスファイル206に含まれる全てのテーブルから削除して(ステップSb9)、処理を終了する。これにより、グループウェアデータベース20aから削除された文書データに対応する情報がインデックスファイル206から削除されることとなる。また、文書データが削除された場合、その文書識別情報に対応する情報をインデックスファイル206から削除するだけでよいため、インデックスファイル206の修正に要する時間が短縮される。
【0036】
このように、インデックスファイル206には、グループウェアデータベース20aに蓄積されている各文書データの情報が登録され、文書データに対して、追加や削除、修正といった編集処理が行われたとしても、上述したインデックスファイル修正処理が一定時間ごとに繰り返し行われることで、その編集処理に応じて変更された情報がインデックスファイル206に即座に反映される。
【0037】
さて、情報検索装置10の検索要求取得応答部108は、クライアント端末30からネットワーク2を介して検索要求を受け取ると、この検索要求を検索部110に出力する。検索部110は、受け取った検索要求に従ってインデックスファイル206を検索し、該当する文書データの情報を抽出する。より具体的には、検索要求には、検索語として、検索用の単語、または、設定ファイル200によって指定されたデータ項目が含まれている。例えば、検索要求に単語が検索語として含まれている場合、検索部110は、キーワードテーブル206cを参照し、その単語(詳細には、単語識別情報)の重要度が最も大きい順に文書識別情報を抽出する。そして、検索部110は、重要度の上位から所定の数(例えば20など)だけの文書識別情報に対応する題名情報、本文情報および格納元アドレス(URL)などをページテーブル206aから抽出し、検索要求取得応答部108を介してクライアント端末30に送信する。これにより、クライアント端末30に検索語に対応した文書データの候補が送信されることとなる。また、検索語として、例えば最終編集日時が検索要求に含まれていた場合には、検索部110は、ページテーブル206aの各レコードを検索し、該当する文書識別情報に対応する題名情報、本文情報および格納元アドレス(URL)を検索要求取得応答部108を介してクライアント端末30に送信する。なお、検索要求には、検索語として、単語およびデータ項目の各々が含まれていても良いことは勿論である。
【0038】
このように、本実施形態によれば、グループウェアデータベース20aに蓄積されている文書データごとに、検索条件となり得る情報だけがインデックスファイル206に予め登録されている。情報検索装置10は、検索要求を受けた場合には、このインデックスファイル206を検索すれば良く、インデックスファイル206のデータ量は、グループウェアデータベース20aに蓄積されている文書データのデータ量よりも小さいため、グループウェアデータベース20aの各文書データを対象として検索するよりも、速く検索が行える。さらに、利用者などが設定ファイル200によって指定する取得項目を変更すれば、インデックスファイル206に登録されるデータ項目を変更することができるため、検索の用途に合わせてインデックスファイル206を構成しておくことができる。
また、本実施形態にて説明した情報検索装置10は、複数のグループウェア間で汎用的に用いられ得るものである。さらに詳述すると、グループウェア毎に設定ファイル200に記述する取得項目を変更するだけで、グループウェア毎にインデックスファイル206が構築されることになる。また、このような構成により、グループウェア毎にインデックスファイル206を構築すべく設定ファイル200を変更したとしても、変更された設定ファイル200に対応させて情報検索装置10を動作させるべく、本実施形態に係る情報検索のためのプログラムを再度コンパイルする必要がない。
【0039】
<変形例>
上述した実施形態は、あくまでも例示であって、本発明の一態様を示すものであり、本発明の範囲内で任意に変形可能である。そこで、以下に、各種の変形例について説明する。
【0040】
例えば、上述した実施形態では、ネットワーク2にグループウェアサーバ20が1つだけ接続される構成について例示したが、これに限らず、グループウェアサーバ20が複数接続される構成であっても良い。さらに、夫々のグループウェアサーバ20には、互いに異なるグループウェアが導入されていても良い。さらに詳述すると、互いに異なる複数のグループウェアサーバの各々のデータベースを統括的に検索することは、グループウェア毎にデータの管理形式(例えばデータ項目の数や名前など)が異なるため、一般的に困難である。これに対して、本変形例は、検索対象となり得るデータ項目の情報だけをインデックスファイル206のページテーブル206aに登録する構成となっている。従って、情報検索装置10がページテーブル206aを検索することは、複数のグループウェアサーバの各々のデータベースを検索することと同等なことであり、これにより、複数のグループウェアサーバの各々のデータベースの検索が実現される。
【0041】
また、例えば、インデキシング部104は、本文データファイル202に対して形態素解析を行う際に、例えば「PC」、「パーソナルコンピュータ」、「パソコン」といった、互いに同一のものを指す単語を一つの単語として扱っても良い。これにより、例えば、検索語として「パソコン」が検索要求に含まれていた場合でも、「PC」や「パーソナルコンピュータ」といった単語を含む文書データも該当する文書データとして抽出され、検索の精度が向上する。
【0042】
【発明の効果】
本発明によれば、データベースに蓄積されている情報のうち、検索条件に該当する情報を特定するに要する時間を短縮することが可能な情報検索装置、情報検索方法、プログラムおよび記録媒体が提供される。
【図面の簡単な説明】
【図1】 本発明の実施形態に係る情報検索システムの構成を示すブロック図である。
【図2】 情報検索装置の機能的構成を示すブロック図である。
【図3】 同設定ファイルの一例を示す図である。
【図4】 同グループウェアファイルの一例を示す図である。
【図5】 同本文データファイルの一例を示す図である。
【図6】 同情報データファイルの一例を示す図である。
【図7】 同インデックスファイルのデータ構成を示す概念図である。
【図8】 同ページテーブルの一例を示す図である。
【図9】 同単語テーブルの一例を示す図である。
【図10】 同キーワードテーブルの一例を示す図である。
【図11】 情報検索装置によって実行される登録処理の手順を示すフローチャートである。
【図12】 情報検索装置によって実行されるインデックスファイル修正処理の手順を示すフローチャートである。
【符号の説明】
10・・・情報検索装置、10a・・・検索用データベース、20・・・・グループウェアサーバ、20a・・・グループウェアデータベース、30・・・クライアント端末、100・・・設定ファイル解析部、102・・・データ収集部、104・・・インデキシング部、106・・・形態素解析用辞書、108・・・検索要求取得応答部、110・・・検索部、200・・・設定ファイル、206・・・インデックスファイル。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an information search apparatus, an information search method, a program, and a recording medium that search for information in a database.
[0002]
[Prior art]
In companies and the like, for example, a computer network (hereinafter simply referred to as “network”) such as a LAN (Local Area Network) is configured, and work efficiency is improved by sharing various data in the network. Specifically, software (hereinafter referred to as “groupware”) called groupware or collaborative wear is introduced into any of the computers forming the network, whereby this computer (hereinafter referred to as “groupware server”). Can be accessed from each computer (hereinafter referred to as “client terminal”) connected to the network.
[0003]
In addition, the groupware has a function of searching for corresponding document data from the stored document data in response to a request from the client terminal. Accordingly, the user can easily find desired document data from a large amount of document data managed by the groupware server using the client terminal.
[0004]
[Problems to be solved by the invention]
However, when the groupware server searches for document data, it is common to execute search processing for all the document data, and the search time increases in proportion to the number of document data and the capacity of each document data. There is a problem of becoming. In particular, in a call center that responds to inquiries from customers, this problem becomes more serious because the groupware server needs to quickly retrieve and retrieve document data in response to inquiries from customers.
[0005]
The present invention has been made in view of the above-described circumstances, and is an information search apparatus and information capable of reducing the time required to specify information corresponding to a search condition among information stored in a database. An object is to provide a search method, a program, and a recording medium.
[0006]
[Means for Solving the Problems]
In order to achieve the above object, the present invention associates at least text data including a text sentence with identification information of the text data, and combines a plurality of related information related to the text sentence and the plurality of related information. An information search device that searches a database that associates items to be classified with identification information of text data corresponding to the text sentence, and specifies items including weighted words that can be searched among the items. First storage means for storing information; related information acquisition means for acquiring related information classified into the item specified by the item specifying information from the database; and a word specified by the weighted word as the text data Weighted word adding means for extracting the text data and adding the text data; and the text Text extraction means for extracting a text sentence from the data; morpheme analysis means for analyzing the extracted text sentence by dividing it into a plurality of words; and counting the number of times each of the plurality of words appears in the text sentence. A second memory for storing the associated information acquired by the related information acquiring unit, the word, the number of appearances of the word, and the identification information corresponding to the related information in association with each other. A search condition acquisition unit that acquires a search condition in accordance with an item specified by the item specification information; and related information that corresponds to the search condition among the related information stored in the second storage unit And a search means for specifying the identification information corresponding to the related information.
[0007]
In order to achieve the above object, the present invention includes a CPU and a storage device, and associates text data including at least a text sentence with identification information of the text data, and a plurality of text data related to the text sentence. An information search method in an information search apparatus for searching a database that associates the related information, items for classifying the plurality of related information, and identification information of text data corresponding to the text sentence, wherein the CPU Among the items, a first step of storing in the storage device item specifying information that specifies items including weighted words that can be searched, and the CPU is classified into items specified by the item specifying information A second step of acquiring related information from the database; and the CPU is simply designated by the weighted word. Is extracted from the text data and added to the text data, a fourth process in which the CPU extracts a text sentence from the text data, and the CPU extracts the extracted text sentence. A fifth step of dividing and analyzing a plurality of words; a sixth step in which the CPU counts the number of times each of the plurality of words appears in the text sentence; and the CPU acquiring the related information A seventh step of associating and storing the related information acquired by the means, the word, the number of appearances of the word, and the identification information corresponding to the related information in the storage device; An eighth step of acquiring a search condition in accordance with an item designated by the item designation information, and the CPU corresponds to the search condition from the related information stored in the storage device Identify communicating information, providing information search method in an information retrieval apparatus comprising: a ninth step of identifying the identification information corresponding to the relevant information.
[0008]
According to the information search apparatus and the information search method described above, only items that can be searched are extracted in advance from a plurality of items stored in the database, and a search is performed on the extracted items. Therefore, according to the present invention, the time required to specify the corresponding document data is faster than when the search is executed for all items in the database. Further, the user can change the item to be searched only by changing the item specified by the item specifying information.
[0009]
Here, in the information search device, a text extracting means for extracting a text sentence from the text data, and dividing the extracted text sentence into a plurality of words And analyze Morphological analysis means, and appearance frequency counting means that counts the number of times each of the plurality of words appears in the text sentence, the second storage means includes the word and the word Number of appearances Is preferably stored in association with identification information of text data corresponding to the text sentence. According to this configuration, when a word is acquired as a search condition, the identification information of the text data can be specified in the order that includes the word.
[0010]
In order to achieve the above object, the present invention associates text data including at least a text sentence with identification information of the text data, a plurality of related information related to the text sentence, and the plurality of related information. A computer that searches a database that associates items for classifying information with identification information of text data corresponding to the text sentence, and item designation information for designating items including weighted words that can be searched among the items. First storage means for storing, related information acquisition means for acquiring related information classified into the item specified by the item specifying information from the database, and extracting a word specified by the weighted word from the text data Weighted word adding means for adding the text data, the text data A text extraction means for extracting a text sentence, a morpheme analysis means for analyzing the extracted text sentence by dividing it into a plurality of words, an appearance frequency counter for counting the number of times each of the plurality of words appears in the text sentence Means, second storage means for storing the related information acquired by the related information acquisition means, the word, the number of appearances of the word, and the identification information corresponding to the related information, and the item A search condition acquisition unit that acquires a search condition in accordance with an item specified by the specified information, and related information that corresponds to the search condition is identified from the related information stored in the second storage unit, and It may be stored in a computer-readable recording medium in which a program for functioning as search means for specifying the identification information corresponding to related information is recorded. It is a matter of course.
[0011]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0012]
FIG. 1 is a diagram showing a configuration of an information search system according to an embodiment of the present invention. In this figure, the
[0013]
In FIG. 1, the
[0014]
FIG. 2 is a functional block diagram showing the configuration of the
[0015]
The acquisition item specifies which item is to be acquired from the data items managed by the
[0016]
The weighted word in the
[0017]
In FIG. 2, the
[0018]
The
[0019]
Here, the morpheme analysis performed by the
[0020]
FIG. 8 is a diagram illustrating an example of the page table described above. The page table 206a is for managing information indicating an outline of each document data. One record of the page table 206a includes document identification information, server identification information, storage source address, last update date / time information, title information, text information, classification information, total word count information, Each of the software-specific document identification information and the reference level information is included.
[0021]
Here, the document identification information is identification information uniquely assigned by the
[0022]
The classification information is information indicating the classification of the document data. More specifically, for example, when document data is shared by a network in a call center, the classification information indicates whether the document data is a product technical support document or a product manual. Information is recorded. The total word information indicates the total number of words in the text of the document data. The software-specific document identification information indicates unique identification information assigned to document data by the
[0023]
Next, FIG. 9 is a diagram illustrating an example of the above-described word table. The word table 206b is for managing words included in the text of each document data. More specifically, as shown in FIG. 9, in one record of the word table 206b, words, word identification information to which the
[0024]
FIG. 10 is a diagram illustrating an example of the keyword table described above. This keyword table 206c is for managing how many times one word appears for each word included in the text of each document data. Specifically, as shown in FIG. 10, one record of the keyword table 206c includes word identification information included in the word table 206b, document identification information included in the page table 206a, and the number of appearances. And importance. The number of appearances indicates how many times the word appears in the text of the document data specified by the document identification information, and is obtained by morphological analysis performed by the
(Importance) = S × log (N / n)
Here, S is the number of appearances, N is the number of document data stored in the
[0025]
In FIG. 2, the search request
[0026]
Next, the operation of the
Here, a program for defining each processing procedure described below is stored in a recording medium such as a ROM or a magnetic disk provided in the
[0027]
Now, the
[0028]
Next, the
[0029]
Then, the
[0030]
By the way, editing processing such as addition or deletion of document data stored in the
[0031]
That is, as shown in FIG. 12, first, the
[0032]
More specifically, the
[0033]
When the determination result in step Sb2 is determined to have been added (1), the
[0034]
On the other hand, if it is determined in step Sb2 that (2) it has been corrected, the
[0035]
Next, if the determination result in step Sb4 is NO, it means that the process has been executed for all the document data in the
[0036]
As described above, even if the document file information stored in the
[0037]
Upon receiving a search request from the
[0038]
As described above, according to the present embodiment, only information that can serve as a search condition is registered in the
Further, the
[0039]
<Modification>
The above-described embodiment is merely an example, shows one aspect of the present invention, and can be arbitrarily modified within the scope of the present invention. Accordingly, various modifications will be described below.
[0040]
For example, in the above-described embodiment, the configuration in which only one
[0041]
Further, for example, when the morphological analysis is performed on the body data file 202, the
[0042]
【The invention's effect】
According to the present invention, there are provided an information search device, an information search method, a program, and a recording medium that can reduce the time required to specify information that satisfies a search condition among information stored in a database. The
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an information search system according to an embodiment of the present invention.
FIG. 2 is a block diagram showing a functional configuration of the information search apparatus.
FIG. 3 is a diagram showing an example of the setting file.
FIG. 4 is a diagram showing an example of the groupware file.
FIG. 5 is a diagram showing an example of the text data file.
FIG. 6 is a diagram showing an example of the information data file.
FIG. 7 is a conceptual diagram showing a data structure of the index file.
FIG. 8 is a diagram showing an example of the page table.
FIG. 9 is a diagram showing an example of the word table.
FIG. 10 is a diagram showing an example of the keyword table.
FIG. 11 is a flowchart illustrating a procedure of registration processing executed by the information search apparatus.
FIG. 12 is a flowchart showing a procedure of index file correction processing executed by the information search device.
[Explanation of symbols]
DESCRIPTION OF
Claims (5)
前記項目のうち、検索の対象となり得る重み付け単語を含む項目を指定する項目指定情報を記憶する第1の記憶手段と、
前記項目指定情報によって指定された項目に分類される関連情報を前記データベースから取得する関連情報取得手段と、
前記重み付け単語によって指定された単語を前記テキストデータから抽出して前記テキストデータに付加する重み付け単語付加手段と、
前記テキストデータからテキスト文を抽出する本文抽出手段と、
前記抽出されたテキスト文を複数の単語に分割して解析する形態素解析手段と、
前記複数の単語の各々が前記テキスト文に出現する回数を計数する出現頻度計数手段と、
前記関連情報取得手段によって取得された関連情報と、前記単語と当該単語の出現回数と、当該関連情報に対応する前記識別情報とを対応付けて記憶する第2の記憶手段と、
前記項目指定情報によって指定された項目に則した検索条件を取得する検索条件取得手段と、
前記第2の記憶手段に記憶された関連情報の中から、前記検索条件に該当する関連情報を特定し、当該関連情報に対応する前記識別情報を特定する検索手段と、を具備する
ことを特徴とする情報検索装置。The text data including at least the text sentence is associated with the identification information of the text data, the plurality of related information related to the text sentence, the items for classifying the related information, and the text corresponding to the text sentence An information search device for searching a database that associates identification information of data,
First storage means for storing item designation information for designating an item including a weighted word that can be a search target among the items;
Related information acquisition means for acquiring related information classified into the item designated by the item designation information from the database;
Weighting word adding means for extracting a word specified by the weighted word from the text data and adding it to the text data;
Text extraction means for extracting a text sentence from the text data;
Morphological analysis means for dividing and analyzing the extracted text sentence into a plurality of words;
Appearance frequency counting means for counting the number of times each of the plurality of words appears in the text sentence;
Second storage means for storing the related information acquired by the related information acquisition means, the word, the number of appearances of the word, and the identification information corresponding to the related information;
Search condition acquisition means for acquiring a search condition in accordance with an item designated by the item designation information;
Searching means for specifying related information corresponding to the search condition from the related information stored in the second storage means, and specifying the identification information corresponding to the related information. Information retrieval device.
ことを特徴とする請求項1に記載の情報検索装置。The information search device according to claim 1, wherein the weighted word is a search word that serves as a search condition acquired by the search condition acquisition unit.
前記CPUが、前記項目のうち、検索の対象となり得る重み付け単語を含む項目を指定する項目指定情報を前記記憶装置に記憶する第1の過程と、
前記CPUが、前記項目指定情報によって指定された項目に分類される関連情報を前記データベースから取得する第2の過程と、
前記CPUが、前記重み付け単語によって指定された単語を前記テキストデータから抽出して前記テキストデータに付加する第3の過程と、
前記CPUが、前記テキストデータからテキスト文を抽出する第4の過程と、
前記CPUが、前記抽出されたテキスト文を複数の単語に分割して解析する第5の過程と、
前記CPUが、前記複数の単語の各々が前記テキスト文に出現する回数を計数する第6の過程と、
前記CPUが、前記関連情報取得手段によって取得された関連情報と、前記単語と当該単語の出現回数と、当該関連情報に対応する前記識別情報とを対応付けて前記記憶装置に記憶する第7の過程と、
前記CPUが、前記項目指定情報によって指定された項目に則した検索条件を取得する第8の過程と、
前記CPUが、前記記憶装置に記憶された関連情報の中から、前記検索条件に該当する関連情報を特定し、当該関連情報に対応する前記識別情報を特定する第9の過程と、を備える
ことを特徴とする情報検索装置における情報検索方法。An item that has a CPU and a storage device, associates text data including at least a text sentence with identification information of the text data, and classifies the plurality of related information related to the text sentence and the plurality of related information And an information search method in an information search device for searching a database that associates identification information of text data corresponding to the text sentence,
A first step of storing, in the storage device, item designation information for designating an item including a weighted word that can be a search target among the items;
A second process in which the CPU acquires from the database related information classified into items specified by the item specifying information;
A third step in which the CPU extracts a word specified by the weighted word from the text data and adds the extracted word data to the text data;
A fourth process in which the CPU extracts a text sentence from the text data;
A fifth step in which the CPU divides and analyzes the extracted text sentence into a plurality of words;
A sixth step in which the CPU counts the number of times each of the plurality of words appears in the text sentence;
The CPU stores the related information acquired by the related information acquisition unit, the word, the number of appearances of the word, and the identification information corresponding to the related information in association with each other and stored in the storage device Process,
An eighth step in which the CPU acquires a search condition in accordance with an item designated by the item designation information;
The CPU includes the ninth step of identifying the relevant information corresponding to the search condition from the relevant information stored in the storage device and identifying the identification information corresponding to the relevant information. An information search method in an information search apparatus characterized by
前記項目のうち、検索の対象となり得る重み付け単語を含む項目を指定する項目指定情報を記憶する第1の記憶手段、
前記項目指定情報によって指定された項目に分類される関連情報を前記データベースから取得する関連情報取得手段、
前記重み付け単語によって指定された単語を前記テキストデータから抽出して前記テキストデータに付加する重み付け単語付加手段、
前記テキストデータからテキスト文を抽出する本文抽出手段、
前記抽出されたテキスト文を複数の単語に分割して解析する形態素解析手段、
前記複数の単語の各々が前記テキスト文に出現する回数を計数する出現頻度計数手段、
前記関連情報取得手段によって取得された関連情報と、前記単語と当該単語の出現回数と、当該関連情報に対応する前記識別情報とを対応付けて記憶する第2の記憶手段、
前記項目指定情報によって指定された項目に則した検索条件を取得する検索条件取得手段、および
前記第2の記憶手段に記憶された関連情報の中から、前記検索条件に該当する関連情報を特定し、当該関連情報に対応する前記識別情報を特定する検索手段、
として機能させるためのプログラム。The text data including at least the text sentence is associated with the identification information of the text data, the plurality of related information related to the text sentence, the items for classifying the related information, and the text corresponding to the text sentence A computer that searches a database that correlates data identification information,
First storage means for storing item designation information for designating an item including a weighted word that can be a search target among the items;
Related information acquisition means for acquiring related information classified into the item specified by the item specifying information from the database;
A weighted word adding means for extracting a word designated by the weighted word from the text data and adding it to the text data;
Text extraction means for extracting a text sentence from the text data;
Morphological analysis means for analyzing the extracted text sentence by dividing it into a plurality of words,
Appearance frequency counting means for counting the number of times each of the plurality of words appears in the text sentence;
Second storage means for storing the related information acquired by the related information acquisition means, the word, the number of appearances of the word, and the identification information corresponding to the related information;
Search condition acquisition means for acquiring a search condition in accordance with an item specified by the item specification information, and related information corresponding to the search condition is specified from the related information stored in the second storage means. Search means for specifying the identification information corresponding to the related information,
Program to function as.
前記項目のうち、検索の対象となり得る重み付け単語を含む項目を指定する項目指定情報を記憶する第1の記憶手段、
前記項目指定情報によって指定された項目に分類される関連情報を前記データベースから取得する関連情報取得手段、
前記重み付け単語によって指定された単語を前記テキストデータから抽出して前記テキストデータに付加する重み付け単語付加手段、
前記テキストデータからテキスト文を抽出する本文抽出手段、
前記抽出されたテキスト文を複数の単語に分割して解析する形態素解析手段、
前記複数の単語の各々が前記テキスト文に出現する回数を計数する出現頻度計数手段、
前記関連情報取得手段によって取得された関連情報と、前記単語と当該単語の出現回数と、当該関連情報に対応する前記識別情報とを対応付けて記憶する第2の記憶手段と、
前記項目指定情報によって指定された項目に則した検索条件を取得する検索条件取得手段、および
前記第2の記憶手段に記憶された関連情報の中から、前記検索条件に該当する関連情報を特定し、当該関連情報に対応する前記識別情報を特定する検索手段
として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。The text data including at least the text sentence is associated with the identification information of the text data, the plurality of related information related to the text sentence, the items for classifying the related information, and the text corresponding to the text sentence A computer that searches a database that correlates data identification information,
First storage means for storing item designation information for designating an item including a weighted word that can be a search target among the items;
Related information acquisition means for acquiring related information classified into the item specified by the item specifying information from the database;
A weighted word adding means for extracting a word designated by the weighted word from the text data and adding it to the text data;
Text extraction means for extracting a text sentence from the text data;
Morphological analysis means for analyzing the extracted text sentence by dividing it into a plurality of words,
Appearance frequency counting means for counting the number of times each of the plurality of words appears in the text sentence;
Second storage means for storing the related information acquired by the related information acquisition means, the word, the number of appearances of the word, and the identification information corresponding to the related information;
Search condition acquisition means for acquiring a search condition in accordance with an item specified by the item specification information, and related information corresponding to the search condition is specified from the related information stored in the second storage means. A computer-readable recording medium having recorded thereon a program for causing it to function as search means for specifying the identification information corresponding to the related information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002076923A JP3945282B2 (en) | 2002-03-19 | 2002-03-19 | Information search apparatus, information search method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002076923A JP3945282B2 (en) | 2002-03-19 | 2002-03-19 | Information search apparatus, information search method, program, and recording medium |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003281182A JP2003281182A (en) | 2003-10-03 |
JP2003281182A5 JP2003281182A5 (en) | 2005-06-30 |
JP3945282B2 true JP3945282B2 (en) | 2007-07-18 |
Family
ID=29227853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002076923A Expired - Fee Related JP3945282B2 (en) | 2002-03-19 | 2002-03-19 | Information search apparatus, information search method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3945282B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010079613A (en) * | 2008-09-26 | 2010-04-08 | Fujitsu Ltd | Program and device for retrieval of data file |
JP5492814B2 (en) * | 2011-03-28 | 2014-05-14 | デジタルア−ツ株式会社 | SEARCH DEVICE, SEARCH SYSTEM, METHOD, AND PROGRAM |
CN109815240B (en) * | 2019-01-29 | 2022-02-25 | 北京百度网讯科技有限公司 | Method, apparatus, device and storage medium for managing index |
-
2002
- 2002-03-19 JP JP2002076923A patent/JP3945282B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003281182A (en) | 2003-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11853334B2 (en) | Systems and methods for generating and using aggregated search indices and non-aggregated value storage | |
US10073875B2 (en) | System and method of search indexes using key-value attributes to searchable metadata | |
US7788253B2 (en) | Global anchor text processing | |
US7676745B2 (en) | Document segmentation based on visual gaps | |
US12204585B2 (en) | System, method and computer program product for protecting derived metadata when updating records within a search engine | |
US20060041606A1 (en) | Indexing system for a computer file store | |
WO2004072757A2 (en) | Text and attribute searches of data stores that include business object | |
CN111400323A (en) | Data retrieval method, system, device and storage medium | |
US7089233B2 (en) | Method and system for searching for web content | |
US7739743B2 (en) | Information presentation apparatus, and information presentation method and program for use therein | |
JP4769822B2 (en) | Information search service providing server, method and system using page group | |
JP2004178421A (en) | Document search device, document search method, program, and recording medium | |
JP3945282B2 (en) | Information search apparatus, information search method, program, and recording medium | |
JPH10162011A (en) | Information retrieval method, information retrieval system, information retrieval terminal equipment, and information retrieval device | |
JP2011086156A (en) | System and program for tracking of leaked information | |
JP2002312389A (en) | Information retrieving device and information retrieving method | |
JPH04340163A (en) | Keyword retrieval system | |
KR100645711B1 (en) | Server, Method and System for Providing Information Search Service by Using Web Page Segmented into Several Information Blocks | |
JP2006106907A (en) | Structured document management system, method for constructing index, and program | |
JP5063568B2 (en) | Search control apparatus and index creation method for creating an index used for web page search for portable terminals | |
Garg et al. | Longitudinal Sampling of URLs From the Wayback Machine | |
KR20240001769U (en) | User-customized keyword data analysis and information provision system | |
JP2023057658A (en) | Information processing device, method executed by computer to provide information, and program | |
JP2008077673A (en) | Structured document management system | |
JPH09138809A (en) | Whole sentence retrieval method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041020 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061128 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070320 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070402 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110420 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110420 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120420 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130420 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130420 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140420 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |