JP2004206571A

JP2004206571A - 文書情報提示方法及び装置並びにプログラム及び記録媒体

Info

Publication number: JP2004206571A
Application number: JP2002377024A
Authority: JP
Inventors: Masayuki Sugizaki; 正之杉崎; Toshiaki Makino; 俊朗牧野; Akiya Kurishima; 聡哉栗島; Hisashi Ibaraki; 久茨木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-12-26
Filing date: 2002-12-26
Publication date: 2004-07-22

Abstract

【課題】本発明はネットワーク上で文書を検索する場合に利用者が必要としている文章の取得に要する労力を軽減することが可能な文書情報提示方法及び装置並びにプログラム及び記録媒体を提供することを目的とする。
【解決手段】処理対象の文書毎に第１の評価値を割り当てておき、少なくとも１つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出し、複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分し、各グループに含まれる各適合文書の第１の評価値に基づいてグループ毎に第２の評価値を計算し、前記第２の評価値に基づいて、前記適合文書から少なくとも１つの文の情報を抽出してその情報を出力することを特徴とする。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、例えば文書作成支援のために利用可能な文書情報提示方法及び装置並びにプログラム及び記録媒体に関する。
【０００２】
【従来の技術】
例えば、ある題材についてまとまった文章を作成しようとする場合には、参考となる文献や文書を収集し、それらに含まれる文章の内容の一部分を引用したり内容を分析した結果に基づいて自分の文章を作成する場合が多い。
最近では、インターネットや社内ＬＡＮに接続された様々なコンピュータにアクセスして電子化された大量の文書を入手することができる。
【０００３】
このようなネットワーク上で入手可能な文書は量が膨大であり、しかも各々の文書を保持するコンピュータも所在がそれぞれ異なるため、参照すべき文書を探し出すのは非常に難しい。
このような検索を容易にするために、インターネット上においては様々な検索サービスが提供されている。
【０００４】
これらの検索サービスにおいては、一般に、予めツリー状のカテゴリで分類されている文書群を利用者がカテゴリを順に辿ることで表示される文書群を絞り込む方法や、利用者が入力したキーワード（単語）を含む文書群を自動的に検索して表示する方法が実現されている。
このような検索サービスを利用することにより、ネットワーク上で膨大な文書群の中から利用者が必要とする文書に近い文書を絞り込んで検索することができる。
【０００５】
本発明と関連のある従来技術としては、次の非特許文献１が知られている。
【非特許文献１】
（“パターン認識と学習のアルゴリズム”，上坂，尾関，文一総合出版，Ｐ．９１−１０８１９９０）
【０００６】
【発明が解決しようとする課題】
しかしながら、従来の検索サービスでは入力したキーワードを含む文章が含まれている全ての文書群を抽出してそれらのタイトルや内容の一部分などをアクセス数などを反映した優先順位に従って列挙するだけなので、実際に利用者が必要としている文書であるかどうかは、検索結果のそれぞれの文書にアクセスして内容を確認しない限り分からない。
【０００７】
そのため、検索結果として出力された候補文書の数が多い場合には、目的の文書を見つけるまでに長い時間と労力を必要とする。
本発明は、ネットワーク上で文書を検索する場合に、利用者が必要としている文章の取得に要する労力を軽減することが可能な文書情報提示方法及び装置並びにプログラム及び記録媒体を提供することを目的とする。
【０００８】
【課題を解決するための手段】
請求項１は、それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示する文書情報提示方法において、処理対象の文書毎に第１の評価値を割り当てておき、少なくとも１つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出し、複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分し、各グループに含まれる各適合文書の第１の評価値に基づいてグループ毎に第２の評価値を計算し、前記第２の評価値に基づいて、前記適合文書から少なくとも１つの文の情報を抽出してその情報を出力することを特徴とする。
【０００９】
請求項１においては、単語を含む検索対象文字列を指定すると、その条件に適合する文書が適合文書として抽出される。また、抽出された適合文書が複数である場合には、これらの適合文書は文書間の類似性に基づいて複数のグループに区分される。更に、各適合文書に割り当てられた第１の評価値に基づいてグループ毎に第２の評価値が算出される。そして、第２の評価値に基づいて適合文書から少なくとも１つの文の情報が抽出され出力される。
【００１０】
グループ化を行う意図は、獲得できる文の出現回数による有効性を確保することにある。つまり、互いに類似性の高い複数の文書で構成される同じグループ内で、検索条件を含む文の出現回数などを集計することにより、有効性の高い表現などを抽出することができる。
検索条件を含む文を中心としてその前後に存在する文あるいはフレーズの出現回数が多いものについては、一般的に使われている表現あるいは文書のストーリーを表している有効性の高い文章であるとみなすことができる。有効性の高い文章は、利用価値が高く文章を作成する際の参考になる。
【００１１】
グループ化のための類似性の判断については、例えば検索対象文字列に関する肯定型の文書と否定型の文書とを互いに異なるグループに振り分けることが考えられる。これにより、それぞれのグループから互いに内容の異なる文章を取り出すことが可能になる。
また、インターネットなどで収集される文書情報には、噂や口コミのように真実性のない文書も多く含まれている。文書毎に第１の評価値を割り当てておくことにより、真実性の低い不適当な文書が抽出されるのを防止することが可能になる。
【００１２】
また、第１の評価値に基づいてグループ毎に第２の評価値を算出するので、グループ毎の有効性を識別することも可能になる。例えば、多数のグループが形成された場合には、第２の評価値が大きいグループのみを選択して結果を出力すれば、不適当な文書の内容が出力されるのを防止できる。
【００１３】
請求項２は、請求項１の文書情報提示方法において、文書間の類似性を調べる際には、各文書に含まれている各文を単語毎に分離し、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求め、前記類似度に従って適合文書を複数のグループに区分することを特徴とする。
【００１４】
請求項２においては、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求めるので、各文書に含まれている文の内容の違いによってグループの割り当てを変更することが可能になる。
従って、例えば肯定型の文を含む文書と否定型の文を含む文書とを互いに異なるグループに割り当てることも可能である。
【００１５】
請求項３は、請求項１の文書情報提示方法において、前記検索対象文字列を分析してそれに含まれる各単語を抽出し、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求め、前記文単位適合度の高い順番で各グループからそれぞれ少なくとも１つの文を提示文として抽出し、グループ毎に区分して、複数グループについて前記提示文を出力することを特徴とする。
【００１６】
請求項３においては、検索対象文字列を分析してそれに含まれる各単語を抽出するので、複数の単語で構成されるフレーズなどを検索対象文字列として用いることができる。また、各単語だけでなく検索対象文字列全体についての適合性も調べるので、検索対象文字列と完全に一致する文と、検索対象文字列に含まれている各単語を含む文とを文単位適合度において区別することができる。処理の結果は、複数グループのそれぞれについて出力される。
【００１７】
請求項４は、請求項１の文書情報提示方法において、前記検索対象文字列を分析してそれに含まれる各単語を抽出し、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求め、選択された特定のグループについて、前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力することを特徴とする。
【００１８】
請求項４においては、検索対象文字列を分析してそれに含まれる各単語を抽出するので、複数の単語で構成されるフレーズなどを検索対象文字列として用いることができる。また、各単語だけでなく検索対象文字列全体についての適合性も調べるので、検索対象文字列と完全に一致する文と、検索対象文字列に含まれている各単語を含む文とを文単位適合度において区別することができる。
【００１９】
処理の結果は、選択された特定のグループについて文単位適合度の高い順番に並べて出力される。
請求項５は、それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示する文書情報提示装置において、処理対象の文書毎に第１の評価値が割り当てられた場合に、少なくとも１つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出する適合文書抽出手段と、複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分する文書グループ化手段と、各グループに含まれる各適合文書の第１の評価値に基づいてグループ毎に第２の評価値を計算する評価値計算手段と、前記第２の評価値に基づいて、前記適合文書から少なくとも１つの文の情報を抽出してその情報を出力する情報出力制御手段とを設けたことを特徴とする。
【００２０】
請求項５の装置を利用することにより、請求項１の方法と同様の結果が得られる。
請求項６は、請求項５の文書情報提示装置において、前記文書グループ化手段に、文書間の類似性を調べる際に各文書に含まれている各文を単語毎に分離する文書分析手段と、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求める類似度算出手段とを設け、前記類似度に従って適合文書を複数のグループに区分することを特徴とする。
【００２１】
請求項６の装置を利用することにより、請求項２の方法と同様の結果が得られる。
請求項７は、請求項５の文書情報提示装置において、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手段と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手段と、前記文単位適合度の高い順番で各グループからそれぞれ少なくとも１つの文を提示文として抽出する提示文抽出手段とを設け、前記情報出力制御手段は、グループ毎に区分して複数グループについて前記提示文を出力することを特徴とする。
【００２２】
請求項７の装置を利用することにより、請求項３の方法と同様の結果が得られる。
請求項８は、請求項５の文書情報提示装置において、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手段と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手段と、を設け、前記情報出力制御手段は、選択された特定のグループについて前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力することを特徴とする。
【００２３】
請求項８の装置を利用することにより、請求項４の方法と同様の結果が得られる。
請求項９は、それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示するためのコンピュータで実行可能なプログラムにおいて、処理対象の文書毎に第１の評価値が割り当てられた場合に、少なくとも１つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出する適合文書抽出手順と、複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分する文書グループ化手順と、各グループに含まれる各適合文書の第１の評価値に基づいてグループ毎に第２の評価値を計算する評価値計算手順と、前記第２の評価値に基づいて、前記適合文書から少なくとも１つの文の情報を抽出してその情報を出力する情報出力制御手順とを設けたことを特徴とする。
【００２４】
請求項９のプログラムを所定のコンピュータで実行することにより、請求項１の方法と同様の結果が得られる。
請求項１０は、請求項９のプログラムにおいて、前記文書グループ化手順には、文書間の類似性を調べる際に各文書に含まれている各文を単語毎に分離する文書分析手順と、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求める類似度算出手順とを設け、前記類似度に従って適合文書を複数のグループに区分することを特徴とする。
【００２５】
請求項１０のプログラムを所定のコンピュータで実行することにより、請求項２の方法と同様の結果が得られる。
請求項１１は、請求項９のプログラムにおいて、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手順と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手順と、前記文単位適合度の高い順番で各グループからそれぞれ少なくとも１つの文を提示文として抽出する提示文抽出手順とを設け、前記情報出力制御手順では、グループ毎に区分して複数グループについて前記提示文を出力することを特徴とする。
【００２６】
請求項１１のプログラムを所定のコンピュータで実行することにより、請求項３の方法と同様の結果が得られる。
請求項１２は、請求項９のプログラムにおいて、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手順と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手順と、を設け、前記情報出力制御手順では、選択された特定のグループについて前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力することを特徴とする。
【００２７】
請求項１２のプログラムを所定のコンピュータで実行することにより、請求項４の方法と同様の結果が得られる。
請求項１３は、請求項９，請求項１０，請求項１１及び請求項１２の何れかのプログラムを記録した記録媒体である。
請求項１３の記録媒体からプログラムを読み込んで所定のコンピュータで実行することにより、請求項１〜請求項４の方法と同様の結果が得られる。
【００２８】
【発明の実施の形態】
本発明の文書情報提示方法及び装置並びにプログラム及び記録媒体の１つの実施の形態について図１〜図５を参照して説明する。この形態は全ての請求項に対応する。
図１は文書情報提示装置の動作を示すフローチャートである。図２は文書のグループ化処理の具体例を示すフローチャートである。図３は文単位の適合度の算出処理の具体例を示すフローチャートである。図４は文書情報を扱う装置の構成例を示すブロック図である。図５は文書情報提示装置の動作の具体例を示す模式図である。
【００２９】
この形態では、請求項５の適合文書抽出手段，文書グループ化手段，評価値計算手段及び情報出力制御手段は、それぞれステップＳ１４，Ｓ１５，Ｓ１６及びＳ２１（Ｓ２３）に対応する。
また、請求項６の文書分析手段及び類似度算出手段は、それぞれステップＳ３１及びＳ３２に対応する。請求項７の検索対象文字列分析手段，文単位適合度算出手段及び提示文抽出手段は、それぞれステップＳ１３，Ｓ１９及びＳ２１に対応する。請求項８の検索対象文字列分析手段及び文単位適合度算出手段は、それぞれステップＳ１８及びＳ１９に対応する。
【００３０】
この例では、図４に示すような装置を用いる場合を想定している。利用者が使用する文書情報提示装置１０は、パソコンなどを用いて構成できる。この文書情報提示装置１０は、インターネット２０を介して様々なサーバ２１(1)，２１(2)，２１(3)，・・・と接続されており、更にＬＡＮ３０を介してサーバ３１(1)，３１(2)，・・・と接続されている。
【００３１】
従って、文書情報提示装置１０は様々なサーバ２１(1)，２１(2)，２１(3)，・・・のデータベース２２や、サーバ３１(1)，３１(2)，・・・のデータベース３２から様々な文書情報を収集することができる。
処理対象の文書情報としては、例えばＨＴＭＬ形式のファイルのようにテキスト情報が含まれるものを想定している。具体的には、例えば電子化された新聞記事のような情報を用いればよい。
【００３２】
文書情報提示装置１０は、利用者が何らかの文章を作成する際に、参考になる文章の情報を取得するために利用できる。
文書情報提示装置１０の動作の概略は図１に示すとおりである。以下、図１を参照しながら文書情報提示装置１０の動作を説明する。
ステップＳ１０では、文書情報提示装置１０はインターネット２０やＬＡＮ３０を介して各サーバ２１や各サーバ３１から文書の情報を収集し、記憶装置１１に保存する。収集した文書情報が予め記憶装置１１に保持されている場合にはステップＳ１０は不要である。
【００３３】
ステップＳ１１では、収集された多数の文書のそれぞれに文書評価値Ｐｄを割り当てる。各々の文書に割り当てる文書評価値Ｐｄの値については、人間の判断により決定しても良いし、所定のアルゴリズムに基づいてコンピュータで自動的に決定しても良い。
【００３４】
文書評価値Ｐｄの具体例としては、「文書の信頼性」，「参考文献として参照されている数」，「文書の著者の知名度を数値化したもの」などが考えられる。
ステップＳ１２では、文書情報提示装置１０は検索対象文字列Ｋｗを取得する。この検索対象文字列Ｋｗは利用者によって入力されることを想定している。
例えば、利用者がある文書を作成する場合に、その文書の構成の核となる単語や文あるいはフレーズが検索対象文字列Ｋｗとして入力される。図５の例では、「パソコンが普及している」が検索対象文字列Ｋｗとして入力されている。
【００３５】
ステップＳ１３では、文書情報提示装置１０は入力された検索対象文字列Ｋｗに対して形態素解析処理を行い、Ｋｗを構成する単語やその品詞情報及びそれらがどのように並んでいるかを認識する。
ステップＳ１４では、記憶装置１１上に保持されている膨大な文書の集合を検索対象とし、検索対象文字列Ｋｗの全体やそれを構成する単語を含んでいる文を探し出し、その文を含む文書を適合文書Ｄｍとして全て抽出する。
【００３６】
ステップＳ１５では、適合文書Ｄｍの集合を処理対象とし、それらの適合文書Ｄｍを類似性に基づいて複数グループに振り分ける。具体的には、図２に示すような処理を行う。
図２のステップＳ３１では、各々の適合文書Ｄｍに形態素解析を適用して文書毎に複数の単語を抽出する。
【００３７】
ステップＳ３２では、複数の適合文書Ｄｍの間で単語毎の類似性及び単語の並び順の類似性を反映した文単位及び文書単位の類似度を算出する。
例えば、非特許文献１に記載されているＤＰマッチングのアルゴリズムを応用し、「アミノ酸系列の整列化」のアミノ酸１つを単語に置き換え、かつ評価値Ｄ(x,y)を利用して、ｉ番目の文書とｊ番目の文書との類似度ｒｅｌ(i,j)は、次式により求めることができる。
【００３８】
ｒｅｌ(i,j)＝Ｄ(i,j)／（(Ｎｉ)×(Ｎｊ)）
Ｄ(i,j)：(i,j)文書の評価値
Ｎｉ：ｉ番目の文書内の単語数
Ｎｊ：ｊ番目の文書内の単語数
この計算式を用いる場合、文書内の単語及びその並びが一致するほど類似度は大きくなる。
【００３９】
ステップＳ３３では、類似度の高い適合文書同士を同じグループに割り当てる。すなわち、互いに似ている文書同士を同じグループにまとめる。この処理を行う場合には、例えばクラスター分析を適用すればよい。
クラスター分析では、分類対象（この場合は文書や文）を、それらの間に何らかの意味で定義された類似度（similarity）を手がかりにして似たものをあつめ、いくつかの均質なものの集落（クラスター）に分類する。すなわち、類似した情報同士を結び付け、互いに関連のある情報をクラスターと呼ばれるグループに分類する。
【００４０】
クラスター分析のアルゴリズムにおいては、一般に次のような処理が行われる。
（Ｓ１）初期設定：Ｎ個のデータ（ｄ１，ｄ２，・・・，ｄＮ）が存在する場合に各データを要素とする要素数が１のクラスター（Ｃ１，Ｃ２，・・・，ＣＮ）の集合Ｄ＝｛Ｃ１，Ｃ２，・・・，ＣＮ｝を形成する。
（Ｓ２）クラスター集合Ｄを探索し、この中で最も類似したクラスター同士をクラスター組（Ｃｉ，Ｃｊ）として抽出する。
【００４１】
（Ｓ３）クラスターＣｉ，Ｃｊから新たなクラスターＣｋを生成し、Ｃｋをクラスター集合Ｄに加える。
（Ｓ４）クラスター集合ＤからクラスターＣｉ，Ｃｊを削除する。
（Ｓ５）所定の終了条件を満たすまで上記(Ｓ２)〜(Ｓ４)の処理を繰り返す。
終了条件としては、例えば「クラスターの数がｍ個まで」や、前記ステップＳ２で「類似度の値によって類似していると判断されなくなった場合」などが想定される。
【００４２】
新たに作られたクラスターとそれ以外のクラスターとの類似度を計算する場合には、計算コストの関係から、一般的に新たに作られたクラスターから代表的な値を使って計算される。これは「重心法」や「メジアン法」と呼ばれる。
このようなグループ化により、例えば互いの文書間の類似度が所定の閾値以上のもの同士が同じグループに割り当てられる。
【００４３】
図１のステップＳ１６では、各文書に割り当てられた文書評価値Ｐｄに基づいて、グループ毎に評価値Ｐｇを算出する。
例えば、同じグループに割り当てられた全ての適合文書における文書評価値Ｐｄの総和や、同じグループに割り当てられた全ての適合文書における文書評価値Ｐｄの総和の平均値として各グループの評価値Ｐｇを求めることができる。また、評価値Ｐｇを求める際には、各文書の検索条件に対する適合度を加味して計算しても良い。
【００４４】
ステップＳ１７では、各グループの各文書について、検索条件を満たす文を含む段落及びその前後のいくつかの文を候補段落部Ｐａとして抽出する。例えば、検索対象文字列Ｋｗを構成する全ての単語を含んでいる文を中心とし、それを含む段落とその前後１文ずつを候補段落部Ｐａとして抽出すればよい。
ステップＳ１９では、各文書の候補段落部Ｐａから文をそれぞれ抽出し、文単位で検索対象文字列Ｋｗとの適合度Ｐｘを求める。この処理の具体例は図３に示されている。
【００４５】
図３の例では、検索対象文字列Ｋｗの全体が文Ｓｙに含まれている場合には、その文に関する適合度ＰｘにステップＳ４５で１が加算される。また、検索対象文字列Ｋｗを構成する各単語と文Ｓｙを構成する各単語とが一致するたびに、ステップＳ４９で（１／(ｎ＋ｍ)）が適合度Ｐｘに加算される。
【００４６】
すなわち、検索条件と完全に一致している場合は、その文の適合度は高く、一致する単語が減る、あるいは一致する単語が存在するが連続していない場合には、文の適合度が小さくなるように処理する。
図１のステップＳ２０では、文書情報提示装置１０は適合文書から抽出された各文を、グループ毎に分けて適合度Ｐｘの大きい順に並べる。
【００４７】
ステップＳ２１では、各グループから適合度Ｐｘが最大の文を１つずつ抽出し、抽出した文を複数グループについて文書情報提示装置１０の画面上に一覧表示する。この場合、評価値Ｐｇが大きいグループから順に並べて表示する。
ここで、利用者が表示された複数グループの中から何れかのグループを選択すると、ステップＳ２２からＳ２３に進む。そして、文書情報提示装置１０は選択された特定のグループについて、適合度Ｐｘの大きい順に並べて複数の文を一覧表示する。また、利用者が表示された特定の文を選択すると、その文を中心とする段落の全体及びその前後いくつかの文を画面に表示する。
【００４８】
文書情報提示装置１０の動作の具体例について以下に説明する。図１のステップＳ１２で利用者から入力される検索条件は、例えば「パソコンの普及」という単語列（検索対象文字列Ｋｗ）を含む文であったり、「バイオ」と「スーパーコンピュータ」と「研究」という単語を全て含む文であったりする場合が想定される。
【００４９】
また、例えば「２００２年５月に作成された文書」のように検索対象を絞る条件があれば、それも入力される。
このような検索条件に従って、文書情報提示装置１０は図１のステップＳ１４〜Ｓ２３に示すような処理を実行する。
例えば、検索条件が「パソコンの普及」という単語列を含む文書」であれば、「今年はパソコンの普及が進まない（１）」や「近年パソコンの普及が進んでいた（２）」や「パソコンの一般家庭への普及が見込まれる（３）」といった文を含む文書が適合文書としてＳ１４で抽出される。
【００５０】
ステップＳ１５でグループ化を行う場合には、例えば「今年はパソコンの普及が進まない（１）」のような否定型の文書と、「近年パソコンの普及が進んでいた（２）」のような肯定型の文書とを互いに異なるグループに振り分けることが想定される。
この場合、それぞれのグループに属する文書の数を数えれば、否定型の文書の数や否定型の文書の数を知ることができる。
【００５１】
また、文書の単位で数を数えるだけでは、噂や口コミのように真実性のない文書が多い場合に問題になる。そこで、各文書に対して与えられた評価値Ｐｄを使って、文書のグループを評価する。
図１のステップＳ２１やＳ２３においては、評価値や適合度の順に並べて文書情報が表示される。例えば、「近年パソコンの普及が進んでいる（２）」の評価値のほうが「今年はパソコンの普及が進まない（１）」の評価値よりも大きい場合は、（２）が文の候補として最初に出力され、続いて（１）が出力される。また、（２）の表示の際に、その文の前後の文も合わせて表示することで、文章の流れを把握しやすくする。
【００５２】
また、出力結果の全て又は一部分を文書情報提示装置１０の処理対象とすることにより、再帰的に処理を進めることができる。これにより、長い文書が作りやすくなる。また、評価値の低い文あるいは文書を使って文書を作成することも問題はない。
評価値が高い文のグループから、文単位で集計した結果、及び中心となる文を抽出し提示することで、文書作成者は最初に入力した情報を含んだ文、及びその前後の展開の文を入手することが可能となる。
【００５３】
【発明の効果】
以上説明したように、本発明では、文書を作成する際にその核となる単語列や文を入力すると、その条件により近い文を自動的に抽出して提示することができる。また、抽出された文書をグループ化し、その数や評価値を使って優先順位を付けて提示するので、文書作成の支援に効果がある。
【図面の簡単な説明】
【図１】文書情報提示装置の動作を示すフローチャートである。
【図２】文書のグループ化処理の具体例を示すフローチャートである。
【図３】文単位の適合度の算出処理の具体例を示すフローチャートである。
【図４】文書情報を扱う装置の構成例を示すブロック図である。
【図５】文書情報提示装置の動作の具体例を示す模式図である。
【符号の説明】
１０文書情報提示装置
１１記憶装置
２０インターネット
２１サーバ
２２データベース
３０ＬＡＮ
３１サーバ
３２データベース

Claims

それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示する文書情報提示方法において、
処理対象の文書毎に第１の評価値を割り当てておき、
少なくとも１つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出し、
複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分し、
各グループに含まれる各適合文書の第１の評価値に基づいてグループ毎に第２の評価値を計算し、
前記第２の評価値に基づいて、前記適合文書から少なくとも１つの文の情報を抽出してその情報を出力する
ことを特徴とする文書情報提示方法。
請求項１の文書情報提示方法において、文書間の類似性を調べる際には、
各文書に含まれている各文を単語毎に分離し、
文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求め、
前記類似度に従って適合文書を複数のグループに区分する
ことを特徴とする文書情報提示方法。
請求項１の文書情報提示方法において、
前記検索対象文字列を分析してそれに含まれる各単語を抽出し、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求め、
前記文単位適合度の高い順番で各グループからそれぞれ少なくとも１つの文を提示文として抽出し、
グループ毎に区分して、複数グループについて前記提示文を出力する
ことを特徴とする文書情報提示方法。
請求項１の文書情報提示方法において、
前記検索対象文字列を分析してそれに含まれる各単語を抽出し、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求め、
選択された特定のグループについて、前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力する
ことを特徴とする文書情報提示方法。
それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示する文書情報提示装置において、
処理対象の文書毎に第１の評価値が割り当てられた場合に、
少なくとも１つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出する適合文書抽出手段と、
複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分する文書グループ化手段と、
各グループに含まれる各適合文書の第１の評価値に基づいてグループ毎に第２の評価値を計算する評価値計算手段と、
前記第２の評価値に基づいて、前記適合文書から少なくとも１つの文の情報を抽出してその情報を出力する情報出力制御手段と
を設けたことを特徴とする文書情報提示装置。
請求項５の文書情報提示装置において、前記文書グループ化手段に、
文書間の類似性を調べる際に各文書に含まれている各文を単語毎に分離する文書分析手段と、
文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求める類似度算出手段と
を設け、前記類似度に従って適合文書を複数のグループに区分することを特徴とする文書情報提示装置。
請求項５の文書情報提示装置において、
前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手段と、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手段と、
前記文単位適合度の高い順番で各グループからそれぞれ少なくとも１つの文を提示文として抽出する提示文抽出手段と
を設け、前記情報出力制御手段は、グループ毎に区分して複数グループについて前記提示文を出力する
ことを特徴とする文書情報提示装置。
請求項５の文書情報提示装置において、
前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手段と、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手段と、
を設け、前記情報出力制御手段は、選択された特定のグループについて前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力する
ことを特徴とする文書情報提示装置。
それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示するためのコンピュータで実行可能なプログラムにおいて、
処理対象の文書毎に第１の評価値が割り当てられた場合に、
少なくとも１つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出する適合文書抽出手順と、
複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分する文書グループ化手順と、
各グループに含まれる各適合文書の第１の評価値に基づいてグループ毎に第２の評価値を計算する評価値計算手順と、
前記第２の評価値に基づいて、前記適合文書から少なくとも１つの文の情報を抽出してその情報を出力する情報出力制御手順と
を設けたことを特徴とするプログラム。
請求項９のプログラムにおいて、前記文書グループ化手順には、
文書間の類似性を調べる際に各文書に含まれている各文を単語毎に分離する文書分析手順と、
文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求める類似度算出手順と
を設け、前記類似度に従って適合文書を複数のグループに区分することを特徴とするプログラム。
請求項９のプログラムにおいて、
前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手順と、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手順と、
前記文単位適合度の高い順番で各グループからそれぞれ少なくとも１つの文を提示文として抽出する提示文抽出手順と
を設け、前記情報出力制御手順では、グループ毎に区分して複数グループについて前記提示文を出力する
ことを特徴とするプログラム。
請求項９のプログラムにおいて、
前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手順と、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手順と、
を設け、前記情報出力制御手順では、選択された特定のグループについて前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力する
ことを特徴とするプログラム。
請求項９，請求項１０，請求項１１及び請求項１２の何れかのプログラムを記録した記録媒体。