JP2004206571A - 文書情報提示方法及び装置並びにプログラム及び記録媒体 - Google Patents
文書情報提示方法及び装置並びにプログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2004206571A JP2004206571A JP2002377024A JP2002377024A JP2004206571A JP 2004206571 A JP2004206571 A JP 2004206571A JP 2002377024 A JP2002377024 A JP 2002377024A JP 2002377024 A JP2002377024 A JP 2002377024A JP 2004206571 A JP2004206571 A JP 2004206571A
- Authority
- JP
- Japan
- Prior art keywords
- document
- sentence
- documents
- matching
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】本発明はネットワーク上で文書を検索する場合に利用者が必要としている文章の取得に要する労力を軽減することが可能な文書情報提示方法及び装置並びにプログラム及び記録媒体を提供することを目的とする。
【解決手段】処理対象の文書毎に第1の評価値を割り当てておき、少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出し、複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分し、各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算し、前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力することを特徴とする。
【選択図】 図1
【解決手段】処理対象の文書毎に第1の評価値を割り当てておき、少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出し、複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分し、各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算し、前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力することを特徴とする。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、例えば文書作成支援のために利用可能な文書情報提示方法及び装置並びにプログラム及び記録媒体に関する。
【0002】
【従来の技術】
例えば、ある題材についてまとまった文章を作成しようとする場合には、参考となる文献や文書を収集し、それらに含まれる文章の内容の一部分を引用したり内容を分析した結果に基づいて自分の文章を作成する場合が多い。
最近では、インターネットや社内LANに接続された様々なコンピュータにアクセスして電子化された大量の文書を入手することができる。
【0003】
このようなネットワーク上で入手可能な文書は量が膨大であり、しかも各々の文書を保持するコンピュータも所在がそれぞれ異なるため、参照すべき文書を探し出すのは非常に難しい。
このような検索を容易にするために、インターネット上においては様々な検索サービスが提供されている。
【0004】
これらの検索サービスにおいては、一般に、予めツリー状のカテゴリで分類されている文書群を利用者がカテゴリを順に辿ることで表示される文書群を絞り込む方法や、利用者が入力したキーワード(単語)を含む文書群を自動的に検索して表示する方法が実現されている。
このような検索サービスを利用することにより、ネットワーク上で膨大な文書群の中から利用者が必要とする文書に近い文書を絞り込んで検索することができる。
【0005】
本発明と関連のある従来技術としては、次の非特許文献1が知られている。
【非特許文献1】
(“パターン認識と学習のアルゴリズム”,上坂,尾関,文一総合出版,P.91−108 1990)
【0006】
【発明が解決しようとする課題】
しかしながら、従来の検索サービスでは入力したキーワードを含む文章が含まれている全ての文書群を抽出してそれらのタイトルや内容の一部分などをアクセス数などを反映した優先順位に従って列挙するだけなので、実際に利用者が必要としている文書であるかどうかは、検索結果のそれぞれの文書にアクセスして内容を確認しない限り分からない。
【0007】
そのため、検索結果として出力された候補文書の数が多い場合には、目的の文書を見つけるまでに長い時間と労力を必要とする。
本発明は、ネットワーク上で文書を検索する場合に、利用者が必要としている文章の取得に要する労力を軽減することが可能な文書情報提示方法及び装置並びにプログラム及び記録媒体を提供することを目的とする。
【0008】
【課題を解決するための手段】
請求項1は、それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示する文書情報提示方法において、処理対象の文書毎に第1の評価値を割り当てておき、少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出し、複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分し、各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算し、前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力することを特徴とする。
【0009】
請求項1においては、単語を含む検索対象文字列を指定すると、その条件に適合する文書が適合文書として抽出される。また、抽出された適合文書が複数である場合には、これらの適合文書は文書間の類似性に基づいて複数のグループに区分される。更に、各適合文書に割り当てられた第1の評価値に基づいてグループ毎に第2の評価値が算出される。そして、第2の評価値に基づいて適合文書から少なくとも1つの文の情報が抽出され出力される。
【0010】
グループ化を行う意図は、獲得できる文の出現回数による有効性を確保することにある。つまり、互いに類似性の高い複数の文書で構成される同じグループ内で、検索条件を含む文の出現回数などを集計することにより、有効性の高い表現などを抽出することができる。
検索条件を含む文を中心としてその前後に存在する文あるいはフレーズの出現回数が多いものについては、一般的に使われている表現あるいは文書のストーリーを表している有効性の高い文章であるとみなすことができる。有効性の高い文章は、利用価値が高く文章を作成する際の参考になる。
【0011】
グループ化のための類似性の判断については、例えば検索対象文字列に関する肯定型の文書と否定型の文書とを互いに異なるグループに振り分けることが考えられる。これにより、それぞれのグループから互いに内容の異なる文章を取り出すことが可能になる。
また、インターネットなどで収集される文書情報には、噂や口コミのように真実性のない文書も多く含まれている。文書毎に第1の評価値を割り当てておくことにより、真実性の低い不適当な文書が抽出されるのを防止することが可能になる。
【0012】
また、第1の評価値に基づいてグループ毎に第2の評価値を算出するので、グループ毎の有効性を識別することも可能になる。例えば、多数のグループが形成された場合には、第2の評価値が大きいグループのみを選択して結果を出力すれば、不適当な文書の内容が出力されるのを防止できる。
【0013】
請求項2は、請求項1の文書情報提示方法において、文書間の類似性を調べる際には、各文書に含まれている各文を単語毎に分離し、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求め、前記類似度に従って適合文書を複数のグループに区分することを特徴とする。
【0014】
請求項2においては、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求めるので、各文書に含まれている文の内容の違いによってグループの割り当てを変更することが可能になる。
従って、例えば肯定型の文を含む文書と否定型の文を含む文書とを互いに異なるグループに割り当てることも可能である。
【0015】
請求項3は、請求項1の文書情報提示方法において、前記検索対象文字列を分析してそれに含まれる各単語を抽出し、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求め、前記文単位適合度の高い順番で各グループからそれぞれ少なくとも1つの文を提示文として抽出し、グループ毎に区分して、複数グループについて前記提示文を出力することを特徴とする。
【0016】
請求項3においては、検索対象文字列を分析してそれに含まれる各単語を抽出するので、複数の単語で構成されるフレーズなどを検索対象文字列として用いることができる。また、各単語だけでなく検索対象文字列全体についての適合性も調べるので、検索対象文字列と完全に一致する文と、検索対象文字列に含まれている各単語を含む文とを文単位適合度において区別することができる。処理の結果は、複数グループのそれぞれについて出力される。
【0017】
請求項4は、請求項1の文書情報提示方法において、前記検索対象文字列を分析してそれに含まれる各単語を抽出し、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求め、選択された特定のグループについて、前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力することを特徴とする。
【0018】
請求項4においては、検索対象文字列を分析してそれに含まれる各単語を抽出するので、複数の単語で構成されるフレーズなどを検索対象文字列として用いることができる。また、各単語だけでなく検索対象文字列全体についての適合性も調べるので、検索対象文字列と完全に一致する文と、検索対象文字列に含まれている各単語を含む文とを文単位適合度において区別することができる。
【0019】
処理の結果は、選択された特定のグループについて文単位適合度の高い順番に並べて出力される。
請求項5は、それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示する文書情報提示装置において、処理対象の文書毎に第1の評価値が割り当てられた場合に、少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出する適合文書抽出手段と、複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分する文書グループ化手段と、各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算する評価値計算手段と、前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力する情報出力制御手段とを設けたことを特徴とする。
【0020】
請求項5の装置を利用することにより、請求項1の方法と同様の結果が得られる。
請求項6は、請求項5の文書情報提示装置において、前記文書グループ化手段に、文書間の類似性を調べる際に各文書に含まれている各文を単語毎に分離する文書分析手段と、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求める類似度算出手段とを設け、前記類似度に従って適合文書を複数のグループに区分することを特徴とする。
【0021】
請求項6の装置を利用することにより、請求項2の方法と同様の結果が得られる。
請求項7は、請求項5の文書情報提示装置において、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手段と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手段と、前記文単位適合度の高い順番で各グループからそれぞれ少なくとも1つの文を提示文として抽出する提示文抽出手段とを設け、前記情報出力制御手段は、グループ毎に区分して複数グループについて前記提示文を出力することを特徴とする。
【0022】
請求項7の装置を利用することにより、請求項3の方法と同様の結果が得られる。
請求項8は、請求項5の文書情報提示装置において、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手段と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手段と、を設け、前記情報出力制御手段は、選択された特定のグループについて前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力することを特徴とする。
【0023】
請求項8の装置を利用することにより、請求項4の方法と同様の結果が得られる。
請求項9は、それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示するためのコンピュータで実行可能なプログラムにおいて、処理対象の文書毎に第1の評価値が割り当てられた場合に、少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出する適合文書抽出手順と、複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分する文書グループ化手順と、各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算する評価値計算手順と、前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力する情報出力制御手順とを設けたことを特徴とする。
【0024】
請求項9のプログラムを所定のコンピュータで実行することにより、請求項1の方法と同様の結果が得られる。
請求項10は、請求項9のプログラムにおいて、前記文書グループ化手順には、文書間の類似性を調べる際に各文書に含まれている各文を単語毎に分離する文書分析手順と、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求める類似度算出手順とを設け、前記類似度に従って適合文書を複数のグループに区分することを特徴とする。
【0025】
請求項10のプログラムを所定のコンピュータで実行することにより、請求項2の方法と同様の結果が得られる。
請求項11は、請求項9のプログラムにおいて、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手順と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手順と、前記文単位適合度の高い順番で各グループからそれぞれ少なくとも1つの文を提示文として抽出する提示文抽出手順とを設け、前記情報出力制御手順では、グループ毎に区分して複数グループについて前記提示文を出力することを特徴とする。
【0026】
請求項11のプログラムを所定のコンピュータで実行することにより、請求項3の方法と同様の結果が得られる。
請求項12は、請求項9のプログラムにおいて、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手順と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手順と、を設け、前記情報出力制御手順では、選択された特定のグループについて前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力することを特徴とする。
【0027】
請求項12のプログラムを所定のコンピュータで実行することにより、請求項4の方法と同様の結果が得られる。
請求項13は、請求項9,請求項10,請求項11及び請求項12の何れかのプログラムを記録した記録媒体である。
請求項13の記録媒体からプログラムを読み込んで所定のコンピュータで実行することにより、請求項1〜請求項4の方法と同様の結果が得られる。
【0028】
【発明の実施の形態】
本発明の文書情報提示方法及び装置並びにプログラム及び記録媒体の1つの実施の形態について図1〜図5を参照して説明する。この形態は全ての請求項に対応する。
図1は文書情報提示装置の動作を示すフローチャートである。図2は文書のグループ化処理の具体例を示すフローチャートである。図3は文単位の適合度の算出処理の具体例を示すフローチャートである。図4は文書情報を扱う装置の構成例を示すブロック図である。図5は文書情報提示装置の動作の具体例を示す模式図である。
【0029】
この形態では、請求項5の適合文書抽出手段,文書グループ化手段,評価値計算手段及び情報出力制御手段は、それぞれステップS14,S15,S16及びS21(S23)に対応する。
また、請求項6の文書分析手段及び類似度算出手段は、それぞれステップS31及びS32に対応する。請求項7の検索対象文字列分析手段,文単位適合度算出手段及び提示文抽出手段は、それぞれステップS13,S19及びS21に対応する。請求項8の検索対象文字列分析手段及び文単位適合度算出手段は、それぞれステップS18及びS19に対応する。
【0030】
この例では、図4に示すような装置を用いる場合を想定している。利用者が使用する文書情報提示装置10は、パソコンなどを用いて構成できる。この文書情報提示装置10は、インターネット20を介して様々なサーバ21(1),21(2),21(3),・・・と接続されており、更にLAN30を介してサーバ31(1),31(2),・・・と接続されている。
【0031】
従って、文書情報提示装置10は様々なサーバ21(1),21(2),21(3),・・・のデータベース22や、サーバ31(1),31(2),・・・のデータベース32から様々な文書情報を収集することができる。
処理対象の文書情報としては、例えばHTML形式のファイルのようにテキスト情報が含まれるものを想定している。具体的には、例えば電子化された新聞記事のような情報を用いればよい。
【0032】
文書情報提示装置10は、利用者が何らかの文章を作成する際に、参考になる文章の情報を取得するために利用できる。
文書情報提示装置10の動作の概略は図1に示すとおりである。以下、図1を参照しながら文書情報提示装置10の動作を説明する。
ステップS10では、文書情報提示装置10はインターネット20やLAN30を介して各サーバ21や各サーバ31から文書の情報を収集し、記憶装置11に保存する。収集した文書情報が予め記憶装置11に保持されている場合にはステップS10は不要である。
【0033】
ステップS11では、収集された多数の文書のそれぞれに文書評価値Pdを割り当てる。各々の文書に割り当てる文書評価値Pdの値については、人間の判断により決定しても良いし、所定のアルゴリズムに基づいてコンピュータで自動的に決定しても良い。
【0034】
文書評価値Pdの具体例としては、「文書の信頼性」,「参考文献として参照されている数」,「文書の著者の知名度を数値化したもの」などが考えられる。
ステップS12では、文書情報提示装置10は検索対象文字列Kwを取得する。この検索対象文字列Kwは利用者によって入力されることを想定している。
例えば、利用者がある文書を作成する場合に、その文書の構成の核となる単語や文あるいはフレーズが検索対象文字列Kwとして入力される。図5の例では、「パソコンが普及している」が検索対象文字列Kwとして入力されている。
【0035】
ステップS13では、文書情報提示装置10は入力された検索対象文字列Kwに対して形態素解析処理を行い、Kwを構成する単語やその品詞情報及びそれらがどのように並んでいるかを認識する。
ステップS14では、記憶装置11上に保持されている膨大な文書の集合を検索対象とし、検索対象文字列Kwの全体やそれを構成する単語を含んでいる文を探し出し、その文を含む文書を適合文書Dmとして全て抽出する。
【0036】
ステップS15では、適合文書Dmの集合を処理対象とし、それらの適合文書Dmを類似性に基づいて複数グループに振り分ける。具体的には、図2に示すような処理を行う。
図2のステップS31では、各々の適合文書Dmに形態素解析を適用して文書毎に複数の単語を抽出する。
【0037】
ステップS32では、複数の適合文書Dmの間で単語毎の類似性及び単語の並び順の類似性を反映した文単位及び文書単位の類似度を算出する。
例えば、非特許文献1に記載されているDPマッチングのアルゴリズムを応用し、「アミノ酸系列の整列化」のアミノ酸1つを単語に置き換え、かつ評価値D(x,y)を利用して、i番目の文書とj番目の文書との類似度rel(i,j)は、次式により求めることができる。
【0038】
rel(i,j)=D(i,j)/((Ni)×(Nj))
D(i,j):(i,j)文書の評価値
Ni:i番目の文書内の単語数
Nj:j番目の文書内の単語数
この計算式を用いる場合、文書内の単語及びその並びが一致するほど類似度は大きくなる。
【0039】
ステップS33では、類似度の高い適合文書同士を同じグループに割り当てる。すなわち、互いに似ている文書同士を同じグループにまとめる。この処理を行う場合には、例えばクラスター分析を適用すればよい。
クラスター分析では、分類対象(この場合は文書や文)を、それらの間に何らかの意味で定義された類似度(similarity)を手がかりにして似たものをあつめ、いくつかの均質なものの集落(クラスター)に分類する。すなわち、類似した情報同士を結び付け、互いに関連のある情報をクラスターと呼ばれるグループに分類する。
【0040】
クラスター分析のアルゴリズムにおいては、一般に次のような処理が行われる。
(S1)初期設定:N個のデータ(d1,d2,・・・,dN)が存在する場合に各データを要素とする要素数が1のクラスター(C1,C2,・・・,CN)の集合D={C1,C2,・・・,CN}を形成する。
(S2)クラスター集合Dを探索し、この中で最も類似したクラスター同士をクラスター組(Ci,Cj)として抽出する。
【0041】
(S3)クラスターCi,Cjから新たなクラスターCkを生成し、Ckをクラスター集合Dに加える。
(S4)クラスター集合DからクラスターCi,Cjを削除する。
(S5)所定の終了条件を満たすまで上記(S2)〜(S4)の処理を繰り返す。
終了条件としては、例えば「クラスターの数がm個まで」や、前記ステップS2で「類似度の値によって類似していると判断されなくなった場合」などが想定される。
【0042】
新たに作られたクラスターとそれ以外のクラスターとの類似度を計算する場合には、計算コストの関係から、一般的に新たに作られたクラスターから代表的な値を使って計算される。これは「重心法」や「メジアン法」と呼ばれる。
このようなグループ化により、例えば互いの文書間の類似度が所定の閾値以上のもの同士が同じグループに割り当てられる。
【0043】
図1のステップS16では、各文書に割り当てられた文書評価値Pdに基づいて、グループ毎に評価値Pgを算出する。
例えば、同じグループに割り当てられた全ての適合文書における文書評価値Pdの総和や、同じグループに割り当てられた全ての適合文書における文書評価値Pdの総和の平均値として各グループの評価値Pgを求めることができる。また、評価値Pgを求める際には、各文書の検索条件に対する適合度を加味して計算しても良い。
【0044】
ステップS17では、各グループの各文書について、検索条件を満たす文を含む段落及びその前後のいくつかの文を候補段落部Paとして抽出する。例えば、検索対象文字列Kwを構成する全ての単語を含んでいる文を中心とし、それを含む段落とその前後1文ずつを候補段落部Paとして抽出すればよい。
ステップS19では、各文書の候補段落部Paから文をそれぞれ抽出し、文単位で検索対象文字列Kwとの適合度Pxを求める。この処理の具体例は図3に示されている。
【0045】
図3の例では、検索対象文字列Kwの全体が文Syに含まれている場合には、その文に関する適合度PxにステップS45で1が加算される。また、検索対象文字列Kwを構成する各単語と文Syを構成する各単語とが一致するたびに、ステップS49で(1/(n+m))が適合度Pxに加算される。
【0046】
すなわち、検索条件と完全に一致している場合は、その文の適合度は高く、一致する単語が減る、あるいは一致する単語が存在するが連続していない場合には、文の適合度が小さくなるように処理する。
図1のステップS20では、文書情報提示装置10は適合文書から抽出された各文を、グループ毎に分けて適合度Pxの大きい順に並べる。
【0047】
ステップS21では、各グループから適合度Pxが最大の文を1つずつ抽出し、抽出した文を複数グループについて文書情報提示装置10の画面上に一覧表示する。この場合、評価値Pgが大きいグループから順に並べて表示する。
ここで、利用者が表示された複数グループの中から何れかのグループを選択すると、ステップS22からS23に進む。そして、文書情報提示装置10は選択された特定のグループについて、適合度Pxの大きい順に並べて複数の文を一覧表示する。また、利用者が表示された特定の文を選択すると、その文を中心とする段落の全体及びその前後いくつかの文を画面に表示する。
【0048】
文書情報提示装置10の動作の具体例について以下に説明する。図1のステップS12で利用者から入力される検索条件は、例えば「パソコンの普及」という単語列(検索対象文字列Kw)を含む文であったり、「バイオ」と「スーパーコンピュータ」と「研究」という単語を全て含む文であったりする場合が想定される。
【0049】
また、例えば「2002年5月に作成された文書」のように検索対象を絞る条件があれば、それも入力される。
このような検索条件に従って、文書情報提示装置10は図1のステップS14〜S23に示すような処理を実行する。
例えば、検索条件が「パソコンの普及」という単語列を含む文書」であれば、「今年はパソコンの普及が進まない(1)」や「近年パソコンの普及が進んでいた(2)」や「パソコンの一般家庭への普及が見込まれる(3)」といった文を含む文書が適合文書としてS14で抽出される。
【0050】
ステップS15でグループ化を行う場合には、例えば「今年はパソコンの普及が進まない(1)」のような否定型の文書と、「近年パソコンの普及が進んでいた(2)」のような肯定型の文書とを互いに異なるグループに振り分けることが想定される。
この場合、それぞれのグループに属する文書の数を数えれば、否定型の文書の数や否定型の文書の数を知ることができる。
【0051】
また、文書の単位で数を数えるだけでは、噂や口コミのように真実性のない文書が多い場合に問題になる。そこで、各文書に対して与えられた評価値Pdを使って、文書のグループを評価する。
図1のステップS21やS23においては、評価値や適合度の順に並べて文書情報が表示される。例えば、「近年パソコンの普及が進んでいる(2)」の評価値のほうが「今年はパソコンの普及が進まない(1)」の評価値よりも大きい場合は、(2)が文の候補として最初に出力され、続いて(1)が出力される。また、(2)の表示の際に、その文の前後の文も合わせて表示することで、文章の流れを把握しやすくする。
【0052】
また、出力結果の全て又は一部分を文書情報提示装置10の処理対象とすることにより、再帰的に処理を進めることができる。これにより、長い文書が作りやすくなる。また、評価値の低い文あるいは文書を使って文書を作成することも問題はない。
評価値が高い文のグループから、文単位で集計した結果、及び中心となる文を抽出し提示することで、文書作成者は最初に入力した情報を含んだ文、及びその前後の展開の文を入手することが可能となる。
【0053】
【発明の効果】
以上説明したように、本発明では、文書を作成する際にその核となる単語列や文を入力すると、その条件により近い文を自動的に抽出して提示することができる。また、抽出された文書をグループ化し、その数や評価値を使って優先順位を付けて提示するので、文書作成の支援に効果がある。
【図面の簡単な説明】
【図1】文書情報提示装置の動作を示すフローチャートである。
【図2】文書のグループ化処理の具体例を示すフローチャートである。
【図3】文単位の適合度の算出処理の具体例を示すフローチャートである。
【図4】文書情報を扱う装置の構成例を示すブロック図である。
【図5】文書情報提示装置の動作の具体例を示す模式図である。
【符号の説明】
10 文書情報提示装置
11 記憶装置
20 インターネット
21 サーバ
22 データベース
30 LAN
31 サーバ
32 データベース
【発明の属する技術分野】
本発明は、例えば文書作成支援のために利用可能な文書情報提示方法及び装置並びにプログラム及び記録媒体に関する。
【0002】
【従来の技術】
例えば、ある題材についてまとまった文章を作成しようとする場合には、参考となる文献や文書を収集し、それらに含まれる文章の内容の一部分を引用したり内容を分析した結果に基づいて自分の文章を作成する場合が多い。
最近では、インターネットや社内LANに接続された様々なコンピュータにアクセスして電子化された大量の文書を入手することができる。
【0003】
このようなネットワーク上で入手可能な文書は量が膨大であり、しかも各々の文書を保持するコンピュータも所在がそれぞれ異なるため、参照すべき文書を探し出すのは非常に難しい。
このような検索を容易にするために、インターネット上においては様々な検索サービスが提供されている。
【0004】
これらの検索サービスにおいては、一般に、予めツリー状のカテゴリで分類されている文書群を利用者がカテゴリを順に辿ることで表示される文書群を絞り込む方法や、利用者が入力したキーワード(単語)を含む文書群を自動的に検索して表示する方法が実現されている。
このような検索サービスを利用することにより、ネットワーク上で膨大な文書群の中から利用者が必要とする文書に近い文書を絞り込んで検索することができる。
【0005】
本発明と関連のある従来技術としては、次の非特許文献1が知られている。
【非特許文献1】
(“パターン認識と学習のアルゴリズム”,上坂,尾関,文一総合出版,P.91−108 1990)
【0006】
【発明が解決しようとする課題】
しかしながら、従来の検索サービスでは入力したキーワードを含む文章が含まれている全ての文書群を抽出してそれらのタイトルや内容の一部分などをアクセス数などを反映した優先順位に従って列挙するだけなので、実際に利用者が必要としている文書であるかどうかは、検索結果のそれぞれの文書にアクセスして内容を確認しない限り分からない。
【0007】
そのため、検索結果として出力された候補文書の数が多い場合には、目的の文書を見つけるまでに長い時間と労力を必要とする。
本発明は、ネットワーク上で文書を検索する場合に、利用者が必要としている文章の取得に要する労力を軽減することが可能な文書情報提示方法及び装置並びにプログラム及び記録媒体を提供することを目的とする。
【0008】
【課題を解決するための手段】
請求項1は、それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示する文書情報提示方法において、処理対象の文書毎に第1の評価値を割り当てておき、少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出し、複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分し、各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算し、前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力することを特徴とする。
【0009】
請求項1においては、単語を含む検索対象文字列を指定すると、その条件に適合する文書が適合文書として抽出される。また、抽出された適合文書が複数である場合には、これらの適合文書は文書間の類似性に基づいて複数のグループに区分される。更に、各適合文書に割り当てられた第1の評価値に基づいてグループ毎に第2の評価値が算出される。そして、第2の評価値に基づいて適合文書から少なくとも1つの文の情報が抽出され出力される。
【0010】
グループ化を行う意図は、獲得できる文の出現回数による有効性を確保することにある。つまり、互いに類似性の高い複数の文書で構成される同じグループ内で、検索条件を含む文の出現回数などを集計することにより、有効性の高い表現などを抽出することができる。
検索条件を含む文を中心としてその前後に存在する文あるいはフレーズの出現回数が多いものについては、一般的に使われている表現あるいは文書のストーリーを表している有効性の高い文章であるとみなすことができる。有効性の高い文章は、利用価値が高く文章を作成する際の参考になる。
【0011】
グループ化のための類似性の判断については、例えば検索対象文字列に関する肯定型の文書と否定型の文書とを互いに異なるグループに振り分けることが考えられる。これにより、それぞれのグループから互いに内容の異なる文章を取り出すことが可能になる。
また、インターネットなどで収集される文書情報には、噂や口コミのように真実性のない文書も多く含まれている。文書毎に第1の評価値を割り当てておくことにより、真実性の低い不適当な文書が抽出されるのを防止することが可能になる。
【0012】
また、第1の評価値に基づいてグループ毎に第2の評価値を算出するので、グループ毎の有効性を識別することも可能になる。例えば、多数のグループが形成された場合には、第2の評価値が大きいグループのみを選択して結果を出力すれば、不適当な文書の内容が出力されるのを防止できる。
【0013】
請求項2は、請求項1の文書情報提示方法において、文書間の類似性を調べる際には、各文書に含まれている各文を単語毎に分離し、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求め、前記類似度に従って適合文書を複数のグループに区分することを特徴とする。
【0014】
請求項2においては、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求めるので、各文書に含まれている文の内容の違いによってグループの割り当てを変更することが可能になる。
従って、例えば肯定型の文を含む文書と否定型の文を含む文書とを互いに異なるグループに割り当てることも可能である。
【0015】
請求項3は、請求項1の文書情報提示方法において、前記検索対象文字列を分析してそれに含まれる各単語を抽出し、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求め、前記文単位適合度の高い順番で各グループからそれぞれ少なくとも1つの文を提示文として抽出し、グループ毎に区分して、複数グループについて前記提示文を出力することを特徴とする。
【0016】
請求項3においては、検索対象文字列を分析してそれに含まれる各単語を抽出するので、複数の単語で構成されるフレーズなどを検索対象文字列として用いることができる。また、各単語だけでなく検索対象文字列全体についての適合性も調べるので、検索対象文字列と完全に一致する文と、検索対象文字列に含まれている各単語を含む文とを文単位適合度において区別することができる。処理の結果は、複数グループのそれぞれについて出力される。
【0017】
請求項4は、請求項1の文書情報提示方法において、前記検索対象文字列を分析してそれに含まれる各単語を抽出し、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求め、選択された特定のグループについて、前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力することを特徴とする。
【0018】
請求項4においては、検索対象文字列を分析してそれに含まれる各単語を抽出するので、複数の単語で構成されるフレーズなどを検索対象文字列として用いることができる。また、各単語だけでなく検索対象文字列全体についての適合性も調べるので、検索対象文字列と完全に一致する文と、検索対象文字列に含まれている各単語を含む文とを文単位適合度において区別することができる。
【0019】
処理の結果は、選択された特定のグループについて文単位適合度の高い順番に並べて出力される。
請求項5は、それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示する文書情報提示装置において、処理対象の文書毎に第1の評価値が割り当てられた場合に、少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出する適合文書抽出手段と、複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分する文書グループ化手段と、各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算する評価値計算手段と、前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力する情報出力制御手段とを設けたことを特徴とする。
【0020】
請求項5の装置を利用することにより、請求項1の方法と同様の結果が得られる。
請求項6は、請求項5の文書情報提示装置において、前記文書グループ化手段に、文書間の類似性を調べる際に各文書に含まれている各文を単語毎に分離する文書分析手段と、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求める類似度算出手段とを設け、前記類似度に従って適合文書を複数のグループに区分することを特徴とする。
【0021】
請求項6の装置を利用することにより、請求項2の方法と同様の結果が得られる。
請求項7は、請求項5の文書情報提示装置において、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手段と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手段と、前記文単位適合度の高い順番で各グループからそれぞれ少なくとも1つの文を提示文として抽出する提示文抽出手段とを設け、前記情報出力制御手段は、グループ毎に区分して複数グループについて前記提示文を出力することを特徴とする。
【0022】
請求項7の装置を利用することにより、請求項3の方法と同様の結果が得られる。
請求項8は、請求項5の文書情報提示装置において、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手段と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手段と、を設け、前記情報出力制御手段は、選択された特定のグループについて前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力することを特徴とする。
【0023】
請求項8の装置を利用することにより、請求項4の方法と同様の結果が得られる。
請求項9は、それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示するためのコンピュータで実行可能なプログラムにおいて、処理対象の文書毎に第1の評価値が割り当てられた場合に、少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出する適合文書抽出手順と、複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分する文書グループ化手順と、各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算する評価値計算手順と、前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力する情報出力制御手順とを設けたことを特徴とする。
【0024】
請求項9のプログラムを所定のコンピュータで実行することにより、請求項1の方法と同様の結果が得られる。
請求項10は、請求項9のプログラムにおいて、前記文書グループ化手順には、文書間の類似性を調べる際に各文書に含まれている各文を単語毎に分離する文書分析手順と、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求める類似度算出手順とを設け、前記類似度に従って適合文書を複数のグループに区分することを特徴とする。
【0025】
請求項10のプログラムを所定のコンピュータで実行することにより、請求項2の方法と同様の結果が得られる。
請求項11は、請求項9のプログラムにおいて、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手順と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手順と、前記文単位適合度の高い順番で各グループからそれぞれ少なくとも1つの文を提示文として抽出する提示文抽出手順とを設け、前記情報出力制御手順では、グループ毎に区分して複数グループについて前記提示文を出力することを特徴とする。
【0026】
請求項11のプログラムを所定のコンピュータで実行することにより、請求項3の方法と同様の結果が得られる。
請求項12は、請求項9のプログラムにおいて、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手順と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手順と、を設け、前記情報出力制御手順では、選択された特定のグループについて前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力することを特徴とする。
【0027】
請求項12のプログラムを所定のコンピュータで実行することにより、請求項4の方法と同様の結果が得られる。
請求項13は、請求項9,請求項10,請求項11及び請求項12の何れかのプログラムを記録した記録媒体である。
請求項13の記録媒体からプログラムを読み込んで所定のコンピュータで実行することにより、請求項1〜請求項4の方法と同様の結果が得られる。
【0028】
【発明の実施の形態】
本発明の文書情報提示方法及び装置並びにプログラム及び記録媒体の1つの実施の形態について図1〜図5を参照して説明する。この形態は全ての請求項に対応する。
図1は文書情報提示装置の動作を示すフローチャートである。図2は文書のグループ化処理の具体例を示すフローチャートである。図3は文単位の適合度の算出処理の具体例を示すフローチャートである。図4は文書情報を扱う装置の構成例を示すブロック図である。図5は文書情報提示装置の動作の具体例を示す模式図である。
【0029】
この形態では、請求項5の適合文書抽出手段,文書グループ化手段,評価値計算手段及び情報出力制御手段は、それぞれステップS14,S15,S16及びS21(S23)に対応する。
また、請求項6の文書分析手段及び類似度算出手段は、それぞれステップS31及びS32に対応する。請求項7の検索対象文字列分析手段,文単位適合度算出手段及び提示文抽出手段は、それぞれステップS13,S19及びS21に対応する。請求項8の検索対象文字列分析手段及び文単位適合度算出手段は、それぞれステップS18及びS19に対応する。
【0030】
この例では、図4に示すような装置を用いる場合を想定している。利用者が使用する文書情報提示装置10は、パソコンなどを用いて構成できる。この文書情報提示装置10は、インターネット20を介して様々なサーバ21(1),21(2),21(3),・・・と接続されており、更にLAN30を介してサーバ31(1),31(2),・・・と接続されている。
【0031】
従って、文書情報提示装置10は様々なサーバ21(1),21(2),21(3),・・・のデータベース22や、サーバ31(1),31(2),・・・のデータベース32から様々な文書情報を収集することができる。
処理対象の文書情報としては、例えばHTML形式のファイルのようにテキスト情報が含まれるものを想定している。具体的には、例えば電子化された新聞記事のような情報を用いればよい。
【0032】
文書情報提示装置10は、利用者が何らかの文章を作成する際に、参考になる文章の情報を取得するために利用できる。
文書情報提示装置10の動作の概略は図1に示すとおりである。以下、図1を参照しながら文書情報提示装置10の動作を説明する。
ステップS10では、文書情報提示装置10はインターネット20やLAN30を介して各サーバ21や各サーバ31から文書の情報を収集し、記憶装置11に保存する。収集した文書情報が予め記憶装置11に保持されている場合にはステップS10は不要である。
【0033】
ステップS11では、収集された多数の文書のそれぞれに文書評価値Pdを割り当てる。各々の文書に割り当てる文書評価値Pdの値については、人間の判断により決定しても良いし、所定のアルゴリズムに基づいてコンピュータで自動的に決定しても良い。
【0034】
文書評価値Pdの具体例としては、「文書の信頼性」,「参考文献として参照されている数」,「文書の著者の知名度を数値化したもの」などが考えられる。
ステップS12では、文書情報提示装置10は検索対象文字列Kwを取得する。この検索対象文字列Kwは利用者によって入力されることを想定している。
例えば、利用者がある文書を作成する場合に、その文書の構成の核となる単語や文あるいはフレーズが検索対象文字列Kwとして入力される。図5の例では、「パソコンが普及している」が検索対象文字列Kwとして入力されている。
【0035】
ステップS13では、文書情報提示装置10は入力された検索対象文字列Kwに対して形態素解析処理を行い、Kwを構成する単語やその品詞情報及びそれらがどのように並んでいるかを認識する。
ステップS14では、記憶装置11上に保持されている膨大な文書の集合を検索対象とし、検索対象文字列Kwの全体やそれを構成する単語を含んでいる文を探し出し、その文を含む文書を適合文書Dmとして全て抽出する。
【0036】
ステップS15では、適合文書Dmの集合を処理対象とし、それらの適合文書Dmを類似性に基づいて複数グループに振り分ける。具体的には、図2に示すような処理を行う。
図2のステップS31では、各々の適合文書Dmに形態素解析を適用して文書毎に複数の単語を抽出する。
【0037】
ステップS32では、複数の適合文書Dmの間で単語毎の類似性及び単語の並び順の類似性を反映した文単位及び文書単位の類似度を算出する。
例えば、非特許文献1に記載されているDPマッチングのアルゴリズムを応用し、「アミノ酸系列の整列化」のアミノ酸1つを単語に置き換え、かつ評価値D(x,y)を利用して、i番目の文書とj番目の文書との類似度rel(i,j)は、次式により求めることができる。
【0038】
rel(i,j)=D(i,j)/((Ni)×(Nj))
D(i,j):(i,j)文書の評価値
Ni:i番目の文書内の単語数
Nj:j番目の文書内の単語数
この計算式を用いる場合、文書内の単語及びその並びが一致するほど類似度は大きくなる。
【0039】
ステップS33では、類似度の高い適合文書同士を同じグループに割り当てる。すなわち、互いに似ている文書同士を同じグループにまとめる。この処理を行う場合には、例えばクラスター分析を適用すればよい。
クラスター分析では、分類対象(この場合は文書や文)を、それらの間に何らかの意味で定義された類似度(similarity)を手がかりにして似たものをあつめ、いくつかの均質なものの集落(クラスター)に分類する。すなわち、類似した情報同士を結び付け、互いに関連のある情報をクラスターと呼ばれるグループに分類する。
【0040】
クラスター分析のアルゴリズムにおいては、一般に次のような処理が行われる。
(S1)初期設定:N個のデータ(d1,d2,・・・,dN)が存在する場合に各データを要素とする要素数が1のクラスター(C1,C2,・・・,CN)の集合D={C1,C2,・・・,CN}を形成する。
(S2)クラスター集合Dを探索し、この中で最も類似したクラスター同士をクラスター組(Ci,Cj)として抽出する。
【0041】
(S3)クラスターCi,Cjから新たなクラスターCkを生成し、Ckをクラスター集合Dに加える。
(S4)クラスター集合DからクラスターCi,Cjを削除する。
(S5)所定の終了条件を満たすまで上記(S2)〜(S4)の処理を繰り返す。
終了条件としては、例えば「クラスターの数がm個まで」や、前記ステップS2で「類似度の値によって類似していると判断されなくなった場合」などが想定される。
【0042】
新たに作られたクラスターとそれ以外のクラスターとの類似度を計算する場合には、計算コストの関係から、一般的に新たに作られたクラスターから代表的な値を使って計算される。これは「重心法」や「メジアン法」と呼ばれる。
このようなグループ化により、例えば互いの文書間の類似度が所定の閾値以上のもの同士が同じグループに割り当てられる。
【0043】
図1のステップS16では、各文書に割り当てられた文書評価値Pdに基づいて、グループ毎に評価値Pgを算出する。
例えば、同じグループに割り当てられた全ての適合文書における文書評価値Pdの総和や、同じグループに割り当てられた全ての適合文書における文書評価値Pdの総和の平均値として各グループの評価値Pgを求めることができる。また、評価値Pgを求める際には、各文書の検索条件に対する適合度を加味して計算しても良い。
【0044】
ステップS17では、各グループの各文書について、検索条件を満たす文を含む段落及びその前後のいくつかの文を候補段落部Paとして抽出する。例えば、検索対象文字列Kwを構成する全ての単語を含んでいる文を中心とし、それを含む段落とその前後1文ずつを候補段落部Paとして抽出すればよい。
ステップS19では、各文書の候補段落部Paから文をそれぞれ抽出し、文単位で検索対象文字列Kwとの適合度Pxを求める。この処理の具体例は図3に示されている。
【0045】
図3の例では、検索対象文字列Kwの全体が文Syに含まれている場合には、その文に関する適合度PxにステップS45で1が加算される。また、検索対象文字列Kwを構成する各単語と文Syを構成する各単語とが一致するたびに、ステップS49で(1/(n+m))が適合度Pxに加算される。
【0046】
すなわち、検索条件と完全に一致している場合は、その文の適合度は高く、一致する単語が減る、あるいは一致する単語が存在するが連続していない場合には、文の適合度が小さくなるように処理する。
図1のステップS20では、文書情報提示装置10は適合文書から抽出された各文を、グループ毎に分けて適合度Pxの大きい順に並べる。
【0047】
ステップS21では、各グループから適合度Pxが最大の文を1つずつ抽出し、抽出した文を複数グループについて文書情報提示装置10の画面上に一覧表示する。この場合、評価値Pgが大きいグループから順に並べて表示する。
ここで、利用者が表示された複数グループの中から何れかのグループを選択すると、ステップS22からS23に進む。そして、文書情報提示装置10は選択された特定のグループについて、適合度Pxの大きい順に並べて複数の文を一覧表示する。また、利用者が表示された特定の文を選択すると、その文を中心とする段落の全体及びその前後いくつかの文を画面に表示する。
【0048】
文書情報提示装置10の動作の具体例について以下に説明する。図1のステップS12で利用者から入力される検索条件は、例えば「パソコンの普及」という単語列(検索対象文字列Kw)を含む文であったり、「バイオ」と「スーパーコンピュータ」と「研究」という単語を全て含む文であったりする場合が想定される。
【0049】
また、例えば「2002年5月に作成された文書」のように検索対象を絞る条件があれば、それも入力される。
このような検索条件に従って、文書情報提示装置10は図1のステップS14〜S23に示すような処理を実行する。
例えば、検索条件が「パソコンの普及」という単語列を含む文書」であれば、「今年はパソコンの普及が進まない(1)」や「近年パソコンの普及が進んでいた(2)」や「パソコンの一般家庭への普及が見込まれる(3)」といった文を含む文書が適合文書としてS14で抽出される。
【0050】
ステップS15でグループ化を行う場合には、例えば「今年はパソコンの普及が進まない(1)」のような否定型の文書と、「近年パソコンの普及が進んでいた(2)」のような肯定型の文書とを互いに異なるグループに振り分けることが想定される。
この場合、それぞれのグループに属する文書の数を数えれば、否定型の文書の数や否定型の文書の数を知ることができる。
【0051】
また、文書の単位で数を数えるだけでは、噂や口コミのように真実性のない文書が多い場合に問題になる。そこで、各文書に対して与えられた評価値Pdを使って、文書のグループを評価する。
図1のステップS21やS23においては、評価値や適合度の順に並べて文書情報が表示される。例えば、「近年パソコンの普及が進んでいる(2)」の評価値のほうが「今年はパソコンの普及が進まない(1)」の評価値よりも大きい場合は、(2)が文の候補として最初に出力され、続いて(1)が出力される。また、(2)の表示の際に、その文の前後の文も合わせて表示することで、文章の流れを把握しやすくする。
【0052】
また、出力結果の全て又は一部分を文書情報提示装置10の処理対象とすることにより、再帰的に処理を進めることができる。これにより、長い文書が作りやすくなる。また、評価値の低い文あるいは文書を使って文書を作成することも問題はない。
評価値が高い文のグループから、文単位で集計した結果、及び中心となる文を抽出し提示することで、文書作成者は最初に入力した情報を含んだ文、及びその前後の展開の文を入手することが可能となる。
【0053】
【発明の効果】
以上説明したように、本発明では、文書を作成する際にその核となる単語列や文を入力すると、その条件により近い文を自動的に抽出して提示することができる。また、抽出された文書をグループ化し、その数や評価値を使って優先順位を付けて提示するので、文書作成の支援に効果がある。
【図面の簡単な説明】
【図1】文書情報提示装置の動作を示すフローチャートである。
【図2】文書のグループ化処理の具体例を示すフローチャートである。
【図3】文単位の適合度の算出処理の具体例を示すフローチャートである。
【図4】文書情報を扱う装置の構成例を示すブロック図である。
【図5】文書情報提示装置の動作の具体例を示す模式図である。
【符号の説明】
10 文書情報提示装置
11 記憶装置
20 インターネット
21 サーバ
22 データベース
30 LAN
31 サーバ
32 データベース
Claims (13)
- それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示する文書情報提示方法において、
処理対象の文書毎に第1の評価値を割り当てておき、
少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出し、
複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分し、
各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算し、
前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力する
ことを特徴とする文書情報提示方法。 - 請求項1の文書情報提示方法において、文書間の類似性を調べる際には、
各文書に含まれている各文を単語毎に分離し、
文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求め、
前記類似度に従って適合文書を複数のグループに区分する
ことを特徴とする文書情報提示方法。 - 請求項1の文書情報提示方法において、
前記検索対象文字列を分析してそれに含まれる各単語を抽出し、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求め、
前記文単位適合度の高い順番で各グループからそれぞれ少なくとも1つの文を提示文として抽出し、
グループ毎に区分して、複数グループについて前記提示文を出力する
ことを特徴とする文書情報提示方法。 - 請求項1の文書情報提示方法において、
前記検索対象文字列を分析してそれに含まれる各単語を抽出し、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求め、
選択された特定のグループについて、前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力する
ことを特徴とする文書情報提示方法。 - それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示する文書情報提示装置において、
処理対象の文書毎に第1の評価値が割り当てられた場合に、
少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出する適合文書抽出手段と、
複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分する文書グループ化手段と、
各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算する評価値計算手段と、
前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力する情報出力制御手段と
を設けたことを特徴とする文書情報提示装置。 - 請求項5の文書情報提示装置において、前記文書グループ化手段に、
文書間の類似性を調べる際に各文書に含まれている各文を単語毎に分離する文書分析手段と、
文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求める類似度算出手段と
を設け、前記類似度に従って適合文書を複数のグループに区分することを特徴とする文書情報提示装置。 - 請求項5の文書情報提示装置において、
前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手段と、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手段と、
前記文単位適合度の高い順番で各グループからそれぞれ少なくとも1つの文を提示文として抽出する提示文抽出手段と
を設け、前記情報出力制御手段は、グループ毎に区分して複数グループについて前記提示文を出力する
ことを特徴とする文書情報提示装置。 - 請求項5の文書情報提示装置において、
前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手段と、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手段と、
を設け、前記情報出力制御手段は、選択された特定のグループについて前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力する
ことを特徴とする文書情報提示装置。 - それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示するためのコンピュータで実行可能なプログラムにおいて、
処理対象の文書毎に第1の評価値が割り当てられた場合に、
少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出する適合文書抽出手順と、
複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分する文書グループ化手順と、
各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算する評価値計算手順と、
前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力する情報出力制御手順と
を設けたことを特徴とするプログラム。 - 請求項9のプログラムにおいて、前記文書グループ化手順には、
文書間の類似性を調べる際に各文書に含まれている各文を単語毎に分離する文書分析手順と、
文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求める類似度算出手順と
を設け、前記類似度に従って適合文書を複数のグループに区分することを特徴とするプログラム。 - 請求項9のプログラムにおいて、
前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手順と、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手順と、
前記文単位適合度の高い順番で各グループからそれぞれ少なくとも1つの文を提示文として抽出する提示文抽出手順と
を設け、前記情報出力制御手順では、グループ毎に区分して複数グループについて前記提示文を出力する
ことを特徴とするプログラム。 - 請求項9のプログラムにおいて、
前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手順と、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手順と、
を設け、前記情報出力制御手順では、選択された特定のグループについて前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力する
ことを特徴とするプログラム。 - 請求項9,請求項10,請求項11及び請求項12の何れかのプログラムを記録した記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002377024A JP2004206571A (ja) | 2002-12-26 | 2002-12-26 | 文書情報提示方法及び装置並びにプログラム及び記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002377024A JP2004206571A (ja) | 2002-12-26 | 2002-12-26 | 文書情報提示方法及び装置並びにプログラム及び記録媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2004206571A true JP2004206571A (ja) | 2004-07-22 |
Family
ID=32814324
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002377024A Pending JP2004206571A (ja) | 2002-12-26 | 2002-12-26 | 文書情報提示方法及び装置並びにプログラム及び記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2004206571A (ja) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009537913A (ja) * | 2006-05-19 | 2009-10-29 | ヨルン リセゲン | ソース検索エンジン |
| JP2010506264A (ja) * | 2006-09-28 | 2010-02-25 | アマゾン テクノロジーズ インク | 執筆者の権限及びブログの影響力の評価 |
| JP2011243066A (ja) * | 2010-05-19 | 2011-12-01 | Just Syst Corp | 電子文書管理装置、表示方法、表示プログラムおよび記録媒体 |
| JP2012088800A (ja) * | 2010-10-15 | 2012-05-10 | Nippon Telegr & Teleph Corp <Ntt> | 検索装置、検索システム、検索方法及び検索プログラム |
| JP2018534708A (ja) * | 2015-11-05 | 2018-11-22 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 患者の医療記録の包括的な検証 |
| WO2020084734A1 (ja) * | 2018-10-25 | 2020-04-30 | 日本電気株式会社 | ナレッジ生成システム、方法およびプログラム |
-
2002
- 2002-12-26 JP JP2002377024A patent/JP2004206571A/ja active Pending
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009537913A (ja) * | 2006-05-19 | 2009-10-29 | ヨルン リセゲン | ソース検索エンジン |
| KR101487561B1 (ko) * | 2006-05-19 | 2015-01-29 | 요른 리세그겐 | 소스 검색 엔진 |
| JP2010506264A (ja) * | 2006-09-28 | 2010-02-25 | アマゾン テクノロジーズ インク | 執筆者の権限及びブログの影響力の評価 |
| JP2011243066A (ja) * | 2010-05-19 | 2011-12-01 | Just Syst Corp | 電子文書管理装置、表示方法、表示プログラムおよび記録媒体 |
| JP2012088800A (ja) * | 2010-10-15 | 2012-05-10 | Nippon Telegr & Teleph Corp <Ntt> | 検索装置、検索システム、検索方法及び検索プログラム |
| JP2018534708A (ja) * | 2015-11-05 | 2018-11-22 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 患者の医療記録の包括的な検証 |
| WO2020084734A1 (ja) * | 2018-10-25 | 2020-04-30 | 日本電気株式会社 | ナレッジ生成システム、方法およびプログラム |
| JPWO2020084734A1 (ja) * | 2018-10-25 | 2021-09-16 | 日本電気株式会社 | ナレッジ生成システム、方法およびプログラム |
| JP7192874B2 (ja) | 2018-10-25 | 2022-12-20 | 日本電気株式会社 | ナレッジ生成システム、方法およびプログラム |
| US12014826B2 (en) | 2018-10-25 | 2024-06-18 | Nec Corporation | Knowledge generation system, method, and program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109992645B (zh) | 一种基于文本数据的资料管理系统及方法 | |
| US10565313B2 (en) | Automatic semantic rating and abstraction of literature | |
| KR101715432B1 (ko) | 단어쌍취득장치, 단어쌍취득방법 및 기록 매체 | |
| US20160117395A1 (en) | Optimized ontology based internet search systems and methods | |
| US10552467B2 (en) | System and method for language sensitive contextual searching | |
| CN111506727B (zh) | 文本内容类别获取方法、装置、计算机设备和存储介质 | |
| JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
| CN109446313B (zh) | 一种基于自然语言分析的排序系统及方法 | |
| CN100458788C (zh) | 一种互联网音频文件的聚类方法、搜索方法及系统 | |
| CN115618014A (zh) | 一种应用大数据技术的标准文献分析管理系统及方法 | |
| CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
| CN116010552A (zh) | 一种基于关键词词库的工程造价数据解析系统及其方法 | |
| CN103294741B (zh) | 类似文件检索辅助装置以及类似文件检索辅助方法 | |
| CN119149733A (zh) | 一种lda主题模型识别方法 | |
| WO1999014690A1 (fr) | Procede d'addition d'un mot cle au moyen d'informations de liaison | |
| JP2007317133A (ja) | 画像分類方法及び装置及びプログラム | |
| JP2004206571A (ja) | 文書情報提示方法及び装置並びにプログラム及び記録媒体 | |
| CN118643242A (zh) | 一种热点数据的获取方法、装置、设备及存储介质 | |
| JP4009937B2 (ja) | 文書検索装置、文書検索プログラム及び文書検索プログラムを記録した媒体 | |
| CN109213830B (zh) | 专业性技术文档的文档检索系统 | |
| JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
| TWI636370B (zh) | Establishing chart indexing method and computer program product by text information | |
| KR100809751B1 (ko) | 문서분석 시스템 및 그 방법 | |
| JP2002288189A (ja) | 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体 | |
| JP2006227823A (ja) | 情報処理装置及びその制御方法 |