WO2002031643A1

WO2002031643A1 - Dispositif de traitement d'information, procede de traitement d'information et support de stockage

Info

Publication number: WO2002031643A1
Application number: PCT/JP2001/008923
Authority: WO
Inventors: Tetsuo Kosaka; Takaya Ueda; Fumiaki Ito; Hiroki Yamamoto; Yuji Ikeda
Original assignee: Canon Kabushiki Kaisha
Priority date: 2000-10-11
Filing date: 2001-10-11
Publication date: 2002-04-18
Also published as: AU2001294222A1; EP1326164A4; US20030097264A1; EP1326164A1; US6587820B2; CN1272698C; JPWO2002031643A1; US7024361B2; JP3774698B2; US20020062213A1; CN1470015A; KR20030072332A

Description

m青.報処理装置、情報処理方法及び記憶媒体技術分野

本発明は情報処理装置、情報処理方法及び記憶媒体に関し、特に、音声入力と G U Iとを併用して情報処理を行う装置とその方法に関するもの明

である。

細背景技術

音声認識 ·合成技術の進歩により、音声による情報入力装置が実用化されている。さらに、音声と他の手段を組み合わせた情報入力装置も用いられるようになってきている。こうした装置においては、各手段の欠点を補完し、各手段が有する利点を活かすことができる。

その一つとして、音声入力と G U Iとを組み合わせたインタフェース装置が知られている。これは、音声入力及び G U Iの利点を活かして情報入力を行うようにすることにより、それぞれが有している欠点を補完したものである。

すなわち、音声は人間にとって自然なインフェース手段であり、入出力が容易であるという利点があり、出力手段としては一覧性がないという欠点がある。一方、 G U Iには、出力手段として一覧性があるので、例えば、入力項目（入力フィールド）を一覧的に表示する入力手段として、メニュー選択程度であれば容易に入力できるという利点がある。しかし、自由な入力が面倒であるという欠点がある（特に、テンキーによる入力や手書き入力の場合に上記欠点が顕著である）。

例えば、図 8に示すようなインタフェースを持つ音楽検索システムを例にして説明すると、これは、アーティスト名、曲名、その曲が使用されている C Mの名称のいずれかから曲を検索できるものである。そして、出力を G U I (画面表示）とし、各入力項目への入力を音声とする。

この場合、画面で表示されているので、アーティスト名、曲名、 CM 名のいずれによつても検索可能であることが利用者は容易に理解することができる。また、各入力フィールドに音声で入力できるので、入力操作も容易である。

ここで、各入力フィールドへ入力された音声を認識するには、それぞれ異なる文法を使用して行う。例えば、アーティスト名の認識にはアーティスト名の文法、曲名の認識には曲名の文法、 CM名の認識には CM名の文法を使用する。

ところで、音声入力と G U Iとを併用する場合、図 8のように複数の入カフィールドが存在すると、音声入力があった場合にそれがどの入力フィールドに対する音声入力であるのかを判定する必要がある。

この方法として、全ての入力フィールドに対する文法を同時に使用して音声認識を行ない、得られた認識結果を元にどの入力フィールドへの入力かを判定することが考えられる。

図 8の例では、アーティスト名、曲名、 CM名の文法を同時に使用して音声認識を行ない、認識結果が C M名であれば、 C M名の入カフィールドに対する入力であると判定することができる。

ここで問題になるのは、一般に文法が大きくなるほど音声認識の認識率が低下するということである。よって、複数の入力フィールドに対する文法を同時に使用すると音声入力に対する認識率が低下する問題が発生する。発明の開示本発明は上述の問題点に鑑み、複数の入カフィールドがあった場合でも音声認識に使用する文法の規模が大きくならないようにして、音声入力に対する認識率を向上できるようにすることを目的とする。

上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。すなわち、

複数の入力項目を有する文書を入力する入力手段と、

前記文書の表示状態に応じて、前記複数の入力項目の中から有効な入力項目を判別する判別手段と、

前記判別手段により有効であると判別された入力項目に対応する特定の文法を選択する選択手段とを備える。

また、上記の目的を達成するための本発明の他の態様による情報処理装置は以下の構成を備える。すなわち、

複数の入力項目を有する文書を入力する入力手段と、

前記文書の中に、該文書の表示状態に応じて特定の文法を選択する指定があるか否か判断する判断手段と、

前記判断結果に応じて文法の選択を制御する制御手段とを備える。また、上記の目的を達成するための本発明による情報処理方法は、複数の入力項目を有する文書を入力する入力工程と、

前記文書の表示状態に応じて、前記複数の入力項目の中から有効な入力項目を判別する判別工程と、

前記判別工程により有効であると判別された入力項目に対応する特定の文法を選択する選択工程とを備える。

更に、上記の目的を達成するための本発明による情報処理方法は、複数の入力項目を有する文書を入力する入力工程と、

前記文書の中に、該文書の表示状態に応じて特定の文法を選択する指定がぁるか否か判断する判断工程と、前記判断結果に応じて文法の選択を制御する制御工程とを備える。また、本発明によれば、上記情報処理方法をコンピュータに実行させるための制御プログラム、及び該制御プログラムを格納するコンピュータ可読媒体、コンピュータプログラム製品が提供される。図面の簡単な説明

図 1は、本発明の第 1の実施形態に係る音声インタフェース装置の基本構成を示すブロック図である。

図 2は、第 1の実施形態に係る音声ィンターフェース装置の具体的なハード構成を示すブロック図である。

図 3は、第 1の実施形態における処理手順の概要を示すフローチヤ一トである。

図 4は、フィールド情幸艮保持部ののデータ構成例を示す図である。図 5は、文法保持部のデータ構成例を示す図である。

図 6は、第 2の実施形態に係る音声インタフェース装置の基本構成を示すブロック図である。

図 7は、第 2の実施形態における処理手順の概要を示すフローチヤ一トである。

図 8は、入力画面の具体例を示す図である。

図 9は、入力画面における表示部分と非表示部分を説明する図である。 . 図 1 0は、ハイパーテキスト文書による表現例を示す図である。

図 1 1は、図 1 0に示すハイパーテキスト文書による入力画面の具体的表示例を表す図である。

図 1 2は、入力画面の具体的表示例を表す図である。

図 1 3は、図 1 0に示すハイパーテキスト文書を用いた場合の、第 2 の実施形態における処理手順の概要を示すフローチャートである。発明を実施するための最良の形態

(第 1の実施形態）

以下、図面を参照して本発明を詳細に説明する。

図 1は、本発明の情報入力装置、情報入力方法及び記憶媒体の第 1の実施形態に係る装置の基本構成を示すプロック図である。

図 1において、 1 0 1は、情報を表示する情報表示部である。情報表示部 1 0 1には、入力フィールド（入力項目）の情報も表示される。 1 0 2は情報表示部 1 0 1 表示された入力フィールドのうち一つを選択するフィールド選択部である。 1 0 3は、フィールド選択部 1 0 2から入力フィールドを選択したことを示す信号の入力があつたか否かを検知する入カ検知部である。

1 0 4は、フィールド選択部 1 0 2から入力検知部 1 0 3を経て送られる選択信号に基づいて、どの入カフィールドが選択されたのかを判定するフィールド判定部である。以後、フィールド選択部 1 0 2によつて選択された入力フィールドをアクティブフィールドと呼ぶ。

1 0 5は、フィールド判定部 1 0 の判定に基づいてァクティブフィールドを切替えるフィールド切替部である。 1 0 6は、現在表示しているコンテンッ中の全ての入カフィールドについての情報を保持するフィールド情報保持部である。フィールド情報保持部 1 0 6の内容は、例えば図 4のようになっている。

すなわち、図 4に示すように、各入力フィールドに番号を付し、入力フィールドの番号と、その値（初期状態では値が設定されていない）と、この入カフィールドの音声認識の際に使用する文法の I Dを持っている。

1 0 7は、アクティブフィールドを保持するアクティブフィールド保持部である。 1 0 8は、フィールド判定部 1 0 5の判定に基づいて文法を切り替える文法切替部である。なお、以下では、文法切替部 1 0 8によつて選択された文法をァクティブ文法と呼ぶ。

1 0 9は、情報表示部 1 0 1に現在表示されているコンテンツにおいて、音声入力に使用する全ての文法を保持する文法保持部である。文法保持部 1 0 9の内容は、例えば図 5に示すように、文法の I Dと、各文法の記述とから構成される。どの文法を使用するかに関する情報は表示されているコンテンツ中に記述されている（この点については、図 1 0を参照して後述する）。また、文法自体はディスク装置（不図示）やネットワーク上のサーバ（不図示）から取得できるものとする。

1 1 0は、ァクティブ文法の I Dを保持するァクティブ文法保持部である。 1 1 1は、音声を入力する音声入力部である。 1 1 2は、ァクティブ文法保持部 1 1 0に保持された文法を用いて、音声入力部 1 1 1から入力された音声を認識する音声認識部である。 1 1 3は、音声認識部 1 1 2 で認識された結果を保持する認識結果保持部である。

図 2は、本実施形態の音声入力装置の具体的なハード構成を示すプロック図である。

図 2において、 2 0 1は C P Uであり、後述する手順を実現するプログラムに従って動作する。 2 0 2はメモリであり、フィールド情報保持部 1 0 6、アクティブフィールド保持部 1 0 7、文法保持部 1 0 9、ァクティブ文法保持部 1 1 0、認識結果保持部 1 1 3と、上記プログラムを実行する動作に必要な記憶領域とを提供するものである。

2 0 3は制御メモリであり、後述する手順を実現するプログラムを保持する。 2 0 4はポインティングデバイスであり、前述したフィールド選択部 1 0 2を構成する。 2 0 5はディスプレイであり、情報表示部 1 0 1 を構成するものである。 2 0 6はマイクであり、音声入力部 1 1 1を構成するものである。 2 0 7は各構成要素を結合するバスである。次に、図 3に示すフローチヤ一トを参照して、本実施形態の装置の動作を説明する。以下の説明においては、ポインティングデバイス 2 0 4としてマウスを使用する場合を例にして説明する。

あるコンテンツが表示された時点で、そのコンテンツの各入力フィールドの音声認識に使用する文法は全て文法保持部 1 0 9に読み込まれ、入力フィールドと文法 I Dとの対応はフィールド情報保持部 1 0 6に保持されるものとする。

最初のステップ S 3 0 1では、入力検知部 1 0 3においてマウスからの入力があつたかどうかを調べる。マウスによる入力は、マウスクリックを検知するようにしてもよいし、また、あるオブジェクト上に一定時間以上にわたってマウスカーソルがとどまつていることを検知するようにしてもよい。このステツプは、入力があるまで繰り返す。入力があつたらステツプ S 3 0 2に進む。 .

ステップ S 3 0 2では、ステップ S 3 0 1で検知された入力が、入力フィールドを選択する入力であるかどうかを調べる。そして、調べた結果が入力フィールドの選択でなかった場合はステップ S 3 0 1に戻る。また、入力フィールドの選択であった場合にはステップ S 3 0 3に進む。

ステップ S 3 0 3では、フィールド判定部 1 0 4においてどの入力フィールドが選択されたかを調べる。そして、フィールド切替部 1 0 5において、選択された入力フィールドをアクティブフィールド保持部 1 0 7 に保持する。

ステップ S 3 0 4では、文法切替部 1 0 8において、ァクティブ文法をアクティブ文法保持部 1 1 0に保持する。アクティブ文法とは、文法保持部 1 0 9に保持された文法のうち、アクティブフィールド保持部 1 0 7 に保持された入力フィールドに対応した文法である。フィールド情報保持部 1 0 6において現在のアクティブフィールドに対応する文法 I Dを調べ、文法保持部 1 0 9から、その文法 I Dに対応する文法を読み出す。

ステップ S 3 0 5では、音声入力部 1 1 1から音声が入力されたかどうかを調べる。このステップは、音声が入力されるまで繰り返し行い、音声入力されたらステップ S 3 0 6に進む。

ステップ S 3 0 6では、ステップ S 3 0 5で入力された音声の認識処理を、アクティブ文法保持部 1 1 0に保持された文法を用いて音声認識部 1 1 2により行なう。音声認識の結果は、認識結果保持部 1 1 3に保持す

• ) o

ステップ S 3 0 7では、認識結果保持部 1 1 3に保持された結果を、フィ一ルド情報保持部 1 0 6に保持する。すなわち、図 4において、ァクティブフィールドに対応する「値」の欄に認識結果が保持される。

ステップ S 3 0 8では、認識結果保持部 1 1 3に保持された結果を、情報表示部 1 0 1において、アクティブフィールド保持部 1 0 7に保持された入カフィールドに表示する。以上で処理を終了する。

次に、図 8のコンテンツを例にとって、処理内容を具体的に説明する。図 8において、第 1の入力フィールド 8 0 1の番号を 1、第 2の入力フィールド 8 0 2の番号を 2、第 3の入力フィールド 8 0 3の番号を 3とする。

また、アーティスト名の文法を第 1の文法 A、曲名の文法を第 2の文法 B， C M名の文法を第 3の文法 Cとすると、フィールド情報保持部 1 0 9の内容は、図 4に示すようになる。ここで、従来例によって入力音声の認識を行なう場合は、第 1の文法 A，第 2の文法 B及ぴ第 3の文法 Cの三つを全て使用していた。

一方、本実施形態では、マウスによって、例えば第 1の入カフィールド 8 0 1が'選択されたら、第 1の入力フィールド 1に対応した第 1の文法 Aのみを用いて入力音声の認識を行なうようにしている。これにより、入力音声の認識を行なうために使用する文法の規模を従来例に比べて相対的に小さくすることができるので、入力音声の認識率を大幅に向上させることができる。

同様に、マウスによって、第 2の入力フィールド 8 0 2が選択されたら、第 2の入力フィールド 2に対応した第 2の文法 Bを用いて入力音声の認識を行ない、第 3の入力フィールド 8 0 3が選択されたら、第 3の入力フィールド 3に対応した第 3の文法 Cのみを用いて入力音声の認識を行ななお、上記実施形態においては、フィールド選択部 1 0 2を構成する手段としてマウスを使用する場合について説明したが、他の手段でもかまわない。例えば、情幸艮表示部 1 0 1のディスプレイをタツチパネルとして所望のフィールドをペンや指で指示するようにしてもよい。

また、テンキーを用いて、 n番目の入力フィールド（任意の入力フィールド）を指定するようにしてもよい。すなわち、所望のフィールドを数値入力で指定してもかまわない。また、視線入力装置を用いて、視線の方向によって入力フィールドを指定するようにしてもよい。

または、各入力フィールドと一対一に対応した音声入力用のオブジェクト（ボタン、アイコン、イメージなど）を表示し、これを選択することによって、入力フィールドを選択するようにしてもよい。

また、上記実施形態においては、音声認識に使用する文法の切替を入' 力フィールドが選択された時点で行なったが、音声が入力された時点で、ァクティブな入力フィールドを判別し、文法の切り替えを行なうようにしてもよい。

さらに、上記実施形態において、入力フィールドの選択操作によって、音声入力の開始と終了を指定できるようにしてもよレ例えば、入力フィールドが選択された時点を音声入力の開始時点として扱い、入力フィールドの選択が終了した時点を音声入力の終了時点として扱うようにする。例えば、マウスによつて操作されているマウスポインターが入力フィールド上に存在する期間中は、音声入力を取り込むようにする。

上記実施形態においては、 G U Iを出力手段、音声入力を入力手段として用いているが、これに限るものではなく、入力手段に G U Iを併用し、出力手段に音声を併用するようにしてもかまわない。

(第 2の実施形態）

以下、図面を参照して本発明の第 2の実施形態を詳細に説明する。図 6は、本発明の第 2の施形態に係る装置の基本構成を示すプロック図である。

図 6において、 6 0 1は、情報を表示する情報表示部である。この情報表示部 6 0 1には入力フィールドの情報も表示される。

6 0 2は情報表示部 6 0 1に実際に表示される内容を保持する表示内容保持部である。 6 0 3は、情報表示部 6 0 1に表示する情報を切替える表示情報切替部である。特に、情報表示部のサイズが小さい場合、コンテンッを一度に表示することはできない。このような場合は、表示情報の切替操作を行なうことにより、順次に残りの内容を表示させる。例えば、この操作は、ページ切替、スクロール等の操作を実行する。

6 0 4は、情報表示部 6 0 1に実際に表示されている入力フィ一ルドを判別するフィールド判定部である。情報表示部 6 0 1に表示されている入力フィールドをアクティブフィールドと呼ぶ。本実施形態の場合には、第 1の実施形態とは異なり、アクティブフィールドは一つとは限らない場合を ¾1定している。

6 0 5は、フィールド判定部 6 0 4の判定に基づいてァクティブフィ一ルドを切り替えるフィールド切替部である。 6 0 6は、現在表示しているコンテンツ中の全ての入力フィールドについての情報を保持するフィールド情報保持部である。フィールド情報保持部 6 0 6の内容は、例えば図 4 のようになっている。

すなわち、各入力フィールドに番号を付し、入力フィールドの番号と、その値（初期状態では値が設定されない）と、この入力フィールドの音声認識の際に使用する文法の I Dとを持っている。

6 0 7は、アクティブフィールドを保持するアクティブフィールド保持部である。 6 0 8は、フィールド判定部 6 0 4の判定に基づいて文法を切り替える文法切替部である。文法切替部 6 0 8により選択された文法をアクティブ文法と呼ぶ。 6 0 9は、情幸艮表示部 6 0 1に表示されている現在のコンテンツにおいて、入力音声の認識に使用可能な全ての文法を保持する文法保持部である。文法表示部 6 0 9の内容は、例えば図 5のように、文法の I Dと、各文法の記述とから構成される。使用する文法に関する情報は、表示に用いているコンテンツ中に記述されているとする。また、文法自体はディスク装置（不図示）やネットワーク上のサーバ（不図示）から取得できるものとする。

6 1 0は、ァクティブ文法の I Dを保持するァクティブ文法保持部である。 6 1 1は、音声を入力する音声入力部である。 6 1 2は、ァクティブ文法保持部 6 1 0に保持された文法を用いて、音声入力部 6 1 1から入力された音声を認識する音声認識部である。 6 1 3は、音声認識部 6 1 2 で認識された結果を保持する認識結果保持部である。

第 2の実施形態の音声入力装置の具体的構成は、前述した第 1の実施形態で示した図 2の構成と同様であるので、図 2を第 1の実施形態と共通に用いて説明する。

図 2において、 2 0 1は C P Uであり、後述する手順を実現するプログラムに従つて動作する。 2 0 2はメモリであり、表示内容保持部 6 0 2、フィールド惰幸艮保持部 6 0 6、アクティブフィールド保持部 6 0 7、文法保持部 6 0 9、アクティブ文法保持部 6 1 0、認識結果保持部 6 1 3と上記プログラムの動作に必要な記憶領域とを提供する。

2 0 3は制御メモリであり、後述する手順を実現するプログラムを保持する。 2 0 4はポインティングデバイスであり、表示内容切替部 6 0 3 を実現する。 2 0 5はディスプレイであり、情幸艮表示部 6 0 1を実現する。 2 0 6はマイクであり、音声入力部 6 1 1を実現する。 2 0 7は各構成要素を結合するバスである。

次に、図 7に示すフローチャートを参照して、第 2の実施形態の情幸艮入力装置の動作を説明する。

あるコンテンツが表示された時点で、そのコンテンツの各入力フィールドの音声認識に使用する文法は全て文法保持部 6 0 9に読み込まれ、入力フィールドと文法 I Dとの対応はフィールド情報保持部 6 0 6に保持されるものとする。

最初のステップ S 7 0 1では、音声入力部 6 1 1から音声が入力されたかどうかを調べる。このステップ 7 0 1は音声が入力されるまで繰り返し行い、音声入力が行われたらステップ S 7 0 2に進む。 '

ステップ S 7 0 2では、表示内容保持部 6 0 2の内容から、現在どの入カフィールドが実際に表示されているかを調べる。

ステップ S 7 0 3では、フィールド切替部 6 0 5により、現在表示されている入カフィールドをアクティブフィールド保持部 6 0 7に保持する _c ステップ S 7 0 4では、文法切替部 6 0 8により、ァクティブ文法をアクティブ文法保持部 6 1 0に保持する。ここで、アクティブ文法とは、文法保持部 6 0 9に保持された文法のうち、アクティブフィールド保持部 6 0 7に保持された入力フィールドに対応した文法である。すなわち、フィールド情幸艮保持部 6 0 6において現在のアクティブフィールドに対応する文法 I Dを調べ、文法保持部 6 0 9から、その文法 I Dに対応する文法を読み出す。

ステップ S 7 0 5では、ステップ S 7 0 1で入力された音声の認識処理を、アクティブ文法保持部 6 1 0に保持された文法を用いて音声認識部 6 1 2で行なう。認識処理からは認識結果と、認識に使用した文法の I D が返されるものとする。すなわち、複数種類の文法 I Dに対応した文法が用いられることになるが、それぞれの文法 I D毎に認識結果を得て、最も一致度の高い候補がその文法 I Dとともに出力される。認識結果は認、識結果保持部 6 1 3に保持される。

ステップ S 7 0 6では、ステップ S 7 0 5で得られた文法 I Dから、どの入カフィールドに対する入力だったのかを判定する。文法 I Dと入力フィールドの対応は、フィールド情報保持部 6 0 6に保持されているのでこれを参照すればよい。例えば、フィールド情幸艮保持部 6 0 6が図 4に示す内容として、アクティブフィールドが「1」と「3」だったとする。ここで、認識結果とともに文法 I Dとして第 3の文法 Cが返されたとすると、この入力は第 3の文法 Cに対応する第 3の入力フィールド 3に対するものであったことが分かる。

ステップ S 7 0 7では、認識結果保持部 6 1 3に保持された結果を、フィールド情幸艮保持部 6 0 6に保持する。すなわち、図 4において、出力された文法 I Dに対応する「値」の欄に認識結果が保持される。ステップ S 7 0 8では、認識結果保持部 6 1 3に保持された結果を、情報表示部 6 0 1において、ステップ S 7 0 6で判定された入カフィールドに表示する。以上で処理を終了する。

次に、図 8のコンテンツを例にして、処理内容を具体的に説明する。図 8のコンテンツが、図 9のように表示されているとする。この図は、符号 9 0 4を付した部分が実際に表示されている部分を表し、符号 9 0 5 を付した部分は表示されていないことを表す。入力フィールド 9 0 1の番号を 1、入力フィールド 9 0 2の番号を 2、入力フィールド 9 0 3の番号を 3とする。アーティスト名の文法を第 1の文法 A、曲名の文法を第 2の文法 B， C M名の文法を第 3の文法 Cとすると、フィールド情報保持部 6 0 9の内容は、図 4に示すようになる。

従来例によって入力音声の認識を行なう場合は、第 1の文法 A、第 2 の文法 B、第 3の文法 Cの 3つを使用することになる。一方、本実施形態では、実際に表示されている入力フィールドが 9 0 1だけなので、入力フィールド 1に対応した文法 Aのみを用いて入力音声の認識を行なう。これにより、使用する文法の規模が従来例に比べて相対的に小さくなるので、認識率を向上させることができる。

また、複数の入力フィールドが表示されている場合でも、音声認識に使用される文法は表示されている入力フィールドに対応した文法に絞りこまれるので、認識精度を保つことができる。また、複数のアクティブフィールドの何れかに認識結果を適用するにおいて、音声認識に利用された文法に基づいて適用先の入力フィールドが決定される。このため、複数の入力フィールドが表示されていても、自動的に適切な入力フィールドに値（音声認識結果）が設定されることになり、操作性が向上する。

(第 3の実施形態）

以下、図面を参照して本発明の第 3の実施形態を詳細に説明する。第 3の実施形態に係る装置の基本構成及びハードウエア構成は、前述した第 2の実施形態で示した図 6及び図 2の構成と同様なので、詳細な説明を省略する。

第 3の実施形態では、第 2の実施形態に示されるコンテンッをハイパーテキストにより記述した点、及ぴ該コンテンツの処理が主に異なる。以下、図 1 0〜図 1 3を参照して詳細に説明する。図 1 0は、コンテンツをハイパーテキスト文書により表現した一例である。このハイパーテキスト文書は、表示内容保持部 6 0 2に保持されており、情報表示部 6 0 1により、図 1 1のように表示される。

図 1 0の 1 0 1に示すタグは、文法の表示連動の指定、即ち、表示画面の切り替えに応じて文法を切り替えるか否かを示すタグである。このタグが記述されている場合は、表示に連動して文法を切り替え、タグが記述されていない場合は、表示に連動して文法を切り替えないよう処理が行われる。詳細については、図 1 3に示すフローチャートを用いて説明する。

1 0 2は、入カフィールド "アーティスト名" に入力するデータのタイブ、該入力フィールドのサイズ、該入力フィールドに使用される文法の位置情幸 (rhttp://t mp/ rt.grm \ ) が記述されている。 1 0 3、 1 0 4、 1

0 5、 1 0 6も同様に、各入力フィールドに関する情報と各フィールドに対応して記憶されている文法の位置情報が記述されている。

図 1 1は、図 1 0に示されるハイパーテキストを情報表示部 6 0 1で表示した状態を示す図である。

図 1 1のコンテンツは、 4つの入力フィールド（1 0 0 1、 1 0 0 2、

1 0 0 3、 1 0 0 4 ) からなる。表示画面が充分に大きい場合は、 4つの入カフィールドがすべて 1画面内に表示されるが、表示画面が小さい場合は、図 1 2に示すように 4つの入力フィールドの一部のみしか表示されなレ。この図では、 1 0 0 2、 1 0 0 3の 2つの入力フィールドが表示されている。この場合、スクロールバーにより画面を上下させるなど、画面の表示状態を変化させることにより、表示できない部分を確認することができる。

次に、図 1 3に示すフローチャートを参照して、本実施形態の情報入力装置の動作を説明する。

ステップ S 8 0 1では、図 1 0に示すハイパーテキストを読み込む。ステップ S 8 0 2では、ステップ S 8 0 1で読み込まれたハイパーテキストを解析し、その結果に基づき図 1 1に示される GUIを表示する。この解析結果に基づき文法の位置、例えば rhttpJ/temp/ar .grm | を検出する。また、く form>タグ内に「grmselect="display"」の記述があるかどうか等、タグ内も解析している。

ステップ S 8 0 3では、ステップ S 8 0 2で検出された文法位置情報に基づき文法を読み込み、アーティスト名、曲名、 C M名、ランク名に対応する 4つの文法を文法保持部 6 0 9に保持する。また、ステップ S 8 0 4では、ステップ S 8 0 2の解析結果に基づき、フィールド情報、つまり、入力フィールドと文法の対応関係を、フィールド情報保持部 6 0 6に保持する。本例の場合、入力フィールド 1 0 0 1には文法 http：〃 temp/art.grm、

1 0 0 2にはす法 h付 p:〃temp/l yr>1 ".grm、 1 0 0 3にはサ、？ hけ p:〃temp/cm-grm、

1 0 0 には文法 htip^temp mnLgimがそれぞれ対応して保持される。

ステップ S 8 0 5では、音声入力の検出を行い、検出された場合ステツプ S 8 0 6に進む。ステップ S 8 0 6ではステツプ S 8 0 2の解析結果を元に、く form>タグ内に「grmselect="display"」の記述があるかどうか、すなわち、表示に連動して使用する文法を切り替えるか否かの判断をする。記述がある場合ステップ S 8 0 8へ、ない場合はステップ S 8 0 7へ進む。

記述がない場合、ステップ S 8 0 7では、すべての文法をアクティブ文法として設定する。つまり、 4つの文法をアクティブ文法保持部 6 1 0 に保持し、ステップ S 8 1 1の音声認識の処理へ進む。

記述がある場合、ステップ S 8 0 8で、現在どの入力フィ一ルドが実際に表示されているかを調べる。ステップ S 8 0 9では、現在表示されている入力フィールドをアクティブフィールド保持部 6 0 7に保持する。ステツプ S 8 1 0では、ステップ S 8 0 3で保持された 4つの文法のうち、アクティブフィールド保持部 6 0 7に保持された入力フィ一ルドに対応した文法をアクティブ文法としてアクティブ文法保持部 6 1 0に保持する。図 1 2の場合、 4つのフィールドのうち 1 0 0 2及ぴ 1 0 0 3の 2つの入カフィールドが表示されている。この 2つの入力フィールドに対応する文法は、 httpJ emp kyok .grmおよび littp：〃 temp/cm.grmであり、この 2文法がァクティブ文法として保持される。

ステップ S 8 1 1では、ステップ S 8 0 7またはステップ S 8 1 0でアクティブ文法として保持された文法を用いて入力された音声の認識処理を行う。認識処理からは、認識結果と、認識に使用した文法の I Dが返されるものとする。この認識結果と認識に使用した文法の I Dは、認識結果保持部 6 1 3に保持される。

ステップ S 8 1 2では、ステップ S 8 1 1で得られた文法 I Dから、どの入力フィールドに対する入力だつたのかを判定する。文法 I Dと入力フィールドの対応はフィールド情幸艮保持部 6 0 6に保持されているのでこれを参照する。

ステップ S 8 1 3では、認識結果保持部 6 1 3に保持された認識結果をフィ一ルド情報保持部 6 0 6に保持する。具体的には、図 4の値の欄に認識結果が保持される。

ステップ S 8 1 4では、認識結果保持部 6 1 3に保持された結果を、情報表示部において、ステップ S 8 1 2で判定された入力フィールドに表示する。

その後、検索ポタン等により、入力フィールドに表示された認識結果の送信が指示された場合、認識結果がァプリケーションに送信され、アブリケーシヨンがそれに従つて動作する。

例えば、図 8のアーティスト名の欄 8 0 1にアーティスト名（認識結果）が表示されている状態で、検索ボタンを押した場合、表示されているアーティスト名などがアプリケーションに伝えられ、そのアーティスト名による検索結果を得ることができる。

以上で処理を終了する。

図 1 0のハイパーテキストで grmselect="display"が設定され、図 1 1のごとく表示されている場合は、 4つの入力フィールドに入力が可能であり、図 1 2の場合は 2つの入力フィールドにのみ入力可能となる。また、設定されていない場合は、該当フィールドが表示されているか否かに関わらず 4つの入力欄に入力が可能である。

本実施形態によれば、表示される入力項目の中に複雑な文法の項目があった場合、該項目を表示しないように表示を制御することで、入力フィールドを制限することができ、認識率を上げることができる。

なお、本実施形態によれば、実際に表示されている入力フィールドに対応する文法のみを用いて音声認識処理を行うので、文法の規模を小さくすることができ、その結果、入力音声に対する認識率を向上させることができる。

本実施形態によれば、表示画面の切り替えに応じて文法を切り替えるか否かを示すタグの有無に応じて入力フィールドを制限しているが、これに限定されるものではなレ^例えば、タグ内の記述内容に応じて入力フィールドを制限するようにしても良い。具体的には、タグに gnnselect="none"が設定されている場合は、すべての文法を使い、 gramselect="display"のときは、ディスプレイの表示と連動して文法を制限することができる。この場合、タグが設定されていない場合は、認識を実行しないようにしてもよい。

本実施形態によれば、現在表示されている入力フィールドをァクティブフィールドとして扱った。これに限らず、 H T M L文書のフレームを使用したような場合、あるいは、複数のウィンドウを使用したような場合、現在アクティブなフレーム（フレームとはウェブページ上の区切られたェリアのことで、このエリア毎に文書をスクロールできる）もしくはウィンドウに存在する入力フィールドをアクティブフィールドとして扱うようにしてもよい。

本実施形態によれば、 G U Iを出力手段、音声を入力手段として用いているが、これに限るものではなく、入力手段に G U Iを併用し、出力手段に音声を併用してもかまわない。

また、表示画面の切り替えに応じて文法を切り替えるか否かを示すタグが設定されている場合、それをユーザに知らせるようにしても良い。具体的には、 G U I上のインジケータ等を設けることが考えられる。このようにすることで、ユーザは、入力フィールドの示す全文法が選択される場合と、表示された入力フィールドの示す特定の文法が選択される場合のどちらかであるかを事前に知ることができ、本情報処理装置の操作性が向上する。

前述した各実施形態は、複数の機器から構成されるシステムに適用しても 1つの機器からなる装置に適用しても良い。

また、前述した各実施形態の機能を実現するための制御プログラムのプログラムコードを格納する言 s録媒体には、例えばフロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、 C D— R OM、磁気テープ、不揮発性のメモリカード、 R OM等を用いることもできる。

また、前述した制御プログラムのプログラムコードが、中央処理装置 2において稼働している 0 S (オペレーティングシステム）あるいは他のアプリケーションソフト等の共同して前述の実施の形態で示した機能が実現される場合にもかかるプログラムコードは本発明の実施の形態に含まれることは言うまでもない。

さらに、前述した制御プログラムのプログラムコードが機能拡張ポードゃ機能拡張ユニットに備わるメモリに格納された後、そのプログラムコードの指示に基づいてその機能拡張ボードゃ機能拡張ュニットに備わる C P U等が実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合にも本発明に含まれる。

以上説明したように、本発明によれば、入力項目の表示状態に応じて音声認識を行うことができるので、入力音声に対する認識率を向上することができる。

Claims

請求の範囲

1 . 複数の入力項目を有する文書を入力する入力手段と、

前記判別手段により有効であると判別された入力項目に対応する特定の文法を選択する選択手段とを備えることを特徴とする情報処理装置。

2 . 前記判別手段は、表示画面上に表示される入力項目を有効な入力項目として判別することを特徴とする請求項 1に記載の情報処理装置。

3 . 音声を入力する音声入力手段と、

前記選択手段により選択された文法を用いて、前記音声入力手段により入力された音声を認識する音声認識手段とを更に備えることを特徴とする請求項 1に記載の情報処理装置。

4 . 前記音声認識手段の認識結果を入力するべき入力項目を判定する判定手段と、

前記判定手段により特定される入力項目に前記認識結果を入力するよう制御する制御手段とを更に備えることを特徴とする請求項 3に記載の情

5. 表示画面上の表示内容を切り替える表示切り替え手段を更に備え、前記表示切り替え手段により表示内容の切り替えがなされた場合、前記判別手段により表示画面上に表示される入力項目を有効な入力項目として判別することを特徴とする請求項 1に記載の情報処理装置。

6 . 前記表示切り替え手段は、表示画面をスクロールさせることを特徴とする請求項 5に記載の情幸艮処理装置。

7 . 前記表示切り替え手段は、フレームを切り替えることを特徴とする請求項 5に記載の情報処理装置。

8 . 複数の入力項目を有する文書を入力する入力手段と、

前記判断結果に応じて文法の選択を制御する制御手段と、

を備えることを特徴とする情報処理装置。

9 . 前記制御手段は、前記判断手段により、文書の表示状態に応じて特定の文法を選択する指定があると判断された場合、表示画面上に表示されている入力項目に対応する特定の文法を選択することを特徴とする請求項 8 に記載の情報処理装置。

1 0 . 前記制御手段は、前記判断手段により、文書の表示状態に応じて特定の文法を選択する指定がないと判断された場合、前記文書中の入力項目に対応する全ての文法を選択することを特徴とする請求項 8に記載の情報

1 1 . 音声を入力する音声入力手段と、

前記制御手段により選択された文法を用いて、前記音声入力手段により入力された音声を認識する音声認識手段とを更に備えることを特徴とする請求項 8に記載の情報処理装置。

1 2 . 前記音声認識手段の認識結果を入力するべき入力項目を判定する判定手段と、

前記判定手段により特定される入力項目に認識結果を入力するよう制御する制御手段とを更に備えることを特徴とする請求項 1 1に記載の情報処理装置。

1 3 . 前記判断手段により、前記文書中に、該文書の表示状態に応じて特定の文法を選択する指定があると判断された場合、その旨を提示する提示手段を更に備えることを特徴とする請求項 8に記載の情報処理装置。

1 4 . 複数の入力項目を有する文書を入力する入力工程と、前記文書の表示状態に応じて、前記複数の入力項目の中から有効な入力項目を判別する判別工程と、

前記判別工程により有効であると判別された入力項目に対応する特定の文法を選択する選択工程とを備えることを特徴とする情報処理方法。

1 5 . 前記判別工程は、表示画面上に表示される入力項目を有効な入力項目として判別することを特徴とする請求項 1 4に記載の情報処理方法

1 6 . 音声を入力する音声入力工程と、

前記選択工程により選択された文法を用いて、前記音声入力工程により入力された音声を認識する音声認識工程とを更に備えることを特徴とする請求項 1 4に記載の情報処理方法。

1 7 . 前記音声認識工程の認識結果を入力するべき入力項目を判定する判定ェ程と、

前記判定工程により特定される入力項目に認識結果を入力するよう制御する制御工程とを更に備えることを特徴とする請求項 1 6に記載の情報処理方法。

1 8 . 表示画面上の表示内容を切り替える表示切り替え工程を更に備え、前記表示切り替え工程により表示内容の切り替えがなされた場合、前記判別工程により表示画面上に表示される入力項目を有効な入力項目として判別することを特徴とする請求項 1 4に記載の情報処理方法。

1 9 . 前言己表示切り替え工程は、表示画面をスクロールさせることを特徴とする請求項 1 8に記載の情報処理方法。

2 0 . 前記表示切り替え工程は、フレームを切り替えることを特徴とする請求項 1 8に記載の情報処理方法。

2 1 . 複数の入力項目を有する文書を入力する入力工程と、

前記文書の中に、該文書の表示状態に応じて特定の文法を選択する指定があるか否か判断する判断工程と、前記判断結果に応じて文法の選択を制御する制御工程と、

を備えることを特徴とする情報処理方法。

2.2 . 前記制御工程は、前記判断工程により、文書の表示状態に応じて特定の文法を選択する指定があると判断された場合、表示画面上に表示されている入力項目に対応する特定の文法を選択することを特徴とする請求項 2 1に記載の情報処理方法。

2 3 . 前記制御工程は、前記判断工程により、文書の表示状態に応じて特定の文法を選択する指定がないと判断された場合、前記文書中の入力項目に対応する全ての文法を選択することを特徴とする請求項 2 1に記載の情報処理方法。

2 4 . 音声を入力する音声入力工程と、

前記制御工程により選択された文法を用いて、前記音声入力工程により入力された音声を認識する音声認識工程とを更に備えることを特徴とする請求項 2 1に記載の情報処理方法。

2 5 . 前記音声認識工程の認識結果を入力するべき入力項目を判定する判定工程と、

前記判定工程により特定される入力項目に認識結果を入力するよう制御する制御工程とを更に備えることを特徴とする請求項 2 4に記載の情報処理方法。

2 6 . 前記判断工程により、前記文書中に、該文書の表示状態に応じて特定の文法を選択する指定があると判断された場合、その旨を提示する提示工程を更に備えることを特徴とする請求項 2 1に記載の情報処理方法。

2 7 . コンピュータに情報処理を実行させるための制御プログラムを格納するコンピュータ可読媒体であって、該制御プログラムが、

複数の入力項目を有する文書を入力する入力工程のコードと、前記文書の表示状態に応じて、前記複数の入力項目の中から有効な入力項目を判別する判別工程のコードと、

前記判別工程により有効であると判別された入力項目に対応する特定の文法を選択する選択工程のコードとを備えることを特徴とするコンピュ一タ可読媒体。

2 8 . コンピュータに情幸艮処理実行させるための制御プログラムを格納するコンピュータ可読媒体であって、該制御プログラムが、

複数の入力項目を有する文書を入力する入力工程のコードと、前記文書の中に、該文書の表示状態に応じて特定の文法を選択する指定がぁるか否か判断する判断工程のコードと、

前記判断結果に応じて文法の選択を制御する制御工程のコードとを備えることを特徴とするコンピュータ可読媒体。

2 9 . コンピュータに情幸艮処理を実行させるための制御プログラムであつて、

前記判別工程により有効であると判別された入力項目に対応する特定の文法を選択する選択工程のコードとを備えることを特徴とする制御プログラム。

3 0 . コンピュータに情幸艮処理実行させるための制御プログラムであって、複数の入力項目を有する文書を入力する入力工程のコードと、前記文書の中に、該文書の表示^!犬態に応じて特定の文法を選択する指定があるか否か判断する判断工程のコードと、

前記判断結果に応じて文法の選択を制御する制御工程のコードとを備えることを特徴とする制御プログラム。