WO2000065575A1

WO2000065575A1 - Dispositif de reconnaissance vocale pour jouets

Info

Publication number: WO2000065575A1
Application number: PCT/JP2000/002642
Authority: WO
Inventors: Takashi Ichikawa
Original assignee: Toytec Corporation
Priority date: 1999-04-21
Filing date: 2000-04-21
Publication date: 2000-11-02
Also published as: GB2354101A; US6934685B1; GB0030280D0; JP2000305592A; GB2354101B; JP3132815B2

Description

明細書玩具用音声認識装置技術の分野

本発明は、不特定多数の人の音声を認識できる玩具用音声認識装置に関する。背景技術

従来の音声認識をする玩具用装置は次のようなものであった。即ち、特定人の音声認識をする装置は、登録された 1人だけの言葉を認識するもので、実際に使用する前にその人の音声を R A M又は R O Mに登録しなければならなかった。 R〇Mの認識率はさほど悪くはなかったが、その人だけに限られてしまう点、また登録をしなければならない点、そしてその音声の登録も電源を切ることによって消滅してしまう等の問題もあり、特に小さな子供を対象とする玩具には使い勝手が悪いものであつた。そして、決定的な問題は、その人だけしか使えないためその使い方が非常に限定されていた。

他方、不特定人の音声認識をする装置は、誰の音声でも認識できるようにしたもので、実際に使用する前に一切の登録が不要となる。しかしながら、予め多数の人の音声データを R O Mに入力しておく必要がありその初期に作成する音声データが非常に難しい作業となる、。そして、音声認識の話数が増えれば増えるほどその作業はより複雑になり、またそのデータを覚えさせるためのメモリ一の容量も大きなものとなり、コスト的には非常に高価なものとなる。この点に関連する従来例として、特公平 2— 3 9 7 9 8号公報がある。この従来例は、入力された 1つの言葉の長さを測定し、それが音声登録用スィツチで決めた言葉の長さに合致したときに音声が出力されるものであるが、 1つの言葉の長さの測定の場合には、雑音が発生している場所では誤動作が続き、全く実用性のないものである。

そして、特定人の音声認識も不特定人のそれも通常認識できる話数は

1 0〜 2 0位であって、人間の話す言葉をすベて認識できる訳ではなかつた。そのため、どのような音声を認識できるかは、いちいち説明書を見る必要があり、その意味では便利なはずの音声認識がそれ程便利なものではなかつた。

本発明は、マイコン又は音声合成 I Cを用いて不特定多数の人の音声を認識させるために、 2つ以上の言葉の隙間の時間的な長さを測定し、それによつて音声認識をする装置を提供することを目的としている。また本発明の他の目的は、不特定多数の人の音声を認識させるために、認識される話者の言葉の時間的な長さを測定し、それによつて音声認識をする装置を提供することを目的としている。

さらに本発明の他の目的は、不特定多数の人の音声を認識させるために、音声合成された言葉の時間的な長さと比較し、所定の許容範囲内である場合に話者の言葉を認識することによって音声認識をする装置を提供することを目的としている。発明の開示

本発明は、玩具用音声認識装置であって、連続した 2つ以上の言葉の時間的な長さと、それらの言葉の隙間の時間的な長さとによる組合せの時間的な長さを測定し、その測定値を予め記憶した記憶手段と、話者の言葉の時間的な長さを測定し、前記記憶手段に記憶されている測定値と比較して、所定の許容範囲内である場合に話者の言葉を認識する制御手段と、該認識した結果を出力する出力手段とからなる。

このことによって、 1つの言葉だけではなく連続した 2以上の言葉を話すことによつてその組合せにより、熟語の意味を認識させることができる。例えば、 2つの言葉の組合せの場合に、最初の言葉である「こんにちわ」と次の言葉である「いいてんきです」を認識させるときに、これらの言葉の間にポーズ（隙間）を入れて認識させることによって、「こんにちわいいてんきです」という熟語の意味を認識させることができるな人間が同じ言葉を話す場合に、早口の人もいれば、ゆつくりと話す人もいるので、 1つの言葉に長短を持たせて 2通りの認識を行う。最初の言葉と次の言葉のそれぞれに長短を持たせると 4通りの認識を行うことができる。そして、最初の言葉と次の言葉との間に空白の時間を持たせると、この空白時間の有無で 2通りの認識となり、結果として、 8通りの言葉の認識が可能となり、より高い玩具用音声認識装置を提供できる。よって、 2以上の言葉のいずれかの長さが違ったとき、また各々の言葉の間隔が違っている時には制御手段で認識しないので、誤動作や誤つた認識をすることがない玩具用音声認識装置である。

また、本発明は、玩具用音声認識装置であって、認識される話者の言葉の時間的な長さを測定し、その測定値を予め記憶した記憶手段と、話者の言葉の時間的な長さを測定し、前記記憶手段に記憶されている測定値と比較して、所定の許容範囲内である場合に話者の言葉を認識する制御手段と、該認識した結果を音声で出力する出力手段とからなる。

このことによって、子供を対象とした玩具用の音声認識装置であるので、遊戯者である子供が音声認識装置に向かって話しかけると、話者の言葉の時間的な長さを測定し、所定の許容範囲内である場合には話者の言葉を認識し、認識した結果を装置本体が音声で出力するものである。例えば、ネコを模した音声認識玩具の場合に、遊戯者が「タマ」と話しかけると、ネコを模した玩具が「ニヤォー」と返答することができる。このような対話型音声認識玩具を提供することができる。

そして、本発明は、玩具用音声認識装置であって、音声合成された言葉の時間的な長さを予め記憶した記憶手段と、該音声合成された言葉を出力する出力手段と、話者の言葉の時間的な長さを測定し、前記記憶手段に記憶されている音声合成された言葉の時間的な長さと比較し、所定の許容範囲内である場合に話者の言葉を認識する制御手段と、該認識した結果を出力する出力手段とからなる。

このことによって、 1個の I Cに音声合成と音声認識の両方をさせることにより、機械（ I C ) との会話を実現でき、しかも極めて低価格で実現することができる。例えば、音声合成された言葉が「おはよう」の場合に、認識される話者の言葉の長さが所定の許容範囲内で「おはよう」と同じ長さであれば音声認識することができる。音声合成された言葉である「おはよう」に長短があり、認識される話者の言葉が早かったり、遅かったりしても、所定の許容範囲内の長さであれば、音声認識をする：さらに、本発明は、玩具用音声認識装置であって、出力された音声合成された言葉に対応した話者の言葉の時間的な長さを測定し、記憶手段に記憶されている音声合成された言葉の時間的な長さと比較し、所定の許容範囲内である場合に話者の言葉を認識する制御手段と、該認識した結果を出力する出力手段とからなる。

このことによって、出力された音声合成された言葉に対応した話者の言葉の時間的な長さを測定し、所定の許容範囲内である場合に話者の言葉を認識する音声認識装置である。即ち、出力される音声合成により次の言葉を連想させてクイズを楽しむことができる。例えば、音声合成音として「日本で一番高い山はなんですか」という質問に対して、話者の応答が「富士山 I と言えば正解になり音声認識される。また、本発明は、玩具用音声認識装置であって、前記記憶手段が音声合成された言葉の時間的な長さと、それらの言葉の隙間の時間的な長さとによる組合せの時間的な長さを予め記憶し、また前記制御手段が前記言葉の隙間の時間的な長さと話者の言葉の時間的な長さとを測定し、前記記憶手段に記憶されている言葉の隙間の時間的な長さと認識させる話者の言葉の時間的な長さによる組合せと比較して、所定の許容範囲内である場合に話者の言葉を認識する。

このことによって、音声合成音の出力後、認識させるための話者の言葉が入力されるまでの空白時間の長さと話者の言葉の組合せによる時間的な長さを測定しているので、より誤りの少ない音声認識が可能となる。図面の簡単な説明

第 1図は、本発明の言葉の時間的な長さを測定する原理であり、第 2 図は、本発明の言葉の時間的な長さを測定する他の原理図であり、第 3 図は、本発明の言葉の時間的な長さを測定する別の原理図であり、第 4 図は、本発明に応用するハ一ドウエアの構成図であり、第 5図は、本発明に応用する他のハードウエアの構成図である。発明を実施するための最良の形態

本発明をより詳細に説明するために、添付の図面に従ってこれを説明する。

第 1図は、本発明の言葉の時間的な長さを測定する原理図である。符号 Aは単語の長さであり、例えば「こんにちわ」とカゝ「こんばんわ」は 5文字の単語で長さが同じである。符号 Cも同様に単語の長さであり、例えば、「いいてんきです」とか「おかいものです」は 7文字の単語で長さが同じである。符号 Bは、単語 Aと単語 Cの隙間の長さであり、例えば、「こんにちわ…いいてんきです」の場合に、「こんにちわ」と「いいてんきです」の間の隙間の長さ「■· ·」を意味する。

このように、 2つ以上の言葉を連続して話すことによって、その組合せにより、その熟語の意味を認識させる。よって、単語 Aと隙間の長さ B と単語 Cの組合せが設定された言葉の長さの許容範囲内の場合に認識させる。また、設定された言葉の長さの許容範囲内であれば、単語 A と単語 C との組合せ、隙間 B と単語 Cとの組合せであっても認識させる, これらの認識は後述するマイコンによりすべて処理される。

つぎに、第 2図は、本発明の言葉の時間的な長さを測定する他の原理図である。符号 A ' は音声合成により発せられた言葉を I C出力として話させた音声合成音、例えば「おはよう」という 4文字の単語の長さである。図において、下の線は話者の音声入力を意味し、符号 Aは音声合成音 A ' に対応した言葉の長さであって、 A ' と Aの長さが同じであれば話者の音声が認識される。また符号 Bは、音声合成音の出力後、認識させるための声が入力されるまでの音声合成音 A ' と話者の発生音 Aとの間の隙間を意味し、より誤りの少ない音声認識が可能となる。即ち、前者の場合は音の長さ Aだけで音声認識しているのに対して、後者は隙間の長さ B と音の長さ Aとの組合せにより音声認識をしているので、より認識度が高まる。さらに、最初の合成音により次の言葉を連想させることも可能である。例えば、音声合成音 A ' として「日本で一番高い山はなんですか」の質問に対して、話者の癸生音 Aとして「富士山」と言えば音声認識される。この場合には、いちいち説明書等を見なくても簡単に音声認識装置を操作することが可能となる。

そして、第 3図は、本発明の言葉の時間的な長さを測定する別の原理図である。符号 Aは話者による言葉の時間的な長さであり、例えば「タマ」という 2文字の単語の長さである。図において、下の線は話者の音声入力を意味する。符号 A ' は音声合成により発せられた言葉を I C出力として話させた音声合成音であり、「タマ」という音声入力に対して、「ニヤォ —」と音声を出力する。この場合に、話者による音声入力音が記憶部に記憶されている測定値と比較して、所定の許容範囲内である場合に話者の言葉を認識し、認識した結果を音声で出力する。

第 4図は、本発明に応用するハードウユアの構成図である。本応用例はマイコンを使用し、音声認識のみを行う場合である。マイク 1 を通した音声信号は増幅器 2で増幅された後、積分回路 3でアナログ信号をデジタル信号に変換し、マイコン 4に入力される。マイコン 4は連続した 2以上の言葉の組合せを記憶した記憶部と、話者の言葉の時間的な長さの許容範囲内のときに話者の言葉を認識する演算部と、認識した結果を出力する制御部とからなる。よって、マイコン 4に入力されたデジタル信号は制御部で制御されたのち、その制御信号を受け取った演算部では、記憶部に記憶した第 1 の言葉と、受け取った制御信号が話者の言葉として認識できるかどうかの演算処理が行われ、その結果話者の言葉として認識すると L E D又は電球を点灯させる。話者は L E D又は電球が点灯したことで第 1 の言葉が認識されたことがわかり、 L E D又は電球が消灯する前にタイミングをはかって第 2の言葉を入力する。第 2の言葉は、第 1 の言葉同様の演算処理が行われ認識されると制御部からモーター 5を駆動したり、電球 6を点灯又は点滅させたり、電磁石 7 を作動したりする電気信号が出力される。これにより、ぬいぐるみ、人形等の手足、目、口などを動かし同時に会話をさせることができる。

第 5図は、本発明に応用する他のハードウェアの構成図である。本応用例は、音声合成 I Cを使用し、音声認識を行う場合である。音声認識用のマイコンは通常安価な 4 ビット又は 8 ビットのマイコンが使用可能である。しかし、そのコストをより安価にさせるため、本応用例では通常の音声合成 I Cをプログラムして使用する。本体のスィッチ S Wが閉成されると、音声合成 I C 4の制御により音声合成音が増幅器 8で増幅され、スピーカ一 9を通して音声合成音が出力される。音声合成音の出力が終了すると L E D又は電球が点灯する。話者は L E D又は電球の消灯前にタイミングを合わせて音声合成音に対応する言葉をマイク 1 を通して喋る。音声合成による言葉を聞いた話者はこれに対応する言葉をマイク 1 を通して喋る。この場合、音声合成音に対応した言葉を即座に話してもよく、また音声合成音の出力後、ポーズ（隙間）を開けて返答してもよレ、。これらはすべてプログラム上で処理される。マイク 1 を通した音声信号は増幅器 2で増幅された後、積分回路 3でアナログ信号をデジタル信号に変換し、音声合成 I Cに入力される。音声合成音に対応した長さの言葉が音声合成 I Cに入力されると、プログラムにより音声認識された結果を別の声で出力し、それによつてモ一ター 5を駆動したり、電球 6 を点灯又は点滅したり、電磁石 7を作動したりする。このように声の命令により人形等の手足、目、口等を動かし、同時に会話をさせることができる。

本発明は、マイコン又は音声合成 I Cを使用してコンピュータからの話しかけに応じて返答するという方法を何回か繰り返すことが可能で、これはあたかも人間同士が会話をしている様子を呈し、次々に意志を通わすことが可能となる。最終的にはマイコン又は音声合成 I Cに多くのことを認識させその命令に従わせることが可能になる。産業上の利用可能性

以上のように、本発明は、マイコン又は音声合成 I Cにこのシステムをプログラムした場合に、より簡単で低価格の音声認識装置を提供でき、コンピュータとの会話を実現できる。また、本発明は、複数の言葉を組合せ、各々の音の長さや言葉の隙間の時間的長さを限定することにより . 認識精度をあげることができる。また本発明は、音声合成 I Cを音声認識として使用した場合、話者の話す内容を連想させたり、あるいは直接ガイダンスの内容を流すことが可能で、その操作方法に関する説明書などは必要とされない。さらに本発明は、音声認識の結果に合わせてマイコンから出力させ、会話以外に別の動作を同調させることができる。そして本発明は、音の長さで認識するために性別、年令等に関係なく誰の声でも音声認識を可能とする。また音の長さのデータのみがプログラムされているので、システムのメモリー量をごく小さくでき、低単価な商品を提供できる。特に、音声合成 I cを使用する場合には、超低単価になる。また本発明は、使用前に音声登録を一切する必要がなく、スイツチを入れてすぐに使用できる。そして不特定話者の認識でありながら、音声データを収集することは必要ない。さらに本発明は、小型で電気消費量がきわめて少ないので、小さい電池で小型の音声認識装置を製造でき、経済的な効果もある。

Claims

5冃求の範囲

1 . 連続した 2つ以上の言葉の時間的な長さと、それらの言葉の隙間の時間的な長さとによる組合せの時間的な長さを測定し、その測定値を予め記憶した記憶手段と、話者の言葉の時間的な長さを測定し、前記記憶手段に記憶されている測定値と比較して、所定の許容範囲内である場合に話者の言葉を認識する制御手段と、該認識した結果を出力する出力手段とからなることを特徴とする玩具用音声認識装置。

2 . 認識される話者の言葉の時間的な長さを測定し、その測定値を予め記憶した記憶手段と、話者の言葉の時間的な長さを測定し、前記記憶手段に記憶されている測定値と比較して、所定の許容範囲内である場合に話者の言葉を認識する制御手段と、該認識した結果を音声で出力する出力手段とからなることを特徴とする玩具用音声認識装置。

3 . 音声合成された言葉の時間的な長さを予め記憶した記憶手段と、該音声合成された言葉を出力する出力手段と、話者の言葉の時間的な長さを測定し、前記記憶手段に記憶されている音声合成された言葉の時間的な長さと比較し、所定の許容範囲内である場合に話者の言葉を認識する制御手段と、該認識した結果を出力する出力手段とからなることを特徴とする玩具用音声認識装置。

4 . 出力された音声合成された言葉に対応した話者の言葉の時間的な長さを測定し、記憶手段に記憶されている音声合成された言葉の時間的な長さと比較し、所定の許容範囲内である場合に話者の言葉を認識する制御手段と、該認識した結果を出力する出力手段とからなることを特徴とする請求項 3記載の玩具用音声認識装置。

5 . 前記記憶手段が音声合成された言葉の時間的な長さと、それらの言葉の隙間の時間的な長さとによる組合せの時間的な長さを予め記憶し、また前記制御手段が前記言葉の隙間の時間的な長さと話者の言葉の時間的な長さとを測定し、前記記憶手段に記憶されている言葉の隙間の時間的な長さと認識させる話者の言葉の時間的な長さによる組合せと比較して、所定の許容範囲内である場合に話者の言葉を認識することを特徴とする請求項 3又は 4記載の玩具用音声認識装置。