+

WO2000065575A1 - Dispositif de reconnaissance vocale pour jouets - Google Patents

Dispositif de reconnaissance vocale pour jouets Download PDF

Info

Publication number
WO2000065575A1
WO2000065575A1 PCT/JP2000/002642 JP0002642W WO0065575A1 WO 2000065575 A1 WO2000065575 A1 WO 2000065575A1 JP 0002642 W JP0002642 W JP 0002642W WO 0065575 A1 WO0065575 A1 WO 0065575A1
Authority
WO
WIPO (PCT)
Prior art keywords
words
speech
speaker
length
temporal length
Prior art date
Application number
PCT/JP2000/002642
Other languages
English (en)
French (fr)
Inventor
Takashi Ichikawa
Original Assignee
Toytec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toytec Corporation filed Critical Toytec Corporation
Priority to GB0030280A priority Critical patent/GB2354101B/en
Priority to US09/719,514 priority patent/US6934685B1/en
Publication of WO2000065575A1 publication Critical patent/WO2000065575A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Definitions

  • the present invention relates to a voice recognition device for a toy that can recognize voices of an unspecified number of people.
  • the present invention measures the time length of the gap between two or more words in order to recognize the voice of an unspecified number of people using a microcomputer or a voice synthesis IC, and thereby performs voice recognition. It is intended to provide equipment. Another object of the present invention is to provide an apparatus for measuring the length of time of a recognized speaker's word in order to recognize the voice of an unspecified number of people, and thereby performing voice recognition. It is intended to be
  • Still another object of the present invention is to compare the time length of speech-synthesized words in order to recognize the speech of an unspecified number of people, and to determine if the speech is within a predetermined allowable range.
  • the purpose is to provide a device that performs speech recognition by recognizing words. Disclosure of the invention
  • the present invention relates to a speech recognition device for a toy, which measures the temporal length of a combination of the temporal length of two or more consecutive words and the temporal length of a gap between those words.
  • a storage unit storing the measured value in advance, and measuring the temporal length of the speaker's words, comparing the measured value with the measured value stored in the storage unit, and determining whether the measured value is within a predetermined allowable range.
  • a control hand that recognizes the speaker's words And output means for outputting the recognized result.
  • a high toy speech recognition device can be provided. Therefore, when the length of any of two or more words is different, or when the interval between each word is different, the control means does not recognize it. It is a recognition device.
  • the present invention also relates to a speech recognition device for a toy, which measures a temporal length of a word of a speaker to be recognized, and stores the measured value in advance and a time of the word of the speaker.
  • Control means for measuring the actual length, comparing the measured value with the measured value stored in the storage means, and recognizing the speaker's words when the length is within a predetermined allowable range;
  • output means for outputting.
  • this is a speech recognition device for toys targeting children
  • a child who is a player speaks to the speech recognition device the time length of the speaker's words is measured, and If it is within the allowable range, the speaker's words are recognized, and the recognition result is output as speech by the device body.
  • a voice-recognition toy imitating a cat a player speaks "Tama”
  • a toy imitating a cat can reply "Nyao".
  • Such an interactive speech recognition toy can be provided.
  • the present invention relates to a speech recognition device for a toy, comprising: storage means for storing in advance the temporal length of speech-synthesized words; output means for outputting the speech-synthesized words; Measure the length of time of the word, and compare it with the length of time of the speech-synthesized word stored in the memory means, and recognize the speaker's word if it is within a predetermined allowable range. And output means for outputting the recognized result.
  • speech-synthesized word is "good morning”
  • the length of the recognized speaker's word is the same length as "good morning” within a predetermined allowable range
  • speech recognition can be performed. It can.
  • Speech-synthesized words, “Ohayo” have different lengths, and even if the recognized speaker's words are earlier or later, if the length is within the specified tolerance, speech recognition will be performed.
  • the present invention relates to a speech recognition apparatus for a toy, which measures a temporal length of a speaker's word corresponding to an output speech-synthesized word, and stores the measured length in a storage unit. It comprises control means for recognizing a speaker's word when it is within a predetermined allowable range by comparing with the time length of the speech-synthesized word, and output means for outputting the recognition result.
  • a speech recognition device that measures the time length of the speaker's words corresponding to the output speech-synthesized words and recognizes the speaker's words when it is within a predetermined allowable range. is there. That is, the quiz can be enjoyed by associating the next word with the output speech synthesis. For example, in response to the question "What is the highest mountain in Japan?" As a speech synthesis sound, the speaker's response is "Mt.
  • the present invention also relates to a speech recognition apparatus for a toy, wherein the storage means includes a time length of a combination of a time length of speech-synthesized words and a time length of a gap between the words.
  • control means measures the temporal length of the word gap and the temporal length of the speaker's word, and determines the gap length of the word stored in the storage means. Recognize the speaker's word if it is within a predetermined tolerance, compared to the combination of the speaker's words to be recognized as time length and the time length.
  • FIG. 1 shows the principle of measuring the time length of the words of the present invention.
  • FIG. 2 shows another principle diagram of measuring the time length of the words of the present invention.
  • FIG. 4 is another principle diagram for measuring the time length of words of the present invention,
  • FIG. 4 is a configuration diagram of hardware applied to the present invention, and
  • FIG. 5 is a diagram of the present invention.
  • FIG. 9 is a configuration diagram of another hardware to be applied.
  • FIG. 1 is a principle diagram for measuring the time length of words of the present invention.
  • the symbol A is the length of a word, for example, "Hello” and Ka ⁇ "Konbanwa” are five-character words of the same length.
  • the code C is also the length of the word, for example, "I'm good” or "I'm funny” is a seven-letter word The length is the same.
  • the symbol B is the length of the gap between the words A and C. For example, in the case of "Hello ... I'm good", the length of the gap between "Hello” and “I's good” is " ⁇ ⁇ ⁇ ”Means
  • the combination allows the meaning of the idiom to be recognized. Therefore, when the combination of the word A, the gap length B, and the word C is within the allowable range of the set word length, the recognition is performed. If the set word length is within the permissible range, the combination of word A and word C and the combination of gap B and word C are recognized. All are processed.
  • FIG. 2 is another principle diagram for measuring the time length of the words of the present invention.
  • the code A ' is the length of a four-letter word "Ohayo," for example, a speech synthesized speech produced by speaking the words uttered by speech synthesis as an IC output.
  • the lower line represents the speaker's speech input
  • the code A is the length of the word corresponding to the speech composite sound A ', and if the lengths of A' and A are the same, the speaker Is recognized.
  • the code B means the gap between the synthesized speech A 'and the sound A generated by the speaker after the output of the synthesized speech until the voice to be recognized is input. Becomes possible.
  • FIG. 3 is another principle diagram for measuring the time length of the words of the present invention.
  • the symbol A is the length of time of the speaker's words, for example the length of the two-letter word "Tama".
  • the lower line means the speaker's voice input.
  • the code A ' is a speech synthesized sound in which words uttered by speech synthesis are spoken as an IC output.
  • a speech “Niya—” is output.
  • the voice input sound of the speaker is compared with the measured value stored in the storage unit, and when the voice is within a predetermined allowable range, the speaker's words are recognized, and the recognized result is output as voice. .
  • FIG. 4 is a configuration diagram of a hardware applied to the present invention.
  • This application example uses a microcomputer and performs only speech recognition.
  • the audio signal that has passed through the microphone 1 is amplified by the amplifier 2, then the analog signal is converted to a digital signal by the integration circuit 3, and is input to the microcomputer 4.
  • the microcomputer 4 stores a combination of two or more consecutive words, a computing unit that recognizes the speaker's words when the speaker's words are within the allowable range of the temporal length, and a result of the recognition. And an output control unit. Therefore, after the digital signal input to the microcomputer 4 is controlled by the control unit, the arithmetic unit that receives the control signal transmits the first word stored in the storage unit and the received control signal to the speaker's word.
  • an LED or a light bulb is turned on.
  • the speaker knows that the first word has been recognized by the LED or light bulb being turned on, and inputs the second word at a timing before the LED or light bulb is turned off.
  • the control unit drives the motor 5, turns on or blinks the light bulb 6, or generates an electric signal for operating the electromagnet 7. Is output. This allows you to move the stuffed toys, dolls and other limbs, eyes, mouth, etc. and have conversations at the same time.
  • FIG. 5 is a configuration diagram of another hardware applied to the present invention.
  • speech recognition is performed using a speech synthesis IC.
  • voice recognition Microcomputers for use are usually inexpensive 4-bit or 8-bit microcomputers.
  • a normal speech synthesis IC is programmed and used.
  • the switch SW of the main body is closed, the speech synthesis sound is amplified by the amplifier 8 under the control of the speech synthesis IC 4, and the speech synthesis sound is output through the speaker 9.
  • the LED or light bulb lights up.
  • the speaker speaks the word corresponding to the synthesized speech through microphone 1 at the same time before turning off the LED or light bulb.
  • the speaker who hears the words by the speech synthesis speaks the corresponding words through the microphone 1.
  • words corresponding to the synthesized speech may be immediately spoken, or after outputting the synthesized speech, a pause (gap) may be opened and a reply may be made.
  • the audio signal passing through the microphone 1 is amplified by the amplifier 2 and then converted into a digital signal by the integration circuit 3 and input to the voice synthesis IC.
  • the result of speech recognition by the program is output in another voice, thereby driving the motor 5 or using a light bulb.
  • the present invention relates to a microcomputer or a speech synthesis IC.
  • the program is programmed, a simpler and cheaper speech recognition device can be provided, and conversation with a computer can be realized.
  • the present invention can improve recognition accuracy by combining a plurality of words and limiting the length of each sound and the length of time between words.
  • the present invention can use the speech synthesis IC as speech recognition to remind the speaker of the content or to directly flow the guidance content, and to provide a description of the operation method and the like. Is not required.
  • the present invention enables any voice to be used for voice recognition regardless of gender, age, etc., in order to recognize by sound length. Also, since only the sound length data is programmed, the memory capacity of the system can be made very small and a low-priced product can be provided. In particular, when speech synthesis Ic is used, the cost becomes extremely low. Further, the present invention does not require any voice registration before use, and can be used immediately after a switch is inserted. And, it is not necessary to collect voice data while recognizing unspecified speakers. Further, since the present invention is small and consumes very little electric power, a small voice recognition device can be manufactured with a small battery, and there is an economic effect.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Toys (AREA)
  • Electronic Switches (AREA)

Description

明 細 書 玩具用音声認識装置 技術の分野
本発明は、 不特定多数の人の音声を認識できる玩具用音声認識装置に 関する。 背景技術
従来の音声認識をする玩具用装置は次のよ うなものであった。 即ち、 特定人の音声認識をする装置は、 登録された 1人だけの言葉を認識する もので、 実際に使用する前にその人の音声を R A M又は R O Mに登録し なければならなかった。 R〇Mの認識率はさほど悪く はなかったが、 そ の人だけに限られてしま う点、 また登録をしなければならない点、 そし てその音声の登録も電源を切ることによって消滅してしま う等の問題も あり、 特に小さな子供を対象とする玩具には使い勝手が悪いものであ つた。 そして、 決定的な問題は、 その人だけしか使えないためその使い 方が非常に限定されていた。
他方、 不特定人の音声認識をする装置は、 誰の音声でも認識できるよ うにしたもので、 実際に使用する前に一切の登録が不要となる。 しかし ながら、 予め多数の人の音声データを R O Mに入力しておく必要があり その初期に作成する音声データが非常に難しい作業となる、。 そして、 音声認識の話数が増えれば増えるほどその作業はよ り複雑になり、 また そのデータを覚えさせるためのメモリ一の容量も大きなものとなり、 コ ス ト的には非常に高価なものとなる。 この点に関連する従来例と して、 特公平 2— 3 9 7 9 8号公報がある。 この従来例は、 入力された 1つの 言葉の長さを測定し、 それが音声登録用スィ ツチで決めた言葉の長さに 合致したときに音声が出力されるものであるが、 1つの言葉の長さの測 定の場合には、 雑音が発生している場所では誤動作が続き、 全く実用性 のないものである。
そして、 特定人の音声認識も不特定人のそれも通常認識できる話数は
1 0〜 2 0位であって、 人間の話す言葉をすベて認識できる訳ではなか つた。 そのため、 どのよ うな音声を認識できるかは、 いちいち説明書を 見る必要があり、 その意味では便利なはずの音声認識がそれ程便利なも のではなかつた。
本発明は、 マイ コン又は音声合成 I Cを用いて不特定多数の人の音声 を認識させるために、 2つ以上の言葉の隙間の時間的な長さを測定し、 それによつて音声認識をする装置を提供することを目的と している。 また本発明の他の目的は、不特定多数の人の音声を認識させるために、 認識される話者の言葉の時間的な長さを測定し、 それによつて音声認識 をする装置を提供することを目的と している。
さ らに本発明の他の目的は、 不特定多数の人の音声を認識させるため に、 音声合成された言葉の時間的な長さ と比較し、 所定の許容範囲内で ある場合に話者の言葉を認識するこ とによって音声認識をする装置を 提供することを目的と している。 発明の開示
本発明は、 玩具用音声認識装置であって、 連続した 2つ以上の言葉の 時間的な長さと、 それらの言葉の隙間の時間的な長さ とによる組合せの 時間的な長さを測定し、 その測定値を予め記憶した記憶手段と、 話者の 言葉の時間的な長さを測定し、 前記記憶手段に記憶されている測定値と 比較して、 所定の許容範囲内である場合に話者の言葉を認識する制御手 段と、 該認識した結果を出力する出力手段とからなる。
このことによって、 1つの言葉だけではなく連続した 2以上の言葉を 話すことによつてその組合せによ り、 熟語の意味を認識させるこ とがで きる。 例えば、 2つの言葉の組合せの場合に、 最初の言葉である 「こん にちわ」 と次の言葉である 「いいてんきです」 を認識させるときに、 こ れらの言葉の間にポーズ (隙間) を入れて認識させることによって、 「こ んにちわいいてんきです」 という熟語の意味を認識させるこ とができるな 人間が同じ言葉を話す場合に、 早口の人もいれば、 ゆつく り と話す人も いるので、 1つの言葉に長短を持たせて 2通りの認識を行う。 最初の言 葉と次の言葉のそれぞれに長短を持たせると 4通りの認識を行う ことが できる。 そして、 最初の言葉と次の言葉との間に空白の時間を持たせる と、 この空白時間の有無で 2通りの認識となり、 結果と して、 8通りの 言葉の認識が可能となり、 よ り高い玩具用音声認識装置を提供できる。 よって、 2以上の言葉のいずれかの長さが違ったとき、 また各々の言 葉の間隔が違っている時には制御手段で認識しないので、 誤動作や誤つ た認識をすることがない玩具用音声認識装置である。
また、 本発明は、 玩具用音声認識装置であって、 認識される話者の言 葉の時間的な長さを測定し、 その測定値を予め記憶した記憶手段と、 話 者の言葉の時間的な長さを測定し、 前記記憶手段に記憶されている測定 値と比較して、 所定の許容範囲内である場合に話者の言葉を認識する制 御手段と、 該認識した結果を音声で出力する出力手段とからなる。
このことによって、 子供を対象と した玩具用の音声認識装置であるの で、 遊戯者である子供が音声認識装置に向かって話しかけると、 話者の 言葉の時間的な長さを測定し、 所定の許容範囲内である場合には話者の 言葉を認識し、 認識した結果を装置本体が音声で出力するものである。 例えば、 ネコを模した音声認識玩具の場合に、 遊戯者が 「タマ」 と話し かけると、 ネコを模した玩具が 「ニヤォー」 と返答することができる。 このよ うな対話型音声認識玩具を提供することができる。
そして、 本発明は、 玩具用音声認識装置であって、 音声合成された言 葉の時間的な長さを予め記憶した記憶手段と、 該音声合成された言葉を 出力する出力手段と、 話者の言葉の時間的な長さを測定し、 前記記憶手 段に記憶されている音声合成された言葉の時間的な長さと比較し、 所定 の許容範囲内である場合に話者の言葉を認識する制御手段と、 該認識し た結果を出力する出力手段とからなる。
このことによって、 1個の I Cに音声合成と音声認識の両方をさせる ことによ り、 機械 ( I C ) との会話を実現でき、 しかも極めて低価格で 実現することができる。 例えば、 音声合成された言葉が 「おはよう」 の 場合に、認識される話者の言葉の長さが所定の許容範囲内で「おはよ う」 と同じ長さであれば音声認識することができる。 音声合成された言葉で ある 「おはよ う」 に長短があり、 認識される話者の言葉が早かったり、 遅かったり しても、 所定の許容範囲内の長さであれば、 音声認識をする: さらに、 本発明は、 玩具用音声認識装置であって、 出力された音声合 成された言葉に対応した話者の言葉の時間的な長さを測定し、 記憶手段 に記憶されている音声合成された言葉の時間的な長さ と比較し、 所定の 許容範囲内である場合に話者の言葉を認識する制御手段と、 該認識した 結果を出力する出力手段とからなる。
このことによって、 出力された音声合成された言葉に対応した話者の 言葉の時間的な長さを測定し、 所定の許容範囲内である場合に話者の言 葉を認識する音声認識装置である。 即ち、 出力される音声合成によ り次 の言葉を連想させてクイズを楽しむことができる。 例えば、 音声合成音 と して 「日本で一番高い山はなんですか」 という質問に対して、 話者の 応答が 「富士山 I と言えば正解になり音声認識される。 また、 本発明は、 玩具用音声認識装置であって、 前記記憶手段が音声 合成された言葉の時間的な長さと、 それらの言葉の隙間の時間的な長さ とによる組合せの時間的な長さを予め記憶し、 また前記制御手段が前記 言葉の隙間の時間的な長さ と話者の言葉の時間的な長さ とを測定し、 前 記記憶手段に記憶されている言葉の隙間の時間的な長さ と認識させる話 者の言葉の時間的な長さによる組合せと比較して、 所定の許容範囲内で ある場合に話者の言葉を認識する。
このことによって、 音声合成音の出力後、 認識させるための話者の言 葉が入力されるまでの空白時間の長さ と話者の言葉の組合せによる時 間的な長さを測定しているので、 よ り誤りの少ない音声認識が可能とな る。 図面の簡単な説明
第 1図は、 本発明の言葉の時間的な長さを測定する原理であり、 第 2 図は、 本発明の言葉の時間的な長さを測定する他の原理図であり、 第 3 図は、 本発明の言葉の時間的な長さを測定する別の原理図であり、 第 4 図は、 本発明に応用するハ一 ドウエアの構成図であり、 第 5図は、 本発 明に応用する他のハー ドウエアの構成図である。 発明を実施するための最良の形態
本発明をよ り詳細に説明するために、 添付の図面に従ってこれを説明 する。
第 1図は、 本発明の言葉の時間的な長さを測定する原理図である。 符 号 Aは単語の長さであり、 例えば 「こんにちわ」 とカゝ 「こんばんわ」 は 5文字の単語で長さが同じである。 符号 Cも同様に単語の長さであり、 例えば、 「いいてんきです」 とか 「おかいものです」 は 7文字の単語で 長さが同じである。 符号 Bは、 単語 Aと単語 Cの隙間の長さであり 、 例 えば、 「こんにちわ…いいてんきです」 の場合に、 「こんにちわ」 と 「い いてんきです」 の間の隙間の長さ 「■· ·」 を意味する。
このよ うに、 2つ以上の言葉を連続して話すことによって、 その組合 せによ り、 その熟語の意味を認識させる。 よって、 単語 Aと隙間の長さ B と単語 Cの組合せが設定された言葉の長さの許容範囲内の場合に認 識させる。 また、 設定された言葉の長さの許容範囲内であれば、 単語 A と単語 C との組合せ、 隙間 B と単語 Cとの組合せであっても認識させる, これらの認識は後述するマイコンによ りすべて処理される。
つぎに、 第 2図は、 本発明の言葉の時間的な長さを測定する他の原理 図である。 符号 A ' は音声合成によ り発せられた言葉を I C出力と して 話させた音声合成音、 例えば 「おはよ う」 という 4文字の単語の長さで ある。 図において、 下の線は話者の音声入力を意味し、 符号 Aは音声合 成音 A ' に対応した言葉の長さであって、 A ' と Aの長さが同じであれ ば話者の音声が認識される。 また符号 Bは、 音声合成音の出力後、 認識 させるための声が入力されるまでの音声合成音 A ' と話者の発生音 Aと の間の隙間を意味し、 より誤りの少ない音声認識が可能となる。 即ち、 前者の場合は音の長さ Aだけで音声認識しているのに対して、 後者は隙 間の長さ B と音の長さ Aとの組合せにより音声認識をしているので、 よ り認識度が高まる。 さらに、 最初の合成音により次の言葉を連想させる こと も可能である。 例えば、 音声合成音 A ' と して 「日本で一番高い山 はなんですか」 の質問に対して、 話者の癸生音 Aと して 「富士山」 と言 えば音声認識される。 この場合には、 いちいち説明書等を見なく ても簡 単に音声認識装置を操作することが可能となる。
そして、 第 3図は、 本発明の言葉の時間的な長さを測定する別の原理 図である。 符号 Aは話者による言葉の時間的な長さであり、 例えば 「タマ」 という 2文字の単語の長さである。 図において、 下の線は話者の音声入力を意 味する。 符号 A ' は音声合成によ り発せられた言葉を I C出力と して話 させた音声合成音であり、 「タマ」 という音声入力に対して、 「ニヤォ —」 と音声を出力する。 この場合に、 話者による音声入力音が記憶部に 記憶されている測定値と比較して、 所定の許容範囲内である場合に話者 の言葉を認識し、 認識した結果を音声で出力する。
第 4図は、 本発明に応用するハー ドウユアの構成図である。 本応用例 はマイコンを使用し、 音声認識のみを行う場合である。 マイク 1 を通し た音声信号は増幅器 2で増幅された後、 積分回路 3でアナログ信号をデ ジタル信号に変換し、 マイコン 4に入力される。 マイコン 4は連続した 2以上の言葉の組合せを記憶した記憶部と、 話者の言葉の時間的な長さ の許容範囲内のときに話者の言葉を認識する演算部と、 認識した結果を 出力する制御部とからなる。 よって、 マイコン 4に入力されたデジタル 信号は制御部で制御されたのち、 その制御信号を受け取った演算部では、 記憶部に記憶した第 1 の言葉と、 受け取った制御信号が話者の言葉と し て認識できるかどうかの演算処理が行われ、 その結果話者の言葉と して 認識すると L E D又は電球を点灯させる。 話者は L E D又は電球が点灯 したことで第 1 の言葉が認識されたことがわかり、 L E D又は電球が消 灯する前にタイ ミ ングをはかって第 2の言葉を入力する。 第 2の言葉は、 第 1 の言葉同様の演算処理が行われ認識される と制御部からモーター 5を駆動したり、 電球 6を点灯又は点滅させたり、 電磁石 7 を作動した りする電気信号が出力される。 これにより、 ぬいぐるみ、 人形等の手足、 目、 口などを動かし同時に会話をさせることができる。
第 5図は、 本発明に応用する他のハー ドウェアの構成図である。 本応 用例は、 音声合成 I Cを使用し、 音声認識を行う場合である。 音声認識 用のマイ コ ンは通常安価な 4 ビッ ト又は 8 ビッ トのマイ コンが使用可能 である。 しかし、 そのコス トをよ り安価にさせるため、 本応用例では通 常の音声合成 I Cをプログラムして使用する。 本体のスィ ッチ S Wが閉 成されると、 音声合成 I C 4の制御によ り音声合成音が増幅器 8で増幅 され、 ス ピーカ一 9を通して音声合成音が出力される。 音声合成音の出 力が終了すると L E D又は電球が点灯する。 話者は L E D又は電球の消 灯前にタイ ミ ングを合わせて音声合成音に対応する言葉をマイ ク 1 を 通して喋る。 音声合成による言葉を聞いた話者はこれに対応する言葉を マイク 1 を通して喋る。 この場合、 音声合成音に対応した言葉を即座に 話してもよく 、 また音声合成音の出力後、 ポーズ (隙間) を開けて返答 してもよレ、。 これらはすべてプログラム上で処理される。 マイク 1 を通 した音声信号は増幅器 2で増幅された後、 積分回路 3でアナログ信号を デジタル信号に変換し、 音声合成 I Cに入力される。 音声合成音に対応 した長さの言葉が音声合成 I Cに入力されると、 プログラムによ り音声 認識された結果を別の声で出力し、 それによつてモ一ター 5を駆動した り、 電球 6 を点灯又は点滅したり、 電磁石 7を作動したりする。 このよ うに声の命令によ り人形等の手足、 目、 口等を動かし、 同時に会話をさ せることができる。
本発明は、 マイコン又は音声合成 I Cを使用してコンピュータからの 話しかけに応じて返答するという方法を何回か繰り返すことが可能で、 これはあたかも人間同士が会話をしている様子を呈し、 次々に意志を通 わすことが可能となる。 最終的にはマイコン又は音声合成 I Cに多く の ことを認識させその命令に従わせることが可能になる。 産業上の利用可能性
以上のよ うに、 本発明は、 マイ コン又は音声合成 I Cにこのシステム をプログラムした場合に、よ り簡単で低価格の音声認識装置を提供でき、 コンピュータ との会話を実現できる。 また、 本発明は、 複数の言葉を組 合せ、 各々の音の長さや言葉の隙間の時間的長さを限定することによ り . 認識精度をあげることができる。 また本発明は、 音声合成 I Cを音声認 識と して使用した場合、 話者の話す内容を連想させたり 、 あるいは直接 ガイ ダンスの内容を流すことが可能で、 その操作方法に関する説明書な どは必要と されない。 さらに本発明は、 音声認識の結果に合わせてマイ コンから出力させ、 会話以外に別の動作を同調させることができる。 そ して本発明は、 音の長さで認識するために性別、 年令等に関係なく誰の 声でも音声認識を可能とする。 また音の長さのデータのみがプログラム されているので、 システムのメモリ ー量をごく小さく でき、 低単価な商 品を提供できる。 特に、 音声合成 I cを使用する場合には、 超低単価に なる。 また本発明は、 使用前に音声登録を一切する必要がなく 、 スイ ツ チを入れてすぐに使用できる。 そして不特定話者の認識でありながら、 音声データを収集することは必要ない。 さらに本発明は、 小型で電気消 費量がきわめて少ないので、 小さい電池で小型の音声認識装置を製造で き、 経済的な効果もある。

Claims

5冃 求 の 範 囲
1 . 連続した 2つ以上の言葉の時間的な長さと、 それらの言葉の隙間の 時間的な長さ とによる組合せの時間的な長さを測定し、 その測定値を予 め記憶した記憶手段と、 話者の言葉の時間的な長さを測定し、 前記記憶 手段に記憶されている測定値と比較して、 所定の許容範囲内である場合 に話者の言葉を認識する制御手段と、 該認識した結果を出力する出力手 段とからなることを特徴とする玩具用音声認識装置。
2 . 認識される話者の言葉の時間的な長さを測定し、 その測定値を予め 記憶した記憶手段と、 話者の言葉の時間的な長さを測定し、 前記記憶手 段に記憶されている測定値と比較して、 所定の許容範囲内である場合に 話者の言葉を認識する制御手段と、 該認識した結果を音声で出力する出 力手段とからなることを特徴とする玩具用音声認識装置。
3 . 音声合成された言葉の時間的な長さを予め記憶した記憶手段と、 該 音声合成された言葉を出力する出力手段と、 話者の言葉の時間的な長さ を測定し、 前記記憶手段に記憶されている音声合成された言葉の時間的 な長さ と比較し、 所定の許容範囲内である場合に話者の言葉を認識する 制御手段と、 該認識した結果を出力する出力手段とからなることを特徴 とする玩具用音声認識装置。
4 . 出力された音声合成された言葉に対応した話者の言葉の時間的な長 さを測定し、 記憶手段に記憶されている音声合成された言葉の時間的な 長さ と比較し、 所定の許容範囲内である場合に話者の言葉を認識する制 御手段と、 該認識した結果を出力する出力手段とからなることを特徴と する請求項 3記載の玩具用音声認識装置。
5 . 前記記憶手段が音声合成された言葉の時間的な長さと、 それらの言 葉の隙間の時間的な長さとによる組合せの時間的な長さを予め記憶し、 また前記制御手段が前記言葉の隙間の時間的な長さ と話者の言葉の時間 的な長さとを測定し、 前記記憶手段に記憶されている言葉の隙間の時間 的な長さ と認識させる話者の言葉の時間的な長さによる組合せと比較 して、 所定の許容範囲内である場合に話者の言葉を認識することを特徴 とする請求項 3又は 4記載の玩具用音声認識装置。
PCT/JP2000/002642 1999-04-21 2000-04-21 Dispositif de reconnaissance vocale pour jouets WO2000065575A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
GB0030280A GB2354101B (en) 1999-04-21 2000-04-21 Voice recognition device for toys
US09/719,514 US6934685B1 (en) 1999-04-21 2000-04-21 Voice recognition device for toys

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP11114222A JP3132815B2 (ja) 1999-04-21 1999-04-21 玩具用音声認識装置
JP11/114222 1999-04-21

Publications (1)

Publication Number Publication Date
WO2000065575A1 true WO2000065575A1 (fr) 2000-11-02

Family

ID=14632301

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/002642 WO2000065575A1 (fr) 1999-04-21 2000-04-21 Dispositif de reconnaissance vocale pour jouets

Country Status (4)

Country Link
US (1) US6934685B1 (ja)
JP (1) JP3132815B2 (ja)
GB (1) GB2354101B (ja)
WO (1) WO2000065575A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2468203B (en) * 2009-02-27 2011-07-20 Autonomy Corp Ltd Various apparatus and methods for a speech recognition system
US9646603B2 (en) 2009-02-27 2017-05-09 Longsand Limited Various apparatus and methods for a speech recognition system
US8229743B2 (en) 2009-06-23 2012-07-24 Autonomy Corporation Ltd. Speech recognition system
US8190420B2 (en) 2009-08-04 2012-05-29 Autonomy Corporation Ltd. Automatic spoken language identification based on phoneme sequence patterns

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS589087A (ja) * 1981-07-10 1983-01-19 Citizen Watch Co Ltd 電子時計
JPH0242498A (ja) * 1988-08-02 1990-02-13 Toshiba Corp 口笛音検出方式
JPH03135600A (ja) * 1989-10-20 1991-06-10 Ricoh Co Ltd 音声認識装置
JPH0356000Y2 (ja) * 1985-01-25 1991-12-13

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
US5209695A (en) * 1991-05-13 1993-05-11 Omri Rothschild Sound controllable apparatus particularly useful in controlling toys and robots
US5444817A (en) * 1991-10-02 1995-08-22 Matsushita Electric Industrial Co., Ltd. Speech recognizing apparatus using the predicted duration of syllables
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
US6594630B1 (en) * 1999-11-19 2003-07-15 Voice Signal Technologies, Inc. Voice-activated control for electrical device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS589087A (ja) * 1981-07-10 1983-01-19 Citizen Watch Co Ltd 電子時計
JPH0356000Y2 (ja) * 1985-01-25 1991-12-13
JPH0242498A (ja) * 1988-08-02 1990-02-13 Toshiba Corp 口笛音検出方式
JPH03135600A (ja) * 1989-10-20 1991-06-10 Ricoh Co Ltd 音声認識装置

Also Published As

Publication number Publication date
GB2354101A (en) 2001-03-14
US6934685B1 (en) 2005-08-23
GB0030280D0 (en) 2001-01-24
JP2000305592A (ja) 2000-11-02
GB2354101B (en) 2003-09-24
JP3132815B2 (ja) 2001-02-05

Similar Documents

Publication Publication Date Title
JP3968133B2 (ja) 音声認識対話処理方法および音声認識対話装置
KR100282022B1 (ko) 음성 인식 대화 장치
JPS59220775A (ja) 母国語もしくは外国語の訓練援助装置
JP2008309856A (ja) 音声認識装置及び会議システム
KR19990068379A (ko) 음성인식대화형인형완구및그제어방법
WO2000065575A1 (fr) Dispositif de reconnaissance vocale pour jouets
JPS6126677B2 (ja)
Ainsworth Optimization of string length for spoken digit input with error correction
JPH0283593A (ja) ノイズ適応形音声認識装置
JPH11175093A (ja) 音声認識確認応答方法
WO1994002936A1 (en) Voice recognition apparatus and method
JP2000242295A (ja) 音声認識装置および音声対話装置
KR100483477B1 (ko) 화자종속형 음성인식기를 이용한 대화형 완구
KR960025319A (ko) 음성인식시스템에 있어서 자동 학습 훈련장치
JPH07210193A (ja) 音声対話装置
JPS59185400A (ja) 単音節音声認識方式
JPH08297673A (ja) 音声入力翻訳装置
JP2001175275A (ja) サブワード音響モデル生成方法および音声認識装置
JP2002196789A (ja) 音声対話装置
Liberman Words and Sounds
JPH08110790A (ja) 音声認識装置
JPS6340398B2 (ja)
JP2004029804A (ja) 音声認識対話装置および音声認識対話処理方法
JPH01302297A (ja) 話者認識装置
JP2005148764A (ja) 音声認識対話処理方法および音声認識対話装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): GB US

ENP Entry into the national phase

Ref country code: GB

Ref document number: 200030280

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: 09719514

Country of ref document: US

点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载