+

WO2010013369A1 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
WO2010013369A1
WO2010013369A1 PCT/JP2009/001870 JP2009001870W WO2010013369A1 WO 2010013369 A1 WO2010013369 A1 WO 2010013369A1 JP 2009001870 W JP2009001870 W JP 2009001870W WO 2010013369 A1 WO2010013369 A1 WO 2010013369A1
Authority
WO
WIPO (PCT)
Prior art keywords
button
candidate
voice
unit
screen
Prior art date
Application number
PCT/JP2009/001870
Other languages
English (en)
French (fr)
Inventor
井上譲
竹裏尚嘉
古本友紀
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to DE112009001779.7T priority Critical patent/DE112009001779B4/de
Priority to JP2010522588A priority patent/JPWO2010013369A1/ja
Priority to US13/056,488 priority patent/US8818816B2/en
Priority to CN200980129204.2A priority patent/CN102105929B/zh
Publication of WO2010013369A1 publication Critical patent/WO2010013369A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • the present invention relates to a voice recognition device that operates a device such as a navigation device by voice, and more particularly to a technique for performing a procedure similar to a manual operation by voice operation.
  • Patent Document 1 In order to solve the problem caused by the ambiguity of such an utterance, in Patent Document 1, the user can correct the interpretation result by voice, and the user can select the interpretation result candidate by voice.
  • An information input / output device is disclosed.
  • the input interpretation candidate provisional output unit generates provisional presentation information for allowing the user to select a candidate from each interpretation candidate obtained from the input device.
  • the timer unit starts a time counting operation by outputting the provisional presentation information, and generates a timer signal after a predetermined time has elapsed.
  • the interpretation information selection / determination unit selects one candidate from each interpretation candidate, The information is given to the information processing apparatus as interpretation information.
  • the output integration unit integrates the output information from the information processing device and the provisional presentation information from the input interpretation candidate set provisional output unit, and gives this to the output device as output information to the user.
  • the present invention has been made to solve the above-described problems, and an object of the present invention is to provide a voice recognition device capable of performing manual operation and voice operation in the same procedure.
  • a speech recognition device includes a speech input device that inputs speech of a spoken button name and converts it into an electrical signal, and speech that is sent from the speech input device as an electrical signal.
  • a speech recognition processing unit that performs speech recognition processing based on the signal, a candidate button detection unit that detects a button having a button name partially matching the recognition result obtained by the speech recognition processing unit as a compensation button, and candidate button detection
  • a display control unit that generates a screen indicating a state in which at least one of the plurality of candidate buttons is selected, and a display that displays the screen generated by the display control unit Equipment.
  • the voice recognition device when a button having a button name that partially matches the result of voice recognition is detected as a compensation button and a plurality of candidate buttons are detected, at least one of the plurality of candidate buttons is detected. Since the state in which one is selected is displayed on the screen and can be pressed by the user, even if the user's utterance is ambiguous, the voice operation can be performed in the same procedure as the manual operation.
  • FIG. 1 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 1 of the present invention.
  • the voice recognition device includes a voice input device 11, a voice recognition processing unit 12, a candidate button detection unit 13, a manual operation device 14, a display control unit 15, a display device 16, various function execution units 17, a response voice generation unit 18, and a voice.
  • An output device 19 is provided.
  • the voice input device 11 is composed of, for example, a microphone, converts the voice uttered by the user into an electrical signal, and sends it to the voice recognition processing unit 12 as a voice signal.
  • the voice recognition processing unit 12 executes voice recognition processing based on the voice signal transmitted from the voice input device 11.
  • the voice recognition processing includes voice segment detection processing for detecting a speech segment from an input voice signal, acoustic analysis processing for converting a voice signal detected by the voice segment detection processing into acoustic parameters, and voice obtained by the acoustic analysis processing.
  • a probability calculation process that selects and identifies a phoneme candidate having the maximum likelihood based on the minimum unit, and a matching process that determines a recognition result by comparing a phoneme obtained by the probability calculation process with a dictionary that stores words, etc. Including.
  • an input speech signal is converted into a feature vector sequence using an LPC (Linear Predictor Coefficient) mel cepstrum or MFCC (Mel-Frequency Cepstrum Coefficient). Envelope) is estimated.
  • LPC Linear Predictor Coefficient
  • MFCC Mel-Frequency Cepstrum Coefficient
  • Envelope is estimated.
  • HMM Hidden Markov Model
  • the phonetic symbolization of the speech signal is performed using the acoustic parameters extracted by the acoustic analysis processing based on the input speech and prepared in advance. The most likely phoneme complement is selected compared to the standard phoneme model.
  • a word with a high likelihood is selected by comparing the phoneme candidate with a dictionary.
  • the recognition result obtained in the voice recognition processing unit 12 by the above-described processing is sent to the candidate button detection unit 13 and the display control unit 15.
  • the candidate button detection unit 13 prepares the recognition result obtained by the voice recognition processing unit 12 and the names of all buttons (hereinafter referred to as “button names”) acquired from the display control unit 15, that is, the voice recognition device.
  • the button names of all buttons existing on all screens are compared, and a button having a button name partially matching the recognition result is detected as a compensation button. For example, if the recognition result is “YYY” and “XXXXXX”, “YYYABC”, “YYYDEF”, and “ZZZZZZZZZ” are prepared as button names, “YYYABC” and “YYYBC” that partially match “YYY” are prepared. Two buttons having button names such as “YYYDEF” are detected as supplementary buttons.
  • the recognition result partially matches the button name when the voice operation is ambiguous.
  • the candidate button detection unit 13 informs the display control unit 15 and various function execution units 17 that the coincidence is complete. Notification is performed (in FIG. 1, the notification route is omitted). In this case, the same operation as when the button is pressed by the manual operation device 14 is performed. Information representing the candidate buttons detected by the candidate button detection unit 13 is sent to the display control unit 15, various function execution units 17, and the response voice generation unit 18 as candidate button data.
  • the manual operation device 14 is used, for example, for the user to press a button displayed on the screen of the display device 16.
  • the manual operation device 14 includes an operation button provided on the front panel of the voice recognition device, a remote controller (remote controller) that generates a signal equivalent to the operation button, a touch panel placed on the screen of the display device 16, or , And a combination of these.
  • Operation button data generated by operating the manual operation device 14 is sent to the display control unit 15 and various function execution units 17.
  • the display control unit 15 displays screen data for displaying an image on the screen of the display device 16 based on the candidate button data sent from the candidate button detection unit 13 or the operation button data sent from the manual operation device 14. It is generated and sent to the display device 16. Further, the display control unit 15 generates screen data for displaying the processing result on the screen of the display device 16 based on the display data transmitted from the various function execution units 17, and sends the screen data to the display device 16. As described above, the display control unit 15 stores the button names of all the buttons existing on all the screens prepared by the voice recognition device, and is read out by the candidate button detection unit 13.
  • the display control unit 15 includes a button control unit 15a and a screen transition unit 15b.
  • the button control unit 15a changes the display form of buttons on the screen.
  • the button control unit 15a executes a process of highlighting by changing the color or brightness of the candidate button on the screen, or blinking the candidate button, or changing the size or shape of the candidate button. To do. By this highlighting, the user can be notified of the button selected on the screen, so that it is easy to guide to the next operation.
  • the screen transition unit 15b has the same screen as when the candidate button is pressed, that is, A process of transitioning to a screen for executing a function assigned to the pressed candidate button is executed.
  • the screen transition unit 15b indicates that the candidate button data sent from the candidate button detection unit 13 indicates that a plurality of candidate buttons are detected, and these candidate buttons exist in the displayed screen. Transitions to a screen representing a state in which at least one of a plurality of candidate buttons is selected, and executes processing to transition to a screen in which a candidate button exists if it does not exist in the screen being displayed.
  • the screen data representing the screen after the transition by the screen transition unit 15b is sent to the display device 16.
  • the display device 16 is composed of, for example, an LCD (Liquid Crystal Display), and displays an image based on the screen data sent from the display control unit 15.
  • LCD Liquid Crystal Display
  • the various function execution unit 17 functions assigned to the candidate button indicated by the candidate button data sent from the candidate button detection unit 13 or the operation indicated by the operation button data sent from the manual operation device 14. Executes the process for realizing the function assigned to the button.
  • the functions realized in the various function execution units 17 include, for example, functions for realizing HFT (Hands Free Telephone) or AV (Audio Visual).
  • HFT High Frequency Free Telephone
  • AV Audio Visual
  • the various function execution unit 17 generates message data for informing the user to that effect, sends the message data to the response voice generation unit 18, and generates display data representing the processing result.
  • the response voice generation unit 18 When the candidate button data is sent from the candidate button detection unit 13, the response voice generation unit 18 generates a voice signal for reading the button name of the candidate button indicated by the candidate button data, and executes various functions. A voice signal corresponding to the message data sent from the unit 17 is generated. The sound signal generated by the response sound generator 18 is sent to the sound output device 19.
  • the audio output device 19 is composed of, for example, a speaker, and outputs audio corresponding to the audio signal sent from the response audio generation unit 18. Since the response voice generation unit 18 and the voice output device 19 can notify the user of the selected button on the screen, it is easy to guide to the next operation.
  • a voice is first input (step ST11). That is, the voice input device 11 converts voice uttered by the user into an electrical signal and sends it to the voice recognition processing unit 12 as a voice signal.
  • voice recognition is performed (step ST12). That is, the voice recognition processing unit 12 performs voice recognition processing based on the voice signal sent from the voice input device 11 and sends the recognition result to the candidate button detection unit 13.
  • candidate buttons are detected (step ST13). That is, the candidate button detection unit 13 compares the recognition result sent from the voice recognition processing unit 12 with all the button names existing on all screens acquired from the display control unit 15, and partially matches the recognition result. A button having a button name to be detected is detected as a compensation button.
  • Candidate button data representing candidate buttons detected by the candidate button detection unit 13 is sent to the display control unit 15, various function execution units 17, and a response voice generation unit 18. If no candidate button is detected in step ST13, the voice operation process ends, although illustration is omitted.
  • step ST14 it is checked whether or not the number of candidate buttons is greater than “1” (step ST14).
  • the display control unit 15 checks whether the number of candidate buttons indicated by the candidate button data sent from the candidate button detection unit 13 is greater than “1”.
  • step ST15 screen transition is performed (step ST15). That is, the screen transition unit 15b of the display control unit 15 transitions to a screen equivalent to the case where the candidate button is pressed.
  • the user speaks “YYY” with the button names “XXXXXX”, “YYYABC”, “ZZZDEF”, and “ZZZZZ” displayed on the menu screen, and the candidate button When only “YYYABC” is detected, the screen transits to the YYYABC function screen.
  • the response voice generation unit 18 generates a voice signal for reading the button name of the candidate button indicated by the candidate button data transmitted from the candidate button detection unit 13 and causing the user to confirm the name, and the voice output device 19. Send to.
  • the voice output device 19 outputs a voice corresponding to the voice signal sent from the response voice generator 18.
  • a confirmation voice “YYYABC” is output from the voice output device 19 to the parrot.
  • step ST16 various functions are executed (step ST16). That is, the various function execution unit 17 executes a process for realizing the function assigned to the candidate button indicated by the candidate button data transmitted from the candidate button detection unit 13.
  • message data representing the operation completion notification is generated and sent to the response voice generating unit 18, and display data representing the processing result is generated and sent to the display control unit 15.
  • the display control unit 15 generates screen data based on the display data sent from the various function execution units 17 and sends it to the display device 16.
  • a response voice is generated (step ST17). That is, the response voice generation unit 18 generates a voice signal corresponding to the message data representing the operation completion notification sent from the various function execution unit 17 and sends the voice signal to the voice output device 19.
  • step ST18 presentation to the user is performed (step ST18). That is, the display device 16 performs display according to the screen data transmitted from the display control unit 15. Thereby, the processing result is displayed on the screen of the display device 16.
  • the voice output device 19 outputs a voice corresponding to the voice signal sent from the response voice generator 18. As a result, a notification that the operation has been completed is output by voice. Thereafter, the voice operation process ends.
  • step ST19 screen transition is performed (step ST19). That is, the screen transition unit 15b of the display control unit 15 makes a transition to a screen equivalent to the case where the candidate button with the highest likelihood of recognition result is selected.
  • the user speaks “YYY” with the button names “XXXXXX”, “YYYABC”, “YYYDEF”, and “ZZZZZZZZ” displayed on the menu screen, and the candidate button When “YYYABC” and “YYYDEF” are detected, transition is made to the state where the maximum likelihood candidate button “YYYABC” is selected. In this case, it is possible to make a transition to a screen equivalent to the case where not only the maximum likelihood candidate button but also at least one of a plurality of candidate buttons is selected.
  • the response voice generation unit 18 generates a voice signal for allowing the user to confirm the number of candidate buttons indicated by the candidate button data sent from the candidate button detection unit 13, and sends the voice signal to the voice output device 19.
  • the voice output device 19 outputs a voice corresponding to the voice signal sent from the response voice generator 18. As a result, for example, a message “There are two candidates” is output from the voice output device 19 by voice.
  • buttons are configured to display buttons other than the maximum likelihood candidate button in an inconspicuous form instead of highlighting the maximum likelihood candidate button.
  • the button control unit 15a can be configured to highlight all of the plurality of candidate buttons.
  • a response voice is generated (step ST21). That is, the response voice generation unit 18 generates a voice signal corresponding to the message data indicating that the operation is not completed, and sends the voice signal to the voice output device 19.
  • step ST18 presentation to the user is performed (step ST18). That is, the display device 16 performs display according to the screen data transmitted from the display control unit 15. As a result, a menu screen with the maximum likelihood candidate button highlighted is displayed on the screen of the display device 16.
  • the voice output device 19 outputs a voice corresponding to the voice signal sent from the response voice generator 18. As a result, a notification that the operation is incomplete is output by voice. Thereafter, the voice operation process ends.
  • This voice operation process can handle both voice operation by voice recognition and manual operation by pressing a button.
  • step ST31 the button is pressed. That is, the user operates the manual operation device 14 and presses the button displayed on the screen of the display device 16 in a state where a plurality of candidate buttons are selected. Operation button data generated by operating the manual operation device 14 is sent to the display control unit 15 and various function execution units 17.
  • step ST32 screen transition is performed (step ST32). That is, the screen transition unit 15b of the display control unit 15 transitions to a function screen prepared for a function corresponding to the pressed operation button.
  • step ST33 various functions are executed (step ST33). That is, the various function execution unit 17 executes a process for realizing a function assigned to the button indicated by the operation button data transmitted from the manual operation device 14. When the process ends, message data representing an operation completion notification is generated and sent to the response voice generation unit 18.
  • a response voice is generated (step ST34). That is, the response voice generation unit 18 generates a voice signal corresponding to the message data representing the operation completion notification sent from the various function execution unit 17 and sends the voice signal to the voice output device 19.
  • the voice output device 19 outputs a voice corresponding to the voice signal sent from the response voice generator 18. As a result, a notification that the operation has been completed is output by voice. Thereafter, the voice operation process ends.
  • step ST33 when display data representing the processing result is generated, the generated display data is sent to the display control unit 15.
  • the display control unit 15 generates screen data based on the display data sent from the various function execution units 17 and sends it to the display device 16.
  • the display device 16 performs display according to the screen data sent from the display control unit 15. Thereby, the processing result is displayed on the screen of the display device 16.
  • step ST41 voice recognition is performed (step ST41).
  • the process in step ST41 is the same as the process in step ST12 of the flowchart shown in FIG.
  • the voice recognition performed in step ST41 only the button names of the candidate buttons detected during the previous voice operation can be configured as standby words (recognizable words). According to this configuration, the candidate buttons can be easily recognized.
  • step ST42 candidate buttons are detected (step ST42).
  • step ST42 is the same as the process of step ST13 of the flowchart shown in FIG.
  • step ST43 it is checked whether the number of candidate buttons is greater than “1” (step ST43).
  • the display control unit 15 checks whether the number of candidate buttons indicated by the candidate button data sent from the candidate button detection unit 13 is greater than “1”. If it is determined in step ST43 that the number of candidate buttons is not greater than “1”, that is, the number of candidate buttons is singular, the sequence proceeds to step ST32, and the above-described screen transition is performed. That is, the screen transition unit 15b of the display control unit 15 transitions to a screen equivalent to the case where the candidate button is pressed. Thereafter, the above-described processing is executed.
  • step ST44 screen transition is performed (step ST44).
  • the processing in step ST44 is the same as the processing in step ST19 in the flowchart shown in FIG. Next, highlighting is performed (step ST45).
  • the processing in step ST45 is the same as the processing in step ST20 in the flowchart shown in FIG.
  • a response voice is generated (step ST46).
  • the process in step ST46 is the same as the process in step ST21 in the flowchart shown in FIG. Thereafter, the sequence returns to step ST31 or step ST41, and the above-described processing is repeated.
  • step ST51 feedback of the previous operation is performed (step ST51). That is, the response voice generation unit 18 generates a voice signal representing a feedback message of the previous operation and sends it to the voice output device 19.
  • the voice output device 19 outputs a voice corresponding to the voice signal sent from the response voice generator 18.
  • step ST52 voice recognition is performed (step ST52). That is, the voice recognition processing unit 12 performs voice recognition processing based on the voice signal sent from the voice input device 11 and sends the recognition result to the display control unit 15.
  • step ST53 it is checked whether or not the corresponding vocabulary is recognized when a button such as “Yes” is pressed. That is, the display control unit 15 checks whether or not the recognition result sent from the voice recognition processing unit 12 indicates a vocabulary corresponding to a case where a button such as “Yes” is pressed.
  • the vocabulary corresponding to the case where a button such as “Yes” is pressed can be configured to include a similar positive vocabulary such as “Yes” or “OK”.
  • step ST53 If it is determined in step ST53 that the corresponding vocabulary is not recognized when a button such as “Yes” is pressed, a negative vocabulary such as “No”, “Previous”, or “Next” is displayed. If it is determined that it has been recognized, the next or previous candidate button is highlighted (step ST54). That is, the button control unit 15a of the display control unit 15 changes the color or brightness of the next or previous candidate button, blinks the candidate button, or changes the size or shape of the candidate button. Perform the highlighting process. Thereafter, the sequence returns to step ST51, and the above-described processing is repeated.
  • step ST55 screen transition is performed (step ST55). That is, the screen transition unit 15b of the display control unit 15 makes a transition to a screen equivalent to the case where the next or previous candidate button is pressed.
  • step ST56 various functions are executed.
  • the process in step ST56 is the same as the process in step ST16 shown in FIG.
  • a response voice is generated (step ST57).
  • the process in step ST57 is the same as the process in step ST17 shown in FIG.
  • the processing result is displayed on the screen of the display device 16 and a notification that the operation is completed is output by voice. Thereafter, the voice operation process ends.
  • a button having a button name that partially matches the result of speech recognition is detected as a compensation button, and a plurality of candidate buttons are detected.
  • the user can press the state in which at least one of the plurality of candidate buttons is selected and can be pressed by the user. The same procedure can be performed.
  • a screen unique to voice operation such as a candidate list display that is often performed in order to resolve ambiguity is not displayed, intelligibility is not impaired.
  • FIG. FIG. 7 is a block diagram showing the configuration of the speech recognition apparatus according to Embodiment 2 of the present invention.
  • This voice recognition device is configured by adding an operation history totaling unit 20 and a candidate button narrowing unit 21 to the voice recognition device according to the first embodiment described above. Further, the information representing the candidate buttons detected by the candidate button detection unit 13 is changed to be sent to the candidate button narrowing unit 21.
  • the operation history totaling unit 20 totals the operation history of buttons operated by voice operation. More specifically, the operation history totaling unit 20 stores an operation history in which a button name and the number of operations are paired for all buttons, and information indicating candidate buttons sent from the candidate button detection unit 13 is 1 If it indicates that one candidate button has been detected, the number of operations corresponding to the button name of this candidate button is incremented.
  • the operation history stored in the operation history totaling unit 20 is referred to by the candidate button narrowing unit 21.
  • the candidate button narrowing unit 21 refers to the operation history totaling unit 20 and refers to the plurality of candidate buttons. Select a candidate button that is operated most frequently among the candidate buttons.
  • the candidate buttons narrowed down by the candidate button narrowing unit 21 are sent as candidate button data to the display control unit 15, various function execution units 17, and the response voice generation unit 18.
  • a voice is first input (step ST11).
  • voice recognition is performed (step ST12).
  • candidate buttons are detected (step ST13).
  • step ST14 If it is determined in step ST14 that the number of candidate buttons is not greater than “1”, that is, the number of candidate buttons is singular, the operation history of candidate buttons is stored (step ST61). In other words, the operation history totaling unit 20 increments the number of operations corresponding to the button name of the candidate button indicated by the information representing the candidate button sent from the candidate button detecting unit 13.
  • step ST15 screen transition is performed (step ST15). Next, various functions are executed (step ST16). Next, a response voice is generated (step ST17). Next, presentation to the user is performed (step ST18). Thereafter, the voice operation process ends.
  • step ST62 If it is determined in step ST14 that the number of candidate buttons is greater than “1”, that is, the number of candidate buttons is plural, then candidate buttons are narrowed down (step ST62). That is, the candidate button narrowing unit 21 is operated most frequently among a plurality of candidate buttons indicated by information representing candidate buttons sent from the candidate button detection unit 13 with reference to the operation history totaling unit 20. Select a candidate button to narrow down. Information representing the candidate buttons narrowed down by the candidate button narrowing unit 21 is sent as candidate button data to the display control unit 15, various function execution units 17, and the response voice generation unit 18.
  • step ST19 screen transition is performed (step ST19).
  • highlighting is performed (step ST20).
  • step ST21 a response voice is generated (step ST21).
  • presentation to the user is performed (step ST18). Thereafter, the voice operation process ends.
  • the candidate button narrowing is applied to the voice operation processing of the voice recognition apparatus according to the first embodiment shown in the flowchart of FIG. 2 .
  • the candidate button narrowing down is also applied to the voice operation processing performed by the voice recognition device according to the first embodiment.
  • the process of storing the operation history of the candidate buttons shown in step ST61 is executed immediately before step ST32 of the flowchart shown in FIG. 5, and the candidate button narrowing process shown in step ST62 is executed immediately before step ST44.
  • the candidate button narrowing down is also applied to the voice operation process performed by the voice recognition apparatus according to the first embodiment shown in the flowchart of FIG. In this case, immediately before step ST55 of the flowchart shown in FIG. 6, processing for storing the operation history of the candidate button shown in step ST61 is executed.
  • a button that is highly likely to be operated by the user is selected and highlighted as a candidate button, and thus the target operation is executed.
  • the number of user operations can be reduced.
  • the speech recognition apparatus can be modified as follows. That is, the display control unit 15 sends button arrangement information representing the button arrangement (how the buttons are arranged on the screen) stored in advance to the candidate button narrowing unit 21.
  • the candidate button narrowing unit 21 refers to the button arrangement information sent from the display control unit 15 and determines that the candidate buttons sent from the candidate button detection unit 13 are continuously arranged, Select the first candidate button.
  • the candidate buttons selected by the candidate button narrowing unit 21 are sent as candidate button data to the display control unit 15, various function execution units 17, and the response voice generation unit 18.
  • the candidate buttons are continuously arranged, the first candidate button is selected and highlighted, so that the next operation of the user can be easily understood.
  • the voice recognition device inputs the voice of the spoken button name and converts it into an electrical signal so that manual operation and voice operation can be performed in the same procedure.
  • a voice input device a voice recognition processing unit that executes voice recognition processing based on a voice signal sent as an electric signal from the voice input device, and a button name that partially matches the recognition result obtained by the voice recognition processing unit.
  • a voice recognition device that operates a device such as a navigation device by voice because the display control unit and the display device that displays the screen generated by the display control unit are provided. It is suitable for use.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Automation & Control Theory (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)
  • Machine Translation (AREA)

Abstract

 発話されたボタン名の音声を入力して電気信号に変換する音声入力装置11と、音声入力装置から電気信号として送られてくる音声信号に基づき音声認識処理を実行する音声認識処理部12と、音声認識処理部で得られた認識結果に部分一致するボタン名を有するボタンを侯補ボタンとして検出する候補ボタン検出部13と、候補ボタン検出部で複数の候補ボタンが検出された場合に、該複数の候補ボタンの少なくとも1つが選択されている状態を表す画面を生成する表示制御部15と、表示制御部で生成された画面を表示する表示装置16を備えている。

Description

音声認識装置
 この発明は、例えばナビゲーション装置などの機器を音声で操作する音声認識装置に関し、特に手動操作と同様の手順を音声操作で行う技術に関する。
 機器の操作を音声で行う場合に、ユーザの発話が曖昧であると、操作内容を一意に決定できない。この問題を解決するために、従来、音声認識の結果として機器から提示される侯補の中からユーザが正しい候補を選択し、確定するという方法が一般に用いられている。しかしながら、この方法では手動操作には存在しない音声操作に独自の画面に遷移するため、ユーザにとって操作の手順が分かり難いという問題があった。
 このような発話の曖昧性に起因する問題を解決するために、特許文献1は、解釈結果の修正をユーザが音声で行うことができ、また、解釈結果の候補の選択をユーザが音声で行うことができる情報入出力装置を開示している。この情報入出力装置においては、入力解釈候補暫定出力部は入力装置から得た各解釈候補の中から利用者に候補を選択させるための暫定提示情報を生成する。タイマ部は暫定提示情報の出力により計時動作を開始し、所定時間経過後にタイマ信号を発生する。解釈情報選択・確定部は音声認識装置から候補選択のための音声情報が入力されたとき、または、タイマ部からタイマ信号が発せられたとき、各解釈候補の中から1つの候補を選択し、解釈情報として情報処理装置に与える。出力統合部は情報処理装置からの出力情報と入力解釈候補集合暫定出力部からの暫定提示情報とを統合し、これを利用者への出力情報として出力装置に与える。
特開平10-91309号公報
 しかしながら、上述した特許文献1に開示された技術では、正しい音声コマンドが分からないためにユーザの発話内容が曖昧になっているのであって、これをユーザが音声で修正することは困難であるという問題がある。
 この発明は、上述した問題を解消するためになされたものであり、その課題は、手動操作と音声操作とを同一の手順で行うことができる音声認識装置を提供することにある。
 上記課題を解決するために、この発明に係る音声認識装置は、発話されたボタン名の音声を入力して電気信号に変換する音声入力装置と、音声入力装置から電気信号として送られてくる音声信号に基づき音声認識処理を実行する音声認識処理部と、音声認識処理部で得られた認識結果に部分一致するボタン名を有するボタンを侯補ボタンとして検出する候補ボタン検出部と、候補ボタン検出部で複数の候補ボタンが検出された場合に、該複数の候補ボタンの少なくとも1つが選択されている状態を表す画面を生成する表示制御部と、表示制御部で生成された画面を表示する表示装置を備えている。
 この発明に係る音声認識装置によれば、音声認識の結果に部分一致するボタン名を有するボタンを侯補ボタンとして検出し、複数の候補ボタンが検出された場合に、該複数の候補ボタンの少なくとも1つが選択されている状態を画面に表示してユーザが押下できるように構成したので、ユーザの発話が曖昧であっても、音声操作を手動操作と同一の手順で行うことができる。
この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。 この発明の実施の形態1に係る音声認識装置の動作を、音声を認識してから認識結果をユーザに提示するまでの音声操作処理を中心に示すフローチャートである。 この発明の実施の形態1に係る音声認識装置において単数の候補ボタンが検出された場合の動作を説明するための図である。 この発明の実施の形態1に係る音声認識装置において複数の候補ボタンが検出された場合の動作を説明するための図である。 この発明の実施の形態1に係る音声認識装置の動作を、操作未完了時に追加操作から操作完了までの音声操作処理を中心に示すフローチャートである。 この発明の実施の形態1に係る音声認識装置の動作を、操作未完了時にボタン名以外を発話して操作完了させる音声操作処理を中心に示すフローチャートである。 この発明の実施の形態2に係る音声認識装置の構成を示すブロック図である。 この発明の実施の形態2に係る音声認識装置の動作を、音声を認識してから認識結果をユーザに提示するまでの音声操作処理を中心に示すフローチャートである。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について添付の図面に従って説明する。
実施の形態1.
 図1は、この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、音声入力装置11、音声認識処理部12、候補ボタン検出部13、手動操作装置14、表示制御部15、表示装置16、各種機能実行部17、応答音声生成部18および音声出力装置19を備えている。
 音声入力装置11は、例えばマイクロフォンから構成されており、ユーザが発話した音声を電気信号に変換し、音声信号として音声認識処理部12に送る。
 音声認識処理部12は、音声入力装置11から送られてくる音声信号に基づき音声認識処理を実行する。音声認識処理は、入力された音声信号から発話の区間を検出する音声区間検出処理、音声区間検出処理で検出された音声信号を音響パラメータに変換する音響分析処理、音響分析処理で得られた音声の最小単位に基づき最尤度の音素候補を選び出して識別する確率演算処理、および、確率演算処理で得られた音素と単語などを記憶した辞書とを比較して認識結果を決定する照合処理を含む。
 音響分析処理においては、例えばLPC(Linear Predictor Coefficient)メルケプストラムまたはMFCC(Mel-Frequency Cepstrum Coefficient)などを利用して、入力された音声信号が特徴ベクトル系列に変換され、音声スペクトルの概形(スペクトル包絡)が推定される。確率演算処理においては、例えばHMM(Hidden Markov Model)などを利用して、入力された音声に基づき音響分析処理で抽出された音響パラメータを用いて音声信号の音素記号化が行われ、予め用意されている標準音素モデルと比較して最尤度の音素侯補が選び出される。照合処理では、音素候補を辞書と比較することにより、尤度の高い単語が選択される。上述した処理によって音声認識処理部12において得られた認識結果は、候補ボタン検出部13および表示制御部15に送られる。
 候補ボタン検出部13は、音声認識処理部12で得られた認識結果と、表示制御部15から取得した全てのボタンの名称(以下、「ボタン名」という)、つまり、この音声認識装置で用意されている全ての画面に存在する全てのボタンのボタン名とを比較し、認識結果に部分一致するボタン名を有するボタンを侯補ボタンとして検出する。例えば、認識結果が“YYY”であって、ボタン名として“XXXXXX”、“YYYABC”、“YYYDEF”および“ZZZZZZ”が用意されている場合は、“YYY”が部分一致する“YYYABC”および“YYYDEF”といったボタン名を有する2つのボタンが侯補ボタンとして検出される。ここで、認識結果とボタン名とが部分一致するのは、音声操作が曖昧な場合である。
 なお、認識結果とボタン名とが完全一致するのは、正確な音声操作が行われた場合であり、候補ボタン検出部13は、完全一致した旨を表示制御部15および各種機能実行部17に通知する(図1では通知の経路を省略している)。この場合、手動操作装置14によってボタンが押下された場合と同様の動作が行われる。この候補ボタン検出部13で検出された候補ボタンを表す情報は、候補ボタンデータとして表示制御部15、各種機能実行部17および応答音声生成部18に送られる。
 手動操作装置14は、例えば、ユーザが表示装置16の画面に表示されたボタンを押下するために使用される。この手動操作装置14は、音声認識装置の前面パネルに設けられた操作ボタン、この操作ボタンと同等の信号を発生するリモートコントローラ(リモコン)、表示装置16の画面上に載置されたタッチパネル、または、これらの組合せによって構成できる。この手動操作装置14を操作することによって発生された操作ボタンデータは、表示制御部15および各種機能実行部17に送られる。
 表示制御部15は、候補ボタン検出部13から送られてきた候補ボタンデータまたは手動操作装置14から送られてきた操作ボタンデータに基づき、画像を表示装置16の画面に表示するための画面データを生成し、該表示装置16に送る。また、表示制御部15は、各種機能実行部17から送られてくる表示データに基づき、処理結果を表示装置16の画面に表示するための画面データを生成し、表示装置16に送る。なお、表示制御部15は、上述したように、この音声認識装置で用意されている全ての画面に存在する全てのボタンのボタン名を記憶しており、候補ボタン検出部13によって読み出される。
 この表示制御部15は、ボタン制御部15aおよび画面遷移部15bを備えている。ボタン制御部15aは、画面上のボタンの表示形態を変更する。例えば、ボタン制御部15aは、画面上の候補ボタンの色または輝度を変化させ、または、該候補ボタンを点滅させ、または、候補ボタンの大きさまたは形状を変化させることにより強調表示する処理を実行する。この強調表示により、画面上の選択されているボタンをユーザに知らせることができるので、次の操作へ誘導し易くなる。
 画面遷移部15bは、候補ボタン検出部13から送られてくる候補ボタンデータが1つの候補ボタンが検出されたことを示している場合は、その候補ボタンが押下された場合と同等の画面、つまり押下された候補ボタンに割り当てられている機能を実行するための画面に遷移させる処理を実行する。
 また、画面遷移部15bは、候補ボタン検出部13から送られてくる候補ボタンデータが複数の候補ボタンが検出されたことを示しており、これらの候補ボタンが表示中の画面内に存在する場合は、複数の候補ボタンの少なくとも1つが選択されている状態を表す画面に遷移させ、表示中の画面内に存在しない場合は、候補ボタンが存在する画面に遷移させる処理を実行する。この画面遷移部15bによって遷移された後の画面を表す画面データは、表示装置16に送られる。
 表示装置16は、例えばLCD(Liquid Crystal Display)から構成されており、表示制御部15から送られてくる画面データに基づき、画像を表示する。
 各種機能実行部17は、候補ボタン検出部13から送られてきた候補ボタンデータによって示される候補ボタンに割り当てられている機能、または、手動操作装置14から送られてくる操作ボタンデータによって示される操作ボタンに割り当てられている機能を実現するための処理を実行する。この各種機能実行部17において実現される機能には、例えば、HFT(Hands Free Telephone)またはAV(Audio Visual)などを実現する機能が含まれる。また、各種機能実行部17は、機能を実現する処理が終了すると、その旨をユーザに知らせるためのメッセージデータを生成し、応答音声生成部18に送るとともに、処理結果を表す表示データを生成し、表示制御部15に送る。
 応答音声生成部18は、候補ボタン検出部13から候補ボタンデータが送られてきた場合に、その候補ボタンデータによって示される候補ボタンのボタン名を読み上げるための音声信号を生成するとともに、各種機能実行部17から送られてくるメッセージデータに応じた音声信号を生成する。この応答音声生成部18で生成された音声信号は、音声出力装置19に送られる。
 音声出力装置19は、例えばスピーカから構成されており、応答音声生成部18から送られてくる音声信号に応じた音声を出力する。これら応答音声生成部18および音声出力装置19により、画面上の選択されているボタンをユーザに知らせることができるので、次の操作へ誘導し易くなる。
 次に、上記のように構成される、この発明の実施の形態1に係る音声認識装置の動作を説明する。まず、音声を認識してから認識結果をユーザに提示するまでの音声操作処理を中心に、図2に示すフローチャートを参照しながら説明する。
 この音声操作処理においては、まず、音声が入力される(ステップST11)。すなわち、音声入力装置11は、ユーザが発話した音声を電気信号に変換し、音声信号として音声認識処理部12に送る。次いで、音声認識が行われる(ステップST12)。すなわち、音声認識処理部12は、音声入力装置11から送られてくる音声信号に基づき音声認識処理を実行し、認識結果を候補ボタン検出部13に送る。
 次いで、候補ボタンが検出される(ステップST13)。すなわち、候補ボタン検出部13は、音声認識処理部12から送られてくる認識結果と、表示制御部15から取得した全ての画面に存在する全てのボタン名とを比較し、認識結果に部分一致するボタン名を有するボタンを侯補ボタンとして検出する。この候補ボタン検出部13で検出された候補ボタンを表す候補ボタンデータは、表示制御部15、各種機能実行部17および応答音声生成部18に送られる。なお、このステップST13において、候補ボタンが1つも検出されなかった場合は、図示は省略するが、音声操作処理は終了する。
 次いで、候補ボタン数が「1」より多いかどうかが調べられる(ステップST14)。すなわち、表示制御部15は、候補ボタン検出部13から送られてくる候補ボタンデータによって示される候補ボタンの数が「1」より多いかどうかを調べる。
 このステップST14において、候補ボタン数が「1」より多くない、つまり候補ボタン数が単数であることが判断されると、次いで、画面遷移が行われる(ステップST15)。すなわち、表示制御部15の画面遷移部15bは、候補ボタンが押下された場合と同等の画面へ遷移させる。これにより、例えば、図3に示すように、メニュー画面にボタン名“XXXXXX”、“YYYABC”、“ZZZDEF”および“ZZZZZZ”が表示されている状態でユーザが“YYY”と発話し、候補ボタンとして“YYYABC”のみが検出された場合は、YYYABC機能画面に遷移する。
 この際、応答音声生成部18は、候補ボタン検出部13から送られてきた候補ボタンデータによって示される候補ボタンのボタン名を読み上げてユーザに確認させるための音声信号を生成し、音声出力装置19に送る。音声出力装置19は、応答音声生成部18から送られてくる音声信号に応じた音声を出力する。これにより、音声出力装置19から“YYYABC”という確認音声がオウム返しに出力される。
 次いで、各種機能が実行される(ステップST16)。すなわち、各種機能実行部17は、候補ボタン検出部13から送られてきた候補ボタンデータによって示される候補ボタンに割り当てられている機能を実現するための処理を実行する。そして、処理が終了した場合は、操作完了通知を表すメッセージデータを生成し、応答音声生成部18に送るとともに、処理結果を表す表示データを生成し、表示制御部15に送る。表示制御部15は、各種機能実行部17から送られてくる表示データに基づき画面データを生成し、表示装置16に送る。
 次いで、応答音声が生成される(ステップST17)。すなわち、応答音声生成部18は、各種機能実行部17から送られてくる操作完了通知を表すメッセージデータに応じた音声信号を生成し、音声出力装置19に送る。
 次いで、ユーザへの提示が行われる(ステップST18)。すなわち、表示装置16は、表示制御部15から送られてくる画面データに応じた表示を行う。これにより、表示装置16の画面に処理結果が表示される。また、音声出力装置19は、応答音声生成部18から送られてくる音声信号に応じた音声を出力する。これにより、操作が完了した旨の通知が音声で出力される。その後、音声操作処理は終了する。
 上記ステップST14において、候補ボタン数が「1」より多い、つまり候補ボタン数が複数であることが判断されると、次いで、画面遷移が行われる(ステップST19)。すなわち、表示制御部15の画面遷移部15bは、認識結果が最尤度の候補ボタンが選択された場合と同等の画面へ遷移させる。これにより、例えば、図4に示すように、メニュー画面にボタン名“XXXXXX”、“YYYABC”、“YYYDEF”および“ZZZZZZ”が表示されている状態でユーザが“YYY”と発話し、候補ボタンとして“YYYABC”および“YYYDEF”が検出された場合は、最尤度の候補ボタン“YYYABC”が選択された状態に遷移する。この場合、最尤度の候補ボタンのみならず、複数の候補ボタンの少なくとも1つが選択された場合と同等の画面へ遷移させるように構成することができる。
 この際、応答音声生成部18は、候補ボタン検出部13から送られてきた候補ボタンデータによって示される候補ボタンの数をユーザに確認させるための音声信号を生成して音声出力装置19に送り、音声出力装置19は、応答音声生成部18から送られてくる音声信号に応じた音声を出力する。これにより、音声出力装置19から、例えば「候補が2つあります。」というメッセージが音声で出力される。
 次いで、強調表示が行われる(ステップST20)。すなわち、表示制御部15のボタン制御部15aは、最尤度の候補ボタンの色または輝度を変化させ、または、該候補ボタンを点滅させ、または、候補ボタンの大きさまたは形状を変化させることにより強調表示する処理を実行する。なお、ボタン制御部15aは、最尤度の候補ボタンを強調表示する代わりに、最尤度の候補ボタン以外のボタンを目立たない形態で表示するように構成することもできる。また、ボタン制御部15aは、複数の候補ボタンの全てを強調表示するように構成することもできる。
 次いで、応答音声が生成される(ステップST21)。すなわち、応答音声生成部18は、操作が未完了である旨を表すメッセージデータに応じた音声信号を生成し、音声出力装置19に送る。
 次いで、ユーザへの提示が行われる(ステップST18)。すなわち、表示装置16は、表示制御部15から送られてくる画面データに応じた表示を行う。これにより、表示装置16の画面に最尤度の候補ボタンが強調表示されたメニュー画面が表示される。また、音声出力装置19は、応答音声生成部18から送られてくる音声信号に応じた音声を出力する。これにより、操作が未完了である旨の通知が音声で出力される。その後、音声操作処理は終了する。
 次に、操作が未完了の場合に、追加操作が行われてから操作が完了するまでの音声操作処理を中心に、図5に示すフローチャートを参照しながら説明する。この音声操作処理は、音声認識による音声操作とボタン押下による手動操作のいずれにも対応できるようになっている。
 最初に、ボタン押下による手動操作の場合を説明する。手動操作に応じた音声操作処理では、まず、ボタンが押下される(ステップST31)。すなわち、ユーザは、複数の候補ボタンが選択されている状態において、手動操作装置14を操作して、表示装置16の画面に表示されたボタンを押下する。この手動操作装置14を操作することによって発生された操作ボタンデータは、表示制御部15および各種機能実行部17に送られる。
 次いで、画面遷移が行われる(ステップST32)。すなわち、表示制御部15の画面遷移部15bは、押下された操作ボタンに対応する機能のために用意された機能画面へ遷移させる。
 次いで、各種機能が実行される(ステップST33)。すなわち、各種機能実行部17は、手動操作装置14から送られてきた操作ボタンデータによって示されるボタンに割り当てられている機能を実現するための処理を実行する。そして、処理が終了した場合は、操作完了通知を表すメッセージデータを生成し、応答音声生成部18に送る。
 次いで、応答音声が生成される(ステップST34)。すなわち、応答音声生成部18は、各種機能実行部17から送られてくる操作完了通知を表すメッセージデータに応じた音声信号を生成し、音声出力装置19に送る。音声出力装置19は、応答音声生成部18から送られてくる音声信号に応じた音声を出力する。これにより、操作が完了した旨の通知が音声で出力される。その後、音声操作処理は終了する。
 なお、ステップST33において、処理結果を表す表示データが生成された場合は、生成された表示データは表示制御部15に送られる。表示制御部15は、各種機能実行部17から送られてくる表示データに基づき画面データを生成し、表示装置16に送る。表示装置16は、表示制御部15から送られてくる画面データに応じた表示を行う。これにより、表示装置16の画面に処理結果が表示される。
 次に、音声認識による音声操作の場合を説明する。音声操作に応じた音声操作処理では、まず、音声認識が行われる(ステップST41)。このステップST41の処理は、図2に示したフローチャートのステップST12の処理と同じである。このステップST41で行われる音声認識においては、前回の音声操作時に検出された候補ボタンのボタン名のみを待ち受け語彙(認識可能な語彙)とするように構成できる。この構成によれば、候補ボタンの認識が容易になる。
 次いで、候補ボタンが検出される(ステップST42)。このステップST42の処理は、図2に示したフローチャートのステップST13の処理と同じである。次いで、候補ボタン数が「1」より多いかどうかが調べられる(ステップST43)。すなわち、表示制御部15は、候補ボタン検出部13から送られてくる候補ボタンデータによって示される候補ボタンの数が「1」より多いかどうかを調べる。このステップST43において、候補ボタン数が「1」より多くない、つまり候補ボタン数が単数であることが判断されると、シーケンスはステップST32に進み、上述した画面遷移が行われる。すなわち、表示制御部15の画面遷移部15bは、候補ボタンが押下された場合と同等の画面へ遷移させる。その後、上述した処理が実行される。
 一方、ステップST43において、候補ボタン数が「1」より多い、つまり候補ボタン数が複数であることが判断されると、次いで、画面遷移が行われる(ステップST44)。このステップST44の処理は、図2に示したフローチャートのステップST19の処理と同じである。次いで、強調表示が行われる(ステップST45)。このステップST45の処理は、図2に示したフローチャートのステップST20の処理と同じである。次いで、応答音声が生成される(ステップST46)。このステップST46の処理は、図2に示したフローチャートのステップST21の処理と同じである。その後、シーケンスはステップST31またはステップST41に戻り、上述した処理が繰り返される。
 次に、操作が未完了の場合に、ボタン名以外を発話して操作を完了させる音声操作処理を中心に、図6に示すフローチャートを参照しながら説明する。
 この音声操作処理では、まず、前回の操作のフィードバックが行われる(ステップST51)。すなわち、応答音声生成部18は、前回の操作のフィードバックのメッセージを表す音声信号を生成し、音声出力装置19に送る。音声出力装置19は、応答音声生成部18から送られてくる音声信号に応じた音声を出力する。これにより、「○×○×でよろしいですか?」というメッセージが音声で出力される。ユーザは、このメッセージに応答して、「はい」、「いいえ」、「次」または「前」などを発話する。
 次いで、音声認識が行われる(ステップST52)。すなわち、音声認識処理部12は、音声入力装置11から送られてくる音声信号に基づき音声認識処理を実行し、認識結果を表示制御部15に送る。
 次いで、「はい」などのボタンを押下した場合に相当する語彙が認識されたかどうかが調べられる(ステップST53)。すなわち、表示制御部15は、音声認識処理部12から送られてきた認識結果が、「はい」などのボタンを押下した場合に相当する語彙を示しているかどうかを調べる。なお、「はい」などのボタンを押下した場合に相当する語彙には、「Yes」または「OK」などといった類義の肯定的な語彙が含まれるように構成できる。
 このステップST53において、「はい」などのボタンを押下した場合に相当する語彙が認識されなかったことが判断されると、例えば、「いいえ」、「前」または「次」といった否定的な語彙が認識されたことが判断されると、次または前の候補ボタンが強調表示される(ステップST54)。すなわち、表示制御部15のボタン制御部15aは、次または前の候補ボタンの色または輝度を変化させ、または、該候補ボタンを点滅させ、または、候補ボタンの大きさまたは形状を変化させることにより強調表示する処理を実行する。その後、シーケンスはステップST51に戻り、上述した処理が繰り返される。
 一方、ステップST53において、「はい」などのボタンを押下した場合に相当する語彙が認識されたことが判断されると、次いで、画面遷移が行われる(ステップST55)。すなわち、表示制御部15の画面遷移部15bは、次または前の候補ボタンが押下された場合と同等の画面へ遷移させる。
 次いで、各種機能が実行される(ステップST56)。このステップST56の処理は、図2に示したステップST16の処理と同じである。次いで、応答音声が生成される(ステップST57)。このステップST57の処理は、図2に示したステップST17の処理と同じである。以上により、表示装置16の画面に処理結果が表示されるとともに、操作が完了した旨の通知が音声で出力される。その後、音声操作処理は終了する。
 以上説明したように、この発明の実施の形態1に係る音声認識装置によれば、音声認識の結果に部分一致するボタン名を有するボタンを侯補ボタンとして検出し、複数の候補ボタンが検出された場合に、該複数の候補ボタンの少なくとも1つが選択されている状態を画面に表示してユーザが押下できるように構成したので、ユーザの発話が曖昧であっても、音声操作を手動操作と同一の手順で行うことができる。また、曖昧さを解決するためにしばしば行われる候補リスト表示といった音声操作独自の画面が表示されないため、分かり易さが損なわれない。
実施の形態2.
 図7は、この発明の実施の形態2に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、上述した実施の形態1に係る音声認識装置に、操作履歴集計部20および候補ボタン絞り込み部21が追加されて構成されている。また、候補ボタン検出部13で検出された候補ボタンを表す情報は、候補ボタン絞り込み部21に送られるように変更されている。
 操作履歴集計部20は、音声操作により操作されたボタンの操作履歴を集計する。より詳しくは、操作履歴集計部20は、ボタン名と操作回数とを一対とした操作履歴を全てのボタンについて記憶しており、候補ボタン検出部13から送られてくる候補ボタンを表す情報が1つの候補ボタンが検出されたことを示している場合は、この候補ボタンのボタン名に対応する操作回数をインクリメントする。この操作履歴集計部20に格納されている操作履歴は、候補ボタン絞り込み部21によって参照される。
 候補ボタン絞り込み部21は、候補ボタン検出部13から送られてくる候補ボタンを表す情報が複数の候補ボタンが検出されたことを示している場合は、操作履歴集計部20を参照し、複数の候補ボタンの中で最も頻繁に操作されている候補ボタンを選択する。この候補ボタン絞り込み部21で絞り込まれた候補ボタンは、候補ボタンデータとして表示制御部15、各種機能実行部17および応答音声生成部18に送られる。
 次に、上記のように構成される実施の形態2に係る音声認識装置の動作を、音声認識から認識結果をユーザに提示するまでの音声操作処理を中心に、図8に示すフローチャートを参照しながら説明する。なお、図2のフローチャートに示した実施の形態1に係る音声認識装置の処理と同一または相当する処理を実行するステップには、図2で使用した符号と同一の符号を付して説明を簡略化する。
 この音声操作処理においては、まず、音声が入力される(ステップST11)。次いで、音声認識が行われる(ステップST12)。次いで、候補ボタンが検出される(ステップST13)。次いで、候補ボタン数が「1」より多いかどうかが調べられる(ステップST14)。
 このステップST14において、候補ボタン数が「1」より多くない、つまり候補ボタン数が単数であることが判断されると、候補ボタンの操作履歴が格納される(ステップST61)。すなわち、操作履歴集計部20は、候補ボタン検出部13から送られてくる候補ボタンを表す情報によって示される候補ボタンのボタン名に対応する操作回数をインクリメントする。
 次いで、画面遷移が行われる(ステップST15)。次いで、各種機能が実行される(ステップST16)。次いで、応答音声が生成される(ステップST17)。次いで、ユーザへの提示が行われる(ステップST18)。その後、音声操作処理は終了する。
 上記ステップST14において、候補ボタン数が「1」より多い、つまり候補ボタン数が複数であることが判断されると、次いで、候補ボタンの絞り込みが行われる(ステップST62)。すなわち、候補ボタン絞り込み部21は、操作履歴集計部20を参照し、候補ボタン検出部13から送られてくる候補ボタンを表す情報によって示される複数の候補ボタンの中で最も頻繁に操作されている候補ボタンを選択して絞り込みを行う。この候補ボタン絞り込み部21で絞り込まれた候補ボタンを表す情報は、候補ボタンデータとして表示制御部15、各種機能実行部17および応答音声生成部18に送られる。
 次いで、画面遷移が行われる(ステップST19)。次いで、強調表示が行われる(ステップST20)。次いで、応答音声が生成される(ステップST21)。次いで、ユーザへの提示が行われる(ステップST18)。その後、音声操作処理は終了する。
 なお、上述した図8に示すフローチャートでは、図2のフローチャートに示す実施の形態1に係る音声認識装置の音声操作処理に候補ボタン絞り込みを適用した場合について説明したが、図5のフローチャートに示す実施の形態1に係る音声認識装置で行われる音声操作処理においても候補ボタン絞り込みが適用される。この場合、図5に示すフローチャートのステップST32の直前でステップST61に示す候補ボタンの操作履歴を格納する処理が実行され、ステップST44の直前でステップST62に示す候補ボタン絞り込み処理が実行される。同様に、図6のフローチャートに示す実施の形態1に係る音声認識装置で行われる音声操作処理にも候補ボタン絞り込みが適用される。この場合、図6に示すフローチャートのステップST55の直前でステップST61に示す候補ボタンの操作履歴を格納する処理が実行される。
 以上説明したように、この発明の実施の形態2に係る音声認識装置によれば、ユーザが操作する可能性の高いボタンが候補ボタンとして選択されて強調表示されるので、目的の操作を実行するまでのユーザの操作回数を減らすことができる。
 なお、上述した実施の形態2に係る音声認識装置は、以下のように変形できる。すなわち、表示制御部15は、あらかじめ記憶しているボタン配置(ボタンが画面にどのように並んでいるか)を表すボタン配置情報を候補ボタン絞り込み部21に送る。
 候補ボタン絞り込み部21は、表示制御部15から送られてくるボタン配置情報を参照し、候補ボタン検出部13から送られてくる候補ボタンが連続して配置されていることを判断した場合は、先頭の候補ボタンを選択する。この候補ボタン絞り込み部21で選択された候補ボタンは、候補ボタンデータとして表示制御部15、各種機能実行部17および応答音声生成部18に送られる。
 この構成によれば、候補ボタンが連続して配置されている場合は、先頭の候補ボタンが選択されて強調表示されるので、ユーザの次操作が分かりやすくなる。
 以上のように、この発明に係る音声認識装置は、手動操作と音声操作とを同一の手順で行うことができるようにするために、発話されたボタン名の音声を入力して電気信号に変換する音声入力装置と、音声入力装置から電気信号として送られてくる音声信号に基づき音声認識処理を実行する音声認識処理部と、音声認識処理部で得られた認識結果に部分一致するボタン名を有するボタンを侯補ボタンとして検出する候補ボタン検出部と、候補ボタン検出部で複数の候補ボタンが検出された場合に、該複数の候補ボタンの少なくとも1つが選択されている状態を表す画面を生成する表示制御部と、表示制御部で生成された画面を表示する表示装置を備えるよう構成したので、ナビゲーション装置などの機器を音声で操作する音声認識装置などに用いるのに適している。

Claims (7)

  1.  発話されたボタン名の音声を入力して電気信号に変換する音声入力装置と、
     前記音声入力装置から電気信号として送られてくる音声信号に基づき音声認識処理を実行する音声認識処理部と、
     前記音声認識処理部で得られた認識結果に部分一致するボタン名を有するボタンを侯補ボタンとして検出する候補ボタン検出部と、
     前記候補ボタン検出部で複数の候補ボタンが検出された場合に、該複数の候補ボタンの少なくとも1つが選択されている状態を表す画面を生成する表示制御部と、
     前記表示制御部で生成された画面を表示する表示装置
    とを備えた音声認識装置。
  2.  候補ボタン検出部で検出された候補ボタンが表示中の画面に存在しない場合は、該候補ボタンが存在する画面に遷移させる画面遷移部を備え、
     表示制御部は、前記画面遷移部で遷移された画面上の候補ボタンが選択されている状態を表す画面を生成する
    ことを特徴とする請求項1記載の音声認識装置。
  3.  表示制御部は、画面上で選択されている候補ボタンの色または輝度を変化させ、または、該候補ボタンを点滅させることにより強調表示するボタン制御部
    を備えたことを特徴とする請求項2記載の音声認識装置。
  4.  表示制御部は、画面上で選択されている候補ボタンの大きさまたは形状を変化させることにより強調表示するボタン制御部
    を備えたことを特徴とする請求項2記載の音声認識装置。
  5.  候補ボタン検出部で検出された候補ボタンのボタン名を読み上げる音声信号を生成する応答音声生成部と、
     前記応答音声生成部で生成された音声信号に基づき候補ボタンのボタン名を音声で出力する音声出力装置
    とを備えたことを特徴とする請求項1記載の音声認識装置。
  6.  表示制御部にあらかじめ記憶されているボタンの配置を表すボタン配置情報を参照することにより候補ボタン検出部で検出された複数の候補ボタンが連続して配置されていることを判断した場合に、先頭の候補ボタンに絞り込む候補ボタン絞り込み部を備え、
     前記表示制御部は、前記候補ボタン絞り込み部で絞り込まれた候補ボタンが選択されている状態を表す画面を生成する
    ことを特徴とする請求項1記載の音声認識装置。
  7.  操作履歴を集計する操作履歴集計部と、
     候補ボタン検出部で検出された複数の候補ボタンから、前記操作履歴集計部からの操作履歴に応じて候補ボタンを絞り込む候補ボタン絞り込み部とを備え、
     表示制御部は、前記候補ボタン絞り込み部で絞り込まれた候補ボタンが選択されている状態を表す画面を生成する
    ことを特徴とする請求項1記載の音声認識装置。
PCT/JP2009/001870 2008-07-30 2009-04-23 音声認識装置 WO2010013369A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE112009001779.7T DE112009001779B4 (de) 2008-07-30 2009-04-23 Spracherkennungsvorrichtung
JP2010522588A JPWO2010013369A1 (ja) 2008-07-30 2009-04-23 音声認識装置
US13/056,488 US8818816B2 (en) 2008-07-30 2009-04-23 Voice recognition device
CN200980129204.2A CN102105929B (zh) 2008-07-30 2009-04-23 声音识别装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008196443 2008-07-30
JP2008-196443 2008-07-30

Publications (1)

Publication Number Publication Date
WO2010013369A1 true WO2010013369A1 (ja) 2010-02-04

Family

ID=41610085

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/001870 WO2010013369A1 (ja) 2008-07-30 2009-04-23 音声認識装置

Country Status (5)

Country Link
US (1) US8818816B2 (ja)
JP (1) JPWO2010013369A1 (ja)
CN (1) CN102105929B (ja)
DE (1) DE112009001779B4 (ja)
WO (1) WO2010013369A1 (ja)

Cited By (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103229232A (zh) * 2010-11-30 2013-07-31 三菱电机株式会社 声音识别装置及导航装置
WO2014006690A1 (ja) * 2012-07-03 2014-01-09 三菱電機株式会社 音声認識装置
JP2014010420A (ja) * 2012-07-03 2014-01-20 Seiko Epson Corp 集積回路装置
JP2014126600A (ja) * 2012-12-25 2014-07-07 Panasonic Corp 音声認識装置、音声認識方法、およびテレビ
JP2014202857A (ja) * 2013-04-03 2014-10-27 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
JP2016029495A (ja) * 2015-10-08 2016-03-03 パナソニックIpマネジメント株式会社 映像表示装置および映像表示方法
JP2016102823A (ja) * 2014-11-27 2016-06-02 アルパイン株式会社 情報処理システム、音声入力装置及びコンピュータプログラム
KR20170139644A (ko) * 2015-05-27 2017-12-19 애플 인크. 디바이스 음성 제어
JP2019194733A (ja) * 2015-09-03 2019-11-07 グーグル エルエルシー 強化された発話エンドポイント指定のための方法、システム、およびコンピュータ可読記憶媒体
US10681212B2 (en) 2015-06-05 2020-06-09 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
JP2020201363A (ja) * 2019-06-09 2020-12-17 株式会社Tbsテレビ 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US10909171B2 (en) 2017-05-16 2021-02-02 Apple Inc. Intelligent automated assistant for media exploration
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US10942703B2 (en) 2015-12-23 2021-03-09 Apple Inc. Proactive assistance based on dialog communication between devices
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant
US12010262B2 (en) 2013-08-06 2024-06-11 Apple Inc. Auto-activating smart responses based on activities from remote devices

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20120004910A1 (en) * 2009-05-07 2012-01-05 Romulo De Guzman Quidilig System and method for speech processing and speech to text
US20110138286A1 (en) * 2009-08-07 2011-06-09 Viktor Kaptelinin Voice assisted visual search
CN102945671A (zh) * 2012-10-31 2013-02-27 四川长虹电器股份有限公司 语音识别方法
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
TWI497993B (zh) * 2013-10-09 2015-08-21 晶睿通訊股份有限公司 無線攝影裝置與以語音設定無線攝影裝置的方法
KR102158315B1 (ko) * 2013-10-14 2020-09-21 삼성전자주식회사 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
US9401146B2 (en) 2014-04-01 2016-07-26 Google Inc. Identification of communication-related voice commands
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
WO2016017978A1 (en) 2014-07-31 2016-02-04 Samsung Electronics Co., Ltd. Device and method for performing functions
KR20160016491A (ko) * 2014-07-31 2016-02-15 삼성전자주식회사 디바이스 및 디바이스의 기능 수행 방법
KR102367132B1 (ko) * 2014-07-31 2022-02-25 삼성전자주식회사 디바이스 및 디바이스의 기능 수행 방법
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
CN105988915A (zh) * 2015-06-03 2016-10-05 乐卡汽车智能科技(北京)有限公司 一种应用程序运行状态的展示方法及装置
US10013981B2 (en) * 2015-06-06 2018-07-03 Apple Inc. Multi-microphone speech recognition systems and related techniques
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US12223282B2 (en) 2016-06-09 2025-02-11 Apple Inc. Intelligent automated assistant in a home environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
JP6759962B2 (ja) * 2016-10-18 2020-09-23 株式会社リコー 操作装置、情報処理システム及びプログラム
CN106427265A (zh) * 2016-11-01 2017-02-22 重庆乔登彩印包装有限公司 一种自动化音控书刊装订机
KR102388539B1 (ko) * 2017-04-30 2022-04-20 삼성전자주식회사 사용자 발화를 처리하는 전자 장치
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
KR102685523B1 (ko) * 2018-03-27 2024-07-17 삼성전자주식회사 사용자 음성 입력을 처리하는 장치
US20210118443A1 (en) * 2018-04-27 2021-04-22 Sony Corporation Information processing device and information processing method
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
CN109885649A (zh) * 2018-12-29 2019-06-14 百度在线网络技术(北京)有限公司 设置唤醒词的方法和装置、机器可读存储介质及处理器
CN109867178B (zh) * 2019-04-03 2021-06-29 迅达(中国)电梯有限公司 电梯和电梯操纵装置
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1021254A (ja) * 1996-06-28 1998-01-23 Toshiba Corp 音声認識機能付き情報検索装置
JP2004252652A (ja) * 2003-02-19 2004-09-09 Matsushita Electric Ind Co Ltd 電子機器
JP2005018442A (ja) * 2003-06-26 2005-01-20 Sharp Corp 表示処理装置、表示処理方法、表示処理プログラム、および記録媒体
JP2005258524A (ja) * 2004-03-09 2005-09-22 Nec Corp アプリケーション起動方法及び該方法を用いる携帯端末
WO2006028171A1 (ja) * 2004-09-09 2006-03-16 Pioneer Corporation データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5586216A (en) * 1992-09-25 1996-12-17 Apple Computer, Inc. Recording method and apparatus and audio data user interface
CA2143980A1 (en) * 1994-04-06 1995-10-07 Raziel Haimi-Cohen User display in speech recognition system
JP3267047B2 (ja) * 1994-04-25 2002-03-18 株式会社日立製作所 音声による情報処理装置
JPH1091309A (ja) 1996-09-12 1998-04-10 Toshiba Corp 情報入出力装置及び情報入出力方法
US6324507B1 (en) * 1999-02-10 2001-11-27 International Business Machines Corp. Speech recognition enrollment for non-readers and displayless devices
US7069220B2 (en) 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
JP4056711B2 (ja) 2001-03-19 2008-03-05 日産自動車株式会社 音声認識装置
US7444286B2 (en) * 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US20030061053A1 (en) 2001-09-27 2003-03-27 Payne Michael J. Method and apparatus for processing inputs into a computing device
US7222073B2 (en) 2001-10-24 2007-05-22 Agiletv Corporation System and method for speech activated navigation
US6882974B2 (en) 2002-02-15 2005-04-19 Sap Aktiengesellschaft Voice-control for a user interface
US20040008222A1 (en) * 2002-07-09 2004-01-15 Silverlynk, Corporation User intuitive easy access computer system
KR100580619B1 (ko) 2002-12-11 2006-05-16 삼성전자주식회사 사용자와 에이전트 간의 대화 관리방법 및 장치
US7650284B2 (en) 2004-11-19 2010-01-19 Nuance Communications, Inc. Enabling voice click in a multimodal page
JP4628803B2 (ja) 2005-01-25 2011-02-09 本田技研工業株式会社 音声認識型機器制御装置
JP4878471B2 (ja) 2005-11-02 2012-02-15 キヤノン株式会社 情報処理装置およびその制御方法
JP4887911B2 (ja) 2006-05-31 2012-02-29 船井電機株式会社 電子機器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1021254A (ja) * 1996-06-28 1998-01-23 Toshiba Corp 音声認識機能付き情報検索装置
JP2004252652A (ja) * 2003-02-19 2004-09-09 Matsushita Electric Ind Co Ltd 電子機器
JP2005018442A (ja) * 2003-06-26 2005-01-20 Sharp Corp 表示処理装置、表示処理方法、表示処理プログラム、および記録媒体
JP2005258524A (ja) * 2004-03-09 2005-09-22 Nec Corp アプリケーション起動方法及び該方法を用いる携帯端末
WO2006028171A1 (ja) * 2004-09-09 2006-03-16 Pioneer Corporation データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体

Cited By (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US12087308B2 (en) 2010-01-18 2024-09-10 Apple Inc. Intelligent automated assistant
CN103229232A (zh) * 2010-11-30 2013-07-31 三菱电机株式会社 声音识别装置及导航装置
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9269351B2 (en) 2012-07-03 2016-02-23 Mitsubishi Electric Corporation Voice recognition device
JPWO2014006690A1 (ja) * 2012-07-03 2016-06-02 三菱電機株式会社 音声認識装置
JP2014010420A (ja) * 2012-07-03 2014-01-20 Seiko Epson Corp 集積回路装置
WO2014006690A1 (ja) * 2012-07-03 2014-01-09 三菱電機株式会社 音声認識装置
JP2014126600A (ja) * 2012-12-25 2014-07-07 Panasonic Corp 音声認識装置、音声認識方法、およびテレビ
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
JP2014202857A (ja) * 2013-04-03 2014-10-27 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US12010262B2 (en) 2013-08-06 2024-06-11 Apple Inc. Auto-activating smart responses based on activities from remote devices
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
JP2016102823A (ja) * 2014-11-27 2016-06-02 アルパイン株式会社 情報処理システム、音声入力装置及びコンピュータプログラム
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
JP2018525653A (ja) * 2015-05-27 2018-09-06 アップル インコーポレイテッド デバイスの音声制御
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
KR20170139644A (ko) * 2015-05-27 2017-12-19 애플 인크. 디바이스 음성 제어
KR102086898B1 (ko) * 2015-05-27 2020-03-09 애플 인크. 디바이스 음성 제어
US10681212B2 (en) 2015-06-05 2020-06-09 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11996085B2 (en) 2015-09-03 2024-05-28 Google Llc Enhanced speech endpointing
JP2019194733A (ja) * 2015-09-03 2019-11-07 グーグル エルエルシー 強化された発話エンドポイント指定のための方法、システム、およびコンピュータ可読記憶媒体
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
JP2016029495A (ja) * 2015-10-08 2016-03-03 パナソニックIpマネジメント株式会社 映像表示装置および映像表示方法
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US10942703B2 (en) 2015-12-23 2021-03-09 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
US10909171B2 (en) 2017-05-16 2021-02-02 Apple Inc. Intelligent automated assistant for media exploration
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360739B2 (en) 2019-05-31 2022-06-14 Apple Inc. User activity shortcut suggestions
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
JP2020201363A (ja) * 2019-06-09 2020-12-17 株式会社Tbsテレビ 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators

Also Published As

Publication number Publication date
JPWO2010013369A1 (ja) 2012-01-05
DE112009001779T5 (de) 2012-01-26
CN102105929A (zh) 2011-06-22
CN102105929B (zh) 2015-08-19
DE112009001779B4 (de) 2019-08-08
US8818816B2 (en) 2014-08-26
US20110178804A1 (en) 2011-07-21

Similar Documents

Publication Publication Date Title
WO2010013369A1 (ja) 音声認識装置
US9239829B2 (en) Speech recognition device
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US8560326B2 (en) Voice prompts for use in speech-to-speech translation system
EP0751467A2 (en) Translation apparatus and translation method
JP2008309856A (ja) 音声認識装置及び会議システム
JP2006517037A (ja) 韻律的模擬語合成方法および装置
KR20160122542A (ko) 발음 유사도 측정 방법 및 장치
JP2011504624A (ja) 自動同時通訳システム
JP2004029270A (ja) 音声制御装置
EP1899955B1 (en) Speech dialog method and system
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
JP6522009B2 (ja) 音声認識システム
JP2015026054A (ja) 自動通訳装置及び方法
JP5079718B2 (ja) 外国語学習支援システム、及びプログラム
JPH01112299A (ja) 音声認識装置
JP4498906B2 (ja) 音声認識装置
EP4443427A1 (en) Authentication device and authentication method
JP2005031150A (ja) 音声処理装置および方法
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
JP4175141B2 (ja) 音声認識機能を有する番組情報表示装置
WO2012017525A1 (ja) 処理装置及びコマンド入力支援方法
JP2007183516A (ja) 音声対話装置及び音声認識方法
EP4443431A1 (en) Verification device and verification method
JPH06202689A (ja) 音声認識方法および装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980129204.2

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09802619

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010522588

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13056488

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 09802619

Country of ref document: EP

Kind code of ref document: A1

点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载