+

WO2002031643A1 - Dispositif de traitement d'information, procede de traitement d'information et support de stockage - Google Patents

Dispositif de traitement d'information, procede de traitement d'information et support de stockage Download PDF

Info

Publication number
WO2002031643A1
WO2002031643A1 PCT/JP2001/008923 JP0108923W WO0231643A1 WO 2002031643 A1 WO2002031643 A1 WO 2002031643A1 JP 0108923 W JP0108923 W JP 0108923W WO 0231643 A1 WO0231643 A1 WO 0231643A1
Authority
WO
WIPO (PCT)
Prior art keywords
input
grammar
document
information processing
voice
Prior art date
Application number
PCT/JP2001/008923
Other languages
English (en)
French (fr)
Inventor
Tetsuo Kosaka
Takaya Ueda
Fumiaki Ito
Hiroki Yamamoto
Yuji Ikeda
Original Assignee
Canon Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Kabushiki Kaisha filed Critical Canon Kabushiki Kaisha
Priority to JP2002527218A priority Critical patent/JP3774698B2/ja
Priority to KR10-2003-7005055A priority patent/KR20030072332A/ko
Priority to EP01974781A priority patent/EP1326164A4/en
Priority to AU2001294222A priority patent/AU2001294222A1/en
Priority to US09/987,834 priority patent/US6587820B2/en
Publication of WO2002031643A1 publication Critical patent/WO2002031643A1/ja
Priority to US10/289,366 priority patent/US7024361B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • the present invention relates to an information processing apparatus, an information processing method, and a storage medium, and more particularly to an apparatus and a method for performing information processing by using both voice input and GUI.
  • Speech recognition Advances in synthesizing technology have put speech information input devices into practical use.
  • information input devices that combine voice and other means are also being used.
  • the disadvantages of each means can be complemented and the advantages of each means can be utilized.
  • voice is a natural interface means for humans, and has the advantage that input and output are easy, and the output means has no drawback.
  • GUI has a list function as an output means, for example, as an input means for displaying input items (input fields) in a list, there is an advantage that input can be easily performed only by selecting a menu.
  • free input is troublesome (especially in the case of numeric keypad input and handwritten input).
  • a music search system with an interface as shown in Fig. 8 As an example, this allows you to search for songs by artist name, song name, or the name of the commercial that uses the song.
  • the output is a GUI (screen display), and the input to each input item is a voice.
  • the speech input to each input field is recognized using a different grammar.
  • the grammar of the artist name is used to recognize the artist name
  • the grammar of the song name is used to recognize the song name
  • the grammar of the CM name is used to recognize the CM name.
  • speech recognition is performed using the grammar of the artist name, song name, and CM name at the same time, and if the recognition result is the CM name, it can be determined that the input is for the CM name input field. .
  • An object of the present invention is to improve the recognition rate for speech input by preventing the scale of grammar used for speech recognition from increasing even when there are a plurality of input fields.
  • An information processing apparatus for achieving the above object has the following configuration. That is,
  • Input means for inputting a document having a plurality of input items
  • Determining means for determining a valid input item from the plurality of input items according to a display state of the document
  • Selecting means for selecting a specific grammar corresponding to the input item determined to be valid by the determining means.
  • An information processing apparatus for achieving the above object has the following configuration. That is,
  • Input means for inputting a document having a plurality of input items
  • Determining means for determining whether or not the document has a designation to select a specific grammar according to a display state of the document
  • Control means for controlling selection of a grammar according to the result of the determination.
  • an information processing method for achieving the above object, comprises: an input step of inputting a document having a plurality of input items;
  • a determining step of determining whether or not a specification for selecting a specific grammar according to a display state of the document is provided in the document; Controlling a selection of a grammar according to the result of the determination.
  • a control program for causing a computer to execute the information processing method, a computer-readable medium storing the control program, and a computer program product.
  • FIG. 1 is a block diagram showing a basic configuration of the voice interface device according to the first embodiment of the present invention.
  • FIG. 2 is a block diagram showing a specific hardware configuration of the audio interface device according to the first embodiment.
  • FIG. 3 is a flowchart showing an outline of a processing procedure in the first embodiment.
  • FIG. 4 is a diagram illustrating a data configuration example of the field information storage unit.
  • FIG. 5 is a diagram illustrating a data configuration example of a grammar holding unit.
  • FIG. 6 is a block diagram showing a basic configuration of the voice interface device according to the second embodiment.
  • FIG. 7 is a flowchart showing an outline of a processing procedure in the second embodiment.
  • FIG. 8 is a diagram showing a specific example of the input screen.
  • FIG. 9 is a diagram illustrating a display portion and a non-display portion on the input screen.
  • FIG. 10 is a diagram showing an example of expression in a hypertext document.
  • FIG. 11 is a diagram showing a specific display example of the input screen using the hypertext document shown in FIG.
  • FIG. 12 is a diagram illustrating a specific display example of the input screen.
  • FIG. 13 is a flowchart showing an outline of a processing procedure in the second embodiment when the hypertext document shown in FIG. 10 is used.
  • FIG. 1 is a block diagram showing a basic configuration of an information input device, an information input method, and a storage medium according to a first embodiment of the present invention.
  • 101 is an information display section for displaying information.
  • the information display section 101 also displays information of input fields (input items).
  • Reference numeral 102 denotes a field selection unit for selecting one of the displayed input fields.
  • Reference numeral 103 denotes an input detection unit that detects whether or not a signal indicating that an input field has been selected from the field selection unit 102 has been input.
  • Reference numeral 104 denotes a field determination unit that determines which input field has been selected based on a selection signal transmitted from the field selection unit 102 via the input detection unit 103.
  • the input field selected by the field selection unit 102 will be referred to as an active field.
  • Reference numeral 105 denotes a field switching unit that switches an active field based on the determination of the field determination unit 10.
  • Reference numeral 106 denotes a field information holding unit that holds information on all input fields in the currently displayed content. The contents of the field information holding unit 106 are, for example, as shown in FIG.
  • a number is assigned to each input field, the number of the input field and its value (the value is not set in the initial state), and the input field is used for speech recognition.
  • Reference numeral 107 denotes an active field holding unit for holding an active field.
  • 1 108 uses the grammar based on the judgment of the field judgment unit 105. This is a grammar switching unit for switching. In the following, the grammar selected by the grammar switching unit 108 is referred to as an active grammar.
  • Reference numeral 109 denotes a grammar holding unit that holds all grammars used for voice input in the content currently displayed on the information display unit 101.
  • the content of the grammar holding unit 109 is composed of a grammar ID and a description of each grammar, for example, as shown in FIG. Information on which grammar to use is described in the displayed content (this is described below with reference to Figure 10).
  • the grammar itself can be obtained from a disk device (not shown) or a server (not shown) on the network.
  • Reference numeral 110 denotes an active grammar holding unit that holds the ID of the active grammar.
  • Reference numeral 1 1 denotes a voice input unit for inputting voice.
  • Reference numeral 112 denotes a speech recognition unit that recognizes the speech input from the speech input unit 111 using the grammar held in the active grammar holding unit 110.
  • Numeral 1 13 is a recognition result holding unit for holding the result recognized by the voice recognition unit 1 12.
  • FIG. 2 is a block diagram showing a specific hardware configuration of the voice input device of the present embodiment.
  • reference numeral 201 denotes a CPU which operates according to a program for implementing a procedure described later.
  • Reference numeral 202 denotes a memory, a field information storage unit 106, an active field storage unit 107, a grammar storage unit 109, an active grammar storage unit 110, a recognition result storage unit 113, and the above. It provides a storage area necessary for the operation of executing the program.
  • Reference numeral 203 denotes a control memory, which holds a program for implementing a procedure described later.
  • Reference numeral 204 denotes a pointing device, which constitutes the above-described field selection unit 102.
  • Reference numeral 205 denotes a display, which constitutes the information display unit 101.
  • Reference numeral 206 denotes a microphone, which constitutes the voice input unit 111.
  • Reference numeral 207 denotes a bus that connects the components.
  • the input detection unit 103 checks whether or not an input from a mouse has been received.
  • the mouse input may detect a mouse click, or may detect that the mouse cursor stays on an object for a certain period of time or longer. This step is repeated until there is an input. If there is an input, go to step S302. .
  • step S302 it is determined whether or not the input detected in step S301 is an input for selecting an input field. If the result of the check is not the selection of the input field, the process returns to step S301. If the input field has been selected, the flow advances to step S303.
  • step S303 it is checked which input field has been selected in the field determination unit 104. Then, in the field switching unit 105, the selected input field is held in the active field holding unit 107.
  • step S304 the grammar switching unit 108 holds the active grammar in the active grammar holding unit 110.
  • the active grammar is a grammar stored in the grammar storage unit 109 corresponding to the input field stored in the active field storage unit 107.
  • step S305 it is determined whether or not a voice has been input from the voice input unit 111. This step is repeated until a voice is input, and when a voice is input, the process proceeds to step S306.
  • step S306 the speech recognition unit 112 performs recognition processing of the speech input in step S305 using the grammar held in the active grammar holding unit 110.
  • the result of speech recognition is stored in the recognition result storage unit 113.
  • step S307 the result held in the recognition result holding unit 113 is held in the field information holding unit 106. That is, in FIG. 4, the recognition result is held in the “value” column corresponding to the active field.
  • step S308 the result held in the recognition result holding unit 113 is displayed in the input field held in the active field holding unit 107 in the information display unit 101. Thus, the process ends.
  • the processing content will be specifically described by taking the content of FIG. 8 as an example.
  • the number of the first input field 801 is 1
  • the number of the second input field 802 is 2
  • the number of the third input field 803 is 3.
  • the grammar of the artist name is the first grammar A
  • the grammar of the song name is the second grammar B
  • the grammar of the CM name is the third grammar C
  • the contents of the field information storage unit 109 are as shown in FIG. It becomes as shown in.
  • all three of the first grammar A, the second grammar B, and the third grammar C were used.
  • the input speech is recognized using only the first grammar A corresponding to the first input field 1. Like that.
  • the scale of the grammar used for recognizing the input speech is relatively small compared to the conventional example. Since the input speech recognition rate can be reduced, the recognition rate of the input speech can be greatly improved.
  • the field selecting unit 102 is configured. Although the case where a mouse is used as an example has been described, other means may be used.
  • the display of the information display unit 101 may be used as a touch panel to indicate a desired field with a pen or a finger.
  • the n-th input field may be specified using the numeric keypad. That is, the desired field may be specified by numerical input. Further, an input field may be designated by the direction of the line of sight using a line of sight input device.
  • the input field may be selected by displaying an object (button, icon, image, or the like) for voice input corresponding to each input field on a one-to-one basis.
  • the grammar used for speech recognition is switched when the input field is selected. However, when the speech is input, the active input field is determined and the grammar is switched. May be performed.
  • the start and end of the voice input may be designated by the selection operation of the input field.
  • the time when the input field is selected is treated as the start time of the voice input
  • the point at which the selection of is ended is treated as the end point of the voice input.
  • voice input is taken.
  • the GUI is used as the output means and the voice input is used as the input means.
  • the present invention is not limited to this, and the GUI may be used in combination with the input means and the voice may be used in combination with the output means. I don't care.
  • FIG. 6 is a block diagram showing a basic configuration of the device according to the second embodiment of the present invention.
  • reference numeral 6001 denotes an information display unit for displaying information. This information display section 600 also displays information of the input field.
  • Reference numeral 602 denotes a display content holding unit for holding the content actually displayed on the information display unit 601.
  • Reference numeral 603 denotes a display information switching unit for switching information to be displayed on the information display unit 601.
  • this operation executes operations such as page switching and scrolling.
  • Reference numeral 604 denotes a field determination unit for determining an input field actually displayed on the information display unit 601.
  • the input field displayed in the information display section 600 is called an active field.
  • it is determined that the number of active fields is not limited to one.
  • Reference numeral 605 denotes a field switching unit that switches an active field based on the determination of the field determination unit 604.
  • 606 is a field that holds information about all input fields in the currently displayed content. It is an information storage unit. The contents of the field information holding unit 606 are, for example, as shown in FIG.
  • each input field is numbered, and has the number of the input field, its value (the value is not set in the initial state), and the grammar ID used for speech recognition of this input field.
  • Reference numeral 607 denotes an active field holding unit for holding an active field.
  • Reference numeral 608 denotes a grammar switching unit that switches grammars based on the determination of the field determination unit 604.
  • the grammar selected by the grammar switching unit 608 is called an active grammar.
  • Reference numeral 609 denotes a grammar holding unit that holds all grammars that can be used for recognition of input speech in the current content displayed on the information display unit 601.
  • the content of the grammar display section 609 is composed of a grammar ID and a description of each grammar, for example, as shown in FIG. It is assumed that the information on the grammar to be used is described in the content used for display.
  • the grammar itself can be obtained from a disk device (not shown) or a server on the network (not shown).
  • Reference numeral 610 denotes an active grammar holding unit that holds the ID of the active grammar.
  • Reference numeral 611 denotes a voice input unit for inputting voice.
  • Reference numeral 612 denotes a speech recognition unit for recognizing the speech input from the speech input unit 6111 using the grammar held in the active grammar holding unit 6110.
  • Reference numeral 613 denotes a recognition result holding unit that holds the result recognized by the voice recognition unit 612.
  • the specific configuration of the voice input device of the second embodiment is the same as the configuration of FIG. 2 shown in the above-described first embodiment, and therefore, FIG. 2 will be described in common with the first embodiment. .
  • reference numeral 201 denotes a CPU, which operates according to a program that implements a procedure described later.
  • Reference numeral 202 denotes a memory, a display content holding unit 602, a field coasting garage holding unit 606, an active field holding unit 607, a grammar.
  • a storage unit 609, an active grammar storage unit 610, a recognition result storage unit 613, and a storage area necessary for the operation of the above program are provided.
  • Reference numeral 203 denotes a control memory, which holds a program for implementing a procedure described later.
  • Reference numeral 204 denotes a pointing device, which implements a display content switching unit 603.
  • Reference numeral 205 denotes a display, which realizes the information display section 601.
  • Reference numeral 206 denotes a microphone, which implements the voice input unit 6 11.
  • Reference numeral 207 denotes a bus for connecting each component.
  • step S701 it is determined whether or not a voice has been input from the voice input unit 6111. This step 7001 is repeated until a voice is input, and when a voice is input, the process proceeds to step S702. '
  • step S702 it is checked from the content of the display content holding unit 602 which input field is currently being displayed.
  • step S 703 the currently displayed input field is held in the active field holding unit 607 by the field switching unit 605 c
  • the grammar switching unit 608 The active grammar is held in the active grammar holding unit 6110.
  • the active grammar is a grammar corresponding to the input field held in the active field holding unit 607 among the grammar held in the grammar holding unit 609. That is, the grammar ID corresponding to the current active field is checked in the field information storage unit 606, and the grammar ID corresponding to the grammar ID is obtained from the grammar storage unit 609. Read the modulus.
  • step S705 the speech recognition unit 612 performs recognition processing of the speech input in step S701, using the grammar held in the active grammar holding unit 6110.
  • the recognition process shall return the recognition result and the ID of the grammar used for recognition.
  • a grammar corresponding to a plurality of types of grammar IDs is used.
  • a recognition result is obtained for each grammar ID, and the candidate with the highest degree of matching is output together with the grammar ID.
  • the recognition result is stored in the recognition and result storage unit 6 13.
  • step S706 it is determined from the grammar ID obtained in step S705 that the input field was input.
  • the correspondence between the grammar ID and the input field is stored in the field information storage unit 606, which can be referred to. For example, suppose that the field information storage unit 606 has the active fields “1” and “3” as shown in FIG.
  • the third grammar C is returned as the grammar ID along with the recognition result, it can be seen that this input was for the third input field 3 corresponding to the third grammar C.
  • step S707 the result held in the recognition result holding unit 613 is held in the field information holding unit 606. That is, in FIG. 4, the recognition result is held in the “value” column corresponding to the output grammar ID.
  • step S708 the result held in the recognition result holding unit 613 is displayed in the input field determined in step S706 on the information display unit 61. Thus, the process ends.
  • the processing content will be specifically described using the content in FIG. 8 as an example.
  • the content of FIG. 8 is displayed as shown in FIG.
  • the portion denoted by reference numeral 904 indicates a portion actually displayed, and the portion denoted by reference numeral 905 indicates that it is not displayed.
  • the number of the input field 901 is 1, the number of the input field 902 is 2, and the number of the input field 903 is 3.
  • the grammar of the artist name is the first grammar A
  • the grammar of the song name is the second grammar B
  • the grammar of the CM name is the third grammar C
  • the contents of the field information storage unit 609 are shown in FIG. Become like
  • an input field to be applied is determined based on the grammar used for speech recognition. For this reason, even if a plurality of input fields are displayed, a value (voice recognition result) is automatically set to an appropriate input field, thereby improving operability.
  • the third embodiment is different mainly in that the content shown in the second embodiment is described in hypertext, and in the processing of the content.
  • FIG. 10 is an example of expressing the content by a hypertext document. This hypertext document is held in the display content holding unit 602, and is displayed by the information display unit 601 as shown in FIG.
  • the tag indicated by 101 in FIG. 10 is a tag indicating designation of grammar display interlocking, that is, whether or not to switch grammar in response to switching of the display screen. If this tag is described, the grammar is switched according to the display. If the tag is not described, processing is performed so that the grammar is not switched according to the display. Details will be described with reference to the flowchart shown in FIG.
  • 102 is the type of data to be entered in the input field "Artist name”, the size of the input field, and the position of the grammar used for the input field (rhttp: //tmp/rt.grm ⁇ ) Is described. 1 0 3, 1 0 4, 1
  • 05 and 106 describe information on each input field and grammatical positional information stored corresponding to each field.
  • FIG. 11 is a diagram showing a state where the hypertext shown in FIG. 10 is displayed on the information display section 61.
  • the content in Figure 11 consists of four input fields (1001, 1002,
  • step S801 the hypertext shown in FIG. 10 is read.
  • step S802 the hypertext read in step S801 is analyzed, and the GUI shown in FIG. 11 is displayed based on the result. Based on the results of this analysis, the position of the grammar, for example, rhttpJ / temp / ar.grm
  • is detected. In addition, it also analyzes the tag, such as “grmselect " display ”” in the form> tag.
  • step S803 the grammar is read based on the grammatical position information detected in step S802, and four grammars corresponding to the artist name, song name, CM name, and rank name are stored in the grammar storage unit 609. Hold.
  • step S804 the field information, that is, the correspondence between the input field and the grammar, is stored in the field information storage unit 606 based on the analysis result in step S802.
  • the grammar http ⁇ temp / art.grm
  • the grammar htip ⁇ temp mnLgim is stored in correspondence with 100.
  • step S805 voice input is detected, and if detected, the process proceeds to step S806.
  • step S807 all grammars are set as active grammars. That is, the four grammars are held in the active grammar holding unit 610, and the process proceeds to the speech recognition processing in step S811.
  • step S808 it is checked which input field is currently being displayed.
  • step S809 the currently displayed input field is held in the active field holding unit 607.
  • step S810 of the four grammars held in step S803, they correspond to the input fields held in active field holding section 607.
  • the active grammar is stored in the active grammar storage unit 6100 as the active grammar.
  • two input fields of 1002 and 1003 among the four fields are displayed.
  • the grammars corresponding to these two input fields are httpJempkyok.grm and littp: @ temp / cm.grm, and these two grammars are retained as active grammars.
  • step S811 recognition processing of the input speech is performed using the grammar held as the active grammar in step S807 or step S810.
  • the recognition process shall return the recognition result and the ID of the grammar used for recognition.
  • the recognition result and the ID of the grammar used for the recognition are stored in the recognition result storage unit 613.
  • step S812 it is determined from the grammar ID obtained in step S811 which input field is input.
  • the correspondence between the grammar ID and the input field is stored in the field information storage unit 606, which is referred to.
  • step S813 the recognition result held in the recognition result holding unit 613 is held in the field information holding unit 606. Specifically, the recognition result is stored in the value column of FIG.
  • step S814 the result held in the recognition result holding section 613 is displayed on the information display section in the input field determined in step S812.
  • grmselect "display" is set in the hypertext of Fig. 10 and displayed as shown in Fig. 11, input is possible in four input fields. In the case of Fig. 12, two input fields are available. Only input is possible. If it is not set, it is possible to input in the four input fields regardless of whether the corresponding field is displayed.
  • the input fields can be limited by controlling the display so as not to display the items. Rate can be increased.
  • the speech recognition process is performed using only the grammar corresponding to the actually displayed input field, the scale of the grammar can be reduced, and as a result, the recognition rate for the input speech can be reduced. Can be improved.
  • the input field is limited according to the presence or absence of the tag indicating whether or not the grammar is switched according to the switching of the display screen.
  • the input field is not limited to this.
  • the currently displayed input field is treated as an active field.
  • the currently active frame a frame is a delimited area on a web page, You can scroll through the documents in each area.
  • An input field existing in the dough may be treated as an active field.
  • GUI is used as output means and voice is used as input means.
  • GUI may be used as input means and voice may be used as output means.
  • the tag may be notified to the user. Specifically, it is conceivable to provide an indicator or the like on the GUI. In this way, the user knows in advance whether the entire grammar indicated by the input field is to be selected or whether a specific grammar indicated by the displayed input field is to be selected. And the operability of the information processing apparatus is improved.
  • a recording medium for storing a program code of a control program for realizing the functions of the above-described embodiments includes, for example, a floppy disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a magnetic tape, A non-volatile memory card, ROM, or the like can also be used.
  • control program code of the control program described above realizes the functions described in the above embodiments in cooperation with 0S (operating system) or other application software running in the central processing unit 2. Needless to say, such a program code is also included in the embodiment of the present invention.
  • the function expansion board / function expansion unit is provided based on the instruction of the program code.
  • the present invention also includes a case where the CPU or the like performs part or all of the actual processing, and the processing realizes the functions of the above-described embodiments.
  • voice recognition can be performed according to the display state of an input item, and thus the recognition rate for input voice can be improved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

m青.報処理装置、 情報処理方法及び記憶媒体 技術分野
本発明は情報処理装置、 情報処理方法及び記憶媒体に関し、 特に、 音 声入力と G U Iとを併用して情報処理を行う装置とその方法に関するもの 明
である。
細 背景技術
音声認識 ·合成技術の進歩により、 音声による情報入力装置が実用化 されている。 さらに、 音声と他の手段を組み合わせた情報入力装置も用い られるようになってきている。 こうした装置においては、 各手段の欠点を 補完し、 各手段が有する利点を活かすことができる。
その一つとして、 音声入力と G U Iとを組み合わせたインタフェース 装置が知られている。 これは、 音声入力及び G U Iの利点を活かして情報 入力を行うようにすることにより、 それぞれが有している欠点を補完した ものである。
すなわち、 音声は人間にとって自然なインフェース手段であり、 入出 力が容易であるという利点があり、 出力手段としては一覧性がないという 欠点がある。 一方、 G U Iには、 出力手段として一覧性があるので、 例え ば、 入力項目 (入力フィールド) を一覧的に表示する入力手段として、 メ ニュー選択程度であれば容易に入力できるという利点がある。 しかし、 自 由な入力が面倒であるという欠点がある (特に、 テンキーによる入力や手 書き入力の場合に上記欠点が顕著である)。
例えば、 図 8に示すようなインタフェースを持つ音楽検索システムを 例にして説明すると、 これは、 アーティスト名、 曲名、 その曲が使用され ている C Mの名称のいずれかから曲を検索できるものである。 そして、 出 力を G U I (画面表示) とし、 各入力項目への入力を音声とする。
この場合、 画面で表示されているので、 アーティスト名、 曲名、 CM 名のいずれによつても検索可能であることが利用者は容易に理解すること ができる。 また、 各入力フィールドに音声で入力できるので、 入力操作も 容易である。
ここで、 各入力フィールドへ入力された音声を認識するには、 それぞ れ異なる文法を使用して行う。例えば、アーティスト名の認識にはアーティ スト名の文法、 曲名の認識には曲名の文法、 CM名の認識には CM名の文 法を使用する。
ところで、 音声入力と G U Iとを併用する場合、 図 8のように複数の 入カフィールドが存在すると、 音声入力があった場合にそれがどの入力 フィールドに対する音声入力であるのかを判定する必要がある。
この方法として、 全ての入力フィールドに対する文法を同時に使用し て音声認識を行ない、 得られた認識結果を元にどの入力フィールドへの入 力かを判定することが考えられる。
図 8の例では、 アーティスト名、 曲名、 CM名の文法を同時に使用し て音声認識を行ない、 認識結果が C M名であれば、 C M名の入カフィール ドに対する入力であると判定することができる。
ここで問題になるのは、 一般に文法が大きくなるほど音声認識の認識 率が低下するということである。 よって、 複数の入力フィールドに対する 文法を同時に使用すると音声入力に対する認識率が低下する問題が発生す る。 発明の開示 本発明は上述の問題点に鑑み、 複数の入カフィールドがあった場合で も音声認識に使用する文法の規模が大きくならないようにして、 音声入力 に対する認識率を向上できるようにすることを目的とする。
上記の目的を達成するための本発明による情報処理装置は以下の構成 を備える。 すなわち、
複数の入力項目を有する文書を入力する入力手段と、
前記文書の表示状態に応じて、 前記複数の入力項目の中から有効な入 力項目を判別する判別手段と、
前記判別手段により有効であると判別された入力項目に対応する特定 の文法を選択する選択手段とを備える。
また、 上記の目的を達成するための本発明の他の態様による情報処理 装置は以下の構成を備える。 すなわち、
複数の入力項目を有する文書を入力する入力手段と、
前記文書の中に、 該文書の表示状態に応じて特定の文法を選択する指定 があるか否か判断する判断手段と、
前記判断結果に応じて文法の選択を制御する制御手段とを備える。 また、 上記の目的を達成するための本発明による情報処理方法は、 複数の入力項目を有する文書を入力する入力工程と、
前記文書の表示状態に応じて、 前記複数の入力項目の中から有効な入 力項目を判別する判別工程と、
前記判別工程により有効であると判別された入力項目に対応する特定 の文法を選択する選択工程とを備える。
更に、 上記の目的を達成するための本発明による情報処理方法は、 複数の入力項目を有する文書を入力する入力工程と、
前記文書の中に、 該文書の表示状態に応じて特定の文法を選択する指 定がぁるか否か判断する判断工程と、 前記判断結果に応じて文法の選択を制御する制御工程とを備える。 また、 本発明によれば、 上記情報処理方法をコンピュータに実行させ るための制御プログラム、 及び該制御プログラムを格納するコンピュータ 可読媒体、 コンピュータプログラム製品が提供される。 図面の簡単な説明
図 1は、 本発明の第 1の実施形態に係る音声インタフェース装置の基 本構成を示すブロック図である。
図 2は、 第 1の実施形態に係る音声ィンターフェース装置の具体的な ハード構成を示すブロック図である。
図 3は、 第 1の実施形態における処理手順の概要を示すフローチヤ一 トである。
図 4は、 フィールド情幸艮保持部ののデータ構成例を示す図である。 図 5は、 文法保持部のデータ構成例を示す図である。
図 6は、 第 2の実施形態に係る音声インタフェース装置の基本構成を 示すブロック図である。
図 7は、 第 2の実施形態における処理手順の概要を示すフローチヤ一 トである。
図 8は、 入力画面の具体例を示す図である。
図 9は、入力画面における表示部分と非表示部分を説明する図である。 . 図 1 0は、 ハイパーテキスト文書による表現例を示す図である。
図 1 1は、 図 1 0に示すハイパーテキスト文書による入力画面の具体 的表示例を表す図である。
図 1 2は、 入力画面の具体的表示例を表す図である。
図 1 3は、 図 1 0に示すハイパーテキスト文書を用いた場合の、 第 2 の実施形態における処理手順の概要を示すフローチャートである。 発明を実施するための最良の形態
(第 1の実施形態)
以下、 図面を参照して本発明を詳細に説明する。
図 1は、 本発明の情報入力装置、 情報入力方法及び記憶媒体の第 1の 実施形態に係る装置の基本構成を示すプロック図である。
図 1において、 1 0 1は、 情報を表示する情報表示部である。 情報表 示部 1 0 1には、 入力フィールド (入力項目) の情報も表示される。 1 0 2は情報表示部 1 0 1 表示された入力フィールドのうち一つを選択する フィールド選択部である。 1 0 3は、 フィールド選択部 1 0 2から入力 フィールドを選択したことを示す信号の入力があつたか否かを検知する入 カ検知部である。
1 0 4は、 フィールド選択部 1 0 2から入力検知部 1 0 3を経て送ら れる選択信号に基づいて、 どの入カフィールドが選択されたのかを判定す るフィールド判定部である。 以後、 フィールド選択部 1 0 2によつて選択 された入力フィールドをアクティブフィールドと呼ぶ。
1 0 5は、フィールド判定部 1 0 の判定に基づいてァクティブフィー ルドを切替えるフィールド切替部である。 1 0 6は、 現在表示しているコ ンテンッ中の全ての入カフィールドについての情報を保持するフィールド 情報保持部である。 フィールド情報保持部 1 0 6の内容は、 例えば図 4の ようになっている。
すなわち、 図 4に示すように、 各入力フィールドに番号を付し、 入力 フィールドの番号と、 その値 (初期状態では値が設定されていない) と、 この入カフィールドの音声認識の際に使用する文法の I Dを持っている。
1 0 7は、 アクティブフィールドを保持するアクティブフィールド保 持部である。 1 0 8は、 フィールド判定部 1 0 5の判定に基づいて文法を 切り替える文法切替部である。 なお、 以下では、 文法切替部 1 0 8によつ て選択された文法をァクティブ文法と呼ぶ。
1 0 9は、 情報表示部 1 0 1に現在表示されているコンテンツにおい て、 音声入力に使用する全ての文法を保持する文法保持部である。 文法保 持部 1 0 9の内容は、 例えば図 5に示すように、 文法の I Dと、 各文法の 記述とから構成される。 どの文法を使用するかに関する情報は表示されて いるコンテンツ中に記述されている (この点については、 図 1 0を参照し て後述する)。 また、 文法自体はディスク装置 (不図示) やネットワーク 上のサーバ (不図示) から取得できるものとする。
1 1 0は、 ァクティブ文法の I Dを保持するァクティブ文法保持部で ある。 1 1 1は、 音声を入力する音声入力部である。 1 1 2は、 ァクティ ブ文法保持部 1 1 0に保持された文法を用いて、 音声入力部 1 1 1から入 力された音声を認識する音声認識部である。 1 1 3は、 音声認識部 1 1 2 で認識された結果を保持する認識結果保持部である。
図 2は、本実施形態の音声入力装置の具体的なハード構成を示すプロッ ク図である。
図 2において、 2 0 1は C P Uであり、 後述する手順を実現するプロ グラムに従って動作する。 2 0 2はメモリであり、 フィールド情報保持部 1 0 6、 アクティブフィールド保持部 1 0 7、文法保持部 1 0 9、 ァクティ ブ文法保持部 1 1 0、 認識結果保持部 1 1 3と、 上記プログラムを実行す る動作に必要な記憶領域とを提供するものである。
2 0 3は制御メモリであり、 後述する手順を実現するプログラムを保 持する。 2 0 4はポインティングデバイスであり、 前述したフィールド選 択部 1 0 2を構成する。 2 0 5はディスプレイであり、 情報表示部 1 0 1 を構成するものである。 2 0 6はマイクであり、 音声入力部 1 1 1を構成 するものである。 2 0 7は各構成要素を結合するバスである。 次に、 図 3に示すフローチヤ一トを参照して、 本実施形態の装置の動 作を説明する。 以下の説明においては、 ポインティングデバイス 2 0 4と してマウスを使用する場合を例にして説明する。
あるコンテンツが表示された時点で、 そのコンテンツの各入力フィー ルドの音声認識に使用する文法は全て文法保持部 1 0 9に読み込まれ、 入 力フィールドと文法 I Dとの対応はフィールド情報保持部 1 0 6に保持さ れるものとする。
最初のステップ S 3 0 1では、 入力検知部 1 0 3においてマウスから の入力があつたかどうかを調べる。 マウスによる入力は、 マウスクリック を検知するようにしてもよいし、 また、 あるオブジェクト上に一定時間以 上にわたってマウスカーソルがとどまつていることを検知するようにして もよい。 このステツプは、入力があるまで繰り返す。入力があつたらステツ プ S 3 0 2に進む。 .
ステップ S 3 0 2では、 ステップ S 3 0 1で検知された入力が、 入力 フィールドを選択する入力であるかどうかを調べる。 そして、 調べた結果 が入力フィールドの選択でなかった場合はステップ S 3 0 1に戻る。 また、 入力フィールドの選択であった場合にはステップ S 3 0 3に進む。
ステップ S 3 0 3では、 フィールド判定部 1 0 4においてどの入力 フィールドが選択されたかを調べる。 そして、 フィールド切替部 1 0 5に おいて、 選択された入力フィールドをアクティブフィールド保持部 1 0 7 に保持する。
ステップ S 3 0 4では、 文法切替部 1 0 8において、 ァクティブ文法 をアクティブ文法保持部 1 1 0に保持する。 アクティブ文法とは、 文法保 持部 1 0 9に保持された文法のうち、 アクティブフィールド保持部 1 0 7 に保持された入力フィールドに対応した文法である。 フィールド情報保持 部 1 0 6において現在のアクティブフィールドに対応する文法 I Dを調べ、 文法保持部 1 0 9から、 その文法 I Dに対応する文法を読み出す。
ステップ S 3 0 5では、 音声入力部 1 1 1から音声が入力されたかど うかを調べる。 このステップは、 音声が入力されるまで繰り返し行い、 音 声入力されたらステップ S 3 0 6に進む。
ステップ S 3 0 6では、 ステップ S 3 0 5で入力された音声の認識処 理を、 アクティブ文法保持部 1 1 0に保持された文法を用いて音声認識部 1 1 2により行なう。 音声認識の結果は、 認識結果保持部 1 1 3に保持す
• ) o
ステップ S 3 0 7では、 認識結果保持部 1 1 3に保持された結果を、 フィ一ルド情報保持部 1 0 6に保持する。 すなわち、 図 4において、 ァク ティブフィールドに対応する 「値」 の欄に認識結果が保持される。
ステップ S 3 0 8では、 認識結果保持部 1 1 3に保持された結果を、 情報表示部 1 0 1において、 アクティブフィールド保持部 1 0 7に保持さ れた入カフィールドに表示する。 以上で処理を終了する。
次に、図 8のコンテンツを例にとって、処理内容を具体的に説明する。 図 8において、第 1の入力フィールド 8 0 1の番号を 1、第 2の入力フィー ルド 8 0 2の番号を 2、 第 3の入力フィールド 8 0 3の番号を 3とする。
また、 アーティスト名の文法を第 1の文法 A、 曲名の文法を第 2の文 法 B, C M名の文法を第 3の文法 Cとすると、 フィールド情報保持部 1 0 9の内容は、 図 4に示すようになる。 ここで、 従来例によって入力音声の 認識を行なう場合は、 第 1の文法 A, 第 2の文法 B及ぴ第 3の文法 Cの三 つを全て使用していた。
一方、 本実施形態では、 マウスによって、 例えば第 1の入カフィール ド 8 0 1が'選択されたら、 第 1の入力フィールド 1に対応した第 1の文法 Aのみを用いて入力音声の認識を行なうようにしている。 これにより、 入 力音声の認識を行なうために使用する文法の規模を従来例に比べて相対的 に小さくすることができるので、 入力音声の認識率を大幅に向上させるこ とができる。
同様に、 マウスによって、 第 2の入力フィールド 8 0 2が選択された ら、 第 2の入力フィールド 2に対応した第 2の文法 Bを用いて入力音声の 認識を行ない、 第 3の入力フィールド 8 0 3が選択されたら、 第 3の入力 フィールド 3に対応した第 3の文法 Cのみを用いて入力音声の認識を行な なお、 上記実施形態においては、 フィールド選択部 1 0 2を構成する 手段としてマウスを使用する場合について説明したが、 他の手段でもかま わない。 例えば、 情幸艮表示部 1 0 1のディスプレイをタツチパネルとして 所望のフィールドをペンや指で指示するようにしてもよい。
また、 テンキーを用いて、 n番目の入力フィールド (任意の入力フィー ルド) を指定するようにしてもよい。 すなわち、 所望のフィールドを数値 入力で指定してもかまわない。 また、 視線入力装置を用いて、 視線の方向 によって入力フィールドを指定するようにしてもよい。
または、 各入力フィールドと一対一に対応した音声入力用のオブジェ クト (ボタン、 アイコン、 イメージなど) を表示し、 これを選択すること によって、 入力フィールドを選択するようにしてもよい。
また、 上記実施形態においては、 音声認識に使用する文法の切替を入' 力フィールドが選択された時点で行なったが、 音声が入力された時点で、 ァクティブな入力フィールドを判別し、 文法の切り替えを行なうようにし てもよい。
さらに、上記実施形態において、入力フィールドの選択操作によって、 音声入力の開始と終了を指定できるようにしてもよレ 例えば、入力フィー ルドが選択された時点を音声入力の開始時点として扱い、 入力フィールド の選択が終了した時点を音声入力の終了時点として扱うようにする。 例え ば、 マウスによつて操作されているマウスポインターが入力フィールド上 に存在する期間中は、 音声入力を取り込むようにする。
上記実施形態においては、 G U Iを出力手段、 音声入力を入力手段と して用いているが、 これに限るものではなく、 入力手段に G U Iを併用し、 出力手段に音声を併用するようにしてもかまわない。
(第 2の実施形態)
以下、 図面を参照して本発明の第 2の実施形態を詳細に説明する。 図 6は、 本発明の第 2の施形態に係る装置の基本構成を示すプロック 図である。
図 6において、 6 0 1は、 情報を表示する情報表示部である。 この情報 表示部 6 0 1には入力フィールドの情報も表示される。
6 0 2は情報表示部 6 0 1に実際に表示される内容を保持する表示内 容保持部である。 6 0 3は、 情報表示部 6 0 1に表示する情報を切替える 表示情報切替部である。 特に、 情報表示部のサイズが小さい場合、 コンテ ンッを一度に表示することはできない。 このような場合は、 表示情報の切 替操作を行なうことにより、 順次に残りの内容を表示させる。 例えば、 こ の操作は、 ページ切替、 スクロール等の操作を実行する。
6 0 4は、 情報表示部 6 0 1に実際に表示されている入力フィ一ルド を判別するフィールド判定部である。 情報表示部 6 0 1に表示されている 入力フィールドをアクティブフィールドと呼ぶ。 本実施形態の場合には、 第 1の実施形態とは異なり、 アクティブフィールドは一つとは限らない場 合を ¾1定している。
6 0 5は、フィールド判定部 6 0 4の判定に基づいてァクティブフィ一 ルドを切り替えるフィールド切替部である。 6 0 6は、 現在表示している コンテンツ中の全ての入力フィールドについての情報を保持するフィール ド情報保持部である。 フィールド情報保持部 6 0 6の内容は、 例えば図 4 のようになっている。
すなわち、各入力フィールドに番号を付し、入力フィールドの番号と、 その値 (初期状態では値が設定されない) と、 この入力フィールドの音声 認識の際に使用する文法の I Dとを持っている。
6 0 7は、 アクティブフィールドを保持するアクティブフィールド保 持部である。 6 0 8は、 フィールド判定部 6 0 4の判定に基づいて文法を 切り替える文法切替部である。 文法切替部 6 0 8により選択された文法を アクティブ文法と呼ぶ。 6 0 9は、 情幸艮表示部 6 0 1に表示されている現 在のコンテンツにおいて、 入力音声の認識に使用可能な全ての文法を保持 する文法保持部である。 文法表示部 6 0 9の内容は、 例えば図 5のように、 文法の I Dと、 各文法の記述とから構成される。 使用する文法に関する情 報は、 表示に用いているコンテンツ中に記述されているとする。 また、 文 法自体はディスク装置 (不図示) やネットワーク上のサーバ (不図示) か ら取得できるものとする。
6 1 0は、 ァクティブ文法の I Dを保持するァクティブ文法保持部で ある。 6 1 1は、 音声を入力する音声入力部である。 6 1 2は、 ァクティ ブ文法保持部 6 1 0に保持された文法を用いて、 音声入力部 6 1 1から入 力された音声を認識する音声認識部である。 6 1 3は、 音声認識部 6 1 2 で認識された結果を保持する認識結果保持部である。
第 2の実施形態の音声入力装置の具体的構成は、 前述した第 1の実施 形態で示した図 2の構成と同様であるので、 図 2を第 1の実施形態と共通 に用いて説明する。
図 2において、 2 0 1は C P Uであり、 後述する手順を実現するプロ グラムに従つて動作する。 2 0 2はメモリであり、 表示内容保持部 6 0 2、 フィールド惰幸艮保持部 6 0 6、 アクティブフィールド保持部 6 0 7、 文法 保持部 6 0 9、 アクティブ文法保持部 6 1 0、 認識結果保持部 6 1 3と上 記プログラムの動作に必要な記憶領域とを提供する。
2 0 3は制御メモリであり、 後述する手順を実現するプログラムを保 持する。 2 0 4はポインティングデバイスであり、 表示内容切替部 6 0 3 を実現する。 2 0 5はディスプレイであり、 情幸艮表示部 6 0 1を実現する。 2 0 6はマイクであり、 音声入力部 6 1 1を実現する。 2 0 7は各構成要 素を結合するバスである。
次に、 図 7に示すフローチャートを参照して、 第 2の実施形態の情幸艮 入力装置の動作を説明する。
あるコンテンツが表示された時点で、 そのコンテンツの各入力フィー ルドの音声認識に使用する文法は全て文法保持部 6 0 9に読み込まれ、 入 力フィールドと文法 I Dとの対応はフィールド情報保持部 6 0 6に保持さ れるものとする。
最初のステップ S 7 0 1では、 音声入力部 6 1 1から音声が入力され たかどうかを調べる。 このステップ 7 0 1は音声が入力されるまで繰り返 し行い、 音声入力が行われたらステップ S 7 0 2に進む。 '
ステップ S 7 0 2では、 表示内容保持部 6 0 2の内容から、 現在どの 入カフィールドが実際に表示されているかを調べる。
ステップ S 7 0 3では、 フィールド切替部 6 0 5により、 現在表示さ れている入カフィールドをアクティブフィールド保持部 6 0 7に保持する c ステップ S 7 0 4では、 文法切替部 6 0 8により、 ァクティブ文法を アクティブ文法保持部 6 1 0に保持する。 ここで、 アクティブ文法とは、 文法保持部 6 0 9に保持された文法のうち、 アクティブフィールド保持部 6 0 7に保持された入力フィールドに対応した文法である。 すなわち、 フィールド情幸艮保持部 6 0 6において現在のアクティブフィールドに対応 する文法 I Dを調べ、 文法保持部 6 0 9から、 その文法 I Dに対応する文 法を読み出す。
ステップ S 7 0 5では、 ステップ S 7 0 1で入力された音声の認識処 理を、 アクティブ文法保持部 6 1 0に保持された文法を用いて音声認識部 6 1 2で行なう。 認識処理からは認識結果と、 認識に使用した文法の I D が返されるものとする。 すなわち、 複数種類の文法 I Dに対応した文法が 用いられることになるが、 それぞれの文法 I D毎に認識結果を得て、 最も 一致度の高い候補がその文法 I Dとともに出力される。 認識結果は認、識結 果保持部 6 1 3に保持される。
ステップ S 7 0 6では、 ステップ S 7 0 5で得られた文法 I Dから、 どの入カフィールドに対する入力だったのかを判定する。 文法 I Dと入力 フィールドの対応は、 フィールド情報保持部 6 0 6に保持されているので これを参照すればよい。 例えば、 フィールド情幸艮保持部 6 0 6が図 4に示 す内容として、 アクティブフィールドが 「1」 と 「3」 だったとする。 こ こで、 認識結果とともに文法 I Dとして第 3の文法 Cが返されたとすると、 この入力は第 3の文法 Cに対応する第 3の入力フィールド 3に対するもの であったことが分かる。
ステップ S 7 0 7では、 認識結果保持部 6 1 3に保持された結果を、 フィールド情幸艮保持部 6 0 6に保持する。 すなわち、 図 4において、 出力 された文法 I Dに対応する 「値」 の欄に認識結果が保持される。 ステップ S 7 0 8では、 認識結果保持部 6 1 3に保持された結果を、 情報表示部 6 0 1において、 ステップ S 7 0 6で判定された入カフィールドに表示する。 以上で処理を終了する。
次に、 図 8のコンテンツを例にして、 処理内容を具体的に説明する。 図 8のコンテンツが、図 9のように表示されているとする。この図は、 符号 9 0 4を付した部分が実際に表示されている部分を表し、 符号 9 0 5 を付した部分は表示されていないことを表す。 入力フィールド 9 0 1の番号を 1、入力フィールド 9 0 2の番号を 2、 入力フィールド 9 0 3の番号を 3とする。 アーティスト名の文法を第 1の 文法 A、 曲名の文法を第 2の文法 B, C M名の文法を第 3の文法 Cとする と、 フィールド情報保持部 6 0 9の内容は、 図 4に示すようになる。
従来例によって入力音声の認識を行なう場合は、 第 1の文法 A、 第 2 の文法 B、 第 3の文法 Cの 3つを使用することになる。 一方、 本実施形態 では、 実際に表示されている入力フィールドが 9 0 1だけなので、 入力 フィールド 1に対応した文法 Aのみを用いて入力音声の認識を行なう。 こ れにより、 使用する文法の規模が従来例に比べて相対的に小さくなるので、 認識率を向上させることができる。
また、 複数の入力フィールドが表示されている場合でも、 音声認識に 使用される文法は表示されている入力フィールドに対応した文法に絞りこ まれるので、認識精度を保つことができる。また、複数のアクティブフィー ルドの何れかに認識結果を適用するにおいて、 音声認識に利用された文法 に基づいて適用先の入力フィールドが決定される。 このため、 複数の入力 フィールドが表示されていても、 自動的に適切な入力フィールドに値 (音 声認識結果) が設定されることになり、 操作性が向上する。
(第 3の実施形態)
以下、 図面を参照して本発明の第 3の実施形態を詳細に説明する。 第 3の実施形態に係る装置の基本構成及びハードウエア構成は、 前述し た第 2の実施形態で示した図 6及び図 2の構成と同様なので、 詳細な説明 を省略する。
第 3の実施形態では、第 2の実施形態に示されるコンテンッをハイパー テキストにより記述した点、 及ぴ該コンテンツの処理が主に異なる。 以下、 図 1 0〜図 1 3を参照して詳細に説明する。 図 1 0は、 コンテンツをハイパーテキスト文書により表現した一例で ある。 このハイパーテキスト文書は、 表示内容保持部 6 0 2に保持されて おり、 情報表示部 6 0 1により、 図 1 1のように表示される。
図 1 0の 1 0 1に示すタグは、 文法の表示連動の指定、 即ち、 表示画 面の切り替えに応じて文法を切り替えるか否かを示すタグである。 このタ グが記述されている場合は、 表示に連動して文法を切り替え、 タグが記述 されていない場合は、 表示に連動して文法を切り替えないよう処理が行わ れる。 詳細については、 図 1 3に示すフローチャートを用いて説明する。
1 0 2は、 入カフィールド "アーティスト名" に入力するデータのタ イブ、 該入力フィールドのサイズ、 該入力フィールドに使用される文法の 位置情幸 (rhttp://t mp/ rt.grm \ ) が記述されている。 1 0 3、 1 0 4、 1
0 5、 1 0 6も同様に、 各入力フィールドに関する情報と各フィールドに 対応して記憶されている文法の位置情報が記述されている。
図 1 1は、 図 1 0に示されるハイパーテキストを情報表示部 6 0 1で 表示した状態を示す図である。
図 1 1のコンテンツは、 4つの入力フィールド (1 0 0 1、 1 0 0 2、
1 0 0 3、 1 0 0 4 ) からなる。 表示画面が充分に大きい場合は、 4つの 入カフィールドがすべて 1画面内に表示されるが、 表示画面が小さい場合 は、 図 1 2に示すように 4つの入力フィールドの一部のみしか表示されな レ。 この図では、 1 0 0 2、 1 0 0 3の 2つの入力フィールドが表示され ている。 この場合、 スクロールバーにより画面を上下させるなど、 画面の 表示状態を変化させることにより、 表示できない部分を確認することがで きる。
次に、 図 1 3に示すフローチャートを参照して、 本実施形態の情報入 力装置の動作を説明する。
ステップ S 8 0 1では、 図 1 0に示すハイパーテキストを読み込む。 ステップ S 8 0 2では、 ステップ S 8 0 1で読み込まれたハイパーテキス トを解析し、 その結果に基づき図 1 1に示される GUIを表示する。 この解 析結果に基づき文法の位置、 例えば rhttpJ/temp/ar .grm | を検出する。 ま た、 く form>タグ内に 「grmselect="display"」 の記述があるかどうか等、 タグ 内も解析している。
ステップ S 8 0 3では、 ステップ S 8 0 2で検出された文法位置情報 に基づき文法を読み込み、 アーティスト名、 曲名、 C M名、 ランク名に対 応する 4つの文法を文法保持部 6 0 9に保持する。 また、 ステップ S 8 0 4では、 ステップ S 8 0 2の解析結果に基づき、 フィールド情報、 つまり、 入力フィールドと文法の対応関係を、 フィールド情報保持部 6 0 6に保持 する。 本例の場合、 入力フィールド 1 0 0 1には文法 http:〃 temp/art.grm、
1 0 0 2にはす法 h付 p:〃temp/l yr>1 ".grm、 1 0 0 3にはサ、? hけ p:〃temp/cm-grm、
1 0 0 には文法 htip^temp mnLgimがそれぞれ対応して保持される。
ステップ S 8 0 5では、音声入力の検出を行い、検出された場合ステツ プ S 8 0 6に進む。 ステップ S 8 0 6ではステツプ S 8 0 2の解析結果を 元に、 く form>タグ内に 「grmselect="display"」 の記述があるかどうか、 すな わち、 表示に連動して使用する文法を切り替えるか否かの判断をする。 記 述がある場合ステップ S 8 0 8へ、 ない場合はステップ S 8 0 7へ進む。
記述がない場合、 ステップ S 8 0 7では、 すべての文法をアクティブ 文法として設定する。 つまり、 4つの文法をアクティブ文法保持部 6 1 0 に保持し、 ステップ S 8 1 1の音声認識の処理へ進む。
記述がある場合、 ステップ S 8 0 8で、 現在どの入力フィ一ルドが実 際に表示されているかを調べる。 ステップ S 8 0 9では、 現在表示されて いる入力フィールドをアクティブフィールド保持部 6 0 7に保持する。 ス テツプ S 8 1 0では、 ステップ S 8 0 3で保持された 4つの文法のうち、 アクティブフィールド保持部 6 0 7に保持された入力フィ一ルドに対応し た文法をアクティブ文法としてアクティブ文法保持部 6 1 0に保持する。 図 1 2の場合、 4つのフィールドのうち 1 0 0 2及ぴ 1 0 0 3の 2つの入 カフィールドが表示されている。 この 2つの入力フィールドに対応する文 法は、 httpJ emp kyok .grmおよび littp:〃 temp/cm.grmであり、 この 2文法が ァクティブ文法として保持される。
ステップ S 8 1 1では、 ステップ S 8 0 7またはステップ S 8 1 0で アクティブ文法として保持された文法を用いて入力された音声の認識処理 を行う。 認識処理からは、 認識結果と、 認識に使用した文法の I Dが返さ れるものとする。 この認識結果と認識に使用した文法の I Dは、 認識結果 保持部 6 1 3に保持される。
ステップ S 8 1 2では、 ステップ S 8 1 1で得られた文法 I Dから、 どの入力フィールドに対する入力だつたのかを判定する。 文法 I Dと入力 フィールドの対応はフィールド情幸艮保持部 6 0 6に保持されているのでこ れを参照する。
ステップ S 8 1 3では、 認識結果保持部 6 1 3に保持された認識結果 をフィ一ルド情報保持部 6 0 6に保持する。 具体的には、 図 4の値の欄に 認識結果が保持される。
ステップ S 8 1 4では、 認識結果保持部 6 1 3に保持された結果を、 情報表示部において、 ステップ S 8 1 2で判定された入力フィールドに表 示する。
その後、 検索ポタン等により、 入力フィールドに表示された認識結果 の送信が指示された場合、 認識結果がァプリケーションに送信され、 アブ リケーシヨンがそれに従つて動作する。
例えば、 図 8のアーティスト名の欄 8 0 1にアーティスト名 (認識結 果) が表示されている状態で、 検索ボタンを押した場合、 表示されている アーティスト名などがアプリケーションに伝えられ、 そのアーティスト名 による検索結果を得ることができる。
以上で処理を終了する。
図 1 0のハイパーテキストで grmselect="display"が設定され、 図 1 1の ごとく表示されている場合は、 4つの入力フィールドに入力が可能であり、 図 1 2の場合は 2つの入力フィールドにのみ入力可能となる。 また、 設定 されていない場合は、 該当フィールドが表示されているか否かに関わらず 4つの入力欄に入力が可能である。
本実施形態によれば、 表示される入力項目の中に複雑な文法の項目が あった場合、該項目を表示しないように表示を制御することで、入力フィー ルドを制限することができ、 認識率を上げることができる。
なお、 本実施形態によれば、 実際に表示されている入力フィールドに 対応する文法のみを用いて音声認識処理を行うので、 文法の規模を小さく することができ、 その結果、 入力音声に対する認識率を向上させることが できる。
本実施形態によれば、 表示画面の切り替えに応じて文法を切り替える か否かを示すタグの有無に応じて入力フィールドを制限しているが、 これ に限定されるものではなレ^例えば、タグ内の記述内容に応じて入力フィー ルドを制限するようにしても良い。 具体的には、 タグに gnnselect="none"が 設定されている場合は、 すべての文法を使い、 gramselect="display"のとき は、 ディスプレイの表示と連動して文法を制限することができる。 この場 合、 タグが設定されていない場合は、 認識を実行しないようにしてもよい。
本実施形態によれば、 現在表示されている入力フィールドをァクティ ブフィールドとして扱った。 これに限らず、 H T M L文書のフレームを使 用したような場合、 あるいは、 複数のウィンドウを使用したような場合、 現在アクティブなフレーム (フレームとはウェブページ上の区切られたェ リアのことで、 このエリア毎に文書をスクロールできる) もしくはウィン ドウに存在する入力フィールドをアクティブフィールドとして扱うように してもよい。
本実施形態によれば、 G U Iを出力手段、 音声を入力手段として用い ているが、 これに限るものではなく、 入力手段に G U Iを併用し、 出力手 段に音声を併用してもかまわない。
また、 表示画面の切り替えに応じて文法を切り替えるか否かを示すタ グが設定されている場合、 それをユーザに知らせるようにしても良い。 具 体的には、 G U I上のインジケータ等を設けることが考えられる。 このよ うにすることで、 ユーザは、 入力フィールドの示す全文法が選択される場 合と、 表示された入力フィールドの示す特定の文法が選択される場合のど ちらかであるかを事前に知ることができ、 本情報処理装置の操作性が向上 する。
前述した各実施形態は、 複数の機器から構成されるシステムに適用し ても 1つの機器からなる装置に適用しても良い。
また、 前述した各実施形態の機能を実現するための制御プログラムの プログラムコードを格納する言 s録媒体には、 例えばフロッピーディスク、 ハードディスク、 光ディスク、 光磁気ディスク、 C D— R OM、 磁気テー プ、 不揮発性のメモリカード、 R OM等を用いることもできる。
また、 前述した制御プログラムのプログラムコードが、 中央処理装置 2において稼働している 0 S (オペレーティングシステム) あるいは他の アプリケーションソフト等の共同して前述の実施の形態で示した機能が実 現される場合にもかかるプログラムコードは本発明の実施の形態に含まれ ることは言うまでもない。
さらに、 前述した制御プログラムのプログラムコードが機能拡張ポー ドゃ機能拡張ユニットに備わるメモリに格納された後、 そのプログラム コードの指示に基づいてその機能拡張ボードゃ機能拡張ュニットに備わる C P U等が実際の処理の一部または全部を行い、 その処理によって前述し た実施の形態の機能が実現される場合にも本発明に含まれる。
以上説明したように、 本発明によれば、 入力項目の表示状態に応じて 音声認識を行うことができるので、 入力音声に対する認識率を向上するこ とができる。

Claims

請 求 の 範 囲
1 . 複数の入力項目を有する文書を入力する入力手段と、
前記文書の表示状態に応じて、 前記複数の入力項目の中から有効な入 力項目を判別する判別手段と、
前記判別手段により有効であると判別された入力項目に対応する特定 の文法を選択する選択手段とを備えることを特徴とする情報処理装置。
2 . 前記判別手段は、 表示画面上に表示される入力項目を有効な入力項目 として判別することを特徴とする請求項 1に記載の情報処理装置。
3 . 音声を入力する音声入力手段と、
前記選択手段により選択された文法を用いて、 前記音声入力手段によ り入力された音声を認識する音声認識手段とを更に備えることを特徴とす る請求項 1に記載の情報処理装置。
4 . 前記音声認識手段の認識結果を入力するべき入力項目を判定する判定 手段と、
前記判定手段により特定される入力項目に前記認識結果を入力するよ う制御する制御手段とを更に備えることを特徴とする請求項 3に記載の情
5. 表示画面上の表示内容を切り替える表示切り替え手段を更に備え、 前記表示切り替え手段により表示内容の切り替えがなされた場合、 前 記判別手段により表示画面上に表示される入力項目を有効な入力項目とし て判別することを特徴とする請求項 1に記載の情報処理装置。
6 . 前記表示切り替え手段は、 表示画面をスクロールさせることを特徴と する請求項 5に記載の情幸艮処理装置。
7 . 前記表示切り替え手段は、 フレームを切り替えることを特徴とする請 求項 5に記載の情報処理装置。
8 . 複数の入力項目を有する文書を入力する入力手段と、
前記文書の中に、 該文書の表示状態に応じて特定の文法を選択する指定 があるか否か判断する判断手段と、
前記判断結果に応じて文法の選択を制御する制御手段と、
を備えることを特徴とする情報処理装置。
9 . 前記制御手段は、 前記判断手段により、 文書の表示状態に応じて特定 の文法を選択する指定があると判断された場合、 表示画面上に表示されて いる入力項目に対応する特定の文法を選択することを特徴とする請求項 8 に記載の情報処理装置。
1 0 . 前記制御手段は、 前記判断手段により、 文書の表示状態に応じて特 定の文法を選択する指定がないと判断された場合、 前記文書中の入力項目 に対応する全ての文法を選択することを特徴とする請求項 8に記載の情報
1 1 . 音声を入力する音声入力手段と、
前記制御手段により選択された文法を用いて、 前記音声入力手段によ り入力された音声を認識する音声認識手段とを更に備えることを特徴とす る請求項 8に記載の情報処理装置。
1 2 . 前記音声認識手段の認識結果を入力するべき入力項目を判定する判 定手段と、
前記判定手段により特定される入力項目に認識結果を入力するよう制 御する制御手段とを更に備えることを特徴とする請求項 1 1に記載の情報 処理装置。
1 3 . 前記判断手段により、 前記文書中に、 該文書の表示状態に応じて特 定の文法を選択する指定があると判断された場合、 その旨を提示する提示 手段を更に備えることを特徴とする請求項 8に記載の情報処理装置。
1 4 . 複数の入力項目を有する文書を入力する入力工程と、 前記文書の表示状態に応じて、 前記複数の入力項目の中から有効な入 力項目を判別する判別工程と、
前記判別工程により有効であると判別された入力項目に対応する特定 の文法を選択する選択工程とを備えることを特徴とする情報処理方法。
1 5 . 前記判別工程は、 表示画面上に表示される入力項目を有効な入力項 目として判別することを特徴とする請求項 1 4に記載の情報処理方法
1 6 . 音声を入力する音声入力工程と、
前記選択工程により選択された文法を用いて、 前記音声入力工程によ り入力された音声を認識する音声認識工程とを更に備えることを特徴とす る請求項 1 4に記載の情報処理方法。
1 7 . 前記音声認識工程の認識結果を入力するべき入力項目を判定する判 定ェ程と、
前記判定工程により特定される入力項目に認識結果を入力するよう制 御する制御工程とを更に備えることを特徴とする請求項 1 6に記載の情報 処理方法。
1 8 . 表示画面上の表示内容を切り替える表示切り替え工程を更に備え、 前記表示切り替え工程により表示内容の切り替えがなされた場合、 前 記判別工程により表示画面上に表示される入力項目を有効な入力項目とし て判別することを特徴とする請求項 1 4に記載の情報処理方法。
1 9 . 前言己表示切り替え工程は、 表示画面をスクロールさせることを特徴 とする請求項 1 8に記載の情報処理方法。
2 0 . 前記表示切り替え工程は、 フレームを切り替えることを特徴とする 請求項 1 8に記載の情報処理方法。
2 1 . 複数の入力項目を有する文書を入力する入力工程と、
前記文書の中に、 該文書の表示状態に応じて特定の文法を選択する指 定があるか否か判断する判断工程と、 前記判断結果に応じて文法の選択を制御する制御工程と、
を備えることを特徴とする情報処理方法。
2.2 . 前記制御工程は、 前記判断工程により、 文書の表示状態に応じて特 定の文法を選択する指定があると判断された場合、 表示画面上に表示され ている入力項目に対応する特定の文法を選択することを特徴とする請求項 2 1に記載の情報処理方法。
2 3 . 前記制御工程は、 前記判断工程により、 文書の表示状態に応じて特 定の文法を選択する指定がないと判断された場合、 前記文書中の入力項目 に対応する全ての文法を選択することを特徴とする請求項 2 1に記載の情 報処理方法。
2 4 . 音声を入力する音声入力工程と、
前記制御工程により選択された文法を用いて、 前記音声入力工程によ り入力された音声を認識する音声認識工程とを更に備えることを特徴とす る請求項 2 1に記載の情報処理方法。
2 5 . 前記音声認識工程の認識結果を入力するべき入力項目を判定する判 定工程と、
前記判定工程により特定される入力項目に認識結果を入力するよう制 御する制御工程とを更に備えることを特徴とする請求項 2 4に記載の情報 処理方法。
2 6 . 前記判断工程により、 前記文書中に、 該文書の表示状態に応じて特 定の文法を選択する指定があると判断された場合、 その旨を提示する提示 工程を更に備えることを特徴とする請求項 2 1に記載の情報処理方法。
2 7 . コンピュータに情報処理を実行させるための制御プログラムを格納 するコンピュータ可読媒体であって、 該制御プログラムが、
複数の入力項目を有する文書を入力する入力工程のコードと、 前記文書の表示状態に応じて、 前記複数の入力項目の中から有効な入 力項目を判別する判別工程のコードと、
前記判別工程により有効であると判別された入力項目に対応する特定 の文法を選択する選択工程のコードとを備えることを特徴とするコン ピュ一タ可読媒体。
2 8 . コンピュータに情幸艮処理実行させるための制御プログラムを格納す るコンピュータ可読媒体であって、 該制御プログラムが、
複数の入力項目を有する文書を入力する入力工程のコードと、 前記文書の中に、 該文書の表示状態に応じて特定の文法を選択する指 定がぁるか否か判断する判断工程のコードと、
前記判断結果に応じて文法の選択を制御する制御工程のコードとを備 えることを特徴とするコンピュータ可読媒体。
2 9 . コンピュータに情幸艮処理を実行させるための制御プログラムであつ て、
複数の入力項目を有する文書を入力する入力工程のコードと、 前記文書の表示状態に応じて、 前記複数の入力項目の中から有効な入 力項目を判別する判別工程のコードと、
前記判別工程により有効であると判別された入力項目に対応する特定 の文法を選択する選択工程のコードとを備えることを特徴とする制御プロ グラム。
3 0 . コンピュータに情幸艮処理実行させるための制御プログラムであって、 複数の入力項目を有する文書を入力する入力工程のコードと、 前記文書の中に、 該文書の表示^!犬態に応じて特定の文法を選択する指 定があるか否か判断する判断工程のコードと、
前記判断結果に応じて文法の選択を制御する制御工程のコードとを備 えることを特徴とする制御プログラム。
PCT/JP2001/008923 2000-10-11 2001-10-11 Dispositif de traitement d'information, procede de traitement d'information et support de stockage WO2002031643A1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2002527218A JP3774698B2 (ja) 2000-10-11 2001-10-11 情報処理装置、情報処理方法及び記憶媒体
KR10-2003-7005055A KR20030072332A (ko) 2000-10-11 2001-10-11 정보 처리 장치, 정보 처리 방법 및 기억 매체
EP01974781A EP1326164A4 (en) 2000-10-11 2001-10-11 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING AND STORAGE MEDIUM
AU2001294222A AU2001294222A1 (en) 2000-10-11 2001-10-11 Information processing device, information processing method, and storage medium
US09/987,834 US6587820B2 (en) 2000-10-11 2001-11-16 Information processing apparatus and method, a computer readable medium storing a control program for making a computer implemented information process, and a control program for selecting a specific grammar corresponding to an active input field or for controlling selection of a grammar or comprising a code of a selection step of selecting a specific grammar
US10/289,366 US7024361B2 (en) 2000-10-11 2002-11-07 Information processing apparatus and method, a computer readable medium storing a control program for making a computer implemented information process, and a control program for selecting a specific grammar corresponding to an active input field or for controlling selection of a grammar or comprising a code of a selection step of selecting a specific grammar

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000-311100 2000-10-11
JP2000311100 2000-10-11

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US09/987,834 Continuation US6587820B2 (en) 2000-10-11 2001-11-16 Information processing apparatus and method, a computer readable medium storing a control program for making a computer implemented information process, and a control program for selecting a specific grammar corresponding to an active input field or for controlling selection of a grammar or comprising a code of a selection step of selecting a specific grammar

Publications (1)

Publication Number Publication Date
WO2002031643A1 true WO2002031643A1 (fr) 2002-04-18

Family

ID=18790924

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/008923 WO2002031643A1 (fr) 2000-10-11 2001-10-11 Dispositif de traitement d'information, procede de traitement d'information et support de stockage

Country Status (7)

Country Link
US (2) US6587820B2 (ja)
EP (1) EP1326164A4 (ja)
JP (1) JP3774698B2 (ja)
KR (1) KR20030072332A (ja)
CN (1) CN1272698C (ja)
AU (1) AU2001294222A1 (ja)
WO (1) WO2002031643A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004279841A (ja) * 2003-03-17 2004-10-07 Fujitsu Ltd 音声対話システム及び方法
US7603277B2 (en) 2003-06-30 2009-10-13 Nuance Communications, Inc. Speech recognition device using statistical language model
US7668719B2 (en) 2005-06-30 2010-02-23 Canon Kabushiki Kaisha Speech recognition method and speech recognition apparatus
JP2013061793A (ja) * 2011-09-13 2013-04-04 Advanced Media Inc 入力支援装置、入力支援方法、および入力支援プログラム
WO2019142419A1 (ja) * 2018-01-22 2019-07-25 ソニー株式会社 情報処理装置および情報処理方法

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1326164A4 (en) * 2000-10-11 2005-12-28 Canon Kk INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING AND STORAGE MEDIUM
US20020099739A1 (en) * 2001-01-03 2002-07-25 Herman Fischer Transformation and processing of Web form documents and data for small footprint devices
JP3542578B2 (ja) * 2001-11-22 2004-07-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
JP3814566B2 (ja) * 2002-06-20 2006-08-30 キヤノン株式会社 情報処理装置、情報処理方法、制御プログラム
JP2004070523A (ja) * 2002-08-02 2004-03-04 Canon Inc 情報処理装置およびその方法
JP4217495B2 (ja) * 2003-01-29 2009-02-04 キヤノン株式会社 音声認識辞書作成方法、音声認識辞書作成装置及びプログラム、記録媒体
US20050102149A1 (en) * 2003-11-12 2005-05-12 Sherif Yacoub System and method for providing assistance in speech recognition applications
TWI269268B (en) * 2005-01-24 2006-12-21 Delta Electronics Inc Speech recognizing method and system
US20060247925A1 (en) * 2005-04-27 2006-11-02 International Business Machines Corporation Virtual push-to-talk
US7844599B2 (en) * 2005-08-24 2010-11-30 Yahoo! Inc. Biasing queries to determine suggested queries
JP4878471B2 (ja) * 2005-11-02 2012-02-15 キヤノン株式会社 情報処理装置およびその制御方法
JP4822829B2 (ja) * 2005-12-14 2011-11-24 キヤノン株式会社 音声認識装置および方法
ATE527652T1 (de) * 2006-12-21 2011-10-15 Harman Becker Automotive Sys Mehrstufige spracherkennung
US8417529B2 (en) * 2006-12-27 2013-04-09 Nuance Communications, Inc. System and methods for prompting user speech in multimodal devices
JP5002283B2 (ja) * 2007-02-20 2012-08-15 キヤノン株式会社 情報処理装置および情報処理方法
US8635069B2 (en) * 2007-08-16 2014-01-21 Crimson Corporation Scripting support for data identifiers, voice recognition and speech in a telnet session
JP2010008601A (ja) * 2008-06-25 2010-01-14 Fujitsu Ltd 案内情報表示装置、案内情報表示方法及びプログラム
US20110099507A1 (en) 2009-10-28 2011-04-28 Google Inc. Displaying a collection of interactive elements that trigger actions directed to an item
US10033797B1 (en) 2014-08-20 2018-07-24 Ivanti, Inc. Terminal emulation over HTML
US11100278B2 (en) 2016-07-28 2021-08-24 Ivanti, Inc. Systems and methods for presentation of a terminal application screen
US10198246B2 (en) * 2016-08-19 2019-02-05 Honeywell International Inc. Methods and apparatus for voice-activated control of an interactive display
CN109840062B (zh) * 2017-11-28 2022-10-28 株式会社东芝 输入辅助装置以及记录介质
CN110569017A (zh) * 2019-09-12 2019-12-13 四川长虹电器股份有限公司 基于语音的文本输入方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0702355A2 (en) * 1994-09-14 1996-03-20 Canon Kabushiki Kaisha Speech recognition method and apparatus
JPH09258886A (ja) * 1996-03-22 1997-10-03 Fuji Electric Co Ltd データ入力方法
EP0851403A2 (en) * 1996-12-27 1998-07-01 Casio Computer Co., Ltd. Apparatus for generating text data on the basis of speech data input from terminal
EP0854418A2 (en) * 1997-01-06 1998-07-22 Texas Instruments Inc. Speech recognition interface
JPH11184605A (ja) * 1997-12-24 1999-07-09 Toshiba Corp データ入力装置、カーソル制御方法および記録媒体
JP2000010691A (ja) * 1998-04-21 2000-01-14 Casio Comput Co Ltd データ入力装置およびそのプログラム記録媒体
JP2000268045A (ja) * 1999-03-16 2000-09-29 Olympus Optical Co Ltd 情報端末装置

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69028072T2 (de) 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
JPH03150599A (ja) 1989-11-07 1991-06-26 Canon Inc 日本語音節の符号化方式
US6236964B1 (en) 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
JP3066920B2 (ja) 1991-06-11 2000-07-17 キヤノン株式会社 音声認識方法及び装置
JPH04362698A (ja) 1991-06-11 1992-12-15 Canon Inc 音声認識方法及び装置
JP3203061B2 (ja) 1992-09-07 2001-08-27 シャープ株式会社 音声電子黒板及び音声認識機能を備える表示装置
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
JPH09258771A (ja) 1996-03-25 1997-10-03 Canon Inc 音声処理方法及び装置
JP3397568B2 (ja) 1996-03-25 2003-04-14 キヤノン株式会社 音声認識方法及び装置
JPH1097276A (ja) 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
US5875448A (en) * 1996-10-08 1999-02-23 Boys; Donald R. Data stream editing system including a hand-held voice-editing apparatus having a position-finding enunciator
JPH10161692A (ja) 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
JP3962445B2 (ja) 1997-03-13 2007-08-22 キヤノン株式会社 音声処理方法及び装置
JPH10254486A (ja) 1997-03-13 1998-09-25 Canon Inc 音声認識装置および方法
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
GB9726654D0 (en) * 1997-12-17 1998-02-18 British Telecomm Data input and retrieval apparatus
US6301560B1 (en) * 1998-01-05 2001-10-09 Microsoft Corporation Discrete speech recognition system with ballooning active grammar
US6298324B1 (en) * 1998-01-05 2001-10-02 Microsoft Corporation Speech recognition system with changing grammars and grammar help command
US6216104B1 (en) * 1998-02-20 2001-04-10 Philips Electronics North America Corporation Computer-based patient record and message delivery system
US6182046B1 (en) * 1998-03-26 2001-01-30 International Business Machines Corp. Managing voice commands in speech applications
GB2338369B (en) * 1998-06-09 2003-08-06 Nec Technologies Language selection for voice dialling
EP1116221B1 (en) * 1998-09-30 2003-07-23 Lernout & Hauspie Speech Products N.V. Graphic user interface for navigation in speech recognition system grammars
US6513063B1 (en) * 1999-01-05 2003-01-28 Sri International Accessing network-based electronic information through scripted online interfaces using spoken input
US6757718B1 (en) * 1999-01-05 2004-06-29 Sri International Mobile navigation of network-based electronic information using spoken input
US6600736B1 (en) * 1999-03-31 2003-07-29 Lucent Technologies Inc. Method of providing transfer capability on web-based interactive voice response services
JP4320487B2 (ja) * 1999-09-03 2009-08-26 ソニー株式会社 情報処理装置および方法、並びにプログラム格納媒体
US6434547B1 (en) * 1999-10-28 2002-08-13 Qenm.Com Data capture and verification system
US6687734B1 (en) * 2000-03-21 2004-02-03 America Online, Incorporated System and method for determining if one web site has the same information as another web site
US6510417B1 (en) * 2000-03-21 2003-01-21 America Online, Inc. System and method for voice access to internet-based information
US6662157B1 (en) * 2000-06-19 2003-12-09 International Business Machines Corporation Speech recognition system for database access through the use of data domain overloading of grammars
US6728708B1 (en) * 2000-06-26 2004-04-27 Datria Systems, Inc. Relational and spatial database management system and method for applications having speech controlled data input displayable in a form and a map having spatial and non-spatial data
EP1326164A4 (en) * 2000-10-11 2005-12-28 Canon Kk INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING AND STORAGE MEDIUM
US7778816B2 (en) * 2001-04-24 2010-08-17 Microsoft Corporation Method and system for applying input mode bias

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0702355A2 (en) * 1994-09-14 1996-03-20 Canon Kabushiki Kaisha Speech recognition method and apparatus
JPH09258886A (ja) * 1996-03-22 1997-10-03 Fuji Electric Co Ltd データ入力方法
EP0851403A2 (en) * 1996-12-27 1998-07-01 Casio Computer Co., Ltd. Apparatus for generating text data on the basis of speech data input from terminal
EP0854418A2 (en) * 1997-01-06 1998-07-22 Texas Instruments Inc. Speech recognition interface
JPH11184605A (ja) * 1997-12-24 1999-07-09 Toshiba Corp データ入力装置、カーソル制御方法および記録媒体
JP2000010691A (ja) * 1998-04-21 2000-01-14 Casio Comput Co Ltd データ入力装置およびそのプログラム記録媒体
JP2000268045A (ja) * 1999-03-16 2000-09-29 Olympus Optical Co Ltd 情報端末装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1326164A4 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004279841A (ja) * 2003-03-17 2004-10-07 Fujitsu Ltd 音声対話システム及び方法
US7603277B2 (en) 2003-06-30 2009-10-13 Nuance Communications, Inc. Speech recognition device using statistical language model
US7698137B2 (en) 2003-06-30 2010-04-13 Nuance Communications, Inc. Speech recognition device using statistical language model
US7668719B2 (en) 2005-06-30 2010-02-23 Canon Kabushiki Kaisha Speech recognition method and speech recognition apparatus
JP2013061793A (ja) * 2011-09-13 2013-04-04 Advanced Media Inc 入力支援装置、入力支援方法、および入力支援プログラム
WO2019142419A1 (ja) * 2018-01-22 2019-07-25 ソニー株式会社 情報処理装置および情報処理方法

Also Published As

Publication number Publication date
AU2001294222A1 (en) 2002-04-22
EP1326164A4 (en) 2005-12-28
US20030097264A1 (en) 2003-05-22
EP1326164A1 (en) 2003-07-09
US6587820B2 (en) 2003-07-01
CN1272698C (zh) 2006-08-30
JPWO2002031643A1 (ja) 2004-02-19
US7024361B2 (en) 2006-04-04
JP3774698B2 (ja) 2006-05-17
US20020062213A1 (en) 2002-05-23
CN1470015A (zh) 2004-01-21
KR20030072332A (ko) 2003-09-13

Similar Documents

Publication Publication Date Title
WO2002031643A1 (fr) Dispositif de traitement d'information, procede de traitement d'information et support de stockage
JP4416643B2 (ja) マルチモーダル入力方法
US10339833B2 (en) Assistive reading interface
US6499015B2 (en) Voice interaction method for a computer graphical user interface
KR101474856B1 (ko) 음성인식을 통해 이벤트를 발생시키기 위한 장치 및 방법
JP2003271310A (ja) 情報入出力装置、その制御方法および該制御方法を実現するためのプログラム
US7818671B2 (en) Virtual navigation of menus
CN101984389B (zh) 输入汉语字符的方法、装置及终端设备
KR20160097414A (ko) 시각 장애인을 위한 터치 디바이스 입력 시스템 및 입력 방법
KR101809278B1 (ko) 사용자의 움직임을 감지하여 문자를 입력하는 장치 및 방법
JP4161768B2 (ja) 辞書機能を備えた電子装置及びプログラム
JP2009217416A (ja) タッチパネル入力装置、及びタッチパネル入力装置におけるボタン特定方法
KR20090011755A (ko) 한글문자 입력방법 및 이의 입력장치
JP5266809B2 (ja) 表示モード切替方法
JPH11353070A (ja) データ入力装置および記憶媒体
JP2009271835A (ja) 機器操作制御装置及びプログラム
KR102138095B1 (ko) 음성 명령 기반의 가상 터치 입력 장치
JP3271466B2 (ja) 読み上げ装置
Larsson et al. Adding a Speech Cursor to a Multimodal Dialogue System.
JP6099414B2 (ja) 情報提供装置、及び、情報提供方法
JP2004295622A (ja) 情報表示制御装置及びプログラム
KR970066835A (ko) 멀티미디어 윈도우즈 쉘의 제어 방법 및 태스크 리스트 제어 방법
JP5097672B2 (ja) 携帯端末およびその文字入力方法
JPH082747Y2 (ja) 文書処理装置
JP2002099532A (ja) 文字入力方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 09987834

Country of ref document: US

ENP Entry into the national phase

Ref country code: JP

Ref document number: 2002 527218

Kind code of ref document: A

Format of ref document f/p: F

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PH PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2001974781

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1020037005055

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 018172636

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2001974781

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWP Wipo information: published in national office

Ref document number: 1020037005055

Country of ref document: KR

WWR Wipo information: refused in national office

Ref document number: 1020037005055

Country of ref document: KR

点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载