WO2018198447A1 - 情報処理装置および情報処理方法 - Google Patents
情報処理装置および情報処理方法 Download PDFInfo
- Publication number
- WO2018198447A1 WO2018198447A1 PCT/JP2018/001918 JP2018001918W WO2018198447A1 WO 2018198447 A1 WO2018198447 A1 WO 2018198447A1 JP 2018001918 W JP2018001918 W JP 2018001918W WO 2018198447 A1 WO2018198447 A1 WO 2018198447A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information processing
- information
- display
- user
- difficulty score
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 225
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 122
- 238000004891 communication Methods 0.000 claims description 41
- 230000000694 effects Effects 0.000 claims description 41
- 230000006870 function Effects 0.000 description 62
- 238000004458 analytical method Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 19
- 238000000034 method Methods 0.000 description 13
- 239000003795 chemical substances by application Substances 0.000 description 7
- 238000003384 imaging method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000008451 emotion Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 210000005252 bulbus oculi Anatomy 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006996 mental state Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 206010002953 Aphonia Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005281 excited state Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000003183 myoelectrical effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000036387 respiratory rate Effects 0.000 description 1
- 230000035900 sweating Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/01—Indexing scheme relating to G06F3/01
- G06F2203/011—Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Definitions
- This disclosure relates to an information processing apparatus and an information processing method.
- Patent Document 1 discloses a technique in which character information is divided into character groups of a predetermined unit and presentation control of the character group is performed based on a set interval.
- the present disclosure proposes a new and improved information processing apparatus and information processing method capable of realizing a highly readable text display that can be flexibly adapted to the situation.
- an information processing apparatus including a calculation unit that calculates a recognition difficulty score used for display control of a target text based on input context data is provided.
- an information processing method including a processor calculating a recognition difficulty score used for display control of a target text based on input context data.
- FIG. 3 is a diagram illustrating a hardware configuration example according to an embodiment of the present disclosure.
- Patent Document 1 discloses a technique for improving text visibility and readability by setting the display unit as described above based on text structural features.
- the display unit is set based only on the structural features of the text, depending on the situation, it may be assumed that the recognition is insufficient and the complexity is increased.
- FIG. 1 and 2 are diagrams for describing an overview of an embodiment of the present disclosure.
- FIG. 1 shows text information T1 displayed on the display unit 134 and users U1 and U2.
- the text information T1 is divided into two display units and presented to the users U1 and U2 with the same display interval.
- the display related to the text T1 has a small amount of information related to the display unit for the user U1 and the display interval is too slow, while the information amount related to the display unit is too large for the user U2. It is assumed that the display interval is too early. Thus, it is conceivable that an appropriate display unit and display interval for text recognition change each time depending on the user's characteristics and circumstances.
- the information processing server 20 may calculate a recognition difficulty score used for display control of the target text based on various contexts related to a user, an application, and the like.
- the recognition difficulty score is an index indicating the degree of difficulty related to the recognition of the target text by the user.
- the information processing terminal 10 can perform display control of the target text based on the recognition difficulty score.
- FIG. 2 shows a display example of the target text whose display is controlled based on the recognition difficulty score according to the present embodiment.
- the information processing terminal 10 when the recognition difficulty score indicates that the user U1 can easily recognize the target text, the information processing terminal 10 according to the present embodiment has a relatively large amount of information as illustrated in the upper part of FIG. Many display units and fast display intervals may be set to control the display of the text T1 that is the target text. According to the above control by the information processing terminal 10, the text T1 can be displayed with a display unit and a display interval according to the situation of the user U1, and the dissatisfaction of the user U1 such as slow text display is eliminated. It becomes possible to do.
- the information processing terminal 10 when the recognition difficulty score indicates that the user U2 is in a situation where it is difficult to recognize the target text, the information processing terminal 10 according to the present embodiment is relatively informed as shown in the lower part of FIG. A display unit with a small amount or a slow display interval may be set to control the display of the text T1. According to the above control by the information processing terminal 10, the user U2 can display the text T1 with a display unit and a display interval according to the situation of the user U2, and the text display is too early to understand. Can be resolved.
- the information processing server 20 calculates recognition difficulty scores related to the users U1 and U2, and the information processing terminal 10 performs display control of the target text for each user based on the recognition difficulty scores.
- the case has been described as an example.
- the calculation of the recognition difficulty visual score and the display control of the target text according to the present embodiment are not limited to such an example.
- the information processing server 20 calculates the recognition difficulty score for the same user each time, and the information processing terminal 10 displays the target text for the same user based on the recognition difficulty score. May be controlled each time.
- the display unit, the display interval, and the display effect can be appropriately controlled based on various factors (contexts). It is possible to present information with high performance and high readability to the user.
- FIG. 3 is a diagram illustrating an example of a system configuration according to the present embodiment.
- the information processing system according to the present embodiment includes an information processing terminal 10 and an information processing server 20.
- the information processing terminal 10 and the information processing server 20 are connected via the network 30 so that they can communicate with each other.
- the information processing terminal 10 is an information processing apparatus that presents text information to a user based on display control information received from the information processing server 20. Further, the information processing terminal 10 according to the present embodiment has a function of collecting various sensor information and application information and transmitting them to the information processing server 20.
- the information processing terminal 10 according to the present embodiment may be, for example, a smartphone, a tablet, a PC (Personal Computer), a mobile phone, a wearable device, a game device, various agent devices, and the like.
- the information processing terminal 10 according to the present embodiment may have a function of transmitting collected user voice information to the information processing server 20 and presenting recognized text to the user, for example.
- the information processing server 20 is an information processing device that calculates a recognition difficulty score used for display control of a target text based on context data.
- the context data may be data indicating various situations, states, and factors related to the display of the target text. Details of the context data according to the present embodiment will be described later. Further, the information processing server 20 according to the present embodiment transmits display control information used for display control of the target text to the information processing terminal 10.
- FIG. 4 is a conceptual diagram for explaining input / output of data according to the present embodiment.
- the information processing terminal 10 according to the present embodiment first transmits the collected sensor information and application information to the information processing server 20.
- the information processing server 20 calculates a recognition difficulty score used for display control of the target text T1 based on the sensor information and application information. That is, the context data according to the present embodiment may include sensor information and application information transmitted from the information processing terminal 10 and various data estimated based on these. Further, the target text T1 may be text generated by the information processing server 20 based on voice information transmitted from the information processing terminal 10.
- the information processing server 20 transmits display control information used for display control of the target text T ⁇ b> 1 to the information processing terminal 10.
- the pattern of the display control information transmitted by the information processing server 20 can be appropriately determined according to the function of the information processing terminal 10 that is the transmission destination.
- the information processing server 20 when the information processing terminal 10 has a function of setting a display unit, a display interval, a display effect, or the like related to the display of the target text T1 based on the recognition difficulty score, the information processing server 20 according to the present embodiment. May transmit the recognition difficulty score to the information processing terminal 10 as display control information.
- the information processing terminal 10 has a function of performing display control of the target text T1 based on the input display unit, display interval, display effect, and the like
- the information processing server 20 according to the present embodiment
- the display unit, display interval, display effect, and the like determined based on the recognition difficulty score may be transmitted to the information processing terminal 10 as display control information.
- the information processing server 20 determines the determined display unit and display interval.
- a display control signal for displaying the target text T1 based on the display effect or the like may be transmitted to the information processing terminal 10 as display control information.
- the information processing server 20 may transmit the target text T1 to the information processing terminal 10 together with the display control information.
- the network 30 has a function of connecting the information processing terminal 10 and the information processing server 20.
- the network 30 may include a public line network such as the Internet, a telephone line network, a satellite communication network, various LANs (Local Area Network) including Ethernet (registered trademark), a WAN (Wide Area Network), and the like. Further, the network 30 may include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network). Further, the network 30 may include a wireless communication network such as Wi-Fi (registered trademark) or Bluetooth (registered trademark).
- the configuration example of the information processing system according to the present embodiment has been described above. Note that the above-described configuration described with reference to FIG. 2 is merely an example, and the configuration of the information processing system according to the present embodiment is not limited to the example.
- the function related to the display control of the target text can be appropriately designed according to the specification and operation.
- the information processing terminal 10 and the information processing server 20 according to the present embodiment can be realized as the same device.
- the functions of the information processing terminal 10 and the information processing server 20 according to the present embodiment may be realized by being distributed to a plurality of devices.
- the configuration of the information processing system according to the present embodiment can be flexibly modified.
- FIG. 5 is an example of a functional block diagram of the information processing terminal 10 according to the present embodiment.
- the information processing terminal 10 according to the present embodiment includes an input unit 110, a control unit 120, an output unit 130, and a server communication unit 140.
- the input unit 110 includes a voice input unit 112, an operation input unit 114, an imaging unit 116, and a sensor unit 118.
- the voice input unit 112 has a function of detecting a user's utterance. Further, the voice input unit 112 may detect various sound information in addition to the above utterance. For this reason, the voice input unit 112 according to the present embodiment includes a voice detection device such as a microphone. Unless otherwise indicated, the sensor information according to the present embodiment includes various sound information collected by the voice input unit 112.
- the operation input unit 114 has a function of detecting various input operations by the user.
- the operation input unit 114 can detect, for example, a text operation or an application operation by a user.
- the operation input unit 114 according to the present embodiment includes a mouse, a keyboard, a controller, a touch panel, various buttons, and the like.
- the imaging unit 116 according to the present embodiment has a function of capturing images of a user and surroundings.
- the imaging unit 116 according to the present embodiment includes an imaging sensor, a lens, and the like.
- the sensor information according to the present embodiment includes image information collected by the imaging unit 116.
- the sensor unit 118 has a function of collecting various information related to the user.
- the sensor unit 118 includes, for example, a temperature sensor, a humidity sensor, an optical sensor, an acceleration sensor, a gyro sensor, a geomagnetic sensor, a biological sensor, and the like.
- the biological sensor include a pulse sensor, a myoelectric sensor, and an electroencephalogram sensor.
- Control unit 120 The control unit 120 according to the present embodiment has a function of controlling various applications. In addition, the control unit 120 according to the present embodiment has a function of performing display control related to the target text based on the display control information received from the information processing server 20. For example, the control unit 120 may control the display of the target text by determining a display unit, a display interval, a display effect, and the like based on the received recognition difficulty score. The control unit 120 may control display of the target text based on the received display unit, display interval, display effect, and the like. Further, the control unit 120 may deliver the received display control signal to the display unit 134.
- the output unit 130 includes an audio output unit 132 and a display unit 134.
- the audio output unit 132 has a function of presenting sound information to the user. For example, the audio output unit 132 outputs sound according to the application based on the control by the control unit 120. Further, the voice output unit 132 may output a synthesized voice synthesized by the information processing server 20. For this purpose, the audio output unit 132 according to the present embodiment includes an amplifier, a speaker, and the like.
- the display unit 134 has a function of presenting visual information to the user based on control by the control unit 120 and a display control signal received from the information processing server 20.
- the display unit 134 according to the present embodiment includes a display device that presents visual information. Examples of the display device include a CRT (Cathode Ray Tube) display device, a liquid crystal display (LCD) device, an OLED (Organic Light Emitting Diode) device, and a touch panel.
- CTR Cathode Ray Tube
- LCD liquid crystal display
- OLED Organic Light Emitting Diode
- the server communication unit 140 has a function of performing information processing communication with the information processing server 20 via the network 30. Specifically, the server communication unit 140 transmits sensor information collected by the input unit 110, application information acquired by the control unit 120, and the like to the information processing server 20. In addition, the server communication unit 140 receives display control information from the information processing server 20. As described above, the display control information according to the present embodiment includes the recognition difficulty score, the display unit determined based on the recognition difficulty score, the display interval, the information related to the display effect, and the display related to the target text. The control signal itself may be included. Further, the server communication unit 140 may receive the target text from the information processing server 20.
- the functional configuration example of the information processing terminal 10 according to the present embodiment has been described above.
- said structure demonstrated using FIG. 5 is an example to the last, and the function structure of the information processing terminal 10 which concerns on this embodiment is not limited to the example which concerns.
- the information processing terminal 10 according to the present embodiment may further include a configuration other than those described above.
- the information processing terminal 10 may include, for example, a storage unit that stores various types of information, or may have a voice recognition function equivalent to that of the information processing server 20.
- the functions of the information processing terminal 10 described above can be realized by being distributed to a plurality of devices.
- the input unit 110, the control unit 120, and the output unit 130 may be realized as functions of separate devices.
- the functional configuration of the information processing terminal 10 according to the present embodiment can be flexibly modified.
- FIG. 6 is an example of a functional block diagram of the information processing server 20 according to the present embodiment.
- the information processing server 20 according to the present embodiment includes an acoustic analysis unit 210, a state analysis unit 220, a calculation unit 230, a term DB 240, a storage unit 250, a speech synthesis unit 260, and a terminal communication unit 270.
- an acoustic analysis unit 210 includes an acoustic analysis unit 210, a state analysis unit 220, a calculation unit 230, a term DB 240, a storage unit 250, a speech synthesis unit 260, and a terminal communication unit 270.
- the acoustic analysis unit 210 has a function of performing various processes and analysis based on sound information collected by the information processing terminal 10. For example, the acoustic analysis unit 210 according to the present embodiment may generate a target text by performing signal processing, speech recognition, language discrimination, natural language processing, and the like based on the collected user utterances. In addition, the acoustic analysis unit 210 according to the present embodiment may perform analysis based on the user's utterance to estimate the user's emotion and the like. The acoustic analysis unit 210 can also measure the ambient noise level and the like based on the collected sound information. Note that the information processed or analyzed by the acoustic analysis unit 210 according to the present embodiment can be used for calculation of the recognition difficulty score by the calculation unit 230 described later.
- the state analysis unit 220 has a function of performing various analyzes related to a user's state based on image information, sensor information, and the like collected by the information processing terminal 10. For example, the state analysis unit 220 according to the present embodiment recognizes a user's line of sight, blinking, pupil or eyeball state, mouth openness, facial expression, gestures, and other operations based on the collected image information and sensor information. May be. Further, the state analysis unit 220 according to the present embodiment may analyze a heartbeat, respiration, sweating, a tension state, an excitement state, and the like based on the collected sensor information. Information analyzed by the state analysis unit 220 according to the present embodiment can be used for calculation of the recognition difficulty score by the calculation unit 230.
- the calculation unit 230 has a function of calculating a recognition difficulty score used for display control of the target text based on input context data.
- the context data according to the present embodiment includes sensor information and application information collected by the information processing terminal 10 and various types of information analyzed by the acoustic analysis unit 210 and the state analysis unit 220. Further, the context data according to the present embodiment includes user information stored in the storage unit 250, vocabulary characteristics included in the target text, structural features of the target text, and the like. Details of the functions of the calculation unit 230 according to the present embodiment will be described separately.
- the term DB 240 is a database that stores data relating to various terms.
- the DB 240 according to the present embodiment stores, for example, data related to new words, abbreviations, proper nouns, technical terms, trend terms, and the like.
- the above information stored in the term DB 240 according to the present embodiment is used to extract the characteristics of the vocabulary included in the target text in the calculation of the recognition difficulty score by the calculation unit 230.
- the storage unit 250 has a function of storing a processing result or the like according to each configuration provided in the information processing server 20.
- the storage unit 250 according to the present embodiment may store a context management table corresponding to the recognition difficulty score calculated by the calculation unit 230.
- the storage unit 250 may store user image information and the like. The image state is used for user recognition by the state analysis unit 220.
- the speech synthesizer 260 has a function of generating artificial speech based on the target text and notification content.
- the artificial speech generated by the speech synthesizer 260 is transmitted to the information processing terminal 10 via the terminal communication unit 270 and the network 30, and is output by the speech output unit 132.
- the terminal communication unit 270 has a function of performing information communication with the information processing terminal 10 via the network 30. Specifically, the terminal communication unit 270 receives sensor information and application information from the information processing terminal 10. The terminal communication unit 270 has a function of transmitting display control information used for display control of the target text. As described above, the display control information according to the present embodiment includes the recognition difficulty score, the display unit determined based on the recognition difficulty score, the display interval, the information related to the display effect, and the display related to the target text. The control signal itself may be included. Further, the terminal communication unit 270 may transmit the target text to the information processing terminal 10.
- the function configuration example of the information processing server 20 according to the present embodiment has been described above. Note that the above-described configuration described with reference to FIG. 6 is merely an example, and the functional configuration of the information processing server 20 according to the present embodiment is not limited to the example.
- the information processing server 20 according to the present embodiment may further include a configuration other than those described above.
- the information processing server 20 may further include a configuration for controlling an application. Or each function which information processing server 20 has can also be distributed and realized in a plurality of devices.
- the functional configuration of the information processing server 20 according to the present embodiment can be flexibly modified.
- FIG. 7 is a diagram illustrating an example of a user interface of the application according to the present embodiment.
- the application may be a message application or a game application having a voice recognition function.
- FIG. 7 shows a user interface U1 of an application displayed on the display unit 134 of the information processing terminal 10.
- the user interface U1 includes a field F1 for displaying a target text generated by the information processing server 20 by recognizing a user's utterance, and a field F2 for displaying a past message history.
- a field F1 for displaying a target text generated by the information processing server 20 by recognizing a user's utterance
- a field F2 for displaying a past message history.
- the existing text ET recognized based on the previous utterance and the button b1 for controlling the start of speech recognition are displayed in the field F1.
- the information processing terminal 10 sends the collected sound information, other sensor information, and application information related to the user's utterance UO1 to the information processing server 20. Send.
- the information processing server 20 performs speech recognition based on the received user's utterance UO1, generates target text, and performs analysis based on the received sensor information. Subsequently, the calculation unit 230 of the information processing server 20 calculates a recognition difficulty score based on the context data.
- FIG. 8 is a diagram for explaining the relationship of input / output data according to the calculation unit 230 of the present embodiment.
- context data is input to the calculation unit 230.
- the entity of the context data according to the present embodiment includes sensor information collected by the information processing terminal 10, application information, user information, and various types of information analyzed based on these.
- the user context according to the present embodiment is roughly classified into information on the user state, the user context, the user property, the application context, and the character context.
- the above-described user state may include an operation state and a mental state of the user. That is, the calculation unit 230 according to the present embodiment can calculate the recognition difficulty score based on the context data regarding the user's operation state and mental state. Moreover, it can be said that the user state according to the present embodiment is a user characteristic that can change in a relatively short period of time. According to the function of the calculation unit 230 according to the present embodiment, the display of the target text is controlled with the display unit, the display interval, and the display effect according to the user characteristics that can change in a short period of time. Is possible.
- the above user context may include user tendencies and experiences. That is, the calculation unit 230 according to the present embodiment can calculate the recognition difficulty score based on the context data regarding the user's tendency and experience. Moreover, it can be said that the user context which concerns on this embodiment is a user's characteristic which can change in medium and long periods. According to the above-described function of the calculation unit 230 according to the present embodiment, the display of the target text is controlled by the display unit, the display interval, and the display effect corresponding to the user characteristics that can change in the medium to long term. It becomes possible.
- the above user properties may include user attributes and types. That is, the calculation unit 230 according to the present embodiment can calculate the recognition difficulty score based on the context data regarding the user attribute, type, and the like. Moreover, it can be said that the user property which concerns on this embodiment is a user's characteristic which is hard to change for a long time. According to the function of the calculation unit 230 according to the present embodiment, the display of the target text can be controlled with the display unit, the display interval, and the display effect according to the characteristics of the user that are difficult to change for a long time. It becomes possible.
- the above application context may include the state of the application that displays the target text and other applications. That is, the calculation unit 230 according to the present embodiment can control the display of the target text based on context data regarding various application states.
- the character context described above may include vocabulary characteristics included in the target text and structural features of the target text. That is, the calculation unit 230 according to the present embodiment can control the display of the target text based on the context data regarding the characteristics of the target text.
- the calculation unit 230 can calculate a recognition difficulty score based on context data including various information.
- the calculation unit 230 according to the present embodiment may determine a display unit, a display interval, a display effect, and the like related to the target text based on the calculated recognition difficulty score.
- the calculation unit 230 may generate a display control signal for displaying the target text T1 based on the determined display unit, display interval, display effect, and the like. That is, the calculation unit 230 according to the present embodiment can generate display control information according to the characteristics of the information processing terminal 10 and cause the terminal communication unit 270 to transmit the display control information.
- the calculation unit 230 according to the present embodiment can calculate the recognition difficulty score based on the context data regarding various information.
- the calculation unit 230 according to the present embodiment may update the context management table stored in the storage unit 250 based on the context data, and calculate the recognition difficulty score based on the updated parameters. .
- FIG. 9 is a diagram showing an example of a context management table related to the user state according to the present embodiment.
- the context management table related to the user state includes items related to the concentration state, the tension state, the operation state, the speech state, and the busy state.
- the calculation unit 230 can update the parameter related to the concentration state based on information such as the user's line of sight, pupil, eyeball, and mouth opening state included in the context data. According to the above function of the calculation unit 230, for example, when the user is concentrated on text or an application, it is possible to perform control such as increasing the amount of information in a display unit or increasing the display interval. Become.
- the calculation unit 230 can update the parameter related to the tension state based on the context data analyzed by the state analysis unit 220. According to the above function of the calculation unit 230, for example, when the user is excessively nervous, it is possible to perform control such as reducing the information amount of the display unit or setting the display interval longer. Become.
- the calculation unit 230 can update the parameter related to the operation state based on the application information transmitted from the information processing terminal 10. According to the above function of the calculation unit 230, for example, when the user performs many operations on the application, it is possible to perform control such as reducing the amount of information in display units or setting a display interval longer. It becomes possible.
- the above control is particularly effective when the user confirms the text while performing the game operation in a game application having a text display function, for example.
- the calculation unit 230 can update the parameters related to the utterance state based on the context data analyzed by the acoustic analysis unit 210. According to the above function of the calculation unit 230, for example, when the user is excited, it is possible to avoid the user being dissatisfied with the slow display by increasing the display interval. Become.
- the calculation unit 230 can update the parameter related to the busy state based on the context data analyzed by the acoustic analysis unit 210 and the state analysis unit 220. According to the function of the calculation unit 230, for example, it is possible to control the display interval to be advanced for a user who is in a hurry or the display interval is set to be longer for a user who is exercising. .
- FIG. 10 is a diagram showing an example of a context management table related to user contexts and user properties according to the present embodiment.
- the context management table related to the user context includes items such as voice input in one day, application usage time, and voice input proficiency.
- the calculation unit 230 can update the parameters as described above based on the application information received from the information processing terminal 10. According to the above function of the calculation unit 230, for example, when the voice input or application usage time in a day is long, the display interval is set long in consideration of user fatigue, or a user with a high level of proficiency In contrast, it is possible to perform control such as increasing the display interval.
- the context management table related to user properties includes items such as age, sex, and native language.
- the calculation unit 230 may add the items as described above based on information input by the user on the application. According to the above function of the calculation unit 230, for example, for an elderly person or a user whose native language is different from the application language, it is possible to perform control such as setting a display interval longer.
- FIG. 11 is a diagram showing an example of a context management table related to the application context according to the present embodiment.
- the context management table relating to the application context includes the volume of sound information output by the application, the number of simultaneous users of the application, the importance of text correction, the degree of screen change other than the text field, the current scene in the application This includes items such as the importance of the text, the presence / absence of voice output, the display position of the text, the attributes of the text field (width, height, etc.), the presence of existing text, and the attributes of the text sending partner.
- the calculation unit 230 can update the parameters as described above based on application information received from the information processing terminal 10.
- the calculation unit 230 for example, when background music and sound effects output from the application are large, when there are a large number of simultaneous users, or when the current scene in the application reaches an important scene (for example, when there is an output with a large screen change, such as a video game, a battle with a strong enemy, etc., a display with a small amount of information, assuming that the user is distracted by events other than text Control such as setting a unit or a longer display interval becomes possible.
- a large screen change such as a video game, a battle with a strong enemy, etc.
- calculation unit 230 for example, it is possible to set a display unit, a display interval, and a display effect in consideration of the display position and size of text, a color scheme, and the like.
- FIG. 12 is a diagram showing an example of a context management table related to the character context according to the present embodiment.
- FIG. 12 shows an example in which the calculation unit 230 updates the parameters in units of words included in the target text. Examples of the parameters include the number of characters, term type, utterance speed, utterance pitch, and emotion (for example, an excited state).
- the calculation unit 230 may set the display unit with the upper limit of the number of characters that humans can easily perceive at a time. For example, when the target text is configured in Japanese, the calculation unit 230 can combine words so that the display unit is about 13 characters. Further, the calculation unit 230 may set the display interval to be shorter in the second half when the entire character amount is large.
- the calculation unit 230 for example, it is possible to set a display unit, a display interval, and a display effect according to a term type included in the target text.
- the term types include, for example, new words, abbreviations, proper nouns, technical terms, trend terms, foreign languages, and the like.
- the calculation unit 230 may set a display unit with a small amount of information or a long display interval. Good.
- the calculation unit 230 determines that the term is highly readable for the user.
- the display unit and display interval may be set.
- the display unit and the display interval can be set based on the utterance speed, the utterance pitch, and the emotion for each word included in the target text.
- the calculation unit 230 can update each of the above parameters based on the context data analyzed by the acoustic analysis unit 210.
- the calculation unit 230 can update each parameter of the context management table based on the context data regarding various information. Further, the calculation unit 230 according to the present embodiment may calculate a recognition difficulty score for each element or for the whole using the updated parameters of the context management table. The calculation unit 230 may process the calculated recognition difficulty score into a format suitable for communication with the information processing terminal 10.
- FIG. 13 shows an example of the format of the recognition difficulty score according to this embodiment.
- the calculation unit 230 processes the calculated recognition difficulty score into the Javascript (registered trademark) Object Notation (JSON) format.
- JSON Javascript
- the format includes information on the recognition difficulty score for each and every element.
- the recognition difficulty score can be transmitted to the plurality of information processing terminals 10 using a common format.
- the information processing terminal 10 that has received the format data may appropriately adopt a recognition difficulty score to be used according to the application.
- the information processing terminal 10 may set the display unit and the display interval using the overall score included in the format.
- the information processing terminal 10 can also set the display unit and the display interval using only the user state score included in the format, for example.
- the terminal communication unit 270 of the information processing server 20 may transmit the information such as the display unit and the display interval set by the calculation unit 230 to the information processing terminal 10 together with the recognition difficulty score processed into the above format. Good.
- the information processing terminal 10 can perform display control according to the received information, such as setting the display effect based on the recognition difficulty score.
- FIG. 13 illustrates an example in which the calculation unit 230 processes the recognition difficulty score into the JSON format
- the calculation unit 230 according to the present embodiment for example, converts the recognition difficulty score into XML (eXtensible Markup Language). ), Other general-purpose formats, or original formats.
- FIG. 14 is a diagram illustrating an example of display units, display intervals, and display effects that are set based on the recognition difficulty score.
- the calculation unit 230 and the control unit 120 of the information processing terminal 10 set the display unit so that the display unit is within 15 characters based on the recognition difficulty score. Further, the calculation unit 230 and the control unit 120 of the information processing terminal 10 set the display interval between 0.2 and 0.5 sec based on the recognition difficulty score.
- the calculation unit 230 and the control unit 120 may set the display effect related to the target text based on the recognition difficulty score.
- the display effect includes a character size, color, decoration, font, display position, and the like.
- the display effect may include conversion of a word included in the target text. In the example shown in FIG. 14, the proper noun SHINJUKU is converted to upper case.
- the calculation unit 230 and the control unit 120 can improve the readability of the target text to be displayed, for example, by converting technical terms that the user has knowledge into abbreviations.
- the calculation unit 230 and the control unit 120 can improve visibility and readability by adjusting the amount of kanji, katakana, and hiragana.
- the calculation unit 230 and the control unit 120 may perform control such as adjusting the interval between characters by setting a font according to the number of characters included in the display unit.
- the display units, display intervals, and display effects set by the calculation unit 230 and the control unit 120 may be stored and reused by the user.
- the calculation unit 230 and the control unit 120 can adjust the display unit, the display interval, and the display effect based on feedback input by the user.
- FIG. 15 is a flowchart showing the flow of the information processing method according to the present embodiment.
- user context acquisition (S1101) and user property acquisition (S1102) are executed.
- the context management table is updated based on the context data acquired in steps S1101 to S1104, and a recognition difficulty score is calculated (S1105).
- step S1105 display control for each target text is executed based on the recognition difficulty score calculated in step S1105 (S1106).
- FIG. 16 is a flowchart showing the flow of display control according to the present embodiment.
- the information processing terminal 10 and the information processing server 20 according to the present embodiment perform display control related to a target text acquired by speech recognition will be described as an example.
- voice input is started (S1201).
- speech recognition processing is executed (S1202), and the target text is acquired (S1203).
- a character context is acquired based on the target text acquired in step S1203 (S1204).
- the recognition difficulty score is calculated by the calculation unit 230 (S1208).
- step S1209 based on the recognition difficulty score calculated in step S1208, the display unit, the display interval, and the display effect related to the target text are set (S1209).
- the above process is executed by the calculation unit 230 or the control unit 120 as described above.
- step S1209 character conversion of the target text is executed based on the display effect set in step S1209 (S1210).
- step S1208 display control of the target text based on the display unit, display interval, and display effect set in step S1208 is executed (S1211).
- step S1211 display for each display unit based on the set display effect (S1212), standby according to the display interval (S1213), and real-time calculation of context data are repeatedly executed while the display unit exists.
- FIG. 17 is a flowchart showing a flow of real-time calculation of context data according to the present embodiment.
- acquisition of user status S1301
- acquisition of application context S1302 update of a context management table
- calculation of recognition difficulty score S1304
- the display unit, the display interval, and the display effect are repeatedly set. That is, the calculation unit 230 according to the present embodiment can recalculate the recognition difficulty score based on the context data input during display of the target text.
- the function of the calculation unit 230 according to the present embodiment it is possible to realize display control that flexibly corresponds to a change in context during display of the target text.
- the technical idea according to the present embodiment can be applied to a voice agent or the like.
- 18A and 18B are diagrams illustrating an example when the technical idea according to the present embodiment is applied to a voice agent.
- 18A and 18B show the information processing terminal 10 and the user U2 who is an elderly person and the user U3 who is a young person.
- the information processing terminal 10 may be a voice agent that has a schedule management function and a projection function and performs dialogue with the user by voice.
- the information processing terminal 10 collects sensor information related to the state of the utterance UO2 and the user U2, and the information processing server 20 to send.
- the information processing server 20 calculates a recognition difficulty score based on the received information and stored user UO2 information, and generates the target text T2 by voice recognition. Further, the information processing server 20 may search for a schedule based on the generated target text T2 and synthesize an artificial voice for causing the information processing terminal 10 to perform the system utterance SO1.
- the information processing server 20 transmits the calculated recognition difficulty score and the synthesized artificial speech to the information processing terminal 10.
- the information processing terminal 10 sets a display unit, a display interval, and a display effect of the target text T2 based on the received recognition difficulty score, and performs display control of the target text T2 by the projection function.
- the information processing terminal 10 is relatively large at a position that is easy for the user U2 to recognize based on the recognition difficulty score calculated based on the position, line of sight, age, and the like of the user U2.
- the target text T2 is displayed with characters. Further, the information processing terminal 10 outputs the system utterance SO1 using the received artificial voice.
- the information processing terminal 10 when the user U3 performs the utterance UO3 instructing the registration of the schedule, similarly collects the sensor information regarding the utterance UO3 and the state of the user U3. To the information processing server 20.
- the information processing terminal 10 executes display control related to the target text T3 based on the generated target text and the calculated recognition difficulty score.
- the information processing terminal 10 uses a normal character at a position that is easy for the user U3 to recognize based on the recognition difficulty score calculated based on the position, line of sight, age, and the like of the user U3.
- the target text T2 is displayed with a size of.
- the information processing terminal 10 can further improve the input / output accuracy according to the user's position by providing a directional microphone array and a directional antenna for realizing a beam forming function. .
- the calculation unit 230 according to the present embodiment may calculate a recognition difficulty score based on context data regarding a plurality of users. More specifically, the calculation unit 230 according to the present embodiment can calculate a recognition difficulty score for each user. According to said function which the calculation part 230 which concerns on this embodiment has, more flexible display control according to the context for every user is realizable.
- the technical idea according to the present embodiment can be applied to subtitle control that is output together with a moving image such as a movie.
- 19A to 19C are diagrams illustrating an example in which the technical idea according to the present embodiment is applied to caption control.
- 19A to 19C show a moving image M1 reproduced by a display device or the like, and a user U2 who is an elderly person and a user U3 who is a young person.
- users U2 and U3 wear information processing terminals 10a and 10b, which are eyeglass-type wearable devices, respectively.
- the information processing terminals 10a and 10b have a function of controlling display of subtitles related to the moving image M1 by AR (Augmented Reality).
- the information processing terminals 10a and 10b may have a function of superimposing and displaying a caption prepared in advance in synchronization with the moving image M1, or detecting an audio output corresponding to the script L1 or L2 in the moving image M1, You may have the function to superimpose and display the target text recognized from the said audio
- the information processing terminal 10a worn by the user U2 transmits the sensor information related to the user U2 to the information processing server 20 and receives the calculated recognition difficulty score, thereby displaying a caption suitable for the user U1.
- Control can be performed.
- the information processing terminal 10 a may display a caption (target text T ⁇ b> 4) with a character size that is easily recognized by the user U ⁇ b> 2 who is an elderly person.
- the information processing terminal 10b worn by the user U3 transmits the sensor information related to the user U3 to the information processing server 20 and receives the calculated recognition difficulty score, thereby displaying subtitles suitable for the user U3. Take control.
- the information processing terminal 10 may display a caption (target text T5) using simple expressions so that the user U3 who is a young person can easily recognize the information.
- the technical idea according to the present embodiment can be applied in various ways.
- the technical idea according to the present embodiment can be applied to apparatuses and applications having a voice text input function, a translation function, a minutes generation function, an OCR (Optical Character Recognition) character recognition function, a voice control function, and the like.
- FIG. 20 is a block diagram illustrating a hardware configuration example of the information processing terminal 10 and the information processing server 20 according to an embodiment of the present disclosure.
- the information processing terminal 10 and the information processing server 20 include, for example, a CPU 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, an external bus 876, an interface 877, and an input device 878. , Output device 879, storage 880, drive 881, connection port 882, and communication device 883.
- the hardware configuration shown here is an example, and some of the components may be omitted. Moreover, you may further include components other than the component shown here.
- the CPU 871 functions as, for example, an arithmetic processing unit or a control unit, and controls the overall operation or a part of each component based on various programs recorded in the ROM 872, RAM 873, storage 880, or removable recording medium 901.
- the ROM 872 is a means for storing programs read by the CPU 871, data used for calculations, and the like.
- the RAM 873 for example, a program read by the CPU 871, various parameters that change as appropriate when the program is executed, and the like are temporarily or permanently stored.
- the CPU 871, the ROM 872, and the RAM 873 are connected to each other via, for example, a host bus 874 capable of high-speed data transmission.
- the host bus 874 is connected to an external bus 876 having a relatively low data transmission speed via a bridge 875, for example.
- the external bus 876 is connected to various components via an interface 877.
- the input device 878 for example, a mouse, a keyboard, a touch panel, a button, a switch, a lever, or the like is used. Furthermore, as the input device 878, a remote controller (hereinafter referred to as a remote controller) capable of transmitting a control signal using infrared rays or other radio waves may be used.
- the input device 878 includes a voice input device such as a microphone.
- the output device 879 is a display device such as a CRT (Cathode Ray Tube), LCD, or organic EL, an audio output device such as a speaker or a headphone, a printer, a mobile phone, or a facsimile. It is a device that can be notified visually or audibly.
- the output device 879 according to the present disclosure includes various vibration devices that can output a tactile stimulus.
- the storage 880 is a device for storing various data.
- a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like is used.
- the drive 881 is a device that reads information recorded on a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information to the removable recording medium 901.
- a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
- the removable recording medium 901 is, for example, a DVD medium, a Blu-ray (registered trademark) medium, an HD DVD medium, or various semiconductor storage media.
- the removable recording medium 901 may be, for example, an IC card on which a non-contact IC chip is mounted, an electronic device, or the like.
- connection port 882 is a port for connecting an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
- an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
- the external connection device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, or an IC recorder.
- the communication device 883 is a communication device for connecting to a network.
- the information processing server 20 has a function of calculating a recognition difficulty score used for display control of a target text based on input context data. According to such a configuration, it is possible to realize a highly readable text display that can flexibly correspond to the situation.
- each step according to the information processing method of the present specification does not necessarily have to be processed in time series in the order described in the flowchart.
- the steps related to the information processing method may be processed in an order different from the order described in the flowchart, or may be processed in parallel.
- a calculation unit that calculates a recognition difficulty score used for display control of the target text based on the input context data; Comprising Information processing device.
- a communication unit for transmitting display control information used for display control of the target text; Further comprising The information processing apparatus according to (1).
- the communication unit transmits the recognition difficulty score;
- the calculation unit determines at least one of a display unit or a display interval related to the target text based on the recognition difficulty score, The communication unit transmits information on at least one of the display unit or the display interval.
- the calculation unit determines a display effect related to the target text based on the recognition difficulty score, The communication unit transmits information on the display effect; The information processing apparatus according to any one of (2) to (4). (6) The communication unit transmits a display control signal for the target text based on the recognition difficulty score. The information processing apparatus according to any one of (2) to (5). (7) The communication unit transmits the target text. The information processing apparatus according to any one of (2) to (6).
- the context data includes at least information related to a user state; The calculation unit calculates the recognition difficulty score based on at least information on the state of the user; The information processing apparatus according to any one of (1) to (7).
- the context data includes at least information related to the application context; The calculation unit calculates the recognition difficulty score based on at least information related to the application context.
- the information processing apparatus according to any one of (1) to (8).
- the context data includes at least information about a user context; The calculation unit calculates the recognition difficulty score based on at least information related to the user context.
- the information processing apparatus according to any one of (1) to (9).
- the context data includes at least information on user properties; The calculation unit calculates the recognition difficulty score based on at least information on the user property; The information processing apparatus according to any one of (1) to (10).
- the context data includes information on at least a character context; The calculation unit calculates the recognition difficulty score based on at least information on the character context; The information processing apparatus according to any one of (1) to (11).
- the context data includes at least information on characteristics of a vocabulary included in the target text, The calculating unit calculates the recognition difficulty score based on at least information on characteristics of the vocabulary; The information processing apparatus according to (12).
- the calculation unit recalculates the recognition difficulty score based on the context data input during display of the target text.
- the information processing apparatus according to any one of (1) to (13).
- the calculation unit calculates the recognition difficulty score based on context data relating to a plurality of users.
- the calculation unit calculates the recognition difficulty score for each user.
- the information processing apparatus according to (15).
- the calculation unit generates a display control signal related to display of the target text based on the recognition difficulty score.
- the information processing apparatus according to any one of (1) to (16).
- the target text is generated based on collected speech,
- the processor calculates a recognition difficulty score used for display control of the target text based on the input context data; including, Information processing method.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】状況により柔軟に対応した可読性の高いテキスト表示を実現する。 【解決手段】本開示によれば、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する算出部、を備える、情報処理装置が提供される。また、プロセッサが、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出すること、を含む、情報処理方法が提供される。
Description
本開示は、情報処理装置および情報処理方法に関する。
近年、情報処理技術の発展に伴い、ユーザに文字情報を提示する種々の装置が広く普及している。また、上記の文字情報の視認性などを向上させるための技術が多く提案されている。例えば、特許文献1には、文字情報を所定単位の文字グループに区分けし、設定した間隔に基づいて当該文字グループの提示制御を行う技術が開示されている。
特許文献1に記載の技術では、文節や単語など、文字情報に係る構造的特徴に基づいて、上記の文字グループを設定している。しかし、ユーザによる文字情報の認識については、上記のような構造的特徴のほか、種々の要因が影響することが想定される。このため、特許文献1に記載の技術では、状況に応じた十分な提示制御が行われているとは言い難い。
そこで、本開示では、状況により柔軟に対応した可読性の高いテキスト表示を実現することが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。
本開示によれば、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する算出部、を備える、情報処理装置が提供される。
また、本開示によれば、プロセッサが、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出すること、を含む、情報処理方法が提供される。
以上説明したように本開示によれば、状況により柔軟に対応した可読性の高いテキスト表示を実現することが可能となる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.実施形態
1.1.概要
1.2.システム構成例
1.3.情報処理端末10の機能構成例
1.4.情報処理サーバ20の機能構成例
1.5.認識困難性スコアの算出
1.6.処理の流れ
1.7.応用例
2.ハードウェア構成例
3.まとめ
1.実施形態
1.1.概要
1.2.システム構成例
1.3.情報処理端末10の機能構成例
1.4.情報処理サーバ20の機能構成例
1.5.認識困難性スコアの算出
1.6.処理の流れ
1.7.応用例
2.ハードウェア構成例
3.まとめ
<1.実施形態>
<<1.1.概要>>
まず、本開示の一実施形態の概要について説明する。上述したように、近年では、テキスト情報をユーザに提示する種々の装置やアプリケーションが普及している。また、テキスト提示に係る表示単位や表示間隔を制御することで、ユーザによるテキスト認識の利便性を向上させる技術が多く提案されている。
<<1.1.概要>>
まず、本開示の一実施形態の概要について説明する。上述したように、近年では、テキスト情報をユーザに提示する種々の装置やアプリケーションが普及している。また、テキスト提示に係る表示単位や表示間隔を制御することで、ユーザによるテキスト認識の利便性を向上させる技術が多く提案されている。
例えば、文字量の多いテキストが一度に表示される場合、ユーザが当該テキストの内容を確認、理解するために時間や労力を要することが想定される。また、テキストの内容が複雑である場合や、ユーザが他の操作などを並行して行っている場合などには、テキストの読み返しなどが発生し、煩雑性が増大する懸念もある。
この際、テキストを複数の表示単位に分割し、適切な間隔で表示させることで、表示単位ごとの視認性や可読性を向上させることが可能となる。例えば、特許文献1には、テキストの構造的特徴に基づいて上記のような表示単位を設定することで、テキストの視認性、可読性を向上させる技術が開示されている。
しかし、表示単位がテキストの構造的特徴のみに基づいて設定される場合、状況によっては、認識の不足や煩雑さの増大を招くことも想定される。
図1および図2は、本開示の一実施形態の概要について説明するための図である。図1には、表示部134に表示されるテキスト情報T1と、ユーザU1およびU2とが示されている。図1に示す一例の場合、テキスト情報T1は、2つの表示単位に分割され、同一の表示間隔を以って、ユーザU1およびU2に提示されている。
このような場合、テキストT1に係る表示は、ユーザU1にとっては、表示単位に係る情報量が少なく、また表示間隔が遅すぎる一方、ユーザU2にとっては、表示単位に係る情報量が多すぎ、また表示間隔が早すぎる場合も想定される。このように、テキストの認識に係る適切な表示単位および表示間隔は、ユーザの特性や状況などに応じて都度変化することが考えられる。
このため、本開示の一実施形態に係る情報処理サーバ20は、ユーザやアプリケーションなどに係る種々のコンテキストに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出してよい。ここで、上記の認識困難性スコアとは、ユーザによる対象テキストの認識に係る困難性の度合いを示す指標である。また、本開示の一実施形態に係る情報処理端末10は、上記の認識困難性スコアに基づいて対象テキストの表示制御を行うことができる。
図2には、本実施形態に係る認識困難性スコアに基づいて表示制御される対象テキストの表示例が示されている。例えば、認識困難性スコアが、ユーザU1が対象テキストを認識しやすい状況にあることを示す場合、本実施形態に係る情報処理端末10は、図2の上段に示すように、比較的情報量の多い表示単位や早い表示間隔を設定し、対象テキストであるテキストT1の表示を制御してよい。情報処理端末10による上記の制御によれば、ユーザU1の状況に応じた表示単位および表示間隔を以ってテキストT1を表示させることができ、テキスト表示が遅いなどの、ユーザU1の不満を解消することが可能となる。
また、例えば、認識困難性スコアが、ユーザU2が対象テキストを認識しづらい状況にあることを示す場合、本実施形態に係る情報処理端末10は、図2の下段に示すように、比較的情報量の少ない表示単位や遅い表示間隔を設定し、テキストT1の表示を制御してよい。情報処理端末10による上記の制御によれば、ユーザU2の状況に応じた表示単位および表示間隔を以ってテキストT1を表示させることができ、テキスト表示が早すぎて理解できない、などのユーザU2の不満を解消することが可能となる。
なお、図2では、情報処理サーバ20がユーザU1およびU2に係る認識困難性スコアを算出し、情報処理端末10が上記の認識困難性スコアに基づいて、ユーザごとに対象テキストの表示制御を行う場合を例に説明した。しかし、本実施形態に係る認識困難視スコアの算出、および対象テキストの表示制御は、係る例に限定されない。
例えば、同一のユーザであっても、種々の要因により認識困難性スコアは動的に変化することが想定される。このため、本実施形態に係る情報処理サーバ20は、同一のユーザに係る認識困難性スコアを都度算出し、情報処理端末10は、上記の認識困難スコアに基づいて、同一ユーザに対する対象テキストの表示を都度制御してよい。本実施形態に形態に係る情報処理サーバ20および情報処理端末10によれば、種々の要因(コンテキスト)に基づいて、表示単位、表示間隔、また表示効果を適切に制御することができ、より視認性や可読性の高い情報をユーザに提示することが可能となる。
<<1.2.システム構成例>>
次に、本実施形態に係るシステム構成例について説明する。図3は、本実施形態に係るシステム構成の一例を示す図である。図3に示すように、本実施形態に係る情報処理システムは、情報処理端末10および情報処理サーバ20を備える。また、情報処理端末10および情報処理サーバ20は、ネットワーク30を介して互いに通信が行えるように接続される。
次に、本実施形態に係るシステム構成例について説明する。図3は、本実施形態に係るシステム構成の一例を示す図である。図3に示すように、本実施形態に係る情報処理システムは、情報処理端末10および情報処理サーバ20を備える。また、情報処理端末10および情報処理サーバ20は、ネットワーク30を介して互いに通信が行えるように接続される。
(情報処理端末10)
本実施形態に係る情報処理端末10は、情報処理サーバ20から受信した表示制御情報に基づいて、テキスト情報をユーザに提示する情報処理装置である。また、本実施形態に係る情報処理端末10は、種々のセンサ情報やアプリケーション情報を収集し、情報処理サーバ20に送信する機能を有する。本実施形態に係る情報処理端末10は、例えば、スマートフォン、タブレット、PC(Personal Computer)、携帯電話、ウェアラブル装置、ゲーム機器、種々のエージェント装置などであってよい。本実施形態に係る情報処理端末10は、例えば、収集したユーザの音声情報を情報処理サーバ20に送信し、認識されたテキストをユーザに提示する機能を有してもよい。
本実施形態に係る情報処理端末10は、情報処理サーバ20から受信した表示制御情報に基づいて、テキスト情報をユーザに提示する情報処理装置である。また、本実施形態に係る情報処理端末10は、種々のセンサ情報やアプリケーション情報を収集し、情報処理サーバ20に送信する機能を有する。本実施形態に係る情報処理端末10は、例えば、スマートフォン、タブレット、PC(Personal Computer)、携帯電話、ウェアラブル装置、ゲーム機器、種々のエージェント装置などであってよい。本実施形態に係る情報処理端末10は、例えば、収集したユーザの音声情報を情報処理サーバ20に送信し、認識されたテキストをユーザに提示する機能を有してもよい。
(情報処理サーバ20)
本実施形態に係る情報処理サーバ20は、コンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する情報処理装置である。ここで、上記のコンテキストデータとは、対象テキストの表示に係る種々の状況、状態、要因を示すデータであってよい。本実施形態に係るコンテキストデータの詳細については、別途後述する。また、本実施形態に係る情報処理サーバ20は、対象テキストの表示制御に用いられる表示制御情報を、情報処理端末10に送信する。
本実施形態に係る情報処理サーバ20は、コンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する情報処理装置である。ここで、上記のコンテキストデータとは、対象テキストの表示に係る種々の状況、状態、要因を示すデータであってよい。本実施形態に係るコンテキストデータの詳細については、別途後述する。また、本実施形態に係る情報処理サーバ20は、対象テキストの表示制御に用いられる表示制御情報を、情報処理端末10に送信する。
ここで、情報処理端末10および情報処理サーバ20の間で送受信されるデータの概要について説明する。図4は、本実施形態に係るデータの入出力について説明するための概念図である。本実施形態に係る情報処理端末10は、まず、収集したセンサ情報やアプリケーション情報を情報処理サーバ20に送信する。
次に、情報処理サーバ20は、上記のセンサ情報やアプリケーション情報に基づいて、対象テキストT1の表示制御に用いられる認識困難性スコアを算出する。すなわち、本実施形態に係るコンテキストデータには、情報処理端末10から送信されるセンサ情報、アプリケーション情報、およびこれらに基づいて推定された各種のデータが含まれてよい。また、対象テキストT1は、情報処理端末10から送信された音声情報に基づいて、情報処理サーバ20が生成するテキストであってもよい。
続いて、情報処理サーバ20は、対象テキストT1の表示制御に用いられる表示制御情報を情報処理端末10に送信する。この際、情報処理サーバ20が送信する表示制御情報のパターンは、送信先である情報処理端末10が有する機能に応じて適宜決定され得る。
例えば、情報処理端末10が、認識困難性スコアに基づいて、対象テキストT1の表示に係る表示単位、表示間隔、または表示効果などを設定する機能を有する場合、本実施形態に係る情報処理サーバ20は、認識困難性スコアを表示制御情報として情報処理端末10に送信してよい。
また、例えば、情報処理端末10が、入力された表示単位、表示間隔、表示効果などに基づいて、対象テキストT1の表示制御を行う機能を有する場合、本実施形態に係る情報処理サーバ20は、認識困難性スコアに基づいて決定した表示単位、表示間隔、表示効果などを、表示制御情報として情報処理端末10に送信してよい。
また、例えば、情報処理端末10が入力された表示制御信号に基づいて、対象テキストT1を表示する表示機能のみを有する場合、本実施形態に係る情報処理サーバ20は、決定した表示単位、表示間隔、表示効果などに基づいて対象テキストT1を表示させるための表示制御信号を表示制御情報として情報処理端末10に送信してよい。また、情報処理サーバ20は、表示制御情報と共に対象テキストT1を情報処理端末10に送信してもよい。
(ネットワーク30)
ネットワーク30は、情報処理端末10と情報処理サーバ20とを接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
ネットワーク30は、情報処理端末10と情報処理サーバ20とを接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図2を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、図4を用いて説明したように、対象テキストの表示制御に係る機能は、仕様や運用に応じて、適宜設計され得る。また、例えば、本実施形態に係る情報処理端末10と情報処理サーバ20とは、同一の装置として実現することも可能である。あるいは、本実施形態に係る情報処理端末10や情報処理サーバ20が有する機能は、複数の装置に分散して実現されてもよい。本実施形態に係る情報処理システムの構成は、柔軟に変形され得る。
<<1.3.情報処理端末10の機能構成例>>
次に、本実施形態に係る情報処理端末10の機能構成例について説明する。図5は、本実施形態に係る情報処理端末10の機能ブロック図の一例である。図5に示すように、本実施形態に係る情報処理端末10は、入力部110、制御部120、出力部130、およびサーバ通信部140を備える。
次に、本実施形態に係る情報処理端末10の機能構成例について説明する。図5は、本実施形態に係る情報処理端末10の機能ブロック図の一例である。図5に示すように、本実施形態に係る情報処理端末10は、入力部110、制御部120、出力部130、およびサーバ通信部140を備える。
(入力部110)
本実施形態に係る入力部110は、音声入力部112、操作入力部114、撮像部116、センサ部118を備える。
本実施形態に係る入力部110は、音声入力部112、操作入力部114、撮像部116、センサ部118を備える。
((音声入力部112))
本実施形態に係る音声入力部112は、ユーザの発話を検出する機能を有する。また、音声入力部112は、上記の発話のほか、種々の音情報を検出してよい。このために、本実施形態に係る音声入力部112は、マイクロフォンなどの音声検出デバイスを含んで構成される。なお、特に併記しない場合、本実施形態に係るセンサ情報には、音声入力部112が収集した各種の音情報が含まれる。
本実施形態に係る音声入力部112は、ユーザの発話を検出する機能を有する。また、音声入力部112は、上記の発話のほか、種々の音情報を検出してよい。このために、本実施形態に係る音声入力部112は、マイクロフォンなどの音声検出デバイスを含んで構成される。なお、特に併記しない場合、本実施形態に係るセンサ情報には、音声入力部112が収集した各種の音情報が含まれる。
((操作入力部114))
本実施形態に係る操作入力部114は、ユーザによる種々の入力操作を検出する機能を有する。操作入力部114は、例えば、ユーザによるテキスト操作やアプリケーションの操作などを検出することができる。このために、本実施形態に係る操作入力部114は、マウス、キーボード、コントローラ、タッチパネル、各種のボタンなどを含んで構成される。
本実施形態に係る操作入力部114は、ユーザによる種々の入力操作を検出する機能を有する。操作入力部114は、例えば、ユーザによるテキスト操作やアプリケーションの操作などを検出することができる。このために、本実施形態に係る操作入力部114は、マウス、キーボード、コントローラ、タッチパネル、各種のボタンなどを含んで構成される。
((撮像部116))
本実施形態に係る撮像部116は、ユーザや周囲の画像を撮像する機能を有する。このために、本実施形態に係る撮像部116は、撮像センサやレンズなどを含んで構成される。なお、特に併記しない場合、本実施形態に係るセンサ情報には、撮像部116が収集した画像情報が含まれる。
本実施形態に係る撮像部116は、ユーザや周囲の画像を撮像する機能を有する。このために、本実施形態に係る撮像部116は、撮像センサやレンズなどを含んで構成される。なお、特に併記しない場合、本実施形態に係るセンサ情報には、撮像部116が収集した画像情報が含まれる。
((センサ部118))
本実施形態に係るセンサ部118は、ユーザに係る種々の情報を収集する機能を有する。センサ部118は、例えば、温度センサ、湿度センサ、光センサ、加速度センサ、ジャイロセンサ、地磁気センサ、生体センサなどを含んで構成される。なお、上記の生体センサには、例えば、脈拍センサ、筋電センサ、脳波センサなどが挙げられる。
本実施形態に係るセンサ部118は、ユーザに係る種々の情報を収集する機能を有する。センサ部118は、例えば、温度センサ、湿度センサ、光センサ、加速度センサ、ジャイロセンサ、地磁気センサ、生体センサなどを含んで構成される。なお、上記の生体センサには、例えば、脈拍センサ、筋電センサ、脳波センサなどが挙げられる。
(制御部120)
本実施形態に係る制御部120は、各種のアプリケーションを制御する機能を有する。また、本実施形態に係る制御部120は、情報処理サーバ20から受信した表示制御情報に基づいて、対象テキストに係る表示制御を行う機能を有する。制御部120は、例えば、受信した認識困難性スコアに基づいて、表示単位、表示間隔、表示効果などを決定し、対象テキストの表示を制御してもよい。また、制御部120は、受信した表示単位、表示間隔、表示効果などに基づいて、対象テキストの表示を制御してもよい。また、制御部120は、受信した表示制御信号を表示部134に引き渡してもよい。
本実施形態に係る制御部120は、各種のアプリケーションを制御する機能を有する。また、本実施形態に係る制御部120は、情報処理サーバ20から受信した表示制御情報に基づいて、対象テキストに係る表示制御を行う機能を有する。制御部120は、例えば、受信した認識困難性スコアに基づいて、表示単位、表示間隔、表示効果などを決定し、対象テキストの表示を制御してもよい。また、制御部120は、受信した表示単位、表示間隔、表示効果などに基づいて、対象テキストの表示を制御してもよい。また、制御部120は、受信した表示制御信号を表示部134に引き渡してもよい。
(出力部130)
本実施形態に係る出力部130は、音声出力部132および表示部134を備える。
本実施形態に係る出力部130は、音声出力部132および表示部134を備える。
((音声出力部132))
本実施形態に係る音声出力部132は、ユーザに音情報を提示する機能を有する。音声出力部132は、例えば、制御部120による制御に基づいて、アプリケーションに応じた音響を出力する。また、音声出力部132は、情報処理サーバ20が合成した合成音声を出力してもよい。このために、本実施形態に係る音声出力部132は、アンプやスピーカなどを含んで構成される。
本実施形態に係る音声出力部132は、ユーザに音情報を提示する機能を有する。音声出力部132は、例えば、制御部120による制御に基づいて、アプリケーションに応じた音響を出力する。また、音声出力部132は、情報処理サーバ20が合成した合成音声を出力してもよい。このために、本実施形態に係る音声出力部132は、アンプやスピーカなどを含んで構成される。
((表示部134))
本実施形態に係る表示部134は、制御部120による制御や情報処理サーバ20から受信した表示制御信号に基づいて、ユーザに視覚情報を提示する機能を有する。このために、本実施形態に係る表示部134は、視覚情報を提示する表示デバイスを含んで構成される。上記の表示デバイスには、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、タッチパネルなどが挙げられる。
本実施形態に係る表示部134は、制御部120による制御や情報処理サーバ20から受信した表示制御信号に基づいて、ユーザに視覚情報を提示する機能を有する。このために、本実施形態に係る表示部134は、視覚情報を提示する表示デバイスを含んで構成される。上記の表示デバイスには、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、タッチパネルなどが挙げられる。
(サーバ通信部140)
本実施形態に係るサーバ通信部140は、ネットワーク30を介して、情報処理サーバ20との情報処理通信を行う機能を有する。具体的には、サーバ通信部140は、入力部110が収集したセンサ情報や、制御部120が取得したアプリケーション情報などを情報処理サーバ20に送信する。また、サーバ通信部140は、表示制御情報を情報処理サーバ20から受信する。上述したように、本実施形態に係る表示制御情報には、認識困難性スコアや、認識困難性スコアに基づいて決定される表示単位、表示間隔、表示効果に係る情報、また対象テキストに係る表示制御信号そのものが含まれてよい。また、サーバ通信部140は、情報処理サーバ20から対象テキストを受信してもよい。
本実施形態に係るサーバ通信部140は、ネットワーク30を介して、情報処理サーバ20との情報処理通信を行う機能を有する。具体的には、サーバ通信部140は、入力部110が収集したセンサ情報や、制御部120が取得したアプリケーション情報などを情報処理サーバ20に送信する。また、サーバ通信部140は、表示制御情報を情報処理サーバ20から受信する。上述したように、本実施形態に係る表示制御情報には、認識困難性スコアや、認識困難性スコアに基づいて決定される表示単位、表示間隔、表示効果に係る情報、また対象テキストに係る表示制御信号そのものが含まれてよい。また、サーバ通信部140は、情報処理サーバ20から対象テキストを受信してもよい。
以上、本実施形態に係る情報処理端末10の機能構成例について説明した。なお、図5を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末10の機能構成は係る例に限定されない。本実施形態に係る情報処理端末10は、上記に示した以外の構成をさらに備えてもよい。情報処理端末10は、例えば、各種の情報を格納する記憶部などを備えてもよいし、情報処理サーバ20と同等の音声認識機能などを有してもよい。また、一方で、上記で説明した情報処理端末10が有する各機能は、複数の装置に分散して実現することも可能である。例えば、入力部110、制御部120、および出力部130は、それぞれ別途の装置の機能として実現されてもよい。本実施形態に係る情報処理端末10の機能構成は、柔軟に変形され得る。
<<1.4.情報処理サーバ20の機能構成例>>
次に、本実施形態に係る情報処理サーバ20の機能構成例について説明する。図6は、本実施形態に係る情報処理サーバ20の機能ブロック図の一例である。図6に示すように、本実施形態に係る情報処理サーバ20は、音響解析部210、状態解析部220、算出部230、用語DB240、記憶部250、音声合成部260、および端末通信部270を備える。
次に、本実施形態に係る情報処理サーバ20の機能構成例について説明する。図6は、本実施形態に係る情報処理サーバ20の機能ブロック図の一例である。図6に示すように、本実施形態に係る情報処理サーバ20は、音響解析部210、状態解析部220、算出部230、用語DB240、記憶部250、音声合成部260、および端末通信部270を備える。
(音響解析部210)
本実施形態に係る音響解析部210は、情報処理端末10が収集した音情報に基づく、種々の処理や解析を行う機能を有する。例えば、本実施形態に係る音響解析部210は、収集されたユーザの発話に基づく信号処理、音声認識、言語判別、自然言語処理などを行い、対象テキストを生成してもよい。また、本実施形態に係る音響解析部210は、ユーザの発話に基づく解析を行い、ユーザの感情などを推定してもよい。また、音響解析部210は、収集された音情報に基づいて周囲の騒音レベルなどを測定することも可能である。なお、本実施形態に係る音響解析部210により処理または解析された情報は、後述する算出部230による認識困難性スコアの算出に用いられ得る。
本実施形態に係る音響解析部210は、情報処理端末10が収集した音情報に基づく、種々の処理や解析を行う機能を有する。例えば、本実施形態に係る音響解析部210は、収集されたユーザの発話に基づく信号処理、音声認識、言語判別、自然言語処理などを行い、対象テキストを生成してもよい。また、本実施形態に係る音響解析部210は、ユーザの発話に基づく解析を行い、ユーザの感情などを推定してもよい。また、音響解析部210は、収集された音情報に基づいて周囲の騒音レベルなどを測定することも可能である。なお、本実施形態に係る音響解析部210により処理または解析された情報は、後述する算出部230による認識困難性スコアの算出に用いられ得る。
(状態解析部220)
本実施形態に係る状態解析部220は、情報処理端末10が収集した画像情報やセンサ情報などに基づいて、ユーザの状態に係る種々の解析を行う機能を有する。例えば、本実施形態に係る状態解析部220は、収集された画像情報やセンサ情報に基づいてユーザの視線、まばたき、瞳孔や眼球の状態、口の開き具合、表情、ジェスチャを含む動作などを認識してもよい。また、本実施形態に係る状態解析部220は、収集されたセンサ情報に基づいて、心拍や呼吸、発汗、緊張状態や興奮状態などを解析してもよい。本実施形態に係る状態解析部220により解析された情報は、算出部230による認識困難性スコアの算出に用いられ得る。
本実施形態に係る状態解析部220は、情報処理端末10が収集した画像情報やセンサ情報などに基づいて、ユーザの状態に係る種々の解析を行う機能を有する。例えば、本実施形態に係る状態解析部220は、収集された画像情報やセンサ情報に基づいてユーザの視線、まばたき、瞳孔や眼球の状態、口の開き具合、表情、ジェスチャを含む動作などを認識してもよい。また、本実施形態に係る状態解析部220は、収集されたセンサ情報に基づいて、心拍や呼吸、発汗、緊張状態や興奮状態などを解析してもよい。本実施形態に係る状態解析部220により解析された情報は、算出部230による認識困難性スコアの算出に用いられ得る。
(算出部230)
本実施形態に係る算出部230は、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する機能を有する。上述したように、本実施形態に係るコンテキストデータには、情報処理端末10により収集されたセンサ情報やアプリケーション情報、音響解析部210や状態解析部220により解析された種々の情報が含まれる。また、本実施形態に係るコンテキストデータには、記憶部250に記憶されるユーザの情報や、対象テキストに含まれる語彙の特性、対象テキストの構造的特徴なども含まれる。本実施形態に係る算出部230が有する機能の詳細については、別途説明する。
本実施形態に係る算出部230は、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する機能を有する。上述したように、本実施形態に係るコンテキストデータには、情報処理端末10により収集されたセンサ情報やアプリケーション情報、音響解析部210や状態解析部220により解析された種々の情報が含まれる。また、本実施形態に係るコンテキストデータには、記憶部250に記憶されるユーザの情報や、対象テキストに含まれる語彙の特性、対象テキストの構造的特徴なども含まれる。本実施形態に係る算出部230が有する機能の詳細については、別途説明する。
(用語DB240)
本実施形態に係る用語DB240は、種々の用語に関するデータを記憶するデータベースである。本実施形態に係るDB240は、例えば、新語、略語、固有名詞、専門用語、トレンド用語などに関するデータを記憶する。本実施形態に係る用語DB240が記憶する上記の情報は、算出部230による認識困難性スコアの算出において、対象テキストに含まれる語彙の特性を抽出するために用いられる。
本実施形態に係る用語DB240は、種々の用語に関するデータを記憶するデータベースである。本実施形態に係るDB240は、例えば、新語、略語、固有名詞、専門用語、トレンド用語などに関するデータを記憶する。本実施形態に係る用語DB240が記憶する上記の情報は、算出部230による認識困難性スコアの算出において、対象テキストに含まれる語彙の特性を抽出するために用いられる。
(記憶部250)
本実施形態に係る記憶部250は、情報処理サーバ20が備える各構成による処理結果などを記憶する機能を有する。本実施形態に係る記憶部250は、特に、算出部230が算出した認識困難性スコアに対応するコンテキスト管理テーブルを記憶してよい。また、記憶部250は、ユーザの画像情報などを記憶してもよい。当該画像状況は、状態解析部220によるユーザの認識などに用いられる。
本実施形態に係る記憶部250は、情報処理サーバ20が備える各構成による処理結果などを記憶する機能を有する。本実施形態に係る記憶部250は、特に、算出部230が算出した認識困難性スコアに対応するコンテキスト管理テーブルを記憶してよい。また、記憶部250は、ユーザの画像情報などを記憶してもよい。当該画像状況は、状態解析部220によるユーザの認識などに用いられる。
(音声合成部260)
音声合成部260は、対象テキストや通知内容に基づく人工音声を生成する機能を有する。音声合成部260が生成する人工音声は、端末通信部270およびネットワーク30を介して情報処理端末10に送信され、音声出力部132により音声出力される。
音声合成部260は、対象テキストや通知内容に基づく人工音声を生成する機能を有する。音声合成部260が生成する人工音声は、端末通信部270およびネットワーク30を介して情報処理端末10に送信され、音声出力部132により音声出力される。
(端末通信部270)
本実施形態に係る端末通信部270は、ネットワーク30を介して、情報処理端末10との情報通信を行う機能を有する。具体的には、端末通信部270は、情報処理端末10からセンサ情報やアプリケーション情報を受信する。また、端末通信部270は、対象テキストの表示制御に用いられる表示制御情報を送信する機能を有する。上述したように、本実施形態に係る表示制御情報には、認識困難性スコアや、認識困難性スコアに基づいて決定される表示単位、表示間隔、表示効果に係る情報、また対象テキストに係る表示制御信号そのものが含まれてよい。また、端末通信部270は、情報処理端末10に対象テキストを送信してもよい。
本実施形態に係る端末通信部270は、ネットワーク30を介して、情報処理端末10との情報通信を行う機能を有する。具体的には、端末通信部270は、情報処理端末10からセンサ情報やアプリケーション情報を受信する。また、端末通信部270は、対象テキストの表示制御に用いられる表示制御情報を送信する機能を有する。上述したように、本実施形態に係る表示制御情報には、認識困難性スコアや、認識困難性スコアに基づいて決定される表示単位、表示間隔、表示効果に係る情報、また対象テキストに係る表示制御信号そのものが含まれてよい。また、端末通信部270は、情報処理端末10に対象テキストを送信してもよい。
以上、本実施形態に係る情報処理サーバ20の機能構成例について説明した。なお、図6を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理サーバ20の機能構成は係る例に限定されない。本実施形態に係る情報処理サーバ20は、上記に示した以外の構成をさらに備えてもよい。情報処理サーバ20は、例えば、アプリケーションの制御を行う構成をさらに備えてもよい。あるいは、情報処理サーバ20が有する各機能は、複数の装置に分散して実現することも可能である。本実施形態に係る情報処理サーバ20の機能構成は、柔軟に変形され得る。
<<1.5.認識困難性スコアの算出>>
次に、本実施形態に係る算出部230による認識困難性スコアの算出について具体例を挙げながら説明する。図7は、本実施形態に係るアプリケーションのユーザインタフェースの一例を示す図である。ここで、上記のアプリケーションは、音声認識機能を有するメッセージアプリケーションやゲームアプリケーションなどであってよい。図7には、情報処理端末10の表示部134に表示されるアプリケーションのユーザインタフェースU1が示されている。
次に、本実施形態に係る算出部230による認識困難性スコアの算出について具体例を挙げながら説明する。図7は、本実施形態に係るアプリケーションのユーザインタフェースの一例を示す図である。ここで、上記のアプリケーションは、音声認識機能を有するメッセージアプリケーションやゲームアプリケーションなどであってよい。図7には、情報処理端末10の表示部134に表示されるアプリケーションのユーザインタフェースU1が示されている。
ユーザインタフェースU1は、ユーザの発話を認識することにより情報処理サーバ20が生成した対象テキスト表示するフィールドF1、および過去のメッセージ履歴を表示するフィールドF2を含む。また、図7に示す一例では、フィールドF1に、前回の発話に基づいて認識された既存テキストET、および音声認識の開始を制御するボタンb1が表示されている。
この際、図7に示すように、ユーザU1が発話UO1を行うと、情報処理端末10は、収集したユーザの発話UO1に係る音情報とその他のセンサ情報、およびアプリケーション情報を情報処理サーバ20に送信する。
次に、情報処理サーバ20は、受信したユーザの発話UO1に基づく音声認識を行い、対象テキストを生成すると共に、受信したセンサ情報に基づく解析を行う。続いて、情報処理サーバ20の算出部230は、コンテキストデータに基づく認識困難性スコアの算出を実行する。
図8は、本実施形態の算出部230に係る入出力データの関係について説明するための図である。図8に示すように、算出部230には、コンテキストデータが入力される。上述したように、本実施形態に係るコンテキストデータの実体は、情報処理端末10により収集されたセンサ情報、アプリケーション情報、ユーザ情報、およびこれらに基づいて解析された種々の情報を含む。
この際、本実施形態に係るユーザコンテキストは、ユーザ状態、ユーザコンテキスト、ユーザプロパティ、アプリケーションコンテキスト、および文字コンテキストに関する情報に大別される。
ここで、上記のユーザ状態とは、ユーザの動作状態および精神状態を含んでよい。すなわち、本実施形態に係る算出部230は、ユーザの動作状態や精神状態に関するコンテキストデータに基づいて、認識困難性スコアを算出することが可能である。また、本実施形態に係るユーザ状態は、比較的短期間で変化し得るユーザの特性ともいえる。本実施形態に係る算出部230が有する上記の機能によれば、短期間で変化し得るユーザの特性に応じた表示単位、表示間隔、表示効果を以って、対象テキストの表示を制御することが可能となる。
また、上記のユーザコンテキストとは、ユーザの傾向や経験などを含んでよい。すなわち、本実施形態に係る算出部230は、ユーザの傾向や経験などに関するコンテキストデータに基づいて、認識困難性スコアを算出することが可能である。また、本実施形態に係るユーザコンテキストは、中長期間で変化し得るユーザの特性ともいえる。本実施形態に係る算出部230が有する上記の機能によれば、中長期間で変化し得るユーザの特性に応じた表示単位、表示間隔、表示効果を以って、対象テキストの表示を制御することが可能となる。
また、上記のユーザのプロパティとは、ユーザの属性やタイプなどを含んでよい。すなわち、本実施形態に係る算出部230は、ユーザの属性やタイプなどに関するコンテキストデータに基づいて、認識困難性スコアを算出することが可能である。また、本実施形態に係るユーザプロパティは、長期間変化し難いユーザの特性ともいえる。本実施形態に係る算出部230が有する上記の機能によれば、長期間変化し難いユーザの特性に応じた表示単位、表示間隔、表示効果を以って、対象テキストの表示を制御することが可能となる。
また、上記のアプリケーションコンテキストとは、対象テキストを表示するアプリケーションや他のアプリケーションの状態を含んでよい。すなわち、本実施形態に係る算出部230は、種々のアプリケーションの状態に関するコンテキストデータに基づいて、対象テキストの表示を制御することが可能である。
また、上記の文字コンテキストとは、対象テキストに含まれる語彙の特性や対象テキストの構造的特徴を含んでよい。すなわち、本実施形態に係る算出部230は、対象テキストの特性に関するコンテキストデータに基づいて、当該対象テキストの表示を制御することが可能である。
以上、説明したように、本実施形態に係る算出部230は、種々の情報を含むコンテキストデータに基づいて認識困難性スコアを算出することが可能である。また、本実施形態に係る算出部230は、図8に示すように、算出した認識困難性スコアに基づいて、対象テキストに係る表示単位、表示間隔、表示効果などを決定してもよい。さらには、算出部230は、決定した表示単位、表示間隔、表示効果などに基づいて対象テキストT1を表示させるための表示制御信号を生成してもよい。すなわち、本実施形態に係る算出部230は、情報処理端末10の特性に応じた表示制御情報を生成し、端末通信部270に当該表示制御情報を送信させることができる。
続いて、本実施形態に係る算出部230による認識困難性スコアの算出について、より詳細に説明する。上述したように、本実施形態に係る算出部230は、種々の情報に関するコンテキストデータに基づいて、認識困難性スコアを算出することができる。この際、本実施形態に係る算出部230は、コンテキストデータに基づいて記憶部250に記憶されるコンテキスト管理テーブルを更新し、更新後のパラメータに基づいて、認識困難性スコアを算出してもよい。
図9は、本実施形態に係るユーザ状態に関するコンテキスト管理テーブルの一例を示す図である。図9に示す一例の場合、ユーザ状態に関するコンテキスト管理テーブルは、集中状態、緊張状態、操作状態、発話状態、および忙しさの状態に関する項目を含んでいる。
ここで、上記の集中状態には、例えば、表示されるテキストやテキストを表示するアプリケーションへの集中度合いなどの小項目がさらに細かく設定されてもよい。算出部230は、例えば、コンテキストデータに含まれるユーザの視線、瞳孔、眼球、口の開口状態などの情報に基づいて、集中状態に係るパラメータを更新することができる。算出部230が有する上記の機能によれば、例えば、ユーザがテキストやアプリケーションに集中している際には、表示単位の情報量を増やしたり、表示間隔を早めるなどの制御を行うことが可能となる。
また、上記の緊張状態には、例えば、まばたきの回数や、心拍数、脳波の乱れ具合、視線のふらつき度合い、または呼吸数などの小項目がさらに細かく設定されてもよい。算出部230は、状態解析部220が解析したコンテキストデータに基づいて、緊張状態に係るパラメータを更新することができる。算出部230が有する上記の機能によれば、例えば、ユーザが過度に緊張している際には、表示単位の情報量を減らしたり、表示間隔を長く設定するなどの制御を行うことが可能となる。
また、上記の操作状態には、例えば、所定時間の間にユーザがアプリケーションに対し入力した操作数などの小項目がさらに細かく設定されてもよい。算出部230は、情報処理端末10から送信されるアプリケーション情報に基づいて、操作状態に係るパラメータを更新することができる。算出部230が有する上記の機能によれば、例えば、ユーザがアプリケーションに対する操作を多く行っている際には、表示単位の情報量を減らしたり、表示間隔を長く設定するなどの制御を行うことが可能となる。上記の制御は、例えば、テキスト表示機能を持つゲームアプリケーションなどでユーザがゲーム操作を行いながらテキストの確認を行う場合に特に有効である。
また、上記の発話状態には、例えば、興奮度合いなどの感情強度や、全体の発話量などの小項目がさらに設定されてもよい。算出部230は、音響解析部210が解析したコンテキストデータに基づいて、発話状態に係るパラメータを更新することができる。算出部230が有する上記の機能によれば、例えば、ユーザが興奮している際には、表示間隔を早めることで、ユーザがゆっくりとした表示に対し不満を持つことを回避することが可能となる。
また、上記の忙しさの状態には、例えば、発話の入力スピード、発話のピッチ、体全体の動作度合い、ジェスチャの度合いなどの小項目がさらに設定されてもよい。算出部230は、音響解析部210や状態解析部220が解析したコンテキストデータに基づいて、忙しさの状態に係るパラメータを更新することができる。算出部230が有する上記の機能によれば、例えば、急いでいるユーザに対しては表示間隔を早めたり、運動を行っているユーザには、表示間隔を長く設定するなどの制御が可能となる。
図10は、本実施形態に係るユーザコンテキストおよびユーザプロパティに関するコンテキスト管理テーブルの一例を示す図である。図10に示す一例の場合、ユーザコンテキストに関するコンテキスト管理テーブルは、一日における音声入力やアプリケーションの利用時間、音声入力の習熟度などの項目を含んでいる。算出部230は、情報処理端末10から受信するアプリケーション情報に基づいて、上記のようなパラメータを更新することができる。算出部230が有する上記の機能によれば、例えば、一日における音声入力やアプリケーションの利用時間が長い場合には、ユーザの疲労を考慮して表示間隔を長く設定したり、習熟度の高いユーザに対しては、表示間隔を早めるなどの制御を行うことが可能となる。
また、図10に示す一例の場合、ユーザプロパティに関するコンテキスト管理テーブルは、年齢、性別、母国語などの項目を含んでいる。算出部230は、例えば、アプリケーション上でユーザにより入力された情報に基づいて、上記のような項目を都度追加してもよい。算出部230が有する上記の機能によれば、例えば、高齢者やアプリケーション言語と母国語が異なるユーザに対しては、表示間隔を長く設定するなどの制御が可能となる。
図11は、本実施形態に係るアプリケーションコンテキストに関するコンテキスト管理テーブルの一例を示す図である。図11に示す一例の場合、アプリケーションコンテキストに関するコンテキスト管理テーブルは、アプリケーションが出力する音情報の音量、アプリケーションの同時利用人数、テキスト修正の重要度、テキストフィールド以外の画面変化の度合い、アプリケーションにおける現在シーンの重要度、音声出力の併用有無、テキストの表示位置、テキストフィールドの属性(横幅、縦幅の大きさなど)、既存テキスト有無、テキスト送付相手の属性などの項目を含んでいる。算出部230は、情報処理端末10から受信するアプリケーション情報などに基づいて、上記のようなパラメータを更新することができる。
算出部230が有する上記の機能によれば、例えば、アプリケーションから出力される背景音楽や効果音が大きい場合や、同時利用人数が多い場合、アプリケーションにおける現シーンが重要なシーンを迎えている場合(例えば、ゲームアプリケーションにおける強敵との戦闘など)、動画など画面変化の大きい出力がなされている場合などには、ユーザがテキスト以外の事象に気を取られることを想定して、情報量の少ない表示単位や長めの表示間隔を設定するなどの制御が可能になる。
また、例えば、音声認識アプリケーションにおいて、認識されるテキストの精度が重要となる場合や、テキストの送付先相手が上長や顧客など重要な相手である場合には、ユーザがより慎重にテキストを確認することを想定し、情報量の少ない表示単位や長めの表示間隔を設定するなどの制御が可能になる。
また、本実施形態に係る算出部230によれば、例えば、テキストの表示位置や大きさ、配色などを考慮した表示単位、表示間隔、表示効果を設定することが可能となる。
図12は、本実施形態に係る文字コンテキストに関するコンテキスト管理テーブルの一例を示す図である。図12には、算出部230が対象テキストに含まれる単語単位でパラメータを更新する場合の一例が示されている。上記のパラメータの一例としては、文字数、用語タイプ、発話速度、発話ピッチ、感情(例えば、興奮状態など)が挙げられる。
算出部230が有する上記の機能によれば、例えば、文字数に応じた単語の組み合わせにより表示単位を設定する制御が可能となる。算出部230は、人間が一度に知覚しやすい文字数を上限として表示単位を設定してもよい。例えば、対象テキストが日本語で構成される場合、算出部230は、表示単位が13文字程度となるように単語を組み合わせることができる。また、算出部230は、全体の文字量が多い場合には、後半になるにつれて、表示間隔を短く設定してもよい。
また、本実施形態に係る算出部230によれば、例えば、対象テキストに含まれる用語タイプに応じた表示単位、表示間隔、表示効果を設定することが可能となる。上記の用語タイプには、例えば、新語、略語、固有名詞、専門用語、トレンド用語、外国語などが含まれる。算出部230は、例えば、対象テキストに新語やユーザに馴染みのない外国語表現(例えば、Bonjour、など)が含まれる場合には、情報量の少ない表示単位や長めの表示間隔を設定してもよい。一方、対象テキストに含まれる略語や固有名詞、専門用語、トレンド用語などをユーザが過去に使用(入力)している場合などには、算出部230は、当該用語はユーザにとって可読性が高いと判定し、表示単位や表示間隔を設定してもよい。
また、本実施形態に係る算出部230によれば、例えば、対象テキストに含まれる単語ごとの発話速度、発話ピッチ、感情などに基づいて、表示単位や表示間隔を設定することも可能である。算出部230は、音響解析部210が解析するコンテキストデータに基づいて上記の各パラメータを更新することができる。
以上、本実施形態に係る算出部230による認識困難性スコアの算出について、詳細に説明した。上述したように、本実施形態に係る算出部230は、種々の情報に関するコンテキストデータに基づいて、コンテキスト管理テーブルの各パラメータを更新することができる。また、本実施形態に係る算出部230は、更新したコンテキスト管理テーブルのパラメータを用いて、要素ごとや全体に係る認識困難性スコアを算出してよい。また、算出部230は、算出した認識困難性スコアを情報処理端末10との通信に適したフォーマットに加工してもよい。
図13は、本実施形態に係る認識困難性スコアのフォーマットの一例である。図13に示す一例の場合、算出部230は、算出した認識困難性スコアをJavascript(登録商標) Object Notation(JSON)形式に加工している。図13に示すように、当該フォーマットには、全体や要素ごとの認識困難性スコアの情報が含まれている。算出部230が図示のように認識困難性スコアを加工することにより、複数の情報処理端末10に共通のフォーマットを以って認識困難性スコアを送信することが可能となる。
また、上記のフォーマットデータを受信した情報処理端末10は、アプリケーションに応じて利用する認識困難性スコアを適宜採択してもよい。例えば、情報処理端末10は、フォーマットに含まれる全体スコアを用いて表示単位や表示間隔を設定してもよい。また、情報処理端末10は、例えば、フォーマットに含まれるユーザ状態のスコアのみを用いて表示単位や表示間隔を設定することも可能である。
また、情報処理サーバ20の端末通信部270は、上記のフォーマットに加工された認識困難性スコアと共に、算出部230が設定した表示単位や表示間隔などの情報を情報処理端末10に送信してもよい。この場合、情報処理端末10は、表示効果については、認識困難性スコアに基づいて設定するなど、受信した情報に応じた表示制御を行うことができる。なお、図13では、算出部230が認識困難性スコアをJSON形式に加工する場合の例を示したが、本実施形態に係る算出部230は、例えば、認識困難性スコアをXML(eXtensible Markup Language)やその他の汎用フォーマット、または独自フォーマットに加工してもよい。
続いて、上記のように本実施形態に係る認識困難性スコアに基づく表示単位、表示間隔、表示効果の設定について具体例を挙げて説明する。図14は、認識困難性スコアに基づいて設定される表示単位、表示間隔、表示効果の一例を示す図である。図14に示す一例の場合、算出部230や情報処理端末10の制御部120は、認識困難性スコアに基づいて、表示単位が15文字以内となるように表示単位を設定している。また、算出部230や情報処理端末10の制御部120は、認識困難性スコアに基づいて、表示間隔を0.2~0.5secの間で設定している。このように、本実施形態に係る情報処理サーバ20および情報処理端末10によれば、ユーザやアプリケーション、対象テキストのコンテキストに応じたより柔軟なテキスト表示を制御することが可能となる。
また、本実施形態に係る算出部230や制御部120は、認識困難性スコアに基づいて対象テキストに係る表示効果を設定してもよい。ここで、上記の表示効果には、文字の大きさ、色、装飾、フォント、表示位置などが含まれる。また、上記の表示効果には、対象テキストに含まれる単語の変換が含まれてもよい。図14に示す一例の場合、固有名詞であるSHINJUKUが大文字で変換されている。また、算出部230や制御部120は、例えば、ユーザが知識を有する専門用語などについては、略語に変換するなどして、表示する対象テキストの可読性を向上させることも可能である。さらには、対象テキストが日本語である場合、算出部230や制御部120は、漢字、カタカナ、ひらがなの量を調整することで、視認性や可読性を向上させることもできる。また、算出部230や制御部120は、表示単位に含まれる文字数に応じてフォントを設定することで、例えば、文字間の間隔を調整するなどの制御を行ってもよい。
なお、算出部230や制御部120により設定された表示単位、表示間隔、表示効果は、ユーザにより保存され、また再利用されてもよい。また、算出部230や制御部120は、ユーザにより入力されたフィードバックに基づいて、表示単位、表示間隔、表示効果を調整することも可能である。
<<1.6.処理の流れ>>
次に、本実施形態に係る情報処理サーバ20および情報処理端末10により実現される情報処理方法の流れについて詳細に説明する。図15は、本実施形態に係る情報処理方法の流れを示すフローチャートである。
次に、本実施形態に係る情報処理サーバ20および情報処理端末10により実現される情報処理方法の流れについて詳細に説明する。図15は、本実施形態に係る情報処理方法の流れを示すフローチャートである。
図15を参照すると、本実施形態に係る情報処理方法では、まず、ユーザコンテキストの取得(S1101)、およびユーザプロパティの取得(S1102)が実行される。
続いて、アプリケーションコンテキストの取得開始(S1103)、およびユーザ状態の取得開始が行われる(S1104)。アプリケーションコンテキストおよびユーザ状態は、比較的短期間において変化し得るコンテキストデータであることが想定されるため、本実施形態に係る情報処理方法では、上記2つのコンテキストデータを継続的に取得することで、より柔軟な対象テキストの表示制御を実現することができる。
続いて、ステップS1101~S1104において取得されたコンテキストデータに基づいて、コンテキスト管理テーブルが更新され、認識困難性スコアが算出される(S1105)。
続いて、ステップS1105において算出された認識困難性スコアに基づいて、対象テキストごとの表示制御が実行される(S1106)。
ここで、ステップS1106における対象テキストごとの表示制御の流れについて、より詳細に説明する。図16は、本実施形態に係る表示制御の流れを示すフローチャートである。なお、以下の説明においては、本実施形態に係る情報処理端末10および情報処理サーバ20が音声認識により取得される対象テキストに係る表示制御を行う場合を例に述べる。
図16を参照すると、本実施形態に係る情報処理方法では、まず、音声入力が開始される(S1201)。
次に、収集されたユーザの発話に基づいて、音声認識処理が実行され(S1202)、対象テキストの取得が行われる(S1203)。また、ステップS1203において取得された対象テキストに基づいて文字コンテキストが取得される(S1204)。
また、ステップS1202~S1204に係る処理と並行して、ユーザ状態の取得S1205)、アプリケーションコンテキストの取得(S1206)、およびコンテキスト管理テーブルの更新(S1207)が継続して実行される。
次に、算出部230による認識困難性スコアの算出が行われる(S1208)。
次に、ステップS1208において算出された認識困難性スコアに基づいて、対象テキストに係る表示単位、表示間隔、表示効果が設定される(S1209)。なお、上記の処理は、上述したように、算出部230または制御部120により実行される。
次に、ステップS1209において設定された表示効果に基づいて対象テキストの文字変換が実行される(S1210)。
次に、ステップS1208において設定された表示単位、表示間隔、表示効果に基づく対象テキストの表示制御が実行される(S1211)。
ステップS1211においては、設定された表示効果に基づく表示単位ごとの表示(S1212)、および表示間隔に応じた待機(S1213)、およびコンテキストデータのリアルタイム算出が、表示単位が存在する間、繰り返し実行される。
図17は、本実施形態に係るコンテキストデータのリアルタイム算出の流れを示すフローチャートである。図17を参照すると、本実施形態に係るコンテキストデータのリアルタイム算出では、ユーザ状態の取得(S1301)、アプリケーションコンテキストの取得S1302)、コンテキスト管理テーブルの更新(S1303)、認識困難性スコアの算出(S1304)、および表示単位、表示間隔、表示効果の設定が繰り返し実行されることがわかる。すなわち、本実施形態に係る算出部230は、対象テキストの表示中に入力されるコンテキストデータに基づいて、認識困難性スコアを再算出することが可能である。本実施形態に係る算出部230が有する上記の機能によれば、対象テキストの表示中におけるコンテキストの変化に柔軟に対応した表示制御を実現することが可能となる。
<<1.7.応用例>>
次に、本実施形態に係る表示制御の応用例について述べる。上記では、情報処理サーバ20および情報処理端末10がメッセージアプリケーションやゲームアプリケーションに表示される対象テキストの表示制御を行う場合を例に述べたが、本実施形態に係る技術思想は、種々の装置、アプリケーションに適用され得る。
次に、本実施形態に係る表示制御の応用例について述べる。上記では、情報処理サーバ20および情報処理端末10がメッセージアプリケーションやゲームアプリケーションに表示される対象テキストの表示制御を行う場合を例に述べたが、本実施形態に係る技術思想は、種々の装置、アプリケーションに適用され得る。
例えば、本実施形態に係る技術思想は、音声エージェントなどに適用することも可能である。図18Aおよび図18Bは、本実施形態に係る技術思想を音声エージェントに適用した場合の一例を示す図である。図18Aおよび図18Bには、情報処理端末10と、高齢者であるユーザU2および年少者であるユーザU3とが示されている。ここで、情報処理端末10は、スケジュール管理機能およびプロジェクション機能を有し、音声によりユーザとの対話を行う音声エージェントであってよい。
例えば、図18Aに示すように、ユーザU2が登録されたスケジュールを尋ねる発話UO2を行った場合、情報処理端末10は、発話UO2、およびユーザU2の状態に係るセンサ情報を収集し、情報処理サーバ20に送信する。情報処理サーバ20は、受信した情報と記憶するユーザUO2の情報とに基づいて認識困難性スコアを算出し、また、音声認識により対象テキストT2を生成する。また、情報処理サーバ20は、生成した対象テキストT2に基づいてスケジュールを検索し、情報処理端末10によるシステム発話SO1を行わせるための人工音声を合成してよい。
続いて、情報処理サーバ20は、算出した認識困難性スコアと合成した人工音声とを情報処理端末10に送信する。続いて、情報処理端末10は、受信した認識困難性スコアに基づいて、対象テキストT2の表示単位、表示間隔、表示効果を設定し、プロジェクション機能により対象テキストT2の表示制御を行う。図18Aに示す一例の場合、情報処理端末10は、ユーザU2の位置や目線、年齢などに基づいて算出された認識困難性スコアに基づいて、ユーザU2にとって認識がしやすい位置に、比較的大きな文字で対象テキストT2を表示させている。また、情報処理端末10は、受信した人工音声によるシステム発話SO1を出力する。
また、図18Bに示すように、ユーザU3がスケジュールの登録を指示する発話UO3を行った場合にも同様に、情報処理端末10は、発話UO3、およびユーザU3の状態に係るセンサ情報を収集し、情報処理サーバ20に送信する。
また、情報処理端末10は、図18Aの場合と同様に、生成された対象テキスト、および算出された認識困難性スコアに基づいて、対象テキストT3に係る表示制御を実行する。図18Bに示す一例の場合、情報処理端末10は、ユーザU3の位置や目線、年齢などに基づいて算出された認識困難性スコアに基づいて、ユーザU3にとって認識がしやすい位置に、通常の文字の大きさで対象テキストT2を表示させている。なお、情報処理端末10は、指向性を有するマイクアレイやビームフォーミング機能を実現するための指向性アンテナを備えることで、ユーザの位置に応じた入出力の精度を一層に高めることも可能である。
以上、説明したように、本実施形態に係る技術思想は、複数のユーザが同時に利用する音声画エージェントなどにも適用することが可能である。このために、本実施形態に係る算出部230は、複数のユーザに係るコンテキストデータに基づいて、認識困難性スコアを算出してよい。より具体的には、本実施形態に係る算出部230は、ユーザごとに認識困難性スコアを算出することが可能である。本実施形態に係る算出部230が有する上記の機能によれば、ユーザごとのコンテキストに応じたより柔軟な表示制御を実現することができる。
また、例えば、本実施形態に係る技術思想は、映画などの動画と共に出力される字幕制御などに適用することも可能である。図19A~図19Cは、本実施形態に係る技術思想を字幕制御に適用した場合の一例を示す図である。図19A~図19Cには、表示装置などにより再生される動画M1と、高齢者であるユーザU2および年少者であるU3とが示されている。また、ユーザU2およびU3は、それぞれ眼鏡型ウェアラブルデバイスである情報処理端末10aおよび10bを装着している。
ここで、情報処理端末10aおよび10bは、AR(Augmented Reality)により動画M1に係る字幕の表示を制御する機能を有する。情報処理端末10aおよび10bは、例えば、予め動画M1と同期して用意された字幕を重畳表示させる機能を有してもよいし、動画M1におけるスクリプトL1やL2に対応する音声出力を検出し、当該音声出力から認識された対象テキスト、すなわち字幕を重畳表示させる機能を有してもよい。
この際、ユーザU2が装着する情報処理端末10aは、ユーザU2に係るセンサ情報を情報処理サーバ20に送信し、算出された認識困難性スコアを受信することで、ユーザU1に適した字幕の表示制御を行うことができる。情報処理端末10aは、例えば、図19Bに示すように、高齢者であるユーザU2にとって認識のしやすい文字の大きさで字幕(対象テキストT4)を表示させてもよい。
同様に、ユーザU3が装着する情報処理端末10bは、ユーザU3に係るセンサ情報を情報処理サーバ20に送信し、算出された認識困難性スコアを受信することで、ユーザU3に適した字幕の表示制御を行う。情報処理端末10は、例えば、図19Bに示すように、年少者であるユーザU3にとって認識しやすいように、簡易な表現を用いた字幕(対象テキストT5)を表示させてもよい。
以上説明したように、本実施形態に係る技術思想は種々の応用が可能である。本実施形態に係る技術思想は、音声テキスト入力機能、翻訳機能、議事録生成機能、OCR(Optical Character Recognition)文字認識機能、音声制御機能などを有する装置やアプリケーションに適用され得る。
<2.ハードウェア構成例>
次に、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20に共通するハードウェア構成例について説明する。図20は、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。図20を参照すると、情報処理端末10および情報処理サーバ20は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
次に、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20に共通するハードウェア構成例について説明する。図20は、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。図20を参照すると、情報処理端末10および情報処理サーバ20は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
(CPU871)
CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
(ROM872、RAM873)
ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
(ホストバス874、ブリッジ875、外部バス876、インターフェース877)
CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
(入力装置878)
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
(出力装置879)
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
(ストレージ880)
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
(ドライブ881)
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
(リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
(接続ポート882)
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
(外部接続機器902)
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
(通信装置883)
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
<3.まとめ>
以上説明したように、本実施形態に係る情報処理サーバ20は、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する機能を有する。係る構成によれば、状況により柔軟に対応した可読性の高いテキスト表示を実現することが可能となる。
以上説明したように、本実施形態に係る情報処理サーバ20は、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する機能を有する。係る構成によれば、状況により柔軟に対応した可読性の高いテキスト表示を実現することが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
また、本明細書の情報処理方法に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理方法に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する算出部、
を備える、
情報処理装置。
(2)
前記対象テキストの表示制御に用いられる表示制御情報を送信する通信部、
をさらに備える、
前記(1)に記載の情報処理装置。
(3)
前記通信部は、前記認識困難性スコアを送信する、
前記(2)に記載の情報処理装置。
(4)
前記算出部は、前記認識困難性スコアに基づいて前記対象テキストに係る表示単位または表示間隔のうち少なくともいずれかを決定し、
前記通信部は、前記表示単位または前記表示間隔のうち少なくともいずれかに関する情報を送信する、
前記(2)または(3)に記載の情報処理装置。
(5)
前記算出部は、前記認識困難性スコアに基づいて前記対象テキストに係る表示効果を決定し、
前記通信部は、前記表示効果に関する情報を送信する、
前記(2)~(4)のいずれかに記載の情報処理装置。
(6)
前記通信部は、前記認識困難性スコアに基づく前記対象テキストの表示制御信号を送信する、
前記(2)~(5)のいずれかに記載の情報処理装置。
(7)
前記通信部は、前記対象テキストを送信する、
前記(2)~(6)のいずれかに記載の情報処理装置。
(8)
前記コンテキストデータは、少なくともユーザの状態に関する情報を含み、
前記算出部は、少なくとも前記ユーザの状態に関する情報に基づいて、前記認識困難性スコアを算出する、
前記(1)~(7)のいずれかに記載の情報処理装置。
(9)
前記コンテキストデータは、少なくともアプリケーションコンテキストに関する情報を含み、
前記算出部は、少なくとも前記アプリケーションコンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
前記(1)~(8)のいずれかに記載の情報処理装置。
(10)
前記コンテキストデータは、少なくともユーザコンテキストに関する情報を含み、
前記算出部は、少なくとも前記ユーザコンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
前記(1)~(9)のいずれかに記載の情報処理装置。
(11)
前記コンテキストデータは、少なくともユーザプロパティに関する情報を含み、
前記算出部は、少なくとも前記ユーザプロパティに関する情報に基づいて、前記認識困難性スコアを算出する、
前記(1)~(10)のいずれかに記載の情報処理装置。
(12)
前記コンテキストデータは、少なくとも文字コンテキストに関する情報を含み、
前記算出部は、少なくとも前記文字コンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
前記(1)~(11)のいずれかに記載の情報処理装置。
(13)
前記コンテキストデータは、少なくとも前記対象テキストに含まれる語彙の特性に関する情報を含み、
前記算出部は、少なくとも前記語彙の特性に関する情報に基づいて、前記認識困難性スコアを算出する、
前記(12)に記載の情報処理装置。
(14)
前記算出部は、前記対象テキストの表示中に入力される前記コンテキストデータに基づいて、前記認識困難性スコアを再算出する、
前記(1)~(13)のいずれかに記載の情報処理装置。
(15)
前記算出部は、複数のユーザに係るコンテキストデータに基づいて、前記認識困難性スコアを算出する、
前記(1)~(14)のいずれかに記載の情報処理装置。
(16)
前記算出部は、前記ユーザごとに前記認識困難性スコアを算出する、
前記(15)に記載の情報処理装置。
(17)
前記算出部は、前記認識困難性スコアに基づいて前記対象テキストの表示に係る表示制御信号を生成する、
前記(1)~(16)のいずれかに記載の情報処理装置。
(18)
前記対象テキストは、収集された音声に基づき生成される、
前記(1)~(17)のいずれかに記載の情報処理装置。
(19)
プロセッサが、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出すること、
を含む、
情報処理方法。
(1)
入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する算出部、
を備える、
情報処理装置。
(2)
前記対象テキストの表示制御に用いられる表示制御情報を送信する通信部、
をさらに備える、
前記(1)に記載の情報処理装置。
(3)
前記通信部は、前記認識困難性スコアを送信する、
前記(2)に記載の情報処理装置。
(4)
前記算出部は、前記認識困難性スコアに基づいて前記対象テキストに係る表示単位または表示間隔のうち少なくともいずれかを決定し、
前記通信部は、前記表示単位または前記表示間隔のうち少なくともいずれかに関する情報を送信する、
前記(2)または(3)に記載の情報処理装置。
(5)
前記算出部は、前記認識困難性スコアに基づいて前記対象テキストに係る表示効果を決定し、
前記通信部は、前記表示効果に関する情報を送信する、
前記(2)~(4)のいずれかに記載の情報処理装置。
(6)
前記通信部は、前記認識困難性スコアに基づく前記対象テキストの表示制御信号を送信する、
前記(2)~(5)のいずれかに記載の情報処理装置。
(7)
前記通信部は、前記対象テキストを送信する、
前記(2)~(6)のいずれかに記載の情報処理装置。
(8)
前記コンテキストデータは、少なくともユーザの状態に関する情報を含み、
前記算出部は、少なくとも前記ユーザの状態に関する情報に基づいて、前記認識困難性スコアを算出する、
前記(1)~(7)のいずれかに記載の情報処理装置。
(9)
前記コンテキストデータは、少なくともアプリケーションコンテキストに関する情報を含み、
前記算出部は、少なくとも前記アプリケーションコンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
前記(1)~(8)のいずれかに記載の情報処理装置。
(10)
前記コンテキストデータは、少なくともユーザコンテキストに関する情報を含み、
前記算出部は、少なくとも前記ユーザコンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
前記(1)~(9)のいずれかに記載の情報処理装置。
(11)
前記コンテキストデータは、少なくともユーザプロパティに関する情報を含み、
前記算出部は、少なくとも前記ユーザプロパティに関する情報に基づいて、前記認識困難性スコアを算出する、
前記(1)~(10)のいずれかに記載の情報処理装置。
(12)
前記コンテキストデータは、少なくとも文字コンテキストに関する情報を含み、
前記算出部は、少なくとも前記文字コンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
前記(1)~(11)のいずれかに記載の情報処理装置。
(13)
前記コンテキストデータは、少なくとも前記対象テキストに含まれる語彙の特性に関する情報を含み、
前記算出部は、少なくとも前記語彙の特性に関する情報に基づいて、前記認識困難性スコアを算出する、
前記(12)に記載の情報処理装置。
(14)
前記算出部は、前記対象テキストの表示中に入力される前記コンテキストデータに基づいて、前記認識困難性スコアを再算出する、
前記(1)~(13)のいずれかに記載の情報処理装置。
(15)
前記算出部は、複数のユーザに係るコンテキストデータに基づいて、前記認識困難性スコアを算出する、
前記(1)~(14)のいずれかに記載の情報処理装置。
(16)
前記算出部は、前記ユーザごとに前記認識困難性スコアを算出する、
前記(15)に記載の情報処理装置。
(17)
前記算出部は、前記認識困難性スコアに基づいて前記対象テキストの表示に係る表示制御信号を生成する、
前記(1)~(16)のいずれかに記載の情報処理装置。
(18)
前記対象テキストは、収集された音声に基づき生成される、
前記(1)~(17)のいずれかに記載の情報処理装置。
(19)
プロセッサが、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出すること、
を含む、
情報処理方法。
10 情報処理端末
110 入力部
120 制御部
130 出力部
140 サーバ通信部
20 情報処理サーバ
210 音響解析部
220 状態解析部
230 算出部
240 用語DB
250 記憶部
260 音声合成部
270 端末通信部
110 入力部
120 制御部
130 出力部
140 サーバ通信部
20 情報処理サーバ
210 音響解析部
220 状態解析部
230 算出部
240 用語DB
250 記憶部
260 音声合成部
270 端末通信部
Claims (19)
- 入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する算出部、
を備える、
情報処理装置。 - 前記対象テキストの表示制御に用いられる表示制御情報を送信する通信部、
をさらに備える、
請求項1に記載の情報処理装置。 - 前記通信部は、前記認識困難性スコアを送信する、
請求項2に記載の情報処理装置。 - 前記算出部は、前記認識困難性スコアに基づいて前記対象テキストに係る表示単位または表示間隔のうち少なくともいずれかを決定し、
前記通信部は、前記表示単位または前記表示間隔のうち少なくともいずれかに関する情報を送信する、
請求項2に記載の情報処理装置。 - 前記算出部は、前記認識困難性スコアに基づいて前記対象テキストに係る表示効果を決定し、
前記通信部は、前記表示効果に関する情報を送信する、
請求項2に記載の情報処理装置。 - 前記通信部は、前記認識困難性スコアに基づく前記対象テキストの表示制御信号を送信する、
請求項2に記載の情報処理装置。 - 前記通信部は、前記対象テキストを送信する、
請求項2に記載の情報処理装置。 - 前記コンテキストデータは、少なくともユーザの状態に関する情報を含み、
前記算出部は、少なくとも前記ユーザの状態に関する情報に基づいて、前記認識困難性スコアを算出する、
請求項1に記載の情報処理装置。 - 前記コンテキストデータは、少なくともアプリケーションコンテキストに関する情報を含み、
前記算出部は、少なくとも前記アプリケーションコンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
請求項1に記載の情報処理装置。 - 前記コンテキストデータは、少なくともユーザコンテキストに関する情報を含み、
前記算出部は、少なくとも前記ユーザコンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
請求項1に記載の情報処理装置。 - 前記コンテキストデータは、少なくともユーザプロパティに関する情報を含み、
前記算出部は、少なくとも前記ユーザプロパティに関する情報に基づいて、前記認識困難性スコアを算出する、
請求項1に記載の情報処理装置。 - 前記コンテキストデータは、少なくとも文字コンテキストに関する情報を含み、
前記算出部は、少なくとも前記文字コンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
請求項1に記載の情報処理装置。 - 前記コンテキストデータは、少なくとも前記対象テキストに含まれる語彙の特性に関する情報を含み、
前記算出部は、少なくとも前記語彙の特性に関する情報に基づいて、前記認識困難性スコアを算出する、
請求項12に記載の情報処理装置。 - 前記算出部は、前記対象テキストの表示中に入力される前記コンテキストデータに基づいて、前記認識困難性スコアを再算出する、
請求項1に記載の情報処理装置。 - 前記算出部は、複数のユーザに係るコンテキストデータに基づいて、前記認識困難性スコアを算出する、
請求項1に記載の情報処理装置。 - 前記算出部は、前記ユーザごとに前記認識困難性スコアを算出する、
請求項15に記載の情報処理装置。 - 前記算出部は、前記認識困難性スコアに基づいて前記対象テキストの表示に係る表示制御信号を生成する、
請求項1に記載の情報処理装置。 - 前記対象テキストは、収集された音声に基づき生成される、
請求項1に記載の情報処理装置。 - プロセッサが、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出すること、
を含む、
情報処理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/605,805 US11301615B2 (en) | 2017-04-24 | 2018-01-23 | Information processing device using recognition difficulty score and information processing method |
EP18791350.4A EP3617911A4 (en) | 2017-04-24 | 2018-01-23 | INFORMATION PROCESSING DEVICE AND METHOD |
JP2019515094A JPWO2018198447A1 (ja) | 2017-04-24 | 2018-01-23 | 情報処理装置および情報処理方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017-085416 | 2017-04-24 | ||
JP2017085416 | 2017-04-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2018198447A1 true WO2018198447A1 (ja) | 2018-11-01 |
Family
ID=63918147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/001918 WO2018198447A1 (ja) | 2017-04-24 | 2018-01-23 | 情報処理装置および情報処理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11301615B2 (ja) |
EP (1) | EP3617911A4 (ja) |
JP (1) | JPWO2018198447A1 (ja) |
WO (1) | WO2018198447A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022167200A (ja) * | 2021-04-22 | 2022-11-04 | 株式会社豊田中央研究所 | 表示装置、及び表示プログラム |
WO2023058393A1 (ja) * | 2021-10-04 | 2023-04-13 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP7675526B2 (ja) | 2021-02-09 | 2025-05-13 | 日産自動車株式会社 | 文章入力方法及び文章入力装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009013542A (ja) | 2007-07-06 | 2009-01-22 | Toshiba Mitsubishi-Electric Industrial System Corp | 抄紙機用のドライヤ制御装置 |
JP2013109687A (ja) * | 2011-11-24 | 2013-06-06 | Kyocera Corp | 携帯端末装置、プログラムおよび表示制御方法 |
WO2014207903A1 (ja) * | 2013-06-28 | 2014-12-31 | 楽天株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP2016143310A (ja) * | 2015-02-04 | 2016-08-08 | ソニー株式会社 | 情報処理装置、画像処理方法及びプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4333031B2 (ja) * | 2000-12-27 | 2009-09-16 | カシオ計算機株式会社 | 電子書籍装置 |
JP4085926B2 (ja) * | 2003-08-14 | 2008-05-14 | ソニー株式会社 | 情報処理端末及び通信システム |
JP2007121374A (ja) * | 2005-10-25 | 2007-05-17 | Seiko Epson Corp | 情報表示装置 |
CA2803047A1 (en) * | 2010-07-05 | 2012-01-12 | Cognitive Media Innovations (Israel) Ltd. | System and method of serial visual content presentation |
JP5541529B2 (ja) * | 2011-02-15 | 2014-07-09 | 株式会社Jvcケンウッド | コンテンツ再生装置、楽曲推薦方法およびコンピュータプログラム |
KR102495517B1 (ko) * | 2016-01-26 | 2023-02-03 | 삼성전자 주식회사 | 전자 장치, 전자 장치의 음성 인식 방법 |
US9741258B1 (en) * | 2016-07-13 | 2017-08-22 | International Business Machines Corporation | Conditional provisioning of auxiliary information with a media presentation |
US9942615B1 (en) * | 2017-04-20 | 2018-04-10 | Rovi Guides, Inc. | Systems and methods for presenting targeted metadata in display constrained environments |
-
2018
- 2018-01-23 EP EP18791350.4A patent/EP3617911A4/en not_active Withdrawn
- 2018-01-23 WO PCT/JP2018/001918 patent/WO2018198447A1/ja unknown
- 2018-01-23 US US16/605,805 patent/US11301615B2/en active Active
- 2018-01-23 JP JP2019515094A patent/JPWO2018198447A1/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009013542A (ja) | 2007-07-06 | 2009-01-22 | Toshiba Mitsubishi-Electric Industrial System Corp | 抄紙機用のドライヤ制御装置 |
JP2013109687A (ja) * | 2011-11-24 | 2013-06-06 | Kyocera Corp | 携帯端末装置、プログラムおよび表示制御方法 |
WO2014207903A1 (ja) * | 2013-06-28 | 2014-12-31 | 楽天株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP2016143310A (ja) * | 2015-02-04 | 2016-08-08 | ソニー株式会社 | 情報処理装置、画像処理方法及びプログラム |
Non-Patent Citations (1)
Title |
---|
See also references of EP3617911A4 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7675526B2 (ja) | 2021-02-09 | 2025-05-13 | 日産自動車株式会社 | 文章入力方法及び文章入力装置 |
JP2022167200A (ja) * | 2021-04-22 | 2022-11-04 | 株式会社豊田中央研究所 | 表示装置、及び表示プログラム |
WO2023058393A1 (ja) * | 2021-10-04 | 2023-04-13 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3617911A4 (en) | 2020-04-08 |
US20200125788A1 (en) | 2020-04-23 |
JPWO2018198447A1 (ja) | 2020-02-27 |
EP3617911A1 (en) | 2020-03-04 |
US11301615B2 (en) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20250069620A1 (en) | Audio response messages | |
US11334376B2 (en) | Emotion-aw are reactive interface | |
JP6760271B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
WO2017130486A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN110785735A (zh) | 用于语音命令情景的装置和方法 | |
US20220028296A1 (en) | Information processing apparatus, information processing method, and computer program | |
US20250045812A1 (en) | System and method for generating a product recommendation in a virtual try-on session | |
WO2018173383A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN108803871A (zh) | 头戴显示设备中数据内容的输出方法、装置及头戴显示设备 | |
WO2018198447A1 (ja) | 情報処理装置および情報処理方法 | |
JP2017167779A (ja) | 画像処理装置、表示装置、アニメーション生成方法、アニメーション表示方法及びプログラム | |
US11368664B2 (en) | Information processing apparatus, information processing method, and program | |
KR20200092207A (ko) | 전자 장치 및 이를 이용한 감정 정보에 대응하는 그래픽 오브젝트를 제공하는 방법 | |
US20200234187A1 (en) | Information processing apparatus, information processing method, and program | |
JP2024006906A (ja) | プログラム、方法、情報処理装置 | |
JP2002244842A (ja) | 音声通訳システム及び音声通訳プログラム | |
US10643636B2 (en) | Information processing apparatus, information processing method, and program | |
JP6836877B2 (ja) | 吹奏楽器の練習支援装置及び練習支援方法 | |
WO2019198299A1 (ja) | 情報処理装置及び情報処理方法 | |
US20190197126A1 (en) | Systems and methods to facilitate bi-directional artificial intelligence communications | |
JP2024006873A (ja) | プログラム、方法、情報処理装置 | |
JPWO2018116556A1 (ja) | 情報処理装置、および情報処理方法 | |
KR20170093631A (ko) | 적응적 컨텐츠 출력 방법 | |
WO2019054009A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2019026396A1 (ja) | 情報処理装置、情報処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18791350 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2019515094 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2018791350 Country of ref document: EP Effective date: 20191125 |