WO2018198447A1

WO2018198447A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2018198447A1
Application number: PCT/JP2018/001918
Authority: WO
Inventors: 真一河野; 祐平滝; 昌毅高瀬; 朗宮下; 直樹常盤; 陽徳永
Original assignee: ソニー株式会社
Priority date: 2017-04-24
Filing date: 2018-01-23
Publication date: 2018-11-01
Also published as: EP3617911A4; US20200125788A1; JPWO2018198447A1; EP3617911A1; US11301615B2

Abstract

【課題】状況により柔軟に対応した可読性の高いテキスト表示を実現する。【解決手段】本開示によれば、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する算出部、を備える、情報処理装置が提供される。また、プロセッサが、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出すること、を含む、情報処理方法が提供される。

Description

情報処理装置および情報処理方法

　本開示は、情報処理装置および情報処理方法に関する。

　近年、情報処理技術の発展に伴い、ユーザに文字情報を提示する種々の装置が広く普及している。また、上記の文字情報の視認性などを向上させるための技術が多く提案されている。例えば、特許文献１には、文字情報を所定単位の文字グループに区分けし、設定した間隔に基づいて当該文字グループの提示制御を行う技術が開示されている。

特開２００９－１３５４２号公報

　特許文献１に記載の技術では、文節や単語など、文字情報に係る構造的特徴に基づいて、上記の文字グループを設定している。しかし、ユーザによる文字情報の認識については、上記のような構造的特徴のほか、種々の要因が影響することが想定される。このため、特許文献１に記載の技術では、状況に応じた十分な提示制御が行われているとは言い難い。

　そこで、本開示では、状況により柔軟に対応した可読性の高いテキスト表示を実現することが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。

　本開示によれば、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する算出部、を備える、情報処理装置が提供される。

　また、本開示によれば、プロセッサが、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出すること、を含む、情報処理方法が提供される。

　以上説明したように本開示によれば、状況により柔軟に対応した可読性の高いテキスト表示を実現することが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態の概要について説明するための図である。同実施形態の概要について説明するための図である。同実施形態に係るシステム構成の一例を示す図である。同実施形態に係るデータの入出力について説明するための概念図である。同実施形態に係る情報処理端末の機能ブロック図の一例である。同実施形態に係る情報処理サーバの機能ブロック図の一例である。同実施形態に係るアプリケーションのユーザインタフェースの一例を示す図である。同実施形態に係る算出部に係る入出力データの関係について説明するための図である。同実施形態に係るユーザ状態に関するコンテキスト管理テーブルの一例を示す図である。同実施形態に係るユーザコンテキストおよびユーザプロパティに関するコンテキスト管理テーブルの一例を示す図である。同実施形態に係るアプリケーションコンテキストに関するコンテキスト管理テーブルの一例を示す図である。同実施形態に係る文字コンテキストに関するコンテキスト管理テーブルの一例を示す図である。同実施形態に係る認識困難性スコアのフォーマットの一例である。同実施形態に係る認識困難性スコアに基づいて設定される表示単位、表示間隔、表示効果の一例を示す図である。同実施形態に係る情報処理方法の流れを示すフローチャートである。同実施形態に係る表示制御の流れを示すフローチャートである。同実施形態に係るコンテキストデータのリアルタイム算出の流れを示すフローチャートである。同実施形態に係る技術思想を音声エージェントに適用した場合の一例を示す図である。同実施形態に係る技術思想を音声エージェントに適用した場合の一例を示す図である。同実施形態に係る技術思想を字幕制御に適用した場合の一例を示す図である。同実施形態に係る技術思想を字幕制御に適用した場合の一例を示す図である。同実施形態に係る技術思想を字幕制御に適用した場合の一例を示す図である。本開示の一実施形態に係るハードウェア構成例を示す図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．実施形態
　　１．１．概要
　　１．２．システム構成例
　　１．３．情報処理端末１０の機能構成例
　　１．４．情報処理サーバ２０の機能構成例
　　１．５．認識困難性スコアの算出
　　１．６．処理の流れ
　　１．７．応用例
　２．ハードウェア構成例
　３．まとめ

　＜１．実施形態＞
　＜＜１．１．概要＞＞
　まず、本開示の一実施形態の概要について説明する。上述したように、近年では、テキスト情報をユーザに提示する種々の装置やアプリケーションが普及している。また、テキスト提示に係る表示単位や表示間隔を制御することで、ユーザによるテキスト認識の利便性を向上させる技術が多く提案されている。

　例えば、文字量の多いテキストが一度に表示される場合、ユーザが当該テキストの内容を確認、理解するために時間や労力を要することが想定される。また、テキストの内容が複雑である場合や、ユーザが他の操作などを並行して行っている場合などには、テキストの読み返しなどが発生し、煩雑性が増大する懸念もある。

　この際、テキストを複数の表示単位に分割し、適切な間隔で表示させることで、表示単位ごとの視認性や可読性を向上させることが可能となる。例えば、特許文献１には、テキストの構造的特徴に基づいて上記のような表示単位を設定することで、テキストの視認性、可読性を向上させる技術が開示されている。

　しかし、表示単位がテキストの構造的特徴のみに基づいて設定される場合、状況によっては、認識の不足や煩雑さの増大を招くことも想定される。

　図１および図２は、本開示の一実施形態の概要について説明するための図である。図１には、表示部１３４に表示されるテキスト情報Ｔ１と、ユーザＵ１およびＵ２とが示されている。図１に示す一例の場合、テキスト情報Ｔ１は、２つの表示単位に分割され、同一の表示間隔を以って、ユーザＵ１およびＵ２に提示されている。

　このような場合、テキストＴ１に係る表示は、ユーザＵ１にとっては、表示単位に係る情報量が少なく、また表示間隔が遅すぎる一方、ユーザＵ２にとっては、表示単位に係る情報量が多すぎ、また表示間隔が早すぎる場合も想定される。このように、テキストの認識に係る適切な表示単位および表示間隔は、ユーザの特性や状況などに応じて都度変化することが考えられる。

　このため、本開示の一実施形態に係る情報処理サーバ２０は、ユーザやアプリケーションなどに係る種々のコンテキストに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出してよい。ここで、上記の認識困難性スコアとは、ユーザによる対象テキストの認識に係る困難性の度合いを示す指標である。また、本開示の一実施形態に係る情報処理端末１０は、上記の認識困難性スコアに基づいて対象テキストの表示制御を行うことができる。

　図２には、本実施形態に係る認識困難性スコアに基づいて表示制御される対象テキストの表示例が示されている。例えば、認識困難性スコアが、ユーザＵ１が対象テキストを認識しやすい状況にあることを示す場合、本実施形態に係る情報処理端末１０は、図２の上段に示すように、比較的情報量の多い表示単位や早い表示間隔を設定し、対象テキストであるテキストＴ１の表示を制御してよい。情報処理端末１０による上記の制御によれば、ユーザＵ１の状況に応じた表示単位および表示間隔を以ってテキストＴ１を表示させることができ、テキスト表示が遅いなどの、ユーザＵ１の不満を解消することが可能となる。

　また、例えば、認識困難性スコアが、ユーザＵ２が対象テキストを認識しづらい状況にあることを示す場合、本実施形態に係る情報処理端末１０は、図２の下段に示すように、比較的情報量の少ない表示単位や遅い表示間隔を設定し、テキストＴ１の表示を制御してよい。情報処理端末１０による上記の制御によれば、ユーザＵ２の状況に応じた表示単位および表示間隔を以ってテキストＴ１を表示させることができ、テキスト表示が早すぎて理解できない、などのユーザＵ２の不満を解消することが可能となる。

　なお、図２では、情報処理サーバ２０がユーザＵ１およびＵ２に係る認識困難性スコアを算出し、情報処理端末１０が上記の認識困難性スコアに基づいて、ユーザごとに対象テキストの表示制御を行う場合を例に説明した。しかし、本実施形態に係る認識困難視スコアの算出、および対象テキストの表示制御は、係る例に限定されない。

　例えば、同一のユーザであっても、種々の要因により認識困難性スコアは動的に変化することが想定される。このため、本実施形態に係る情報処理サーバ２０は、同一のユーザに係る認識困難性スコアを都度算出し、情報処理端末１０は、上記の認識困難スコアに基づいて、同一ユーザに対する対象テキストの表示を都度制御してよい。本実施形態に形態に係る情報処理サーバ２０および情報処理端末１０によれば、種々の要因（コンテキスト）に基づいて、表示単位、表示間隔、また表示効果を適切に制御することができ、より視認性や可読性の高い情報をユーザに提示することが可能となる。

　＜＜１．２．システム構成例＞＞
　次に、本実施形態に係るシステム構成例について説明する。図３は、本実施形態に係るシステム構成の一例を示す図である。図３に示すように、本実施形態に係る情報処理システムは、情報処理端末１０および情報処理サーバ２０を備える。また、情報処理端末１０および情報処理サーバ２０は、ネットワーク３０を介して互いに通信が行えるように接続される。

　（情報処理端末１０）
　本実施形態に係る情報処理端末１０は、情報処理サーバ２０から受信した表示制御情報に基づいて、テキスト情報をユーザに提示する情報処理装置である。また、本実施形態に係る情報処理端末１０は、種々のセンサ情報やアプリケーション情報を収集し、情報処理サーバ２０に送信する機能を有する。本実施形態に係る情報処理端末１０は、例えば、スマートフォン、タブレット、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）、携帯電話、ウェアラブル装置、ゲーム機器、種々のエージェント装置などであってよい。本実施形態に係る情報処理端末１０は、例えば、収集したユーザの音声情報を情報処理サーバ２０に送信し、認識されたテキストをユーザに提示する機能を有してもよい。

　（情報処理サーバ２０）
　本実施形態に係る情報処理サーバ２０は、コンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する情報処理装置である。ここで、上記のコンテキストデータとは、対象テキストの表示に係る種々の状況、状態、要因を示すデータであってよい。本実施形態に係るコンテキストデータの詳細については、別途後述する。また、本実施形態に係る情報処理サーバ２０は、対象テキストの表示制御に用いられる表示制御情報を、情報処理端末１０に送信する。

　ここで、情報処理端末１０および情報処理サーバ２０の間で送受信されるデータの概要について説明する。図４は、本実施形態に係るデータの入出力について説明するための概念図である。本実施形態に係る情報処理端末１０は、まず、収集したセンサ情報やアプリケーション情報を情報処理サーバ２０に送信する。

　次に、情報処理サーバ２０は、上記のセンサ情報やアプリケーション情報に基づいて、対象テキストＴ１の表示制御に用いられる認識困難性スコアを算出する。すなわち、本実施形態に係るコンテキストデータには、情報処理端末１０から送信されるセンサ情報、アプリケーション情報、およびこれらに基づいて推定された各種のデータが含まれてよい。また、対象テキストＴ１は、情報処理端末１０から送信された音声情報に基づいて、情報処理サーバ２０が生成するテキストであってもよい。

　続いて、情報処理サーバ２０は、対象テキストＴ１の表示制御に用いられる表示制御情報を情報処理端末１０に送信する。この際、情報処理サーバ２０が送信する表示制御情報のパターンは、送信先である情報処理端末１０が有する機能に応じて適宜決定され得る。

　例えば、情報処理端末１０が、認識困難性スコアに基づいて、対象テキストＴ１の表示に係る表示単位、表示間隔、または表示効果などを設定する機能を有する場合、本実施形態に係る情報処理サーバ２０は、認識困難性スコアを表示制御情報として情報処理端末１０に送信してよい。

　また、例えば、情報処理端末１０が、入力された表示単位、表示間隔、表示効果などに基づいて、対象テキストＴ１の表示制御を行う機能を有する場合、本実施形態に係る情報処理サーバ２０は、認識困難性スコアに基づいて決定した表示単位、表示間隔、表示効果などを、表示制御情報として情報処理端末１０に送信してよい。

　また、例えば、情報処理端末１０が入力された表示制御信号に基づいて、対象テキストＴ１を表示する表示機能のみを有する場合、本実施形態に係る情報処理サーバ２０は、決定した表示単位、表示間隔、表示効果などに基づいて対象テキストＴ１を表示させるための表示制御信号を表示制御情報として情報処理端末１０に送信してよい。また、情報処理サーバ２０は、表示制御情報と共に対象テキストＴ１を情報処理端末１０に送信してもよい。

　（ネットワーク３０）
　ネットワーク３０は、情報処理端末１０と情報処理サーバ２０とを接続する機能を有する。ネットワーク３０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク３０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク３０は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

　以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図２を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、図４を用いて説明したように、対象テキストの表示制御に係る機能は、仕様や運用に応じて、適宜設計され得る。また、例えば、本実施形態に係る情報処理端末１０と情報処理サーバ２０とは、同一の装置として実現することも可能である。あるいは、本実施形態に係る情報処理端末１０や情報処理サーバ２０が有する機能は、複数の装置に分散して実現されてもよい。本実施形態に係る情報処理システムの構成は、柔軟に変形され得る。

　＜＜１．３．情報処理端末１０の機能構成例＞＞
　次に、本実施形態に係る情報処理端末１０の機能構成例について説明する。図５は、本実施形態に係る情報処理端末１０の機能ブロック図の一例である。図５に示すように、本実施形態に係る情報処理端末１０は、入力部１１０、制御部１２０、出力部１３０、およびサーバ通信部１４０を備える。

　（入力部１１０）
　本実施形態に係る入力部１１０は、音声入力部１１２、操作入力部１１４、撮像部１１６、センサ部１１８を備える。

　（（音声入力部１１２））
　本実施形態に係る音声入力部１１２は、ユーザの発話を検出する機能を有する。また、音声入力部１１２は、上記の発話のほか、種々の音情報を検出してよい。このために、本実施形態に係る音声入力部１１２は、マイクロフォンなどの音声検出デバイスを含んで構成される。なお、特に併記しない場合、本実施形態に係るセンサ情報には、音声入力部１１２が収集した各種の音情報が含まれる。

　（（操作入力部１１４））
　本実施形態に係る操作入力部１１４は、ユーザによる種々の入力操作を検出する機能を有する。操作入力部１１４は、例えば、ユーザによるテキスト操作やアプリケーションの操作などを検出することができる。このために、本実施形態に係る操作入力部１１４は、マウス、キーボード、コントローラ、タッチパネル、各種のボタンなどを含んで構成される。

　（（撮像部１１６））
　本実施形態に係る撮像部１１６は、ユーザや周囲の画像を撮像する機能を有する。このために、本実施形態に係る撮像部１１６は、撮像センサやレンズなどを含んで構成される。なお、特に併記しない場合、本実施形態に係るセンサ情報には、撮像部１１６が収集した画像情報が含まれる。

　（（センサ部１１８））
　本実施形態に係るセンサ部１１８は、ユーザに係る種々の情報を収集する機能を有する。センサ部１１８は、例えば、温度センサ、湿度センサ、光センサ、加速度センサ、ジャイロセンサ、地磁気センサ、生体センサなどを含んで構成される。なお、上記の生体センサには、例えば、脈拍センサ、筋電センサ、脳波センサなどが挙げられる。

　（制御部１２０）
　本実施形態に係る制御部１２０は、各種のアプリケーションを制御する機能を有する。また、本実施形態に係る制御部１２０は、情報処理サーバ２０から受信した表示制御情報に基づいて、対象テキストに係る表示制御を行う機能を有する。制御部１２０は、例えば、受信した認識困難性スコアに基づいて、表示単位、表示間隔、表示効果などを決定し、対象テキストの表示を制御してもよい。また、制御部１２０は、受信した表示単位、表示間隔、表示効果などに基づいて、対象テキストの表示を制御してもよい。また、制御部１２０は、受信した表示制御信号を表示部１３４に引き渡してもよい。

　（出力部１３０）
　本実施形態に係る出力部１３０は、音声出力部１３２および表示部１３４を備える。

　（（音声出力部１３２））
　本実施形態に係る音声出力部１３２は、ユーザに音情報を提示する機能を有する。音声出力部１３２は、例えば、制御部１２０による制御に基づいて、アプリケーションに応じた音響を出力する。また、音声出力部１３２は、情報処理サーバ２０が合成した合成音声を出力してもよい。このために、本実施形態に係る音声出力部１３２は、アンプやスピーカなどを含んで構成される。

　（（表示部１３４））
　本実施形態に係る表示部１３４は、制御部１２０による制御や情報処理サーバ２０から受信した表示制御信号に基づいて、ユーザに視覚情報を提示する機能を有する。このために、本実施形態に係る表示部１３４は、視覚情報を提示する表示デバイスを含んで構成される。上記の表示デバイスには、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ：Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）装置、ＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）装置、タッチパネルなどが挙げられる。

　（サーバ通信部１４０）
　本実施形態に係るサーバ通信部１４０は、ネットワーク３０を介して、情報処理サーバ２０との情報処理通信を行う機能を有する。具体的には、サーバ通信部１４０は、入力部１１０が収集したセンサ情報や、制御部１２０が取得したアプリケーション情報などを情報処理サーバ２０に送信する。また、サーバ通信部１４０は、表示制御情報を情報処理サーバ２０から受信する。上述したように、本実施形態に係る表示制御情報には、認識困難性スコアや、認識困難性スコアに基づいて決定される表示単位、表示間隔、表示効果に係る情報、また対象テキストに係る表示制御信号そのものが含まれてよい。また、サーバ通信部１４０は、情報処理サーバ２０から対象テキストを受信してもよい。

　以上、本実施形態に係る情報処理端末１０の機能構成例について説明した。なお、図５を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末１０の機能構成は係る例に限定されない。本実施形態に係る情報処理端末１０は、上記に示した以外の構成をさらに備えてもよい。情報処理端末１０は、例えば、各種の情報を格納する記憶部などを備えてもよいし、情報処理サーバ２０と同等の音声認識機能などを有してもよい。また、一方で、上記で説明した情報処理端末１０が有する各機能は、複数の装置に分散して実現することも可能である。例えば、入力部１１０、制御部１２０、および出力部１３０は、それぞれ別途の装置の機能として実現されてもよい。本実施形態に係る情報処理端末１０の機能構成は、柔軟に変形され得る。

　＜＜１．４．情報処理サーバ２０の機能構成例＞＞
　次に、本実施形態に係る情報処理サーバ２０の機能構成例について説明する。図６は、本実施形態に係る情報処理サーバ２０の機能ブロック図の一例である。図６に示すように、本実施形態に係る情報処理サーバ２０は、音響解析部２１０、状態解析部２２０、算出部２３０、用語ＤＢ２４０、記憶部２５０、音声合成部２６０、および端末通信部２７０を備える。

　（音響解析部２１０）
　本実施形態に係る音響解析部２１０は、情報処理端末１０が収集した音情報に基づく、種々の処理や解析を行う機能を有する。例えば、本実施形態に係る音響解析部２１０は、収集されたユーザの発話に基づく信号処理、音声認識、言語判別、自然言語処理などを行い、対象テキストを生成してもよい。また、本実施形態に係る音響解析部２１０は、ユーザの発話に基づく解析を行い、ユーザの感情などを推定してもよい。また、音響解析部２１０は、収集された音情報に基づいて周囲の騒音レベルなどを測定することも可能である。なお、本実施形態に係る音響解析部２１０により処理または解析された情報は、後述する算出部２３０による認識困難性スコアの算出に用いられ得る。

　（状態解析部２２０）
　本実施形態に係る状態解析部２２０は、情報処理端末１０が収集した画像情報やセンサ情報などに基づいて、ユーザの状態に係る種々の解析を行う機能を有する。例えば、本実施形態に係る状態解析部２２０は、収集された画像情報やセンサ情報に基づいてユーザの視線、まばたき、瞳孔や眼球の状態、口の開き具合、表情、ジェスチャを含む動作などを認識してもよい。また、本実施形態に係る状態解析部２２０は、収集されたセンサ情報に基づいて、心拍や呼吸、発汗、緊張状態や興奮状態などを解析してもよい。本実施形態に係る状態解析部２２０により解析された情報は、算出部２３０による認識困難性スコアの算出に用いられ得る。

　（算出部２３０）
　本実施形態に係る算出部２３０は、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する機能を有する。上述したように、本実施形態に係るコンテキストデータには、情報処理端末１０により収集されたセンサ情報やアプリケーション情報、音響解析部２１０や状態解析部２２０により解析された種々の情報が含まれる。また、本実施形態に係るコンテキストデータには、記憶部２５０に記憶されるユーザの情報や、対象テキストに含まれる語彙の特性、対象テキストの構造的特徴なども含まれる。本実施形態に係る算出部２３０が有する機能の詳細については、別途説明する。

　（用語ＤＢ２４０）
　本実施形態に係る用語ＤＢ２４０は、種々の用語に関するデータを記憶するデータベースである。本実施形態に係るＤＢ２４０は、例えば、新語、略語、固有名詞、専門用語、トレンド用語などに関するデータを記憶する。本実施形態に係る用語ＤＢ２４０が記憶する上記の情報は、算出部２３０による認識困難性スコアの算出において、対象テキストに含まれる語彙の特性を抽出するために用いられる。

　（記憶部２５０）
　本実施形態に係る記憶部２５０は、情報処理サーバ２０が備える各構成による処理結果などを記憶する機能を有する。本実施形態に係る記憶部２５０は、特に、算出部２３０が算出した認識困難性スコアに対応するコンテキスト管理テーブルを記憶してよい。また、記憶部２５０は、ユーザの画像情報などを記憶してもよい。当該画像状況は、状態解析部２２０によるユーザの認識などに用いられる。

　（音声合成部２６０）
　音声合成部２６０は、対象テキストや通知内容に基づく人工音声を生成する機能を有する。音声合成部２６０が生成する人工音声は、端末通信部２７０およびネットワーク３０を介して情報処理端末１０に送信され、音声出力部１３２により音声出力される。

　（端末通信部２７０）
　本実施形態に係る端末通信部２７０は、ネットワーク３０を介して、情報処理端末１０との情報通信を行う機能を有する。具体的には、端末通信部２７０は、情報処理端末１０からセンサ情報やアプリケーション情報を受信する。また、端末通信部２７０は、対象テキストの表示制御に用いられる表示制御情報を送信する機能を有する。上述したように、本実施形態に係る表示制御情報には、認識困難性スコアや、認識困難性スコアに基づいて決定される表示単位、表示間隔、表示効果に係る情報、また対象テキストに係る表示制御信号そのものが含まれてよい。また、端末通信部２７０は、情報処理端末１０に対象テキストを送信してもよい。

　以上、本実施形態に係る情報処理サーバ２０の機能構成例について説明した。なお、図６を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理サーバ２０の機能構成は係る例に限定されない。本実施形態に係る情報処理サーバ２０は、上記に示した以外の構成をさらに備えてもよい。情報処理サーバ２０は、例えば、アプリケーションの制御を行う構成をさらに備えてもよい。あるいは、情報処理サーバ２０が有する各機能は、複数の装置に分散して実現することも可能である。本実施形態に係る情報処理サーバ２０の機能構成は、柔軟に変形され得る。

　＜＜１．５．認識困難性スコアの算出＞＞
　次に、本実施形態に係る算出部２３０による認識困難性スコアの算出について具体例を挙げながら説明する。図７は、本実施形態に係るアプリケーションのユーザインタフェースの一例を示す図である。ここで、上記のアプリケーションは、音声認識機能を有するメッセージアプリケーションやゲームアプリケーションなどであってよい。図７には、情報処理端末１０の表示部１３４に表示されるアプリケーションのユーザインタフェースＵ１が示されている。

　ユーザインタフェースＵ１は、ユーザの発話を認識することにより情報処理サーバ２０が生成した対象テキスト表示するフィールドＦ１、および過去のメッセージ履歴を表示するフィールドＦ２を含む。また、図７に示す一例では、フィールドＦ１に、前回の発話に基づいて認識された既存テキストＥＴ、および音声認識の開始を制御するボタンｂ１が表示されている。

　この際、図７に示すように、ユーザＵ１が発話ＵＯ１を行うと、情報処理端末１０は、収集したユーザの発話ＵＯ１に係る音情報とその他のセンサ情報、およびアプリケーション情報を情報処理サーバ２０に送信する。

　次に、情報処理サーバ２０は、受信したユーザの発話ＵＯ１に基づく音声認識を行い、対象テキストを生成すると共に、受信したセンサ情報に基づく解析を行う。続いて、情報処理サーバ２０の算出部２３０は、コンテキストデータに基づく認識困難性スコアの算出を実行する。

　図８は、本実施形態の算出部２３０に係る入出力データの関係について説明するための図である。図８に示すように、算出部２３０には、コンテキストデータが入力される。上述したように、本実施形態に係るコンテキストデータの実体は、情報処理端末１０により収集されたセンサ情報、アプリケーション情報、ユーザ情報、およびこれらに基づいて解析された種々の情報を含む。

　この際、本実施形態に係るユーザコンテキストは、ユーザ状態、ユーザコンテキスト、ユーザプロパティ、アプリケーションコンテキスト、および文字コンテキストに関する情報に大別される。

　ここで、上記のユーザ状態とは、ユーザの動作状態および精神状態を含んでよい。すなわち、本実施形態に係る算出部２３０は、ユーザの動作状態や精神状態に関するコンテキストデータに基づいて、認識困難性スコアを算出することが可能である。また、本実施形態に係るユーザ状態は、比較的短期間で変化し得るユーザの特性ともいえる。本実施形態に係る算出部２３０が有する上記の機能によれば、短期間で変化し得るユーザの特性に応じた表示単位、表示間隔、表示効果を以って、対象テキストの表示を制御することが可能となる。

　また、上記のユーザコンテキストとは、ユーザの傾向や経験などを含んでよい。すなわち、本実施形態に係る算出部２３０は、ユーザの傾向や経験などに関するコンテキストデータに基づいて、認識困難性スコアを算出することが可能である。また、本実施形態に係るユーザコンテキストは、中長期間で変化し得るユーザの特性ともいえる。本実施形態に係る算出部２３０が有する上記の機能によれば、中長期間で変化し得るユーザの特性に応じた表示単位、表示間隔、表示効果を以って、対象テキストの表示を制御することが可能となる。

　また、上記のユーザのプロパティとは、ユーザの属性やタイプなどを含んでよい。すなわち、本実施形態に係る算出部２３０は、ユーザの属性やタイプなどに関するコンテキストデータに基づいて、認識困難性スコアを算出することが可能である。また、本実施形態に係るユーザプロパティは、長期間変化し難いユーザの特性ともいえる。本実施形態に係る算出部２３０が有する上記の機能によれば、長期間変化し難いユーザの特性に応じた表示単位、表示間隔、表示効果を以って、対象テキストの表示を制御することが可能となる。

　また、上記のアプリケーションコンテキストとは、対象テキストを表示するアプリケーションや他のアプリケーションの状態を含んでよい。すなわち、本実施形態に係る算出部２３０は、種々のアプリケーションの状態に関するコンテキストデータに基づいて、対象テキストの表示を制御することが可能である。

　また、上記の文字コンテキストとは、対象テキストに含まれる語彙の特性や対象テキストの構造的特徴を含んでよい。すなわち、本実施形態に係る算出部２３０は、対象テキストの特性に関するコンテキストデータに基づいて、当該対象テキストの表示を制御することが可能である。

　以上、説明したように、本実施形態に係る算出部２３０は、種々の情報を含むコンテキストデータに基づいて認識困難性スコアを算出することが可能である。また、本実施形態に係る算出部２３０は、図８に示すように、算出した認識困難性スコアに基づいて、対象テキストに係る表示単位、表示間隔、表示効果などを決定してもよい。さらには、算出部２３０は、決定した表示単位、表示間隔、表示効果などに基づいて対象テキストＴ１を表示させるための表示制御信号を生成してもよい。すなわち、本実施形態に係る算出部２３０は、情報処理端末１０の特性に応じた表示制御情報を生成し、端末通信部２７０に当該表示制御情報を送信させることができる。

　続いて、本実施形態に係る算出部２３０による認識困難性スコアの算出について、より詳細に説明する。上述したように、本実施形態に係る算出部２３０は、種々の情報に関するコンテキストデータに基づいて、認識困難性スコアを算出することができる。この際、本実施形態に係る算出部２３０は、コンテキストデータに基づいて記憶部２５０に記憶されるコンテキスト管理テーブルを更新し、更新後のパラメータに基づいて、認識困難性スコアを算出してもよい。

　図９は、本実施形態に係るユーザ状態に関するコンテキスト管理テーブルの一例を示す図である。図９に示す一例の場合、ユーザ状態に関するコンテキスト管理テーブルは、集中状態、緊張状態、操作状態、発話状態、および忙しさの状態に関する項目を含んでいる。

　ここで、上記の集中状態には、例えば、表示されるテキストやテキストを表示するアプリケーションへの集中度合いなどの小項目がさらに細かく設定されてもよい。算出部２３０は、例えば、コンテキストデータに含まれるユーザの視線、瞳孔、眼球、口の開口状態などの情報に基づいて、集中状態に係るパラメータを更新することができる。算出部２３０が有する上記の機能によれば、例えば、ユーザがテキストやアプリケーションに集中している際には、表示単位の情報量を増やしたり、表示間隔を早めるなどの制御を行うことが可能となる。

　また、上記の緊張状態には、例えば、まばたきの回数や、心拍数、脳波の乱れ具合、視線のふらつき度合い、または呼吸数などの小項目がさらに細かく設定されてもよい。算出部２３０は、状態解析部２２０が解析したコンテキストデータに基づいて、緊張状態に係るパラメータを更新することができる。算出部２３０が有する上記の機能によれば、例えば、ユーザが過度に緊張している際には、表示単位の情報量を減らしたり、表示間隔を長く設定するなどの制御を行うことが可能となる。

　また、上記の操作状態には、例えば、所定時間の間にユーザがアプリケーションに対し入力した操作数などの小項目がさらに細かく設定されてもよい。算出部２３０は、情報処理端末１０から送信されるアプリケーション情報に基づいて、操作状態に係るパラメータを更新することができる。算出部２３０が有する上記の機能によれば、例えば、ユーザがアプリケーションに対する操作を多く行っている際には、表示単位の情報量を減らしたり、表示間隔を長く設定するなどの制御を行うことが可能となる。上記の制御は、例えば、テキスト表示機能を持つゲームアプリケーションなどでユーザがゲーム操作を行いながらテキストの確認を行う場合に特に有効である。

　また、上記の発話状態には、例えば、興奮度合いなどの感情強度や、全体の発話量などの小項目がさらに設定されてもよい。算出部２３０は、音響解析部２１０が解析したコンテキストデータに基づいて、発話状態に係るパラメータを更新することができる。算出部２３０が有する上記の機能によれば、例えば、ユーザが興奮している際には、表示間隔を早めることで、ユーザがゆっくりとした表示に対し不満を持つことを回避することが可能となる。

　また、上記の忙しさの状態には、例えば、発話の入力スピード、発話のピッチ、体全体の動作度合い、ジェスチャの度合いなどの小項目がさらに設定されてもよい。算出部２３０は、音響解析部２１０や状態解析部２２０が解析したコンテキストデータに基づいて、忙しさの状態に係るパラメータを更新することができる。算出部２３０が有する上記の機能によれば、例えば、急いでいるユーザに対しては表示間隔を早めたり、運動を行っているユーザには、表示間隔を長く設定するなどの制御が可能となる。

　図１０は、本実施形態に係るユーザコンテキストおよびユーザプロパティに関するコンテキスト管理テーブルの一例を示す図である。図１０に示す一例の場合、ユーザコンテキストに関するコンテキスト管理テーブルは、一日における音声入力やアプリケーションの利用時間、音声入力の習熟度などの項目を含んでいる。算出部２３０は、情報処理端末１０から受信するアプリケーション情報に基づいて、上記のようなパラメータを更新することができる。算出部２３０が有する上記の機能によれば、例えば、一日における音声入力やアプリケーションの利用時間が長い場合には、ユーザの疲労を考慮して表示間隔を長く設定したり、習熟度の高いユーザに対しては、表示間隔を早めるなどの制御を行うことが可能となる。

　また、図１０に示す一例の場合、ユーザプロパティに関するコンテキスト管理テーブルは、年齢、性別、母国語などの項目を含んでいる。算出部２３０は、例えば、アプリケーション上でユーザにより入力された情報に基づいて、上記のような項目を都度追加してもよい。算出部２３０が有する上記の機能によれば、例えば、高齢者やアプリケーション言語と母国語が異なるユーザに対しては、表示間隔を長く設定するなどの制御が可能となる。

　図１１は、本実施形態に係るアプリケーションコンテキストに関するコンテキスト管理テーブルの一例を示す図である。図１１に示す一例の場合、アプリケーションコンテキストに関するコンテキスト管理テーブルは、アプリケーションが出力する音情報の音量、アプリケーションの同時利用人数、テキスト修正の重要度、テキストフィールド以外の画面変化の度合い、アプリケーションにおける現在シーンの重要度、音声出力の併用有無、テキストの表示位置、テキストフィールドの属性（横幅、縦幅の大きさなど）、既存テキスト有無、テキスト送付相手の属性などの項目を含んでいる。算出部２３０は、情報処理端末１０から受信するアプリケーション情報などに基づいて、上記のようなパラメータを更新することができる。

　算出部２３０が有する上記の機能によれば、例えば、アプリケーションから出力される背景音楽や効果音が大きい場合や、同時利用人数が多い場合、アプリケーションにおける現シーンが重要なシーンを迎えている場合（例えば、ゲームアプリケーションにおける強敵との戦闘など）、動画など画面変化の大きい出力がなされている場合などには、ユーザがテキスト以外の事象に気を取られることを想定して、情報量の少ない表示単位や長めの表示間隔を設定するなどの制御が可能になる。

　また、例えば、音声認識アプリケーションにおいて、認識されるテキストの精度が重要となる場合や、テキストの送付先相手が上長や顧客など重要な相手である場合には、ユーザがより慎重にテキストを確認することを想定し、情報量の少ない表示単位や長めの表示間隔を設定するなどの制御が可能になる。

　また、本実施形態に係る算出部２３０によれば、例えば、テキストの表示位置や大きさ、配色などを考慮した表示単位、表示間隔、表示効果を設定することが可能となる。

　図１２は、本実施形態に係る文字コンテキストに関するコンテキスト管理テーブルの一例を示す図である。図１２には、算出部２３０が対象テキストに含まれる単語単位でパラメータを更新する場合の一例が示されている。上記のパラメータの一例としては、文字数、用語タイプ、発話速度、発話ピッチ、感情（例えば、興奮状態など）が挙げられる。

　算出部２３０が有する上記の機能によれば、例えば、文字数に応じた単語の組み合わせにより表示単位を設定する制御が可能となる。算出部２３０は、人間が一度に知覚しやすい文字数を上限として表示単位を設定してもよい。例えば、対象テキストが日本語で構成される場合、算出部２３０は、表示単位が１３文字程度となるように単語を組み合わせることができる。また、算出部２３０は、全体の文字量が多い場合には、後半になるにつれて、表示間隔を短く設定してもよい。

　また、本実施形態に係る算出部２３０によれば、例えば、対象テキストに含まれる用語タイプに応じた表示単位、表示間隔、表示効果を設定することが可能となる。上記の用語タイプには、例えば、新語、略語、固有名詞、専門用語、トレンド用語、外国語などが含まれる。算出部２３０は、例えば、対象テキストに新語やユーザに馴染みのない外国語表現（例えば、Ｂｏｎｊｏｕｒ、など）が含まれる場合には、情報量の少ない表示単位や長めの表示間隔を設定してもよい。一方、対象テキストに含まれる略語や固有名詞、専門用語、トレンド用語などをユーザが過去に使用（入力）している場合などには、算出部２３０は、当該用語はユーザにとって可読性が高いと判定し、表示単位や表示間隔を設定してもよい。

　また、本実施形態に係る算出部２３０によれば、例えば、対象テキストに含まれる単語ごとの発話速度、発話ピッチ、感情などに基づいて、表示単位や表示間隔を設定することも可能である。算出部２３０は、音響解析部２１０が解析するコンテキストデータに基づいて上記の各パラメータを更新することができる。

　以上、本実施形態に係る算出部２３０による認識困難性スコアの算出について、詳細に説明した。上述したように、本実施形態に係る算出部２３０は、種々の情報に関するコンテキストデータに基づいて、コンテキスト管理テーブルの各パラメータを更新することができる。また、本実施形態に係る算出部２３０は、更新したコンテキスト管理テーブルのパラメータを用いて、要素ごとや全体に係る認識困難性スコアを算出してよい。また、算出部２３０は、算出した認識困難性スコアを情報処理端末１０との通信に適したフォーマットに加工してもよい。

　図１３は、本実施形態に係る認識困難性スコアのフォーマットの一例である。図１３に示す一例の場合、算出部２３０は、算出した認識困難性スコアをＪａｖａｓｃｒｉｐｔ（登録商標）　Ｏｂｊｅｃｔ　Ｎｏｔａｔｉｏｎ（ＪＳＯＮ）形式に加工している。図１３に示すように、当該フォーマットには、全体や要素ごとの認識困難性スコアの情報が含まれている。算出部２３０が図示のように認識困難性スコアを加工することにより、複数の情報処理端末１０に共通のフォーマットを以って認識困難性スコアを送信することが可能となる。

　また、上記のフォーマットデータを受信した情報処理端末１０は、アプリケーションに応じて利用する認識困難性スコアを適宜採択してもよい。例えば、情報処理端末１０は、フォーマットに含まれる全体スコアを用いて表示単位や表示間隔を設定してもよい。また、情報処理端末１０は、例えば、フォーマットに含まれるユーザ状態のスコアのみを用いて表示単位や表示間隔を設定することも可能である。

　また、情報処理サーバ２０の端末通信部２７０は、上記のフォーマットに加工された認識困難性スコアと共に、算出部２３０が設定した表示単位や表示間隔などの情報を情報処理端末１０に送信してもよい。この場合、情報処理端末１０は、表示効果については、認識困難性スコアに基づいて設定するなど、受信した情報に応じた表示制御を行うことができる。なお、図１３では、算出部２３０が認識困難性スコアをＪＳＯＮ形式に加工する場合の例を示したが、本実施形態に係る算出部２３０は、例えば、認識困難性スコアをＸＭＬ（ｅＸｔｅｎｓｉｂｌｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）やその他の汎用フォーマット、または独自フォーマットに加工してもよい。

　続いて、上記のように本実施形態に係る認識困難性スコアに基づく表示単位、表示間隔、表示効果の設定について具体例を挙げて説明する。図１４は、認識困難性スコアに基づいて設定される表示単位、表示間隔、表示効果の一例を示す図である。図１４に示す一例の場合、算出部２３０や情報処理端末１０の制御部１２０は、認識困難性スコアに基づいて、表示単位が１５文字以内となるように表示単位を設定している。また、算出部２３０や情報処理端末１０の制御部１２０は、認識困難性スコアに基づいて、表示間隔を０．２～０．５ｓｅｃの間で設定している。このように、本実施形態に係る情報処理サーバ２０および情報処理端末１０によれば、ユーザやアプリケーション、対象テキストのコンテキストに応じたより柔軟なテキスト表示を制御することが可能となる。

　また、本実施形態に係る算出部２３０や制御部１２０は、認識困難性スコアに基づいて対象テキストに係る表示効果を設定してもよい。ここで、上記の表示効果には、文字の大きさ、色、装飾、フォント、表示位置などが含まれる。また、上記の表示効果には、対象テキストに含まれる単語の変換が含まれてもよい。図１４に示す一例の場合、固有名詞であるＳＨＩＮＪＵＫＵが大文字で変換されている。また、算出部２３０や制御部１２０は、例えば、ユーザが知識を有する専門用語などについては、略語に変換するなどして、表示する対象テキストの可読性を向上させることも可能である。さらには、対象テキストが日本語である場合、算出部２３０や制御部１２０は、漢字、カタカナ、ひらがなの量を調整することで、視認性や可読性を向上させることもできる。また、算出部２３０や制御部１２０は、表示単位に含まれる文字数に応じてフォントを設定することで、例えば、文字間の間隔を調整するなどの制御を行ってもよい。

　なお、算出部２３０や制御部１２０により設定された表示単位、表示間隔、表示効果は、ユーザにより保存され、また再利用されてもよい。また、算出部２３０や制御部１２０は、ユーザにより入力されたフィードバックに基づいて、表示単位、表示間隔、表示効果を調整することも可能である。

　＜＜１．６．処理の流れ＞＞
　次に、本実施形態に係る情報処理サーバ２０および情報処理端末１０により実現される情報処理方法の流れについて詳細に説明する。図１５は、本実施形態に係る情報処理方法の流れを示すフローチャートである。

　図１５を参照すると、本実施形態に係る情報処理方法では、まず、ユーザコンテキストの取得（Ｓ１１０１）、およびユーザプロパティの取得（Ｓ１１０２）が実行される。

　続いて、アプリケーションコンテキストの取得開始（Ｓ１１０３）、およびユーザ状態の取得開始が行われる（Ｓ１１０４）。アプリケーションコンテキストおよびユーザ状態は、比較的短期間において変化し得るコンテキストデータであることが想定されるため、本実施形態に係る情報処理方法では、上記２つのコンテキストデータを継続的に取得することで、より柔軟な対象テキストの表示制御を実現することができる。

　続いて、ステップＳ１１０１～Ｓ１１０４において取得されたコンテキストデータに基づいて、コンテキスト管理テーブルが更新され、認識困難性スコアが算出される（Ｓ１１０５）。

　続いて、ステップＳ１１０５において算出された認識困難性スコアに基づいて、対象テキストごとの表示制御が実行される（Ｓ１１０６）。

　ここで、ステップＳ１１０６における対象テキストごとの表示制御の流れについて、より詳細に説明する。図１６は、本実施形態に係る表示制御の流れを示すフローチャートである。なお、以下の説明においては、本実施形態に係る情報処理端末１０および情報処理サーバ２０が音声認識により取得される対象テキストに係る表示制御を行う場合を例に述べる。

　図１６を参照すると、本実施形態に係る情報処理方法では、まず、音声入力が開始される（Ｓ１２０１）。

　次に、収集されたユーザの発話に基づいて、音声認識処理が実行され（Ｓ１２０２）、対象テキストの取得が行われる（Ｓ１２０３）。また、ステップＳ１２０３において取得された対象テキストに基づいて文字コンテキストが取得される（Ｓ１２０４）。

　また、ステップＳ１２０２～Ｓ１２０４に係る処理と並行して、ユーザ状態の取得Ｓ１２０５）、アプリケーションコンテキストの取得（Ｓ１２０６）、およびコンテキスト管理テーブルの更新（Ｓ１２０７）が継続して実行される。

　次に、算出部２３０による認識困難性スコアの算出が行われる（Ｓ１２０８）。

　次に、ステップＳ１２０８において算出された認識困難性スコアに基づいて、対象テキストに係る表示単位、表示間隔、表示効果が設定される（Ｓ１２０９）。なお、上記の処理は、上述したように、算出部２３０または制御部１２０により実行される。

　次に、ステップＳ１２０９において設定された表示効果に基づいて対象テキストの文字変換が実行される（Ｓ１２１０）。

　次に、ステップＳ１２０８において設定された表示単位、表示間隔、表示効果に基づく対象テキストの表示制御が実行される（Ｓ１２１１）。

　ステップＳ１２１１においては、設定された表示効果に基づく表示単位ごとの表示（Ｓ１２１２）、および表示間隔に応じた待機（Ｓ１２１３）、およびコンテキストデータのリアルタイム算出が、表示単位が存在する間、繰り返し実行される。

　図１７は、本実施形態に係るコンテキストデータのリアルタイム算出の流れを示すフローチャートである。図１７を参照すると、本実施形態に係るコンテキストデータのリアルタイム算出では、ユーザ状態の取得（Ｓ１３０１）、アプリケーションコンテキストの取得Ｓ１３０２）、コンテキスト管理テーブルの更新（Ｓ１３０３）、認識困難性スコアの算出（Ｓ１３０４）、および表示単位、表示間隔、表示効果の設定が繰り返し実行されることがわかる。すなわち、本実施形態に係る算出部２３０は、対象テキストの表示中に入力されるコンテキストデータに基づいて、認識困難性スコアを再算出することが可能である。本実施形態に係る算出部２３０が有する上記の機能によれば、対象テキストの表示中におけるコンテキストの変化に柔軟に対応した表示制御を実現することが可能となる。

　＜＜１．７．応用例＞＞
　次に、本実施形態に係る表示制御の応用例について述べる。上記では、情報処理サーバ２０および情報処理端末１０がメッセージアプリケーションやゲームアプリケーションに表示される対象テキストの表示制御を行う場合を例に述べたが、本実施形態に係る技術思想は、種々の装置、アプリケーションに適用され得る。

　例えば、本実施形態に係る技術思想は、音声エージェントなどに適用することも可能である。図１８Ａおよび図１８Ｂは、本実施形態に係る技術思想を音声エージェントに適用した場合の一例を示す図である。図１８Ａおよび図１８Ｂには、情報処理端末１０と、高齢者であるユーザＵ２および年少者であるユーザＵ３とが示されている。ここで、情報処理端末１０は、スケジュール管理機能およびプロジェクション機能を有し、音声によりユーザとの対話を行う音声エージェントであってよい。

　例えば、図１８Ａに示すように、ユーザＵ２が登録されたスケジュールを尋ねる発話ＵＯ２を行った場合、情報処理端末１０は、発話ＵＯ２、およびユーザＵ２の状態に係るセンサ情報を収集し、情報処理サーバ２０に送信する。情報処理サーバ２０は、受信した情報と記憶するユーザＵＯ２の情報とに基づいて認識困難性スコアを算出し、また、音声認識により対象テキストＴ２を生成する。また、情報処理サーバ２０は、生成した対象テキストＴ２に基づいてスケジュールを検索し、情報処理端末１０によるシステム発話ＳＯ１を行わせるための人工音声を合成してよい。

　続いて、情報処理サーバ２０は、算出した認識困難性スコアと合成した人工音声とを情報処理端末１０に送信する。続いて、情報処理端末１０は、受信した認識困難性スコアに基づいて、対象テキストＴ２の表示単位、表示間隔、表示効果を設定し、プロジェクション機能により対象テキストＴ２の表示制御を行う。図１８Ａに示す一例の場合、情報処理端末１０は、ユーザＵ２の位置や目線、年齢などに基づいて算出された認識困難性スコアに基づいて、ユーザＵ２にとって認識がしやすい位置に、比較的大きな文字で対象テキストＴ２を表示させている。また、情報処理端末１０は、受信した人工音声によるシステム発話ＳＯ１を出力する。

　また、図１８Ｂに示すように、ユーザＵ３がスケジュールの登録を指示する発話ＵＯ３を行った場合にも同様に、情報処理端末１０は、発話ＵＯ３、およびユーザＵ３の状態に係るセンサ情報を収集し、情報処理サーバ２０に送信する。

　また、情報処理端末１０は、図１８Ａの場合と同様に、生成された対象テキスト、および算出された認識困難性スコアに基づいて、対象テキストＴ３に係る表示制御を実行する。図１８Ｂに示す一例の場合、情報処理端末１０は、ユーザＵ３の位置や目線、年齢などに基づいて算出された認識困難性スコアに基づいて、ユーザＵ３にとって認識がしやすい位置に、通常の文字の大きさで対象テキストＴ２を表示させている。なお、情報処理端末１０は、指向性を有するマイクアレイやビームフォーミング機能を実現するための指向性アンテナを備えることで、ユーザの位置に応じた入出力の精度を一層に高めることも可能である。

　以上、説明したように、本実施形態に係る技術思想は、複数のユーザが同時に利用する音声画エージェントなどにも適用することが可能である。このために、本実施形態に係る算出部２３０は、複数のユーザに係るコンテキストデータに基づいて、認識困難性スコアを算出してよい。より具体的には、本実施形態に係る算出部２３０は、ユーザごとに認識困難性スコアを算出することが可能である。本実施形態に係る算出部２３０が有する上記の機能によれば、ユーザごとのコンテキストに応じたより柔軟な表示制御を実現することができる。

　また、例えば、本実施形態に係る技術思想は、映画などの動画と共に出力される字幕制御などに適用することも可能である。図１９Ａ～図１９Ｃは、本実施形態に係る技術思想を字幕制御に適用した場合の一例を示す図である。図１９Ａ～図１９Ｃには、表示装置などにより再生される動画Ｍ１と、高齢者であるユーザＵ２および年少者であるＵ３とが示されている。また、ユーザＵ２およびＵ３は、それぞれ眼鏡型ウェアラブルデバイスである情報処理端末１０ａおよび１０ｂを装着している。

　ここで、情報処理端末１０ａおよび１０ｂは、ＡＲ（Ａｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ）により動画Ｍ１に係る字幕の表示を制御する機能を有する。情報処理端末１０ａおよび１０ｂは、例えば、予め動画Ｍ１と同期して用意された字幕を重畳表示させる機能を有してもよいし、動画Ｍ１におけるスクリプトＬ１やＬ２に対応する音声出力を検出し、当該音声出力から認識された対象テキスト、すなわち字幕を重畳表示させる機能を有してもよい。

　この際、ユーザＵ２が装着する情報処理端末１０ａは、ユーザＵ２に係るセンサ情報を情報処理サーバ２０に送信し、算出された認識困難性スコアを受信することで、ユーザＵ１に適した字幕の表示制御を行うことができる。情報処理端末１０ａは、例えば、図１９Ｂに示すように、高齢者であるユーザＵ２にとって認識のしやすい文字の大きさで字幕（対象テキストＴ４）を表示させてもよい。

　同様に、ユーザＵ３が装着する情報処理端末１０ｂは、ユーザＵ３に係るセンサ情報を情報処理サーバ２０に送信し、算出された認識困難性スコアを受信することで、ユーザＵ３に適した字幕の表示制御を行う。情報処理端末１０は、例えば、図１９Ｂに示すように、年少者であるユーザＵ３にとって認識しやすいように、簡易な表現を用いた字幕（対象テキストＴ５）を表示させてもよい。

　以上説明したように、本実施形態に係る技術思想は種々の応用が可能である。本実施形態に係る技術思想は、音声テキスト入力機能、翻訳機能、議事録生成機能、ＯＣＲ（Ｏｐｔｉｃａｌ　Ｃｈａｒａｃｔｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ）文字認識機能、音声制御機能などを有する装置やアプリケーションに適用され得る。

　＜２．ハードウェア構成例＞
　次に、本開示の一実施形態に係る情報処理端末１０および情報処理サーバ２０に共通するハードウェア構成例について説明する。図２０は、本開示の一実施形態に係る情報処理端末１０および情報処理サーバ２０のハードウェア構成例を示すブロック図である。図２０を参照すると、情報処理端末１０および情報処理サーバ２０は、例えば、ＣＰＵ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（ＣＰＵ８７１）
　ＣＰＵ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、ＣＰＵ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、ＣＰＵ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　ＣＰＵ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

　（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　＜３．まとめ＞
　以上説明したように、本実施形態に係る情報処理サーバ２０は、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する機能を有する。係る構成によれば、状況により柔軟に対応した可読性の高いテキスト表示を実現することが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　また、本明細書の情報処理方法に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理方法に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する算出部、
　を備える、
情報処理装置。
（２）
　前記対象テキストの表示制御に用いられる表示制御情報を送信する通信部、
　をさらに備える、
前記（１）に記載の情報処理装置。
（３）
　前記通信部は、前記認識困難性スコアを送信する、
前記（２）に記載の情報処理装置。
（４）
　前記算出部は、前記認識困難性スコアに基づいて前記対象テキストに係る表示単位または表示間隔のうち少なくともいずれかを決定し、
　前記通信部は、前記表示単位または前記表示間隔のうち少なくともいずれかに関する情報を送信する、
前記（２）または（３）に記載の情報処理装置。
（５）
　前記算出部は、前記認識困難性スコアに基づいて前記対象テキストに係る表示効果を決定し、
　前記通信部は、前記表示効果に関する情報を送信する、
前記（２）～（４）のいずれかに記載の情報処理装置。
（６）
　前記通信部は、前記認識困難性スコアに基づく前記対象テキストの表示制御信号を送信する、
前記（２）～（５）のいずれかに記載の情報処理装置。
（７）
　前記通信部は、前記対象テキストを送信する、
前記（２）～（６）のいずれかに記載の情報処理装置。
（８）
　前記コンテキストデータは、少なくともユーザの状態に関する情報を含み、
　前記算出部は、少なくとも前記ユーザの状態に関する情報に基づいて、前記認識困難性スコアを算出する、
前記（１）～（７）のいずれかに記載の情報処理装置。
（９）
　前記コンテキストデータは、少なくともアプリケーションコンテキストに関する情報を含み、
　前記算出部は、少なくとも前記アプリケーションコンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
前記（１）～（８）のいずれかに記載の情報処理装置。
（１０）
　前記コンテキストデータは、少なくともユーザコンテキストに関する情報を含み、
　前記算出部は、少なくとも前記ユーザコンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
前記（１）～（９）のいずれかに記載の情報処理装置。
（１１）
　前記コンテキストデータは、少なくともユーザプロパティに関する情報を含み、
　前記算出部は、少なくとも前記ユーザプロパティに関する情報に基づいて、前記認識困難性スコアを算出する、
前記（１）～（１０）のいずれかに記載の情報処理装置。
（１２）
　前記コンテキストデータは、少なくとも文字コンテキストに関する情報を含み、
　前記算出部は、少なくとも前記文字コンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
前記（１）～（１１）のいずれかに記載の情報処理装置。
（１３）
　前記コンテキストデータは、少なくとも前記対象テキストに含まれる語彙の特性に関する情報を含み、
　前記算出部は、少なくとも前記語彙の特性に関する情報に基づいて、前記認識困難性スコアを算出する、
前記（１２）に記載の情報処理装置。
（１４）
　前記算出部は、前記対象テキストの表示中に入力される前記コンテキストデータに基づいて、前記認識困難性スコアを再算出する、
前記（１）～（１３）のいずれかに記載の情報処理装置。
（１５）
　前記算出部は、複数のユーザに係るコンテキストデータに基づいて、前記認識困難性スコアを算出する、
前記（１）～（１４）のいずれかに記載の情報処理装置。
（１６）
　前記算出部は、前記ユーザごとに前記認識困難性スコアを算出する、
前記（１５）に記載の情報処理装置。
（１７）
　前記算出部は、前記認識困難性スコアに基づいて前記対象テキストの表示に係る表示制御信号を生成する、
前記（１）～（１６）のいずれかに記載の情報処理装置。
（１８）
　前記対象テキストは、収集された音声に基づき生成される、
前記（１）～（１７）のいずれかに記載の情報処理装置。
（１９）
　プロセッサが、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出すること、
　を含む、
情報処理方法。

　１０　　　情報処理端末
　１１０　　入力部
　１２０　　制御部
　１３０　　出力部
　１４０　　サーバ通信部
　２０　　　情報処理サーバ
　２１０　　音響解析部
　２２０　　状態解析部
　２３０　　算出部
　２４０　　用語ＤＢ
　２５０　　記憶部
　２６０　　音声合成部
　２７０　　端末通信部

Claims

　入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する算出部、
　を備える、
情報処理装置。
　前記対象テキストの表示制御に用いられる表示制御情報を送信する通信部、
　をさらに備える、
請求項１に記載の情報処理装置。
　前記通信部は、前記認識困難性スコアを送信する、
請求項２に記載の情報処理装置。
　前記算出部は、前記認識困難性スコアに基づいて前記対象テキストに係る表示単位または表示間隔のうち少なくともいずれかを決定し、
　前記通信部は、前記表示単位または前記表示間隔のうち少なくともいずれかに関する情報を送信する、
請求項２に記載の情報処理装置。
　前記算出部は、前記認識困難性スコアに基づいて前記対象テキストに係る表示効果を決定し、
　前記通信部は、前記表示効果に関する情報を送信する、
請求項２に記載の情報処理装置。
　前記通信部は、前記認識困難性スコアに基づく前記対象テキストの表示制御信号を送信する、
請求項２に記載の情報処理装置。
　前記通信部は、前記対象テキストを送信する、
請求項２に記載の情報処理装置。
　前記コンテキストデータは、少なくともユーザの状態に関する情報を含み、
　前記算出部は、少なくとも前記ユーザの状態に関する情報に基づいて、前記認識困難性スコアを算出する、
請求項１に記載の情報処理装置。
　前記コンテキストデータは、少なくともアプリケーションコンテキストに関する情報を含み、
　前記算出部は、少なくとも前記アプリケーションコンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
請求項１に記載の情報処理装置。
　前記コンテキストデータは、少なくともユーザコンテキストに関する情報を含み、
　前記算出部は、少なくとも前記ユーザコンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
請求項１に記載の情報処理装置。
　前記コンテキストデータは、少なくともユーザプロパティに関する情報を含み、
　前記算出部は、少なくとも前記ユーザプロパティに関する情報に基づいて、前記認識困難性スコアを算出する、
請求項１に記載の情報処理装置。
　前記コンテキストデータは、少なくとも文字コンテキストに関する情報を含み、
　前記算出部は、少なくとも前記文字コンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
請求項１に記載の情報処理装置。
　前記コンテキストデータは、少なくとも前記対象テキストに含まれる語彙の特性に関する情報を含み、
　前記算出部は、少なくとも前記語彙の特性に関する情報に基づいて、前記認識困難性スコアを算出する、
請求項１２に記載の情報処理装置。
　前記算出部は、前記対象テキストの表示中に入力される前記コンテキストデータに基づいて、前記認識困難性スコアを再算出する、
請求項１に記載の情報処理装置。
　前記算出部は、複数のユーザに係るコンテキストデータに基づいて、前記認識困難性スコアを算出する、
請求項１に記載の情報処理装置。
　前記算出部は、前記ユーザごとに前記認識困難性スコアを算出する、
請求項１５に記載の情報処理装置。
　前記算出部は、前記認識困難性スコアに基づいて前記対象テキストの表示に係る表示制御信号を生成する、
請求項１に記載の情報処理装置。
　前記対象テキストは、収集された音声に基づき生成される、
請求項１に記載の情報処理装置。
　プロセッサが、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出すること、
　を含む、
情報処理方法。