WO2018139283A1

WO2018139283A1 - 画像処理装置および方法、並びにプログラム

Info

Publication number: WO2018139283A1
Application number: PCT/JP2018/001093
Authority: WO
Inventors: 尚尊小代; 義行小林
Original assignee: ソニー株式会社
Priority date: 2017-01-30
Filing date: 2018-01-17
Publication date: 2018-08-02
Also published as: US20190387271A1

Abstract

本技術は、ストリームの切り替え時の応答速度を向上させることができるようにする画像処理装置および方法、並びにプログラムに関する。画像処理装置は、第１の再生データに基づく再生から、第１の再生データとは異なる第２の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの第１の再生データと、第１の再生データの再生中の再生時刻から、既に取得された第１の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、開始時刻以降の第２の再生データとを保持する保持部を備える。本技術はクライアント装置に適用することができる。

Description

画像処理装置および方法、並びにプログラム

　本技術は画像処理装置および方法、並びにプログラムに関し、特に、ストリームの切り替え時の応答速度を向上させることができるようにした画像処理装置および方法、並びにプログラムに関する。

　例えばMPEG-DASH（Moving Picture Experts Group phase - Dynamic Adaptive Streaming over HTTP）ストリーミング再生において、Bitrate Adaptationをはじめ再生中にストリームの切り替えが発生する際、切り替えはセグメント（Segment）の境界において行われる（例えば、非特許文献１参照）。すなわち、セグメントの途中での切り替えは想定されていない。

　例えばセグメント長が10秒であれば、10秒に１回の頻度で切り替えが可能となる。多視点配信をMPEG-DASHで実現する場合においてもこの制約は同様であり、視点切り替え可能な境界の発生頻度はセグメントの再生時間に依存する。

　また、MPEG-DASHストリーミングにおける映像と音声の再生は同時刻に映像と音声それぞれ１系統のみの１デコーダモデルが基本である。

ISO/IEC 23009-1:2014 Information technology -- Dynamic adaptive streaming over HTTP (DASH) -- Part 1: Media presentation description and segment formats

　しかしながら、上述した技術では、ストリームの切り替え、つまりコンテンツの表示の切り替えの際には、セグメント境界位置での切り替えによって遅延が発生してしまう。

　本技術は、このような状況に鑑みてなされたものであり、ストリームの替え時の応答速度を向上させることができるようにするものである。

　本技術の一側面の画像処理装置は、第１の再生データに基づく再生から、前記第１の再生データとは異なる第２の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第１の再生データと、前記第１の再生データの前記再生中の再生時刻から、既に取得された前記第１の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第２の再生データとを保持する保持部を備える。

　画像処理装置には、前記開始時刻以降の前記第２の再生データを取得する取得部をさらに設けることができる。

　前記保持部には、前記第２の再生データの取得開始前または取得開始後に、前記所定の再生時刻よりも後の再生時刻の前記第１の再生データを破棄させることができる。

　前記第１の再生データおよび前記第２の再生データを、同じコンテンツの互いに異なる視点の再生データとすることができる。

　前記第１の再生データおよび前記第２の再生データを、映像データまたは音声データとすることができる。

　前記取得部には、所定時間単位分ずつ前記第２の再生データを取得させることができる。

　前記所定時間単位をセグメントとすることができる。

　前記取得部には、前記再生中の再生時刻から前記開始時刻までの前記第１の再生データの再生時間よりも、前記開始時刻を先頭とする前記所定時間単位の前記第２の再生データの取得に必要な時間が短くなるように前記開始時刻を選択させることができる。

　前記取得部には、再生中の前記所定時間単位の前記第１の再生データと同じ再生時刻の前記所定時間単位の前記第２の再生データである同時刻再生データの取得に必要な時間と、前記同時刻再生データの取得後、前記同時刻再生データのデコードが前記第１の再生データの再生に追いつくまでに必要な時間との和が、前記再生中の再生時刻から、再生中の前記所定時間単位の前記第１の再生データの再生が終了するまでの再生時間よりも短い場合、前記同時刻再生データの先頭位置を前記開始時刻として前記第２の再生データを取得させることができる。

　前記取得部には、前記開始時刻を先頭とする前記所定時間単位の前記第２の再生データとして、再生中の前記第１の再生データのビットレートよりも低いビットレートの前記第２の再生データを取得させ、その後、取得される前記第２の再生データのビットレートが増加していくように、前記所定時間単位のより高いビットレートの前記第２の再生データを取得させることができる。

　画像処理装置には、前記再生中の再生時刻から前記所定の再生時刻までの間の再生時刻において、出力する再生データを前記第１の再生データから前記第２の再生データへと切り替える出力部をさらに設けることができる。

　前記出力部には、映像データである前記第１の再生データから前記第２の再生データへの出力の切り替えのタイミングと、音声データである前記第１の再生データから前記第２の再生データへの出力の切り替えのタイミングとが略同じとなるように制御させることができる。

　前記取得部には、映像データと音声データとで、同じ再生時刻の前記第１の再生データおよび前記第２の再生データが保持される期間の少なくとも一部が重なるように制御させることができる。

　画像処理装置には、前記保持部に保持されている同じ再生時刻の前記第１の再生データと前記第２の再生データとに基づいてエフェクト処理を行い、前記エフェクト処理により得られた再生データを出力する出力部をさらに設けることができる。

　本技術の一側面の画像処理方法またはプログラムは、第１の再生データに基づく再生から、前記第１の再生データとは異なる第２の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第１の再生データと、前記第１の再生データの前記再生中の再生時刻から、既に取得された前記第１の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第２の再生データとを保持するステップを含む。

　本技術の一側面においては、第１の再生データに基づく再生から、前記第１の再生データとは異なる第２の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第１の再生データと、前記第１の再生データの前記再生中の再生時刻から、既に取得された前記第１の再生データの最後の再生時刻までの間の再生時刻が開始時刻として取得された、前記開始時刻以降の前記第２の再生データとが保持される。

　本技術の一側面によれば、ストリームの替え時の応答速度を向上させることができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

視点切り替えについて説明する図である。映像と音声の視点切り替え時のずれについて説明する図である。クライアント装置の構成例を示す図である。切り替え先のセグメントの選択について説明する図である。切り替え先のセグメントの選択について説明する図である。切り替え先のセグメントの選択について説明する図である。切り替え先のセグメントの選択について説明する図である。キャッシュ管理について説明する図である。キャッシュ管理について説明する図である。切り替え点の決定について説明する図である。ダウンロード処理を説明するフローチャートである。デコード処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、MPEG-DASHストリーミング配信において、多視点切り替え等の再生を行うにあたり、ストリームの切り替え時の応答速度を向上させることができるようにするものである。また、本技術によれば、ダウンロード処理やバッファ管理によって、視聴体験上発生する違和感を低減させることができるようになる。

　なお、本技術はMPEG-DASHストリーミング配信等の動画像再生の他、ＶＲ（Virtual Reality）などにも適用することが可能であるが、以下では本技術をMPEG-DASHストリーミング配信に適用した場合を例として説明を続ける。

　MPEG-DASHを多視点動画配信に適用した場合、セグメント境界で表示の切り替えが行われるという制約のため、リモートコマンダ等によるユーザからの切り替え要求が発生した時刻に対して、再生されている映像コンテンツが実際に切り替わるまでに遅延が発生する。例えばサーバのコンテンツ制作とクライアントプレーヤの実装次第では10秒以上の遅延が発生することも有り得る。

　例として、例えば図１に示すようにコンテンツの視点１のセグメントＳＧ１１における矢印Ａ１１に示す部分を再生しているときに、視点１から視点２への表示の切り替えが指示されたとする。また、この時点で視点１のストリームについてセグメントＳＧ１２の矢印Ａ１２に示す部分までダウンロードが完了しており、セグメントＳＧ１１からセグメントＳＧ１２の矢印Ａ１２に示す部分までがキャッシュ済みとなっているとする。なお、図１において横方向は時間を示しており、各四角形はセグメントを表している。

　通常、クライアント装置は１個以上のセグメントデータを事前にダウンロードしてキャッシュしておき、実際に再生するときはキャッシュから映像データや音声データをパースしながら取得してデコーダに供給し、その後描画処理等が行われる。

　ここで、セグメントデータのキャッシュ量についてはクライアント装置の実装により異なるが、現在再生中の時刻から先、少なくとも数秒から数十秒分程度はキャッシュするのが一般的である。

　また、表示の切り替えの際、視点１のキャッシュ済みのセグメントを全て再生してから視点２へと遷移することが一般的である。

　したがって、この例では、矢印Ａ１１に示す部分の再生中に視点２への切り替えが指示されると、クライアント装置ではセグメントＳＧ１２のダウンロードが完了した後、そのセグメントＳＧ１２に続く視点２のセグメントＳＧ１３のダウンロードが開始される。そして、視点１の映像データの再生がセグメントＳＧ１２の終端部分まで終了すると、表示が視点２へと切り替えられてセグメントＳＧ１３の先頭部分から映像データの再生が開始される。

　しかし、このように視点１のキャッシュ済みのセグメントの再生が終了してから視点２へと遷移していては、ユーザが切り替えの操作をしてから実際に表示が切り替わるまでのタイムラグが大きすぎて実用的ではない。この場合、タイムラグが大きくなるとユーザは切り替えの指示が正しく受け付けられたかが分からず、余計な操作をしてしまうことも有り得る。

　そこで、例えば表示切り替えの遅延を短くし、応答性（応答速度）を向上させる１つの方法として、配信サーバ側でコンテンツを制作する際に、例えば0.5秒などセグメント長を極端に短くすることが考えられる。この場合、表示の切り替えが可能なセグメント境界に到達する周期が短くなり、体感上の応答速度を速めることが可能である。

　しかし、この方法ではエンコード画質に影響が出て視聴品質が低下したり、セグメントデータの数が増えてサーバ側の処理やストレージ管理の負荷が増えたりするなどデメリットも多い。

　そこで、本技術では、コンテンツの配信側を現状のシステムのまま変更を加えることなく、新しいダウンロード管理およびキャッシュ管理の方法をクライアント装置に導入することで、表示切り替え時の応答速度を向上させることができるようにした。

　また、多視点映像配信においては、複数の映像視点に１種類の音声を付加する場合と、複数の映像視点ごとにそれらの映像にマッチした音声を用意する場合とがある。

　例えば前者はミュージックビデオなど、作品として鑑賞するようなものに対して適用されることが考えられ、後者はライブ配信など臨場感を重視するようなものに対して適用されることが考えられる。

　MPEG-DASHストリーミング再生において映像視点の切り替えに応じて音声も同時に切り替える場合、映像と音声の切り替え処理はそもそも別スレッド処理が基本であり、切り替えのタイミングはそれぞれ個別に計算され、決定される。よって、基本的に映像と音声の切り替わりのタイミングを同期させる想定がなく、切り替わり点には時間的なずれが生じることになる。

　例えば図２に示すように、コンテンツとして視点１の映像のセグメントＳＧ２１と、視点１の音声のセグメントＳＧ３１が同時に再生されているとする。

　なお、図２において横方向は時間を示しており、各四角形はセグメントを表している。また、図２において文字「ｋ」や「ｋ＋１」、「ｋ＋２」は映像のセグメントを識別するセグメントインデックスを示しており、文字「ｋ’」や「ｋ’＋１」、「ｋ’＋２」は音声のセグメントを識別するセグメントインデックスを示している。

　図２に示す例において、視点１のセグメントＳＧ２１の再生中に視点の切り替えが指示されたとする。このとき、映像についてはセグメントＳＧ２１が再生された後、矢印Ａ２１に示される位置において視点の切り替えが行われ、その後は視点２のセグメントＳＧ２２と、それに続いて視点２のセグメントＳＧ２３が再生されることになる。

　また、音声については、視点１のセグメントＳＧ３１が再生された後、矢印Ａ２２に示される位置において視点の切り替えが行われ、その後は視点２のセグメントＳＧ３２と、それに続いて視点２のセグメントＳＧ３３が再生されることになる。

　しかし、この例では映像のセグメントの境界位置と音声のセグメントの境界位置とが異なるため、視点１から視点２へと切り替えを行うときに映像と音声とで切り替え時刻にずれが生じてしまう。

　すなわち、この例では、映像は矢印Ａ２１に示す時刻で視点１から視点２へと切り替えられるが、音声については矢印Ａ２１に示す時刻では視点１が継続して再生された状態となっている。そして、その矢印Ａ２１に示す時刻よりも後の矢印Ａ２２に示す時刻となったときに、音声が視点１から視点２へと切り替えられる。したがって、映像と音声とで期間Ｔ１１の時間の長さだけ切り替え時刻にずれが生じることになる。

　一般的に、映像と音声とで意図的に視点の切り替わるセグメント境界位置が近い位置となるように合わせる処理が行われるような実装とされていたとしても、映像と音声はそれぞれサンプルレートが異なるため、セグメントを分割できるポイントもそれぞれのエンコード条件などにより異なる。したがって映像と音声とでセグメント境界の位置をコンテンツの制作時に同時刻とすること自体がそもそも困難である。

　このようなことから、セグメント境界での切り替えを前提とした実装では、映像と音声の切り替えタイミングを視聴体感上違和感ないレベルで合わせるのはほぼ不可能である。映像のセグメント境界と音声のセグメント境界とが偶然に違和感がない程度に近いタイミング（位置）となることはあっても、任意のタイミングで発生するユーザの操作に対して常時良好な結果が得られることはない。そのため、映像と音声の同時切り替えについては、セグメント境界で切り替えを行っている限り根本的な解決には至らない。

　そこで、本技術では、セグメントの途中でストリームの切り替えを実現することができるキャッシュ管理方法を導入することで、映像と音声の切り替えタイミングのずれを低減させ、コンテンツ視聴時の違和感を低減させることができるようにした。

　さらに、視聴体験としてコンテンツの映像視点が突然切り替わると、その切り替わりが編集映像なのか、またはユーザの操作に応答して切り替わったのかを判別することが難しい場合がある。

　特に近いカメラ視点同士で視点が切り替わる場合や、パン、チルト、ズームなどのカメラ操作やクレーン等によりカメラ位置自体が移動するなど、撮像しているカメラが動いている場合等においては、視聴者にとって視点が切り替わったのか元々の編集によるものであるかが非常に分かりづらい。そのため、ユーザが切り替わりを認識することができず、操作ボタンを何度も押してしまうことも起こり得る。このようにユーザがコンテンツ視聴以外のことに気を取られると視聴体験として没入感が損なわれることになる。

　これに対して、一般的に文字列やアイコンなどを画面にOSD（On Screen Display）表示することで切り替わりの告知を行うことが考えられるが、このようなOSD表示によってコンテンツ視聴時の没入感が損なわれてしまう可能性がある。

　そこで、本技術では、例えばクロスフェードやワイプといったトランジション効果などの数秒程度の映像エフェクトを施すことと、そのような映像エフェクトを実現するためのキャッシュ管理を導入することで、没入感を損なうことなくユーザが視点等の切り替わりを簡単に認識することができるようにした。

　また、音声が突然切り替わる場合にも音声の品質が低下し、没入感が損なわれてしまうことがある。例えば一般に相関が低い音声同士を接続すると不連続点でノイズが発生する可能性があるため、切り替え前後の音声の相関が低いと、ノイズの発生により再生音声の品質が低下してしまうことがある。

　そこで、本技術では映像における場合と同様のキャッシュ管理を導入することで、音声同士のクロスフェード等のノイズ対策用の音声エフェクトを実施できるようにし、没入感の損失を低減させることができるようにした。

〈クライアント装置の構成例〉
　次に、本技術を適用したクライアント装置のより具体的な実施の形態について説明する。

　図３は、本技術を適用したクライアント装置の一実施の形態の構成例を示す図である。

　図３に示すクライアント装置１１は、図示せぬサーバからコンテンツのセグメントデータをダウンロードし、映像と音声のうちの少なくとも映像からなるコンテンツの再生を制御する再生装置である。

　クライアント装置１１では、ダウンロードやその後の処理等、コンテンツの映像データや音声データといった再生データは、基本的にはセグメントと呼ばれる所定時間単位、つまり所定フレーム数単位で取り扱われる。

　また、クライアント装置１１により取得（ダウンロード）され、再生される各視点の再生データは、互いに対応する再生時刻を有し、互いに関連性のある再生データである。

　ここでは、各視点の再生データは、それぞれ同じコンテンツの互いに異なる視点の再生データとされるので、それらの再生データは同じコンテンツに関するものであるという関連性を有する。また、各視点の再生データは互いに同じ再生時刻の部分を有している。例えば、再生データが映像データであれば、各映像データの再生時刻はビデオセグメントデータに含まれているビデオフレームのCTS（Composition Time Stamp）などとされる。

　なお、クライアント装置１１で取り扱われる、再生の切り替え対象となる互いに異なる再生データは、各視点の再生データに限らず、互いに対応する再生時刻を有し、関連性のあるものであれば、どのようなものであってもよい。

　クライアント装置１１は、ユーザイベントハンドラ２１、メモリ２２、HTTP（Hypertext Transfer Protocol）ダウンロードマネージャ２３、MPD（Media Presentation Description）パーサ２４、保持部２５－１、保持部２５－２、保持部２５－３、保持部２５－４、セグメントパーサ２６、ビデオデコーダ２７－１、ビデオデコーダ２７－２、ビデオエフェクタ２８、オーディオデコーダ２９－１、オーディオデコーダ２９－２、およびオーディオエフェクタ３０を有している。

　ユーザイベントハンドラ２１は、ユーザによる視点の切り替えを指示する操作を受けたとき、その操作に応じた視点切り替え要求をメモリ２２に供給し、保持させる。

　メモリ２２は、ユーザイベントハンドラ２１から供給された視点切り替え要求を保持する。すなわち、メモリ２２は、供給された視点切り替え要求をイベントキューに入力（スタック）し、保持する。

　HTTPダウンロードマネージャ２３は、MPDパーサ２４の制御やメモリ２２に保持された視点切り替え要求に基づいて、サーバからMPDファイルをダウンロード（受信）してMPDパーサ２４に供給したり、サーバからセグメントデータをダウンロード（受信）して保持部２５－１乃至保持部２５－４の何れかに供給したりする。すなわち、HTTPダウンロードマネージャ２３は、サーバからセグメントデータ等を取得する取得部として機能する。

　ここで、MPDファイルはコンテンツの映像（動画像）や音声のセグメントデータを管理するためのメタデータが記述されたデータである。

　また、HTTPダウンロードマネージャ２３は、保持部２５－１乃至保持部２５－４におけるセグメントデータのキャッシュへのスタックを制御したり、キャッシュを管理したりする。

　MPDパーサ２４は、HTTPダウンロードマネージャ２３から供給されたMPDファイルに基づいてHTTPダウンロードマネージャ２３を制御し、サーバからセグメントデータをダウンロード（取得）させる。

　保持部２５－１乃至保持部２５－４は、例えばメモリなどからなり、HTTPダウンロードマネージャ２３から供給されたセグメントデータを一時的に保持し、セグメントパーサ２６に供給する。すなわち、保持部２５－１乃至保持部２５－４は、HTTPダウンロードマネージャ２３の制御に従って、セグメントデータのキャッシュへのスタックを行う。

　例えば保持部２５－１には、ビデオデコーダ２７－１に供給される映像データ（動画像データ）のセグメントデータが供給され、保持部２５－２には、ビデオデコーダ２７－２に供給される映像データのセグメントデータが供給される。

　また、例えば保持部２５－３には、オーディオデコーダ２９－１に供給される音声データのセグメントデータが供給され、保持部２５－４には、オーディオデコーダ２９－２に供給される音声データのセグメントデータが供給される。

　なお、以下、保持部２５－１乃至保持部２５－４を特に区別する必要のない場合、単に保持部２５とも称することとする。また、ここでは映像（ビデオ）や音声（オーディオ）ごとに合計４つの保持部２５が設けられる例について説明したが、これらの４つの保持部２５は１つのメモリにより実現されるようにしてもよい。

　セグメントパーサ２６は、保持部２５－１および保持部２５－２内のキャッシュにスタックされたセグメントデータ（セグメントファイル）を適宜、読み出して、セグメントデータから再生されるべき映像データを抽出し、ビデオデコーダ２７－１およびビデオデコーダ２７－２に供給する。

　また、セグメントパーサ２６は、保持部２５－３および保持部２５－４内のキャッシュにスタックされたセグメントデータを適宜、読み出して、セグメントデータから再生されるべき音声データを抽出し、オーディオデコーダ２９－１およびオーディオデコーダ２９－２に供給する。

　ビデオデコーダ２７－１およびビデオデコーダ２７－２は、セグメントパーサ２６から供給された映像データをデコードし、ビデオエフェクタ２８に供給する。なお、以下、ビデオデコーダ２７－１およびビデオデコーダ２７－２を特に区別する必要のない場合、単にビデオデコーダ２７とも称することとする。

　ビデオエフェクタ２８は、ビデオデコーダ２７から供給された映像データを、適宜、最終的に画像モニタ等の後段の装置に出力する形態のデータに加工し、その結果得られた映像データを提示用の映像データとして出力する。すなわち、ビデオエフェクタ２８は、提示用の映像データを出力する出力部として機能する。

　例えばビデオエフェクタ２８は、ビデオデコーダ２７から供給された映像データをそのまま提示用の映像データとして出力したり、ビデオデコーダ２７から供給された映像データにエフェクト処理を施し、その結果得られた映像データを提示用の映像データとして出力したりする。

　オーディオデコーダ２９－１およびオーディオデコーダ２９－２は、セグメントパーサ２６から供給された音声データをデコードし、オーディオエフェクタ３０に供給する。なお、以下、オーディオデコーダ２９－１およびオーディオデコーダ２９－２を特に区別する必要のない場合、単にオーディオデコーダ２９とも称することとする。

　オーディオエフェクタ３０は、オーディオデコーダ２９から供給された音声データを、適宜、最終的に音声DAC（Digital to Analog Converter）や増幅器等の後段の装置に出力する形態のデータに加工し、その結果得られた音声データを提示用の音声データとして出力する。すなわち、オーディオエフェクタ３０は提示用の音声データを出力する出力部として機能する。

　例えばオーディオエフェクタ３０は、オーディオデコーダ２９から供給された音声データをそのまま提示用の音声データとして出力したり、オーディオデコーダ２９から供給された音声データにエフェクト処理を施し、その結果得られた音声データを提示用の音声データとして出力したりする。

〈ダウンロードプロセスとキャッシュ管理について〉
　続いて、クライアント装置１１におけるセグメントデータのダウンロードプロセスとキャッシュ管理について説明する。

　クライアント装置１１では、コンテンツの視点切り替え時に、ユーザによる視点の切り替えを指示する操作がなされた時点から、より迅速に視点の切り替えが行われるようにするために、以下において説明するダウンロードプロセスとキャッシュ管理が行われる。

　すなわち、クライアント装置１１では、切り替え先の視点の適切なセグメントが選択されるダウンロードプロセスと、同時刻に再生される２視点分のセグメントデータを一定期間分だけ同時に保持するキャッシュ管理とが行われる。

　まず、クライアント装置１１において行われるダウンロードプロセスについて説明する。

　例えばコンテンツの再生時において、同一コンテンツの視点１のセグメントから視点２のセグメントへと再生の切り替えを行うとする。そのような場合、より早いタイミングでの切り替えを実現するためには、視点２のダウンロード対象となるセグメントの選択が重要である。

　クライアント装置１１では、例えば図４に示すように視点１の既キャッシュ分全てを再生せず速やかに視点２に移行するために、ユーザの切り替え要求発生後、直ちに視点１のセグメントデータのダウンロードが停止される。なお、図４において横方向は時間、特にコンテンツの再生時刻を示しており、各四角形はセグメントを表している。

　この例では、視点１については、現時点ではセグメントＳＧ４１の矢印Ａ４１に示す部分を再生中でとなっている。つまり、セグメントＳＧ４１のセグメントデータに基づいて、視点１の映像の矢印Ａ４１に示す再生時刻の部分が再生されているとする。

　また、セグメントＳＧ４１乃至セグメントＳＧ４３を含む複数のセグメント、およびセグメントＳＧ４４の一部のダウンロードが完了している。さらに、現時点ではセグメントＳＧ４４の矢印Ａ４２に示す部分のセグメントデータがダウンロード中となっている。

　このような状態で視点１から視点２への切り替え要求がなされると、クライアント装置１１では、セグメントＳＧ４４のダウンロードが停止されるとともに視点２のダウンロード対象とする最初のセグメントが決定（選択）される。そして、その決定に従って視点２のセグメントのダウンロードが開始される。以下では、切り替え後の視点の最初にダウンロードされるセグメントを開始セグメントとも称することとする。

　ここでは、現在再生中である視点１のセグメントＳＧ４１と同じ再生時刻の視点２のセグメントがセグメントＳＧ５１となっている。

　例えば、この例では現在再生中である視点１のセグメントＳＧ４１の次のセグメントＳＧ４２と再生時刻が同じである視点２のセグメントＳＧ５２と、そのセグメントＳＧ５２の次のセグメントＳＧ５３とがダウンロード対象の開始セグメントの候補とされる。

　現在再生中である視点１のセグメントＳＧ４１の再生が終了間際であるなど、開始セグメントの最初の候補となる視点２のセグメントのダウンロードがセグメントＳＧ４１の再生終了までに完了しない場合には、その１つ後のセグメントが候補とされる。

　したがって、この例では、例えば視点２の開始セグメントの最初の候補となるセグメントＳＧ５２のダウンロードが、視点１のセグメントＳＧ４１の再生終了までに完了しない場合には、次のセグメントＳＧ５３が開始セグメントの候補とされることになる。

　なお、視点１から視点２へと迅速に再生の切り替えを行うには、現在再生中のセグメントＳＧ４１と再生時刻が同じである視点２のセグメントＳＧ５１から、これまでダウンロードされていた視点１のセグメントＳＧ４４と再生時刻が同じである視点２のセグメントＳＧ５４までの間のセグメントが開始セグメントとされればよい。

　換言すれば、HTTPダウンロードマネージャ２３において、セグメントＳＧ４１の現在再生中である再生時刻から、セグメントＳＧ４４の既にダウンロード（取得）されて保持部２５に保持されている最後の再生時刻までの間の適切な再生時刻が開始時刻として選択されるようにすればよい。この場合、選択された開始時刻を先頭とする視点２のセグメントが開始セグメントとされて、その開始セグメント以降のセグメントのセグメントデータがダウンロードされる。

　ここで、図５乃至図７を参照して、開始セグメントの決定についてさらに詳細に説明する。なお、図５乃至図７において図４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　例えば図５に示すように視点２のセグメントＳＧ５２とセグメントＳＧ５３が開始セグメントの候補となっているとする。セグメントＳＧ４１の現在再生されている位置（再生時刻）を再生点とも称し、再生が視点２へと切り替わる位置（再生時刻）を切り替え点とも称することとする。この例では、切り替え点は、切り替え先の視点の最初に取得されるセグメントデータの先頭位置となる再生時刻、つまりセグメントデータの取得が開始される再生時刻（開始時刻）であるということができる。

　なお、切り替え点は切り替え先の視点のセグメントの先頭位置とされてもよいし、切り替え先の視点のセグメントの途中の位置とされてもよい。

　また、現在再生中の再生時刻である再生点から、開始セグメントの候補が実際の開始セグメントとされたときの切り替え点までの間の切り替え元（切り替え前）の視点のコンテンツの再生時間を再生時間dur_vp1とも称することとする。さらに、開始セグメントの候補とされるセグメントのセグメントデータのダウンロードに必要となる時間をダウンロード時間dur_vp2とも称することとする。

　図５では、セグメントＳＧ５２を開始セグメントとするものと仮定した場合における再生時間dur_vp1とダウンロード時間dur_vp2が図示されている。

　すなわち、この例では、矢印Ａ４１に示す再生点から、切り替え点とされるセグメントＳＧ５２の先頭位置まで、つまりセグメントＳＧ４１とセグメントＳＧ４２との境界位置までの期間の長さが再生時間dur_vp1とされている。また、セグメントＳＧ４４のダウンロードを停止させてから、セグメントＳＧ５２のセグメントデータのダウンロードが完了するまでの時間がダウンロード時間dur_vp2とされている。

　クライアント装置１１では、ダウンロード時間dur_vp2が再生時間dur_vp1よりも短くなるように開始セグメントが選択される。このとき、ダウンロード時間dur_vp2が再生時間dur_vp1よりも短くなるセグメントのうち、最も再生時刻が早いものが開始セグメントとして選択される。

　例えば図５に示す例において、セグメントＳＧ５２のダウンロード時間dur_vp2が再生時間dur_vp1よりも短くなる場合には、セグメントＳＧ５２が開始セグメントとして選択される。

　これに対して、例えばセグメントＳＧ５２のダウンロード時間dur_vp2が再生時間dur_vp1よりも長くなる場合には、セグメントＳＧ５２は開始セグメントとして選択されない。

　この場合、例えば図６に示すように、セグメントＳＧ５３のダウンロード時間dur_vp2と再生時間dur_vp1とが比較される。

　図６に示す例では、矢印Ａ４１に示す再生点から、切り替え点とされるセグメントＳＧ５３の先頭位置まで、つまりセグメントＳＧ４２とセグメントＳＧ４３との境界位置までの期間の長さが再生時間dur_vp1とされている。また、セグメントＳＧ４４のダウンロードを停止させてから、セグメントＳＧ５３のセグメントデータのダウンロードが完了するまでの時間がダウンロード時間dur_vp2とされている。

　この場合、セグメントＳＧ５３のダウンロード時間dur_vp2が再生時間dur_vp1よりも短くなるときには、セグメントＳＧ５３が開始セグメントとして選択されることになる。

　なお、切り替え元の視点１から切り替え先となる視点２へと視点を切り替える場合、視点２の開始セグメントとして、解像度等の品質が切り替え元の視点１のセグメントの品質と同等であるものがダウンロード対象の候補とされる。

　しかし、視点切り替え時の即応性を重視するケースでは、ダウンロード時間を短縮するために視点２のBitrate Adaptation用のセグメントをダウンロード対象の候補としてもよい。すなわち、同じ視点２の同じ再生時刻のセグメントでも、視点切り替え直後に再生される視点２のセグメントとしてビットレートの低いRepresentationから開始セグメントを選択することも可能である。この場合、視点１から視点２へと切り替えを行った後、徐々にビットレートが高い、つまり品質の高いセグメントへとダウンロードおよび再生されるセグメントが戻されていく（切り替えられていく）ようにすればよい。

　例えばセグメントＳＧ５２を開始セグメントとし、セグメントＳＧ５２としてセグメントＳＧ４１と同じビットレートのセグメントをダウンロードしようとしても、切り替え点の再生が終了するまでの間にセグメントＳＧ５２のダウンロードが完了しないとする。

　しかし、この場合、セグメントＳＧ５２として、セグメントＳＧ４１のビットレートよりも低いビットレートのセグメント、つまり品質が低いセグメントを選択すれば、切り替え点の再生終了までにセグメントのダウンロードが間に合うこともある。

　そのような場合には、セグメントＳＧ５２を開始セグメントとするとともに、セグメントＳＧ５２として、セグメントＳＧ４１のビットレートよりも低いビットレートのセグメントをダウンロードするようにすれば、より迅速に視点切り替えを行うことができる。

　この場合、例えばセグメントＳＧ５２に続くセグメントＳＧ５３として、セグメントＳＧ５２よりもビットレートが高いセグメントがダウンロードされるようにし、その次のセグメントＳＧ５４として、もとのセグメントＳＧ４１と同じビットレートのセグメントがダウンロードされるようにするなどとすればよい。

　このように視点の切り替え直後には、切り替え前よりも低いビットレートのセグメントがダウンロードされ、その後、徐々にダウンロードされるセグメントのビットレートが高くなるように、つまりビットレートが増加していくようにし、最終的には切り替え前と同じビットレートのセグメントがダウンロードされるようにすれば、迅速に視点を切り替えることができる。

　なお、通常、１つのAdaptation Setに対して複数のRepresentationが用意されており、それらのRepresentationのセグメントデータは、それぞれ同じ視点かつ同じ再生時刻であり、ビットレートが互いに異なるセグメントデータとなっている。そのため、クライアント装置１１では、サーバに対して所望のRepresentationを選択（指定）することで、目的とするビットレートのセグメントデータをダウンロードすることができる。

　また、再生中のセグメントＳＧ４１と同じ再生時刻の視点２のセグメントＳＧ５１を開始セグメントとしても、視点の切り替えに間に合うことがある。

　例えば図７に示すように、セグメントＳＧ５１を開始セグメントの候補とすると、矢印Ａ４１に示す再生点から、切り替え点とされるセグメントＳＧ５１の位置までの期間の長さが再生時間dur_vp1となる。このとき、最も再生時間dur_vp1が長くなるのは、切り替え点がセグメントＳＧ５１の終端位置、つまりセグメントＳＧ４１とセグメントＳＧ４２との境界位置とされたときである。

　また、セグメントＳＧ４４のダウンロードを停止させてから、セグメントＳＧ５１のダウンロードが完了するまでの時間がダウンロード時間dur_vp2とされる。

　ここで、セグメントＳＧ４１の再生を継続して行いながらセグメントＳＧ５１のダウンロードとデコードを行うものとする。このとき、視点２のセグメントＳＧ５１のダウンロード後、セグメントＳＧ５１のデコードが視点１のセグメントＳＧ４１の再生中の位置に追いつくまでの時間をデコード時間dur_vp3とする。

　すなわち、デコード時間dur_vp3は、セグメントＳＧ５１のデコードを開始してから、セグメントＳＧ５１のデコードが完了した位置（再生時刻）が、継続して再生しているセグメントＳＧ４１の再生中の位置（再生時刻）となるまでに必要な時間を示している。

　なお、以下、切り替え先（切り替え後）のセグメントＳＧ５１のデコードが完了した位置が、切り替え元（切り替え前）のセグメントＳＧ４１の再生中の位置となるときの、セグメントＳＧ４１の再生中の位置をデコード完了時再生点とも称することとする。

　但し、この場合、デコード完了時再生点は、セグメントＳＧ４１の再生終了位置、つまりセグメントＳＧ４１の終端位置よりも再生点側の位置である必要がある。したがって、この例ではデコード完了時再生点は、再生点と、セグメントＳＧ４１の終端位置との間の再生時刻となる。

　具体的には、例えばセグメントＳＧ４１の再生を継続して行った場合に、ある再生時刻ｔｃまでセグメントＳＧ４１の再生が終了する時点で、セグメントＳＧ５１の先頭から再生時刻ｔｃまでのデコードが完了するものとすると、その再生時刻ｔｃがデコード完了時再生点となる。

　例えばダウンロード時間dur_vp2とデコード時間dur_vp3の和が、再生点からセグメントＳＧ４１の終端位置までの再生時間よりも短くなるとき、より詳細には再生時間dur_vp1よりも短くなるときには、視点１のセグメントＳＧ４１の再生終了前に視点２のセグメントＳＧ５１が再生可能な状態となる。換言すれば、ダウンロード時間dur_vp2とデコード時間dur_vp3の和が、再生点からデコード完了時再生点までの再生時間よりも短くなればよい。

　したがって、そのような場合には、セグメントＳＧ５１を開始セグメントとし、セグメントＳＧ５１の途中の位置、つまりデコード完了時再生点かそれより後の再生時刻の位置を切り替え点とすることができる。

　なお、視点１から視点２への切り替え時に視点１のセグメントと、そのセグメントと同じ再生時刻の視点２のセグメントとに基づいてエフェクト処理等を行う場合には、切り替え元の視点１のセグメントの再生終了までの間に、さらにそのエフェクト処理等の効果時間が残っているかを考慮して開始セグメントや切り替え点を選択する必要がある。

　すなわち、視点切り替え時にエフェクト処理等を行う場合、デコード完了時再生点から、現在再生中の切り替え元の視点１のセグメントの再生終了までの時間が、エフェクト等を開始してから完全に視点２へと切り替わるまでの時間（効果時間）よりも長い必要がある。

　但し、切り替え元の視点１のセグメントとして、現在再生中のセグメントの次のセグメントが既にキャッシュ済みとなっている場合には、再生が完全に視点２へと切り替わるタイミングを、現在再生中のセグメントの次のセグメント内の位置としてもよい。そのようなときには、切り替え元の視点１におけるキャッシュ済みのセグメントを破棄せずに保持しておけばよく、デコード完了時再生点から、切り替え元の視点１の現在再生中のセグメントの再生終了までの時間が、エフェクト等を開始してから完全に視点２へと切り替わるまでの時間（効果時間）よりも短くてもよい。

　また、図５や図６を参照して説明した例においても開始セグメントの先頭位置が切り替え点とされるのではなく、開始セグメントの途中位置が切り替え点とされるようにしてもよい。

　次に図８および図９を参照して、クライアント装置１１におけるキャッシュ管理について説明する。なお、図８および図９において図４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　例えば図８に示すように、視点１のセグメントＳＧ４１を再生中に視点切り替え要求があり、セグメントＳＧ５２を開始セグメントとして、セグメントＳＧ５２やセグメントＳＧ５３のセグメントデータのダウンロードを開始したとする。

　この場合、既にキャッシュ済みとなっている視点１のセグメントデータについては、不要となった時点、つまり再生が終了した時点や再生されないことが確定した時点で、それらの不要なキャッシュ済みのセグメントデータを破棄することが考えられる。

　例えば図８に示す例では、開始セグメントと同じ再生時刻のセグメントＳＧ４２と、それよりも後のセグメントＳＧ４３からセグメントＳＧ４４までの各セグメントとは再生されることはないので不要なセグメントとし、それらのセグメントのセグメントデータを破棄することができる。

　しかし、クライアント装置１１では、例えば図９に示すように、本来は破棄されてしまうキャッシュのうちの一部が別管理で破棄せずに保持される。これにより、一定期間分については、視点１と視点２の同時刻のセグメントデータが保持された状態となる。

　すなわち、図９に示す例では、図８に示した例と同様に視点１のセグメントＳＧ４１を再生中に視点切り替え要求があり、セグメントＳＧ５２が開始セグメントとされて、セグメントＳＧ５２やセグメントＳＧ５３のセグメントデータのダウンロードが開始されたとする。

　この場合、クライアント装置１１では、ダウンロードされたセグメントＳＧ５２やセグメントＳＧ５３のセグメントデータがキャッシュ（保持）される。また、それと同時に、それらのセグメントＳＧ５２およびセグメントＳＧ５３と再生時刻が同じである切り替え元の視点１のセグメントＳＧ４２およびセグメントＳＧ４３のセグメントデータも破棄されずに保持されたままとされる。さらに、キャッシュ済みの視点１のセグメントのうち、セグメントＳＧ４４を含むいくつかのセグメントのセグメントデータは破棄される。

　すなわち、開始セグメントと同時刻のセグメントを含む、視点１の連続するいくつかのキャッシュ済みのセグメント、つまり開始セグメントの先頭位置の時刻を開始時刻とする所定期間内の視点１のセグメントは破棄されずに保持される。そして、視点１の所定期間後のキャッシュ済みのセグメントのセグメントデータは破棄される。

　以下では、このように開始セグメントの先頭位置の時刻を開始時刻とする所定期間について、切り替え元の視点１のセグメントと、切り替え先の視点２のセグメントのセグメントデータを保持しておくキャッシュ管理手法を、特に二重持ちキャッシュ管理とも称することとする。また、以下では、互いに異なる視点の同じ再生時刻のセグメントデータが両方とも保持（キャッシュ）される再生時刻の期間を二重持ち期間とも称し、切り替え元と切り替え先の両方のセグメントデータをキャッシュすることを二重キャッシュとも称することとする。

　クライアント装置１１では、このような二重持ちキャッシュ管理を行うことで、二重持ち期間内の任意の位置が切り替え点となるように切り替え点の調整を行ったり、二重持ち期間においてエフェクト処理を行ったりすることができるようになる。

　以上のようにクライアント装置１１によれば、上述したダウンロードプロセスと二重持ちキャッシュ管理を行うことで、以下のような効果を得ることができる。

　すなわち、まずダウンロードプロセスと二重持ちキャッシュ管理により、視点切り替え時の応答速度を向上させることができる。

　一般的には視点の切り替え位置は、切り替え前の視点のキャッシュ済みの最後のセグメントの境界の位置となる。これに対してクライアント装置１１では、最速で現在再生中の切り替え元の視点のセグメントと同じ時刻の切り替え先の視点のセグメントの途中の位置で視点の切り替えを行うことができる。

　この場合、クライアント装置１１は、現在再生中の切り替え元の視点での再生を継続して行いながら、それと並行して切り替え先のセグメントのデコードを行う。そして切り替え先の視点のデコードが完了した位置が、切り替え元の視点の再生中の位置に追いついた時点で、つまりデコード完了時再生点までデコードが終了した時点で切り替え先の視点へと視点切り替えが可能となる。

　なお、例えばセグメントが映像のセグメントである場合、視点切り替え前においては、切り替え先の視点のセグメントのデコード時には、デコードで得られた映像データに基づく画像（映像）の描画等は不要であるので、その分だけ高速でデコード動作が可能である。

　デコード開始時には高速なデコード動作を行い、デコード完了時再生点までデコードが完了した後は、通常の速度でデコード動作を行うようにしてもよい。

　また、セグメントのダウンロードとキャッシュ管理を、コンテンツを構成する映像と音声とで個別に行うと、それぞれ映像と音声とで、最速のタイミングで視点の切り替えを行うことができる。

　しかし、映像と音声とで個別に最速のタイミングで視点の切り替えを行っても、映像と音声とで切り替えタイミングにずれが生じるため、総合的な視聴体験の観点からは必ずしも十分であるとはいえない。

　これに対して、クライアント装置１１では、二重持ちキャッシュ管理が行われるので、映像と音声とで切り替えタイミング、つまり切り替え点の位置をほぼ同じ時刻とすることができ、切り替え時の違和感の発生を抑制することができる。

　具体的には、例えば図１０に示すように、コンテンツの映像については切り替え前の視点１のセグメントＳＧ６１とセグメントＳＧ６２がキャッシュされている状態で視点切り替え要求があったとする。なお、図１０において横方向は時間、すなわち再生時刻を示しており、各四角形はセグメントを表している。

　このとき、切り替え先の視点２のセグメントＳＧ７１が開始セグメントとされて、セグメントＳＧ７１とセグメントＳＧ７２のセグメントデータがダウンロードされ、同じ時刻の視点１のセグメントＳＧ６２と視点２のセグメントＳＧ７１の両方のセグメントデータがキャッシュされている状態となっている。

　また、コンテンツの音声については切り替え前の視点１のセグメントＳＧ８１とセグメントＳＧ８２がキャッシュされている状態で視点切り替え要求があり、切り替え先の視点２のセグメントＳＧ９１が開始セグメントとされたとする。また、視点２のセグメントＳＧ９１とセグメントＳＧ９２のセグメントデータがダウンロードされ、同じ時刻の視点１のセグメントＳＧ８２と視点２のセグメントＳＧ９１の両方のセグメントデータがキャッシュされている状態となっている。

　このとき例えば映像については、開始セグメントであるセグメントＳＧ７１の先頭の位置を切り替え点とし、音声については開始セグメントであるセグメントＳＧ９１の先頭の位置を切り替え点とすると、期間Ｔ６１の分だけ映像と音声の切り替えにずれが生じる。

　そこで、クライアント装置１１は、映像と音声とで二重キャッシュする区間の少なくとも一部が重なるようにキャッシュ管理を行うとともに、映像と音声とで切り替え点がほぼ同じ時刻となるように切り替え点を決定する。

　例えば図１０の例では、期間Ｔ６２において映像と音声の両方が二重キャッシュされている。ここで、期間Ｔ６２の先頭位置はセグメントＳＧ９１の先頭位置となっており、期間Ｔ６２の終了位置はセグメントＳＧ７１の終了位置となっている。

　クライアント装置１１は、この期間Ｔ６２内の適切な位置を映像の切り替え点とするとともに、期間Ｔ６２内における映像の切り替え点とほぼ同じ時刻の位置を音声の切り替え点とする。これにより、ユーザにとってはほぼ同時と感じられるタイミングで映像と音声がそれぞれ切り替えられ、違和感のない視点切り替えが実現される。

　ここで、切り替えのタイミングをほぼ同時としているのは、映像と音声のサンプルレートの違いから、それらの映像と音声とでは時間グリッドが異なり、切り替え点の位置を完全に一致させることはできないからである。そのため、映像と音声のそれぞれのサンプル間隔（フレームのレベル）より短い精度という実現可能な最高の精度でほぼ同時に切り替えが行われる。

　また、二重持ちキャッシュ管理により、視点１と視点２という同時刻の２系統の映像データが確保（保持）されているため、クロスフェードやワイプなどの様々なトランジション効果を映像エフェクトとして実行することが可能である。

　なお、映像エフェクトは一般的には１秒から数秒程度の時間をかけて徐々に映像の入れ替えを行う処理であるが、この期間中は２つの異なる視点の映像が同時に表示されていることになり、視聴者からすれば、どちらか一方の視点の映像を見ている状況とは異なる。

　このようなエフェクト期間中に切り替え元の視点から切り替え先の視点へと音声を切り替えれば、明確なタイミングで視点が切り替わるのではなく、切り替わりのタイミングがある程度曖昧になる。これにより、ユーザに対して視点の切り替わりを視覚的に認識させることができるとともに、映像と音声の切り替わりのずれを感じにくくさせることができ、その結果、視聴体感的な違和感を低減させることができる。したがって、映像エフェクトを行う場合には、映像と音声の視点の切り替わりタイミングを厳密に一致させなくても大きな違和感が生じることはない。

　さらに、二重持ちキャッシュ管理により、同時刻の２系統の音声データが保持（確保）されているため、クロスフェード等の音声エフェクト処理を実行することが可能である。

　例えばクロスフェードであれば、切り替え元の視点の音声を徐々に弱めながら、切り替え先の視点の音声を徐々に強めるように各視点の音声を合成し、最終的には切り替え先の視点の音声に滑らかに切り替わるといった音声の切り替えを実現することができる。

　これにより、視点の切り替え時に瞬間的に音声が不連続となってしまうことを回避することができ、ノイズの発生を抑制することができる。なお、切り替え元の視点の音声と、切り替え先の視点の音声とが不連続なものであってもノイズが発生しないこともある。

〈ダウンロード処理の説明〉
　続いて、図３に示したクライアント装置１１により行われる処理について説明する。

　まず、図１１のフローチャートを参照して、クライアント装置１１によるダウンロード処理について説明する。

　このダウンロード処理は、コンテンツの再生開始が指示されると開始される。このとき、コンテンツが映像と音声からなる場合には、映像と音声のそれぞれについて個別にダウンロード処理が行われ、それらの映像と音声のセグメントデータがダウンロードされる。

　この場合、まずHTTPダウンロードマネージャ２３は、ダウンロード対象とするセグメント、すなわちセグメントデータを識別するセグメントインデックスの値を０とする。

　ステップＳ１１において、HTTPダウンロードマネージャ２３は、セグメントインデックスの値を１だけインクリメントする。

　ステップＳ１２において、HTTPダウンロードマネージャ２３は、セグメントインデックスに基づいて、最後のセグメントデータをダウンロードしたか否かを判定する。

　ステップＳ１２において最後のセグメントデータをダウンロードしたと判定された場合、つまり、コンテンツのセグメントデータを全てダウンロードした場合、ダウンロード処理は終了する。

　これに対して、ステップＳ１２においてまだ最後のセグメントデータをダウンロードしていないと判定された場合、ステップＳ１３において、HTTPダウンロードマネージャ２３は、セグメントインデックスにより示されるセグメントデータをダウンロードする。

　すなわち、HTTPダウンロードマネージャ２３はサーバに対してセグメントデータの送信を要求するとともに、その要求に応じてサーバから送信されてきたセグメントデータを受信して保持部２５に供給し、保持させる。これにより、保持部２５には、１つの視点のセグメントデータ、または切り替え前後の２つの視点のセグメントデータが保持された状態となる。

　このようにHTTPダウンロードマネージャ２３は、コンテンツのデータ（セグメントデータ）をセグメント単位、つまり１セグメント分ずつダウンロードする。なお、セグメントデータの取得元はサーバに限らず、記録媒体など、どのようなものであってもよい。

　ステップＳ１４において、HTTPダウンロードマネージャ２３は、メモリ２２のイベントキューに視点切り替え要求があるか否かを判定する。

　ステップＳ１４において視点切り替え要求がないと判定された場合、処理はステップＳ１１に戻り、上述した処理が繰り返し行われる。

　一方、ステップＳ１４において視点切り替え要求があると判定された場合、ステップＳ１５において、HTTPダウンロードマネージャ２３は、切り替え元となる視点のキャッシュ量が十分であるか否かを判定する。

　例えばステップＳ１５では、映像と音声の視点の切り替えをほぼ同時に行う場合、映像と音声とで互いに重なる十分な長さの二重持ち期間を確保できる程度に切り替え元のセグメントデータのキャッシュがあるとき、キャッシュ量が十分であると判定される。

　なお、コンテンツの再生をするにあたり、クライアント装置１１で実施する処理の内容によっても十分であるとされるキャッシュ量は変化する。

　例えば視点の切り替え時に映像エフェクトとして２秒間の間、クロスフェードが行われる場合には、その２秒間分の二重持ち期間を確保できる程度に切り替え元の視点のセグメントデータのキャッシュがあるとき、キャッシュ量が十分であると判定される。この場合、切り替え元の視点の２秒分以降のセグメントデータのキャッシュは破棄してもよい。

　ステップＳ１５においてキャッシュ量が十分でないと判定された場合、処理はステップＳ１１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ１５においてキャッシュ量が十分であると判定された場合、ステップＳ１６において、HTTPダウンロードマネージャ２３は、メモリ２２のイベントキューから視点切り替え要求のイベントを削除する。

　ステップＳ１７において、HTTPダウンロードマネージャ２３は視点の切り替えを行う。

　すなわち、HTTPダウンロードマネージャ２３は、ダウンロード対象のAdaptation SetおよびRepresentationを変更する。

　この場合、HTTPダウンロードマネージャ２３は、イベントキューにあった視点切り替え要求により示される切り替え先の視点に対応するAdaptation Setを変更後のAdaptation Setとして選択する。

　また、HTTPダウンロードマネージャ２３は、変更後のAdaptation SetのRepresentationのなかから、ネットワークの状況や所望する映像の解像度、切り替え元の視点のセグメントデータのキャッシュ量などに基づいて、適切なビットレートのRepresentationを変更後のRepresentationとして選択する。

　この場合、上述したように、切り替え時には、切り替え前よりも低いビットレートのRepresentationが選択され、その後、徐々に高いビットレートのRepresentationが選択されていき、最終的には切り替え前と同じビットレートのRepresentationが選択されるようにしてもよい。

　ステップＳ１８において、HTTPダウンロードマネージャ２３は、ダウンロード対象のセグメントデータとするセグメントインデックスの値を変更する。

　すなわち、例えばHTTPダウンロードマネージャ２３は、図４乃至図７や図１０を参照して説明したように映像と音声の両方を考慮して切り替え点、開始セグメント、および二重持ち期間を決定する。

　具体的には、例えば映像と音声の両方についての再生点や切り替え元の視点のセグメントデータのキャッシュ量、再生時間dur_vp1、ダウンロード時間dur_vp2、デコード時間dur_vp3、映像エフェクトの有無、音声エフェクトの有無、セグメントのビットレートなどに基づいて切り替え点、開始セグメント、および二重持ち期間が決定される。ここで、上述したように、開始セグメントを決定（選択）することはダウンロードの開始時刻とする再生時刻、つまり開始セグメントの先頭位置を選択することであるともいうことができる。

　なお、より詳細には、開始セグメントの決定にセグメントのビットレート等を考慮する必要がある場合もあるので、ステップＳ１７およびステップＳ１８の処理は同時に行われる。

　このようにして開始セグメントが決定されると、HTTPダウンロードマネージャ２３は、セグメントインデックスの値が決定された開始セグメントの時間的に１つ前のセグメントを示す値となるように、グメントインデックスの値を変更する。これにより、次に行われるステップＳ１３では、変更後のAdaptation SetのRepresentationについての開始セグメントのセグメントデータがダウンロードされる。

　ステップＳ１９において、HTTPダウンロードマネージャ２３は、保持部２５に保持されている切り替え元の視点の不要なキャッシュを破棄する。

　すなわち、例えばHTTPダウンロードマネージャ２３は、既に保持部２５に保持されている切り替え元の視点のセグメントデータのうち、ステップＳ１８で決定された二重持ち期間より後の再生時刻のセグメントデータを不要なキャッシュとして破棄する。つまり、不要なキャッシュとされたセグメントデータが保持部２５から消去される。

　なお、不要なキャッシュを破棄するタイミングは、切り替え先の視点のセグメントデータのダウンロード開始前であってもよいし、ダウンロードの開始後であってもよい。

　このようにして不要なキャッシュが破棄されると、その後、処理はステップＳ１１に戻り、上述した処理が繰り返し行われる。

　以上のようにしてクライアント装置１１は、再生点や切り替え元の視点のセグメントデータのキャッシュ量等に基づいて切り替え点や開始セグメントを決定し、切り替え先の視点のセグメントデータをダウンロードする。

　このようにすることで、ユーザによる視点切り替え操作に対して、適切に必要なキャッシュを確保しつつ実際のコンテンツの視点の切り替えをより迅速に行うことができる。すなわち、ストリームの替え時の応答速度を向上させることができる。また、切り替え点や開始セグメント等の決定時に、映像と音声の両方を考慮することで、映像と音声の切り替えを略同時に行うことができる。

〈デコード処理の説明〉
　図１１を参照して説明したダウンロード処理が映像と音声について行われると、保持部２５には映像と音声のセグメントデータがキャッシュ（蓄積）される。すると、クライアント装置１１は、キャッシュされたセグメントデータをデコードしてコンテンツを再生する処理であるデコード処理を行う。

　以下、図１２のフローチャートを参照して、クライアント装置１１によるデコード処理について説明する。

　ステップＳ５１において、セグメントパーサ２６は保持部２５に保持されているセグメントデータをパースする。

　すなわち、例えば二重持ち期間外の再生時刻については、セグメントパーサ２６は保持部２５－１および保持部２５－２のうちの再生中の視点に対応する保持部２５からセグメントデータを読み出して、そのセグメントデータから映像データを抽出し、ビデオデコーダ２７へと供給する。

　同時に、セグメントパーサ２６は保持部２５－３および保持部２５－４のうちの再生中の視点に対応する保持部２５からセグメントデータを読み出して、そのセグメントデータから音声データを抽出し、オーディオデコーダ２９へと供給する。

　これに対して、二重持ち期間内の再生時刻については、セグメントパーサ２６は保持部２５－１および保持部２５－２のそれぞれからセグメントデータを読み出して、それらのセグメントデータから映像データを抽出し、ビデオデコーダ２７－１およびビデオデコーダ２７－２へと供給する。

　同時に、セグメントパーサ２６は保持部２５－３および保持部２５－４のそれぞれからセグメントデータを読み出して、それらのセグメントデータから音声データを抽出し、オーディオデコーダ２９－１およびオーディオデコーダ２９－２へと供給する。

　ステップＳ５２において、ビデオデコーダ２７は、セグメントパーサ２６から供給された映像データをデコードし、ビデオエフェクタ２８に供給する。

　例えば二重持ち期間外の再生時刻については、再生中の視点の映像データのみがデコードされてビデオエフェクタ２８に供給される。これに対して、二重持ち期間内の再生時刻については、切り替え元の視点と切り替え先の視点の両方の映像データがデコードされてビデオエフェクタ２８に供給される。

　このように、二重持ち期間においては、ビデオデコーダ２７－１およびビデオデコーダ２７－２が並列使用されることになる。

　ステップＳ５３において、ビデオエフェクタ２８は、ビデオデコーダ２７から供給された映像データに対して映像エフェクトを施す。

　すなわち、例えばビデオエフェクタ２８は、映像エフェクトを行う期間の映像データに対しては切り替え元の視点の映像データと、その映像データと同じ再生時刻の切り替え先の視点の映像データとに基づいてクロスフェード処理やワイプ処理等のエフェクト処理を行い、提示用の映像データを生成する。すなわち、映像エフェクトが施された、切り替え元の視点の映像から、切り替え先の視点の映像へと表示が遷移していくエフェクト動画像の映像データが提示用の映像データとして生成される。

　これに対して、映像エフェクトを行わない期間については、ビデオエフェクタ２８は、再生中の視点の映像データを、そのまま提示用の映像データとする。例えば、二重持ち期間でも映像エフェクトが行われない再生時刻であれば、切り替え元の視点と切り替え先の視点のうちの再生中の視点の映像データが提示用の映像データとされる。

　ステップＳ５４において、ビデオエフェクタ２８は、ステップＳ５３の処理で得られた提示用の映像データを後段に出力する。

　例えばビデオエフェクタ２８は、エフェクト期間中であれば、エフェクト動画像の映像データを提示用の映像データとして出力する。また、例えばエフェクト期間の終了時刻であれば、ビデオエフェクタ２８は、出力する提示用の映像データを、エフェクト動画像の映像データから、切り替え先の視点の映像データへと切り替える。

　さらに、例えば映像エフェクトが行われない場合には、ビデオエフェクタ２８は、切り替え点において、出力する提示用の映像データを、切り替え元の視点の映像データから、切り替え先の視点の映像データへと切り替える。

　ステップＳ５５において、オーディオデコーダ２９は、セグメントパーサ２６から供給された音声データをデコードし、オーディオエフェクタ３０に供給する。

　例えば二重持ち期間外の再生時刻については、再生中の視点の音声データのみがデコードされてオーディオエフェクタ３０に供給される。これに対して、二重持ち期間内の再生時刻については、切り替え元の視点と切り替え先の視点の両方の音声データがデコードされてオーディオエフェクタ３０に供給される。

　なお、二重持ち期間においては、オーディオデコーダ２９－１およびオーディオデコーダ２９－２が並列使用されることになる。

　ステップＳ５６において、オーディオエフェクタ３０は、オーディオデコーダ２９から供給された音声データに対して音声エフェクトを施す。

　すなわち、例えばオーディオエフェクタ３０は、エフェクトを行う期間の音声データに対しては切り替え元の視点の音声データと、その音声データと同じ再生時刻の切り替え先の視点の音声データとに基づいてクロスフェード等のエフェクト処理を行い、提示用の音声データを生成する。これにより、例えば切り替え元の視点の音声がフェードアウトしていき、切り替え先の視点の音声がフェードインしていくエフェクト音声の音声データが提示用の音声データとして得られる。

　これに対して、音声エフェクトを行わない期間については、オーディオエフェクタ３０は、再生中の視点の音声データを、そのまま提示用の音声データとする。例えば、二重持ち期間でも音声エフェクトが行われない再生時刻であれば、切り替え元の視点と切り替え先の視点のうちの再生中の視点の音声データが提示用の音声データとされる。

　ステップＳ５７において、オーディオエフェクタ３０は、ステップＳ５６の処理で得られた提示用の音声データを後段に出力し、デコード処理は終了する。

　例えばオーディオエフェクタ３０は、エフェクト期間中であれば、エフェクト音声の音声データを提示用の音声データとして出力する。また、例えばエフェクト期間の終了時刻であれば、オーディオエフェクタ３０は、出力する提示用の音声データを、エフェクト音声の音声データから、切り替え先の視点の音声データへと切り替える。

　さらに、例えば音声エフェクトが行われない場合には、オーディオエフェクタ３０は、切り替え点において、出力する提示用の音声データを、切り替え元の視点の音声データから、切り替え先の視点の音声データへと切り替える。

　なお、視点の切り替え時には、ビデオエフェクタ２８およびオーディオエフェクタ３０は、映像データと音声データとで、切り替え元の視点から切り替え先の視点へと出力を切り替えるタイミングが略同じとなるように映像データや音声データの出力切り替えを制御する。

　また、より詳細にはステップＳ５２乃至ステップＳ５４の処理と、ステップＳ５５乃至ステップＳ５７の処理とは並行して行われる。

　以上のようにしてクライアント装置１１は、映像データと音声データをデコードするとともに、適宜、映像データや音声データに対してエフェクト処理を行い、提示用の映像データおよび音声データを生成して出力する。

　映像データや音声データに対して、適宜、エフェクトを施すことで、ユーザの視聴体感上の違和感を低減させることができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。

　図１３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、ＣＰＵ（Central Processing Unit）５０１，ＲＯＭ（Read Only Memory）５０２，ＲＡＭ（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカアレイなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、ＣＰＵ５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、ＲＡＭ５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（ＣＰＵ５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ＲＯＭ５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　第１の再生データに基づく再生から、前記第１の再生データとは異なる第２の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第１の再生データと、前記第１の再生データの前記再生中の再生時刻から、既に取得された前記第１の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第２の再生データとを保持する保持部を備える
　画像処理装置。
（２）
　前記開始時刻以降の前記第２の再生データを取得する取得部をさらに備える
　（１）に記載の画像処理装置。
（３）
　前記保持部は、前記第２の再生データの取得開始前または取得開始後に、前記所定の再生時刻よりも後の再生時刻の前記第１の再生データを破棄する
　（１）または（２）に記載の画像処理装置。
（４）
　前記第１の再生データおよび前記第２の再生データは、同じコンテンツの互いに異なる視点の再生データである
　（１）乃至（３）の何れか一項に記載の画像処理装置。
（５）
　前記第１の再生データおよび前記第２の再生データは、映像データまたは音声データである
　（１）乃至（４）の何れか一項に記載の画像処理装置。
（６）
　前記取得部は、所定時間単位分ずつ前記第２の再生データを取得する
　（２）に記載の画像処理装置。
（７）
　前記所定時間単位はセグメントである
　（６）に記載の画像処理装置。
（８）
　前記取得部は、前記再生中の再生時刻から前記開始時刻までの前記第１の再生データの再生時間よりも、前記開始時刻を先頭とする前記所定時間単位の前記第２の再生データの取得に必要な時間が短くなるように前記開始時刻を選択する
　（６）または（７）に記載の画像処理装置。
（９）
　前記取得部は、再生中の前記所定時間単位の前記第１の再生データと同じ再生時刻の前記所定時間単位の前記第２の再生データである同時刻再生データの取得に必要な時間と、前記同時刻再生データの取得後、前記同時刻再生データのデコードが前記第１の再生データの再生に追いつくまでに必要な時間との和が、前記再生中の再生時刻から、再生中の前記所定時間単位の前記第１の再生データの再生が終了するまでの再生時間よりも短い場合、前記同時刻再生データの先頭位置を前記開始時刻として前記第２の再生データを取得する
　（６）または（７）に記載の画像処理装置。
（１０）
　前記取得部は、前記開始時刻を先頭とする前記所定時間単位の前記第２の再生データとして、再生中の前記第１の再生データのビットレートよりも低いビットレートの前記第２の再生データを取得し、その後、取得される前記第２の再生データのビットレートが増加していくように、前記所定時間単位のより高いビットレートの前記第２の再生データを取得する
　（６）乃至（９）の何れか一項に記載の画像処理装置。
（１１）
　前記再生中の再生時刻から前記所定の再生時刻までの間の再生時刻において、出力する再生データを前記第１の再生データから前記第２の再生データへと切り替える出力部をさらに備える
　（２）に記載の画像処理装置。
（１２）
　前記出力部は、映像データである前記第１の再生データから前記第２の再生データへの出力の切り替えのタイミングと、音声データである前記第１の再生データから前記第２の再生データへの出力の切り替えのタイミングとが略同じとなるように制御する
　（１１）に記載の画像処理装置。
（１３）
　前記取得部は、映像データと音声データとで、同じ再生時刻の前記第１の再生データおよび前記第２の再生データが保持される期間の少なくとも一部が重なるように制御する
　（１２）に記載の画像処理装置。
（１４）
　前記保持部に保持されている同じ再生時刻の前記第１の再生データと前記第２の再生データとに基づいてエフェクト処理を行い、前記エフェクト処理により得られた再生データを出力する出力部をさらに備える
　（１）乃至（１０）の何れか一項に記載の画像処理装置。
（１５）
　第１の再生データに基づく再生から、前記第１の再生データとは異なる第２の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第１の再生データと、前記第１の再生データの前記再生中の再生時刻から、既に取得された前記第１の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第２の再生データとを保持する
　ステップを含む画像処理方法。
（１６）
　第１の再生データに基づく再生から、前記第１の再生データとは異なる第２の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第１の再生データと、前記第１の再生データの前記再生中の再生時刻から、既に取得された前記第１の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第２の再生データとを保持する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　クライアント装置，　２３　HTTPダウンロードマネージャ，　２５－１乃至２５－４，２５　保持部，　２６　セグメントパーサ，　２７－１，２７－２，２７　ビデオデコーダ，　２８　ビデオエフェクタ，　２９－１，２９－２，２９　オーディオデコーダ，　３０　オーディオエフェクタ

Claims

　第１の再生データに基づく再生から、前記第１の再生データとは異なる第２の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第１の再生データと、前記第１の再生データの前記再生中の再生時刻から、既に取得された前記第１の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第２の再生データとを保持する保持部を備える
　画像処理装置。
　前記開始時刻以降の前記第２の再生データを取得する取得部をさらに備える
　請求項１に記載の画像処理装置。
　前記保持部は、前記第２の再生データの取得開始前または取得開始後に、前記所定の再生時刻よりも後の再生時刻の前記第１の再生データを破棄する
　請求項１に記載の画像処理装置。
　前記第１の再生データおよび前記第２の再生データは、同じコンテンツの互いに異なる視点の再生データである
　請求項１に記載の画像処理装置。
　前記第１の再生データおよび前記第２の再生データは、映像データまたは音声データである
　請求項１に記載の画像処理装置。
　前記取得部は、所定時間単位分ずつ前記第２の再生データを取得する
　請求項２に記載の画像処理装置。
　前記所定時間単位はセグメントである
　請求項６に記載の画像処理装置。
　前記取得部は、前記再生中の再生時刻から前記開始時刻までの前記第１の再生データの再生時間よりも、前記開始時刻を先頭とする前記所定時間単位の前記第２の再生データの取得に必要な時間が短くなるように前記開始時刻を選択する
　請求項６に記載の画像処理装置。
　前記取得部は、再生中の前記所定時間単位の前記第１の再生データと同じ再生時刻の前記所定時間単位の前記第２の再生データである同時刻再生データの取得に必要な時間と、前記同時刻再生データの取得後、前記同時刻再生データのデコードが前記第１の再生データの再生に追いつくまでに必要な時間との和が、前記再生中の再生時刻から、再生中の前記所定時間単位の前記第１の再生データの再生が終了するまでの再生時間よりも短い場合、前記同時刻再生データの先頭位置を前記開始時刻として前記第２の再生データを取得する
　請求項６に記載の画像処理装置。
　前記取得部は、前記開始時刻を先頭とする前記所定時間単位の前記第２の再生データとして、再生中の前記第１の再生データのビットレートよりも低いビットレートの前記第２の再生データを取得し、その後、取得される前記第２の再生データのビットレートが増加していくように、前記所定時間単位のより高いビットレートの前記第２の再生データを取得する
　請求項６に記載の画像処理装置。
　前記再生中の再生時刻から前記所定の再生時刻までの間の再生時刻において、出力する再生データを前記第１の再生データから前記第２の再生データへと切り替える出力部をさらに備える
　請求項２に記載の画像処理装置。
　前記出力部は、映像データである前記第１の再生データから前記第２の再生データへの出力の切り替えのタイミングと、音声データである前記第１の再生データから前記第２の再生データへの出力の切り替えのタイミングとが略同じとなるように制御する
　請求項１１に記載の画像処理装置。
　前記取得部は、映像データと音声データとで、同じ再生時刻の前記第１の再生データおよび前記第２の再生データが保持される期間の少なくとも一部が重なるように制御する
　請求項１２に記載の画像処理装置。
　前記保持部に保持されている同じ再生時刻の前記第１の再生データと前記第２の再生データとに基づいてエフェクト処理を行い、前記エフェクト処理により得られた再生データを出力する出力部をさらに備える
　請求項１に記載の画像処理装置。
　第１の再生データに基づく再生から、前記第１の再生データとは異なる第２の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第１の再生データと、前記第１の再生データの前記再生中の再生時刻から、既に取得された前記第１の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第２の再生データとを保持する
　ステップを含む画像処理方法。
　第１の再生データに基づく再生から、前記第１の再生データとは異なる第２の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第１の再生データと、前記第１の再生データの前記再生中の再生時刻から、既に取得された前記第１の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第２の再生データとを保持する
　ステップを含む処理をコンピュータに実行させるプログラム。