WO2018139283A1 - 画像処理装置および方法、並びにプログラム - Google Patents
画像処理装置および方法、並びにプログラム Download PDFInfo
- Publication number
- WO2018139283A1 WO2018139283A1 PCT/JP2018/001093 JP2018001093W WO2018139283A1 WO 2018139283 A1 WO2018139283 A1 WO 2018139283A1 JP 2018001093 W JP2018001093 W JP 2018001093W WO 2018139283 A1 WO2018139283 A1 WO 2018139283A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- reproduction
- time
- data
- segment
- reproduction data
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000000694 effects Effects 0.000 claims description 59
- 230000008569 process Effects 0.000 claims description 41
- 238000005516 engineering process Methods 0.000 abstract description 25
- 230000004044 response Effects 0.000 abstract description 13
- 239000012636 effector Substances 0.000 description 34
- 238000007726 management method Methods 0.000 description 25
- 230000015654 memory Effects 0.000 description 11
- 230000006978 adaptation Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 8
- 101150093282 SG12 gene Proteins 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000005562 fading Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 239000000049 pigment Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/262—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
- H04N21/26258—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/433—Content storage operation, e.g. storage operation in response to a pause request, caching operations
- H04N21/4331—Caching operations, e.g. of an advertisement for later insertion during playback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/438—Interfacing the downstream path of the transmission network originating from a server, e.g. retrieving encoded video stream packets from an IP network
- H04N21/4383—Accessing a communication channel
- H04N21/4384—Accessing a communication channel involving operations to reduce the access time, e.g. fast-tuning for reducing channel switching latency
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6587—Control parameters, e.g. trick play commands, viewpoint selection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Definitions
- the acquisition unit may acquire the second reproduction data for each predetermined time unit.
- timing of switching of output from the first reproduction data as video data to the second reproduction data, and from the first reproduction data as audio data to the second reproduction data It can be controlled so that the timing of switching of the output of the signal is substantially the same.
- the transition to viewpoint 2 is made after playback of the cached segment of viewpoint 1 is finished like this, the time lag from when the user performs the switching operation until when the display is actually switched is too large. It is not practical. In this case, if the time lag becomes large, the user may not know whether the switching instruction has been correctly received, and may perform unnecessary operations.
- the download time dur_vp2 of the segment SG53 and the reproduction time dur_vp1 are compared.
- the client device 11 can download segment data of a target bit rate by selecting (designating) a desired Representation for the server.
- the start position of the start segment may not be the switching point, but the middle position of the start segment may be the switching point.
- the voice of each viewpoint is synthesized so as to gradually strengthen the voice of the switching destination while gradually weakening the voice of the switching source, and finally the voice of the switching destination is selected. It is possible to realize voice switching such as smooth switching.
- This download process is started when an instruction to start reproduction of content is issued. At this time, when the content is composed of video and audio, download processing is individually performed for each of the video and audio, and segment data of the video and audio is downloaded.
- the HTTP download manager 23 selects an Adaptation Set corresponding to the switching destination viewpoint indicated by the viewpoint switching request in the event queue as the Adaptation Set after the change.
- step S19 the HTTP download manager 23 discards the unnecessary cache of the switching source viewpoint held in the holding unit 25.
- the timing for discarding the unnecessary cache may be before the start of download of the segment data of the switching destination viewpoint or after the start of the download.
- each step described in the above-described flowchart can be executed by one device or in a shared manner by a plurality of devices.
- a predetermined reproduction is performed from the reproduction time already acquired during reproduction.
- the reproduction time from the reproduction time of the first reproduction data up to the time and the reproduction time of the reproduction of the first reproduction data to the last reproduction time of the first reproduction data already acquired is the start time
- An image processing apparatus comprising: a holding unit that holds the second reproduction data acquired after the start time acquired as (2)
- the image processing apparatus according to (1) further including an acquisition unit that acquires the second reproduction data after the start time.
- the holding unit discards the first reproduction data at a reproduction time later than the predetermined reproduction time before or after acquisition of the second reproduction data is started (1) or (2).
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本技術は、ストリームの切り替え時の応答速度を向上させることができるようにする画像処理装置および方法、並びにプログラムに関する。 画像処理装置は、第1の再生データに基づく再生から、第1の再生データとは異なる第2の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの第1の再生データと、第1の再生データの再生中の再生時刻から、既に取得された第1の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、開始時刻以降の第2の再生データとを保持する保持部を備える。本技術はクライアント装置に適用することができる。
Description
本技術は画像処理装置および方法、並びにプログラムに関し、特に、ストリームの切り替え時の応答速度を向上させることができるようにした画像処理装置および方法、並びにプログラムに関する。
例えばMPEG-DASH(Moving Picture Experts Group phase - Dynamic Adaptive Streaming over HTTP)ストリーミング再生において、Bitrate Adaptationをはじめ再生中にストリームの切り替えが発生する際、切り替えはセグメント(Segment)の境界において行われる(例えば、非特許文献1参照)。すなわち、セグメントの途中での切り替えは想定されていない。
例えばセグメント長が10秒であれば、10秒に1回の頻度で切り替えが可能となる。多視点配信をMPEG-DASHで実現する場合においてもこの制約は同様であり、視点切り替え可能な境界の発生頻度はセグメントの再生時間に依存する。
また、MPEG-DASHストリーミングにおける映像と音声の再生は同時刻に映像と音声それぞれ1系統のみの1デコーダモデルが基本である。
ISO/IEC 23009-1:2014 Information technology -- Dynamic adaptive streaming over HTTP (DASH) -- Part 1: Media presentation description and segment formats
しかしながら、上述した技術では、ストリームの切り替え、つまりコンテンツの表示の切り替えの際には、セグメント境界位置での切り替えによって遅延が発生してしまう。
本技術は、このような状況に鑑みてなされたものであり、ストリームの替え時の応答速度を向上させることができるようにするものである。
本技術の一側面の画像処理装置は、第1の再生データに基づく再生から、前記第1の再生データとは異なる第2の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第1の再生データと、前記第1の再生データの前記再生中の再生時刻から、既に取得された前記第1の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第2の再生データとを保持する保持部を備える。
画像処理装置には、前記開始時刻以降の前記第2の再生データを取得する取得部をさらに設けることができる。
前記保持部には、前記第2の再生データの取得開始前または取得開始後に、前記所定の再生時刻よりも後の再生時刻の前記第1の再生データを破棄させることができる。
前記第1の再生データおよび前記第2の再生データを、同じコンテンツの互いに異なる視点の再生データとすることができる。
前記第1の再生データおよび前記第2の再生データを、映像データまたは音声データとすることができる。
前記取得部には、所定時間単位分ずつ前記第2の再生データを取得させることができる。
前記所定時間単位をセグメントとすることができる。
前記取得部には、前記再生中の再生時刻から前記開始時刻までの前記第1の再生データの再生時間よりも、前記開始時刻を先頭とする前記所定時間単位の前記第2の再生データの取得に必要な時間が短くなるように前記開始時刻を選択させることができる。
前記取得部には、再生中の前記所定時間単位の前記第1の再生データと同じ再生時刻の前記所定時間単位の前記第2の再生データである同時刻再生データの取得に必要な時間と、前記同時刻再生データの取得後、前記同時刻再生データのデコードが前記第1の再生データの再生に追いつくまでに必要な時間との和が、前記再生中の再生時刻から、再生中の前記所定時間単位の前記第1の再生データの再生が終了するまでの再生時間よりも短い場合、前記同時刻再生データの先頭位置を前記開始時刻として前記第2の再生データを取得させることができる。
前記取得部には、前記開始時刻を先頭とする前記所定時間単位の前記第2の再生データとして、再生中の前記第1の再生データのビットレートよりも低いビットレートの前記第2の再生データを取得させ、その後、取得される前記第2の再生データのビットレートが増加していくように、前記所定時間単位のより高いビットレートの前記第2の再生データを取得させることができる。
画像処理装置には、前記再生中の再生時刻から前記所定の再生時刻までの間の再生時刻において、出力する再生データを前記第1の再生データから前記第2の再生データへと切り替える出力部をさらに設けることができる。
前記出力部には、映像データである前記第1の再生データから前記第2の再生データへの出力の切り替えのタイミングと、音声データである前記第1の再生データから前記第2の再生データへの出力の切り替えのタイミングとが略同じとなるように制御させることができる。
前記取得部には、映像データと音声データとで、同じ再生時刻の前記第1の再生データおよび前記第2の再生データが保持される期間の少なくとも一部が重なるように制御させることができる。
画像処理装置には、前記保持部に保持されている同じ再生時刻の前記第1の再生データと前記第2の再生データとに基づいてエフェクト処理を行い、前記エフェクト処理により得られた再生データを出力する出力部をさらに設けることができる。
本技術の一側面の画像処理方法またはプログラムは、第1の再生データに基づく再生から、前記第1の再生データとは異なる第2の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第1の再生データと、前記第1の再生データの前記再生中の再生時刻から、既に取得された前記第1の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第2の再生データとを保持するステップを含む。
本技術の一側面においては、第1の再生データに基づく再生から、前記第1の再生データとは異なる第2の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第1の再生データと、前記第1の再生データの前記再生中の再生時刻から、既に取得された前記第1の再生データの最後の再生時刻までの間の再生時刻が開始時刻として取得された、前記開始時刻以降の前記第2の再生データとが保持される。
本技術の一側面によれば、ストリームの替え時の応答速度を向上させることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
本技術は、MPEG-DASHストリーミング配信において、多視点切り替え等の再生を行うにあたり、ストリームの切り替え時の応答速度を向上させることができるようにするものである。また、本技術によれば、ダウンロード処理やバッファ管理によって、視聴体験上発生する違和感を低減させることができるようになる。
〈本技術について〉
本技術は、MPEG-DASHストリーミング配信において、多視点切り替え等の再生を行うにあたり、ストリームの切り替え時の応答速度を向上させることができるようにするものである。また、本技術によれば、ダウンロード処理やバッファ管理によって、視聴体験上発生する違和感を低減させることができるようになる。
なお、本技術はMPEG-DASHストリーミング配信等の動画像再生の他、VR(Virtual Reality)などにも適用することが可能であるが、以下では本技術をMPEG-DASHストリーミング配信に適用した場合を例として説明を続ける。
MPEG-DASHを多視点動画配信に適用した場合、セグメント境界で表示の切り替えが行われるという制約のため、リモートコマンダ等によるユーザからの切り替え要求が発生した時刻に対して、再生されている映像コンテンツが実際に切り替わるまでに遅延が発生する。例えばサーバのコンテンツ制作とクライアントプレーヤの実装次第では10秒以上の遅延が発生することも有り得る。
例として、例えば図1に示すようにコンテンツの視点1のセグメントSG11における矢印A11に示す部分を再生しているときに、視点1から視点2への表示の切り替えが指示されたとする。また、この時点で視点1のストリームについてセグメントSG12の矢印A12に示す部分までダウンロードが完了しており、セグメントSG11からセグメントSG12の矢印A12に示す部分までがキャッシュ済みとなっているとする。なお、図1において横方向は時間を示しており、各四角形はセグメントを表している。
通常、クライアント装置は1個以上のセグメントデータを事前にダウンロードしてキャッシュしておき、実際に再生するときはキャッシュから映像データや音声データをパースしながら取得してデコーダに供給し、その後描画処理等が行われる。
ここで、セグメントデータのキャッシュ量についてはクライアント装置の実装により異なるが、現在再生中の時刻から先、少なくとも数秒から数十秒分程度はキャッシュするのが一般的である。
また、表示の切り替えの際、視点1のキャッシュ済みのセグメントを全て再生してから視点2へと遷移することが一般的である。
したがって、この例では、矢印A11に示す部分の再生中に視点2への切り替えが指示されると、クライアント装置ではセグメントSG12のダウンロードが完了した後、そのセグメントSG12に続く視点2のセグメントSG13のダウンロードが開始される。そして、視点1の映像データの再生がセグメントSG12の終端部分まで終了すると、表示が視点2へと切り替えられてセグメントSG13の先頭部分から映像データの再生が開始される。
しかし、このように視点1のキャッシュ済みのセグメントの再生が終了してから視点2へと遷移していては、ユーザが切り替えの操作をしてから実際に表示が切り替わるまでのタイムラグが大きすぎて実用的ではない。この場合、タイムラグが大きくなるとユーザは切り替えの指示が正しく受け付けられたかが分からず、余計な操作をしてしまうことも有り得る。
そこで、例えば表示切り替えの遅延を短くし、応答性(応答速度)を向上させる1つの方法として、配信サーバ側でコンテンツを制作する際に、例えば0.5秒などセグメント長を極端に短くすることが考えられる。この場合、表示の切り替えが可能なセグメント境界に到達する周期が短くなり、体感上の応答速度を速めることが可能である。
しかし、この方法ではエンコード画質に影響が出て視聴品質が低下したり、セグメントデータの数が増えてサーバ側の処理やストレージ管理の負荷が増えたりするなどデメリットも多い。
そこで、本技術では、コンテンツの配信側を現状のシステムのまま変更を加えることなく、新しいダウンロード管理およびキャッシュ管理の方法をクライアント装置に導入することで、表示切り替え時の応答速度を向上させることができるようにした。
また、多視点映像配信においては、複数の映像視点に1種類の音声を付加する場合と、複数の映像視点ごとにそれらの映像にマッチした音声を用意する場合とがある。
例えば前者はミュージックビデオなど、作品として鑑賞するようなものに対して適用されることが考えられ、後者はライブ配信など臨場感を重視するようなものに対して適用されることが考えられる。
MPEG-DASHストリーミング再生において映像視点の切り替えに応じて音声も同時に切り替える場合、映像と音声の切り替え処理はそもそも別スレッド処理が基本であり、切り替えのタイミングはそれぞれ個別に計算され、決定される。よって、基本的に映像と音声の切り替わりのタイミングを同期させる想定がなく、切り替わり点には時間的なずれが生じることになる。
例えば図2に示すように、コンテンツとして視点1の映像のセグメントSG21と、視点1の音声のセグメントSG31が同時に再生されているとする。
なお、図2において横方向は時間を示しており、各四角形はセグメントを表している。また、図2において文字「k」や「k+1」、「k+2」は映像のセグメントを識別するセグメントインデックスを示しており、文字「k’」や「k’+1」、「k’+2」は音声のセグメントを識別するセグメントインデックスを示している。
図2に示す例において、視点1のセグメントSG21の再生中に視点の切り替えが指示されたとする。このとき、映像についてはセグメントSG21が再生された後、矢印A21に示される位置において視点の切り替えが行われ、その後は視点2のセグメントSG22と、それに続いて視点2のセグメントSG23が再生されることになる。
また、音声については、視点1のセグメントSG31が再生された後、矢印A22に示される位置において視点の切り替えが行われ、その後は視点2のセグメントSG32と、それに続いて視点2のセグメントSG33が再生されることになる。
しかし、この例では映像のセグメントの境界位置と音声のセグメントの境界位置とが異なるため、視点1から視点2へと切り替えを行うときに映像と音声とで切り替え時刻にずれが生じてしまう。
すなわち、この例では、映像は矢印A21に示す時刻で視点1から視点2へと切り替えられるが、音声については矢印A21に示す時刻では視点1が継続して再生された状態となっている。そして、その矢印A21に示す時刻よりも後の矢印A22に示す時刻となったときに、音声が視点1から視点2へと切り替えられる。したがって、映像と音声とで期間T11の時間の長さだけ切り替え時刻にずれが生じることになる。
一般的に、映像と音声とで意図的に視点の切り替わるセグメント境界位置が近い位置となるように合わせる処理が行われるような実装とされていたとしても、映像と音声はそれぞれサンプルレートが異なるため、セグメントを分割できるポイントもそれぞれのエンコード条件などにより異なる。したがって映像と音声とでセグメント境界の位置をコンテンツの制作時に同時刻とすること自体がそもそも困難である。
このようなことから、セグメント境界での切り替えを前提とした実装では、映像と音声の切り替えタイミングを視聴体感上違和感ないレベルで合わせるのはほぼ不可能である。映像のセグメント境界と音声のセグメント境界とが偶然に違和感がない程度に近いタイミング(位置)となることはあっても、任意のタイミングで発生するユーザの操作に対して常時良好な結果が得られることはない。そのため、映像と音声の同時切り替えについては、セグメント境界で切り替えを行っている限り根本的な解決には至らない。
そこで、本技術では、セグメントの途中でストリームの切り替えを実現することができるキャッシュ管理方法を導入することで、映像と音声の切り替えタイミングのずれを低減させ、コンテンツ視聴時の違和感を低減させることができるようにした。
さらに、視聴体験としてコンテンツの映像視点が突然切り替わると、その切り替わりが編集映像なのか、またはユーザの操作に応答して切り替わったのかを判別することが難しい場合がある。
特に近いカメラ視点同士で視点が切り替わる場合や、パン、チルト、ズームなどのカメラ操作やクレーン等によりカメラ位置自体が移動するなど、撮像しているカメラが動いている場合等においては、視聴者にとって視点が切り替わったのか元々の編集によるものであるかが非常に分かりづらい。そのため、ユーザが切り替わりを認識することができず、操作ボタンを何度も押してしまうことも起こり得る。このようにユーザがコンテンツ視聴以外のことに気を取られると視聴体験として没入感が損なわれることになる。
これに対して、一般的に文字列やアイコンなどを画面にOSD(On Screen Display)表示することで切り替わりの告知を行うことが考えられるが、このようなOSD表示によってコンテンツ視聴時の没入感が損なわれてしまう可能性がある。
そこで、本技術では、例えばクロスフェードやワイプといったトランジション効果などの数秒程度の映像エフェクトを施すことと、そのような映像エフェクトを実現するためのキャッシュ管理を導入することで、没入感を損なうことなくユーザが視点等の切り替わりを簡単に認識することができるようにした。
また、音声が突然切り替わる場合にも音声の品質が低下し、没入感が損なわれてしまうことがある。例えば一般に相関が低い音声同士を接続すると不連続点でノイズが発生する可能性があるため、切り替え前後の音声の相関が低いと、ノイズの発生により再生音声の品質が低下してしまうことがある。
そこで、本技術では映像における場合と同様のキャッシュ管理を導入することで、音声同士のクロスフェード等のノイズ対策用の音声エフェクトを実施できるようにし、没入感の損失を低減させることができるようにした。
〈クライアント装置の構成例〉
次に、本技術を適用したクライアント装置のより具体的な実施の形態について説明する。
次に、本技術を適用したクライアント装置のより具体的な実施の形態について説明する。
図3は、本技術を適用したクライアント装置の一実施の形態の構成例を示す図である。
図3に示すクライアント装置11は、図示せぬサーバからコンテンツのセグメントデータをダウンロードし、映像と音声のうちの少なくとも映像からなるコンテンツの再生を制御する再生装置である。
クライアント装置11では、ダウンロードやその後の処理等、コンテンツの映像データや音声データといった再生データは、基本的にはセグメントと呼ばれる所定時間単位、つまり所定フレーム数単位で取り扱われる。
また、クライアント装置11により取得(ダウンロード)され、再生される各視点の再生データは、互いに対応する再生時刻を有し、互いに関連性のある再生データである。
ここでは、各視点の再生データは、それぞれ同じコンテンツの互いに異なる視点の再生データとされるので、それらの再生データは同じコンテンツに関するものであるという関連性を有する。また、各視点の再生データは互いに同じ再生時刻の部分を有している。例えば、再生データが映像データであれば、各映像データの再生時刻はビデオセグメントデータに含まれているビデオフレームのCTS(Composition Time Stamp)などとされる。
なお、クライアント装置11で取り扱われる、再生の切り替え対象となる互いに異なる再生データは、各視点の再生データに限らず、互いに対応する再生時刻を有し、関連性のあるものであれば、どのようなものであってもよい。
クライアント装置11は、ユーザイベントハンドラ21、メモリ22、HTTP(Hypertext Transfer Protocol)ダウンロードマネージャ23、MPD(Media Presentation Description)パーサ24、保持部25-1、保持部25-2、保持部25-3、保持部25-4、セグメントパーサ26、ビデオデコーダ27-1、ビデオデコーダ27-2、ビデオエフェクタ28、オーディオデコーダ29-1、オーディオデコーダ29-2、およびオーディオエフェクタ30を有している。
ユーザイベントハンドラ21は、ユーザによる視点の切り替えを指示する操作を受けたとき、その操作に応じた視点切り替え要求をメモリ22に供給し、保持させる。
メモリ22は、ユーザイベントハンドラ21から供給された視点切り替え要求を保持する。すなわち、メモリ22は、供給された視点切り替え要求をイベントキューに入力(スタック)し、保持する。
HTTPダウンロードマネージャ23は、MPDパーサ24の制御やメモリ22に保持された視点切り替え要求に基づいて、サーバからMPDファイルをダウンロード(受信)してMPDパーサ24に供給したり、サーバからセグメントデータをダウンロード(受信)して保持部25-1乃至保持部25-4の何れかに供給したりする。すなわち、HTTPダウンロードマネージャ23は、サーバからセグメントデータ等を取得する取得部として機能する。
ここで、MPDファイルはコンテンツの映像(動画像)や音声のセグメントデータを管理するためのメタデータが記述されたデータである。
また、HTTPダウンロードマネージャ23は、保持部25-1乃至保持部25-4におけるセグメントデータのキャッシュへのスタックを制御したり、キャッシュを管理したりする。
MPDパーサ24は、HTTPダウンロードマネージャ23から供給されたMPDファイルに基づいてHTTPダウンロードマネージャ23を制御し、サーバからセグメントデータをダウンロード(取得)させる。
保持部25-1乃至保持部25-4は、例えばメモリなどからなり、HTTPダウンロードマネージャ23から供給されたセグメントデータを一時的に保持し、セグメントパーサ26に供給する。すなわち、保持部25-1乃至保持部25-4は、HTTPダウンロードマネージャ23の制御に従って、セグメントデータのキャッシュへのスタックを行う。
例えば保持部25-1には、ビデオデコーダ27-1に供給される映像データ(動画像データ)のセグメントデータが供給され、保持部25-2には、ビデオデコーダ27-2に供給される映像データのセグメントデータが供給される。
また、例えば保持部25-3には、オーディオデコーダ29-1に供給される音声データのセグメントデータが供給され、保持部25-4には、オーディオデコーダ29-2に供給される音声データのセグメントデータが供給される。
なお、以下、保持部25-1乃至保持部25-4を特に区別する必要のない場合、単に保持部25とも称することとする。また、ここでは映像(ビデオ)や音声(オーディオ)ごとに合計4つの保持部25が設けられる例について説明したが、これらの4つの保持部25は1つのメモリにより実現されるようにしてもよい。
セグメントパーサ26は、保持部25-1および保持部25-2内のキャッシュにスタックされたセグメントデータ(セグメントファイル)を適宜、読み出して、セグメントデータから再生されるべき映像データを抽出し、ビデオデコーダ27-1およびビデオデコーダ27-2に供給する。
また、セグメントパーサ26は、保持部25-3および保持部25-4内のキャッシュにスタックされたセグメントデータを適宜、読み出して、セグメントデータから再生されるべき音声データを抽出し、オーディオデコーダ29-1およびオーディオデコーダ29-2に供給する。
ビデオデコーダ27-1およびビデオデコーダ27-2は、セグメントパーサ26から供給された映像データをデコードし、ビデオエフェクタ28に供給する。なお、以下、ビデオデコーダ27-1およびビデオデコーダ27-2を特に区別する必要のない場合、単にビデオデコーダ27とも称することとする。
ビデオエフェクタ28は、ビデオデコーダ27から供給された映像データを、適宜、最終的に画像モニタ等の後段の装置に出力する形態のデータに加工し、その結果得られた映像データを提示用の映像データとして出力する。すなわち、ビデオエフェクタ28は、提示用の映像データを出力する出力部として機能する。
例えばビデオエフェクタ28は、ビデオデコーダ27から供給された映像データをそのまま提示用の映像データとして出力したり、ビデオデコーダ27から供給された映像データにエフェクト処理を施し、その結果得られた映像データを提示用の映像データとして出力したりする。
オーディオデコーダ29-1およびオーディオデコーダ29-2は、セグメントパーサ26から供給された音声データをデコードし、オーディオエフェクタ30に供給する。なお、以下、オーディオデコーダ29-1およびオーディオデコーダ29-2を特に区別する必要のない場合、単にオーディオデコーダ29とも称することとする。
オーディオエフェクタ30は、オーディオデコーダ29から供給された音声データを、適宜、最終的に音声DAC(Digital to Analog Converter)や増幅器等の後段の装置に出力する形態のデータに加工し、その結果得られた音声データを提示用の音声データとして出力する。すなわち、オーディオエフェクタ30は提示用の音声データを出力する出力部として機能する。
例えばオーディオエフェクタ30は、オーディオデコーダ29から供給された音声データをそのまま提示用の音声データとして出力したり、オーディオデコーダ29から供給された音声データにエフェクト処理を施し、その結果得られた音声データを提示用の音声データとして出力したりする。
〈ダウンロードプロセスとキャッシュ管理について〉
続いて、クライアント装置11におけるセグメントデータのダウンロードプロセスとキャッシュ管理について説明する。
続いて、クライアント装置11におけるセグメントデータのダウンロードプロセスとキャッシュ管理について説明する。
クライアント装置11では、コンテンツの視点切り替え時に、ユーザによる視点の切り替えを指示する操作がなされた時点から、より迅速に視点の切り替えが行われるようにするために、以下において説明するダウンロードプロセスとキャッシュ管理が行われる。
すなわち、クライアント装置11では、切り替え先の視点の適切なセグメントが選択されるダウンロードプロセスと、同時刻に再生される2視点分のセグメントデータを一定期間分だけ同時に保持するキャッシュ管理とが行われる。
まず、クライアント装置11において行われるダウンロードプロセスについて説明する。
例えばコンテンツの再生時において、同一コンテンツの視点1のセグメントから視点2のセグメントへと再生の切り替えを行うとする。そのような場合、より早いタイミングでの切り替えを実現するためには、視点2のダウンロード対象となるセグメントの選択が重要である。
クライアント装置11では、例えば図4に示すように視点1の既キャッシュ分全てを再生せず速やかに視点2に移行するために、ユーザの切り替え要求発生後、直ちに視点1のセグメントデータのダウンロードが停止される。なお、図4において横方向は時間、特にコンテンツの再生時刻を示しており、各四角形はセグメントを表している。
この例では、視点1については、現時点ではセグメントSG41の矢印A41に示す部分を再生中でとなっている。つまり、セグメントSG41のセグメントデータに基づいて、視点1の映像の矢印A41に示す再生時刻の部分が再生されているとする。
また、セグメントSG41乃至セグメントSG43を含む複数のセグメント、およびセグメントSG44の一部のダウンロードが完了している。さらに、現時点ではセグメントSG44の矢印A42に示す部分のセグメントデータがダウンロード中となっている。
このような状態で視点1から視点2への切り替え要求がなされると、クライアント装置11では、セグメントSG44のダウンロードが停止されるとともに視点2のダウンロード対象とする最初のセグメントが決定(選択)される。そして、その決定に従って視点2のセグメントのダウンロードが開始される。以下では、切り替え後の視点の最初にダウンロードされるセグメントを開始セグメントとも称することとする。
ここでは、現在再生中である視点1のセグメントSG41と同じ再生時刻の視点2のセグメントがセグメントSG51となっている。
例えば、この例では現在再生中である視点1のセグメントSG41の次のセグメントSG42と再生時刻が同じである視点2のセグメントSG52と、そのセグメントSG52の次のセグメントSG53とがダウンロード対象の開始セグメントの候補とされる。
現在再生中である視点1のセグメントSG41の再生が終了間際であるなど、開始セグメントの最初の候補となる視点2のセグメントのダウンロードがセグメントSG41の再生終了までに完了しない場合には、その1つ後のセグメントが候補とされる。
したがって、この例では、例えば視点2の開始セグメントの最初の候補となるセグメントSG52のダウンロードが、視点1のセグメントSG41の再生終了までに完了しない場合には、次のセグメントSG53が開始セグメントの候補とされることになる。
なお、視点1から視点2へと迅速に再生の切り替えを行うには、現在再生中のセグメントSG41と再生時刻が同じである視点2のセグメントSG51から、これまでダウンロードされていた視点1のセグメントSG44と再生時刻が同じである視点2のセグメントSG54までの間のセグメントが開始セグメントとされればよい。
換言すれば、HTTPダウンロードマネージャ23において、セグメントSG41の現在再生中である再生時刻から、セグメントSG44の既にダウンロード(取得)されて保持部25に保持されている最後の再生時刻までの間の適切な再生時刻が開始時刻として選択されるようにすればよい。この場合、選択された開始時刻を先頭とする視点2のセグメントが開始セグメントとされて、その開始セグメント以降のセグメントのセグメントデータがダウンロードされる。
ここで、図5乃至図7を参照して、開始セグメントの決定についてさらに詳細に説明する。なお、図5乃至図7において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
例えば図5に示すように視点2のセグメントSG52とセグメントSG53が開始セグメントの候補となっているとする。セグメントSG41の現在再生されている位置(再生時刻)を再生点とも称し、再生が視点2へと切り替わる位置(再生時刻)を切り替え点とも称することとする。この例では、切り替え点は、切り替え先の視点の最初に取得されるセグメントデータの先頭位置となる再生時刻、つまりセグメントデータの取得が開始される再生時刻(開始時刻)であるということができる。
なお、切り替え点は切り替え先の視点のセグメントの先頭位置とされてもよいし、切り替え先の視点のセグメントの途中の位置とされてもよい。
また、現在再生中の再生時刻である再生点から、開始セグメントの候補が実際の開始セグメントとされたときの切り替え点までの間の切り替え元(切り替え前)の視点のコンテンツの再生時間を再生時間dur_vp1とも称することとする。さらに、開始セグメントの候補とされるセグメントのセグメントデータのダウンロードに必要となる時間をダウンロード時間dur_vp2とも称することとする。
図5では、セグメントSG52を開始セグメントとするものと仮定した場合における再生時間dur_vp1とダウンロード時間dur_vp2が図示されている。
すなわち、この例では、矢印A41に示す再生点から、切り替え点とされるセグメントSG52の先頭位置まで、つまりセグメントSG41とセグメントSG42との境界位置までの期間の長さが再生時間dur_vp1とされている。また、セグメントSG44のダウンロードを停止させてから、セグメントSG52のセグメントデータのダウンロードが完了するまでの時間がダウンロード時間dur_vp2とされている。
クライアント装置11では、ダウンロード時間dur_vp2が再生時間dur_vp1よりも短くなるように開始セグメントが選択される。このとき、ダウンロード時間dur_vp2が再生時間dur_vp1よりも短くなるセグメントのうち、最も再生時刻が早いものが開始セグメントとして選択される。
例えば図5に示す例において、セグメントSG52のダウンロード時間dur_vp2が再生時間dur_vp1よりも短くなる場合には、セグメントSG52が開始セグメントとして選択される。
これに対して、例えばセグメントSG52のダウンロード時間dur_vp2が再生時間dur_vp1よりも長くなる場合には、セグメントSG52は開始セグメントとして選択されない。
この場合、例えば図6に示すように、セグメントSG53のダウンロード時間dur_vp2と再生時間dur_vp1とが比較される。
図6に示す例では、矢印A41に示す再生点から、切り替え点とされるセグメントSG53の先頭位置まで、つまりセグメントSG42とセグメントSG43との境界位置までの期間の長さが再生時間dur_vp1とされている。また、セグメントSG44のダウンロードを停止させてから、セグメントSG53のセグメントデータのダウンロードが完了するまでの時間がダウンロード時間dur_vp2とされている。
この場合、セグメントSG53のダウンロード時間dur_vp2が再生時間dur_vp1よりも短くなるときには、セグメントSG53が開始セグメントとして選択されることになる。
なお、切り替え元の視点1から切り替え先となる視点2へと視点を切り替える場合、視点2の開始セグメントとして、解像度等の品質が切り替え元の視点1のセグメントの品質と同等であるものがダウンロード対象の候補とされる。
しかし、視点切り替え時の即応性を重視するケースでは、ダウンロード時間を短縮するために視点2のBitrate Adaptation用のセグメントをダウンロード対象の候補としてもよい。すなわち、同じ視点2の同じ再生時刻のセグメントでも、視点切り替え直後に再生される視点2のセグメントとしてビットレートの低いRepresentationから開始セグメントを選択することも可能である。この場合、視点1から視点2へと切り替えを行った後、徐々にビットレートが高い、つまり品質の高いセグメントへとダウンロードおよび再生されるセグメントが戻されていく(切り替えられていく)ようにすればよい。
例えばセグメントSG52を開始セグメントとし、セグメントSG52としてセグメントSG41と同じビットレートのセグメントをダウンロードしようとしても、切り替え点の再生が終了するまでの間にセグメントSG52のダウンロードが完了しないとする。
しかし、この場合、セグメントSG52として、セグメントSG41のビットレートよりも低いビットレートのセグメント、つまり品質が低いセグメントを選択すれば、切り替え点の再生終了までにセグメントのダウンロードが間に合うこともある。
そのような場合には、セグメントSG52を開始セグメントとするとともに、セグメントSG52として、セグメントSG41のビットレートよりも低いビットレートのセグメントをダウンロードするようにすれば、より迅速に視点切り替えを行うことができる。
この場合、例えばセグメントSG52に続くセグメントSG53として、セグメントSG52よりもビットレートが高いセグメントがダウンロードされるようにし、その次のセグメントSG54として、もとのセグメントSG41と同じビットレートのセグメントがダウンロードされるようにするなどとすればよい。
このように視点の切り替え直後には、切り替え前よりも低いビットレートのセグメントがダウンロードされ、その後、徐々にダウンロードされるセグメントのビットレートが高くなるように、つまりビットレートが増加していくようにし、最終的には切り替え前と同じビットレートのセグメントがダウンロードされるようにすれば、迅速に視点を切り替えることができる。
なお、通常、1つのAdaptation Setに対して複数のRepresentationが用意されており、それらのRepresentationのセグメントデータは、それぞれ同じ視点かつ同じ再生時刻であり、ビットレートが互いに異なるセグメントデータとなっている。そのため、クライアント装置11では、サーバに対して所望のRepresentationを選択(指定)することで、目的とするビットレートのセグメントデータをダウンロードすることができる。
また、再生中のセグメントSG41と同じ再生時刻の視点2のセグメントSG51を開始セグメントとしても、視点の切り替えに間に合うことがある。
例えば図7に示すように、セグメントSG51を開始セグメントの候補とすると、矢印A41に示す再生点から、切り替え点とされるセグメントSG51の位置までの期間の長さが再生時間dur_vp1となる。このとき、最も再生時間dur_vp1が長くなるのは、切り替え点がセグメントSG51の終端位置、つまりセグメントSG41とセグメントSG42との境界位置とされたときである。
また、セグメントSG44のダウンロードを停止させてから、セグメントSG51のダウンロードが完了するまでの時間がダウンロード時間dur_vp2とされる。
ここで、セグメントSG41の再生を継続して行いながらセグメントSG51のダウンロードとデコードを行うものとする。このとき、視点2のセグメントSG51のダウンロード後、セグメントSG51のデコードが視点1のセグメントSG41の再生中の位置に追いつくまでの時間をデコード時間dur_vp3とする。
すなわち、デコード時間dur_vp3は、セグメントSG51のデコードを開始してから、セグメントSG51のデコードが完了した位置(再生時刻)が、継続して再生しているセグメントSG41の再生中の位置(再生時刻)となるまでに必要な時間を示している。
なお、以下、切り替え先(切り替え後)のセグメントSG51のデコードが完了した位置が、切り替え元(切り替え前)のセグメントSG41の再生中の位置となるときの、セグメントSG41の再生中の位置をデコード完了時再生点とも称することとする。
但し、この場合、デコード完了時再生点は、セグメントSG41の再生終了位置、つまりセグメントSG41の終端位置よりも再生点側の位置である必要がある。したがって、この例ではデコード完了時再生点は、再生点と、セグメントSG41の終端位置との間の再生時刻となる。
具体的には、例えばセグメントSG41の再生を継続して行った場合に、ある再生時刻tcまでセグメントSG41の再生が終了する時点で、セグメントSG51の先頭から再生時刻tcまでのデコードが完了するものとすると、その再生時刻tcがデコード完了時再生点となる。
例えばダウンロード時間dur_vp2とデコード時間dur_vp3の和が、再生点からセグメントSG41の終端位置までの再生時間よりも短くなるとき、より詳細には再生時間dur_vp1よりも短くなるときには、視点1のセグメントSG41の再生終了前に視点2のセグメントSG51が再生可能な状態となる。換言すれば、ダウンロード時間dur_vp2とデコード時間dur_vp3の和が、再生点からデコード完了時再生点までの再生時間よりも短くなればよい。
したがって、そのような場合には、セグメントSG51を開始セグメントとし、セグメントSG51の途中の位置、つまりデコード完了時再生点かそれより後の再生時刻の位置を切り替え点とすることができる。
なお、視点1から視点2への切り替え時に視点1のセグメントと、そのセグメントと同じ再生時刻の視点2のセグメントとに基づいてエフェクト処理等を行う場合には、切り替え元の視点1のセグメントの再生終了までの間に、さらにそのエフェクト処理等の効果時間が残っているかを考慮して開始セグメントや切り替え点を選択する必要がある。
すなわち、視点切り替え時にエフェクト処理等を行う場合、デコード完了時再生点から、現在再生中の切り替え元の視点1のセグメントの再生終了までの時間が、エフェクト等を開始してから完全に視点2へと切り替わるまでの時間(効果時間)よりも長い必要がある。
但し、切り替え元の視点1のセグメントとして、現在再生中のセグメントの次のセグメントが既にキャッシュ済みとなっている場合には、再生が完全に視点2へと切り替わるタイミングを、現在再生中のセグメントの次のセグメント内の位置としてもよい。そのようなときには、切り替え元の視点1におけるキャッシュ済みのセグメントを破棄せずに保持しておけばよく、デコード完了時再生点から、切り替え元の視点1の現在再生中のセグメントの再生終了までの時間が、エフェクト等を開始してから完全に視点2へと切り替わるまでの時間(効果時間)よりも短くてもよい。
また、図5や図6を参照して説明した例においても開始セグメントの先頭位置が切り替え点とされるのではなく、開始セグメントの途中位置が切り替え点とされるようにしてもよい。
次に図8および図9を参照して、クライアント装置11におけるキャッシュ管理について説明する。なお、図8および図9において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
例えば図8に示すように、視点1のセグメントSG41を再生中に視点切り替え要求があり、セグメントSG52を開始セグメントとして、セグメントSG52やセグメントSG53のセグメントデータのダウンロードを開始したとする。
この場合、既にキャッシュ済みとなっている視点1のセグメントデータについては、不要となった時点、つまり再生が終了した時点や再生されないことが確定した時点で、それらの不要なキャッシュ済みのセグメントデータを破棄することが考えられる。
例えば図8に示す例では、開始セグメントと同じ再生時刻のセグメントSG42と、それよりも後のセグメントSG43からセグメントSG44までの各セグメントとは再生されることはないので不要なセグメントとし、それらのセグメントのセグメントデータを破棄することができる。
しかし、クライアント装置11では、例えば図9に示すように、本来は破棄されてしまうキャッシュのうちの一部が別管理で破棄せずに保持される。これにより、一定期間分については、視点1と視点2の同時刻のセグメントデータが保持された状態となる。
すなわち、図9に示す例では、図8に示した例と同様に視点1のセグメントSG41を再生中に視点切り替え要求があり、セグメントSG52が開始セグメントとされて、セグメントSG52やセグメントSG53のセグメントデータのダウンロードが開始されたとする。
この場合、クライアント装置11では、ダウンロードされたセグメントSG52やセグメントSG53のセグメントデータがキャッシュ(保持)される。また、それと同時に、それらのセグメントSG52およびセグメントSG53と再生時刻が同じである切り替え元の視点1のセグメントSG42およびセグメントSG43のセグメントデータも破棄されずに保持されたままとされる。さらに、キャッシュ済みの視点1のセグメントのうち、セグメントSG44を含むいくつかのセグメントのセグメントデータは破棄される。
すなわち、開始セグメントと同時刻のセグメントを含む、視点1の連続するいくつかのキャッシュ済みのセグメント、つまり開始セグメントの先頭位置の時刻を開始時刻とする所定期間内の視点1のセグメントは破棄されずに保持される。そして、視点1の所定期間後のキャッシュ済みのセグメントのセグメントデータは破棄される。
以下では、このように開始セグメントの先頭位置の時刻を開始時刻とする所定期間について、切り替え元の視点1のセグメントと、切り替え先の視点2のセグメントのセグメントデータを保持しておくキャッシュ管理手法を、特に二重持ちキャッシュ管理とも称することとする。また、以下では、互いに異なる視点の同じ再生時刻のセグメントデータが両方とも保持(キャッシュ)される再生時刻の期間を二重持ち期間とも称し、切り替え元と切り替え先の両方のセグメントデータをキャッシュすることを二重キャッシュとも称することとする。
クライアント装置11では、このような二重持ちキャッシュ管理を行うことで、二重持ち期間内の任意の位置が切り替え点となるように切り替え点の調整を行ったり、二重持ち期間においてエフェクト処理を行ったりすることができるようになる。
以上のようにクライアント装置11によれば、上述したダウンロードプロセスと二重持ちキャッシュ管理を行うことで、以下のような効果を得ることができる。
すなわち、まずダウンロードプロセスと二重持ちキャッシュ管理により、視点切り替え時の応答速度を向上させることができる。
一般的には視点の切り替え位置は、切り替え前の視点のキャッシュ済みの最後のセグメントの境界の位置となる。これに対してクライアント装置11では、最速で現在再生中の切り替え元の視点のセグメントと同じ時刻の切り替え先の視点のセグメントの途中の位置で視点の切り替えを行うことができる。
この場合、クライアント装置11は、現在再生中の切り替え元の視点での再生を継続して行いながら、それと並行して切り替え先のセグメントのデコードを行う。そして切り替え先の視点のデコードが完了した位置が、切り替え元の視点の再生中の位置に追いついた時点で、つまりデコード完了時再生点までデコードが終了した時点で切り替え先の視点へと視点切り替えが可能となる。
なお、例えばセグメントが映像のセグメントである場合、視点切り替え前においては、切り替え先の視点のセグメントのデコード時には、デコードで得られた映像データに基づく画像(映像)の描画等は不要であるので、その分だけ高速でデコード動作が可能である。
デコード開始時には高速なデコード動作を行い、デコード完了時再生点までデコードが完了した後は、通常の速度でデコード動作を行うようにしてもよい。
また、セグメントのダウンロードとキャッシュ管理を、コンテンツを構成する映像と音声とで個別に行うと、それぞれ映像と音声とで、最速のタイミングで視点の切り替えを行うことができる。
しかし、映像と音声とで個別に最速のタイミングで視点の切り替えを行っても、映像と音声とで切り替えタイミングにずれが生じるため、総合的な視聴体験の観点からは必ずしも十分であるとはいえない。
これに対して、クライアント装置11では、二重持ちキャッシュ管理が行われるので、映像と音声とで切り替えタイミング、つまり切り替え点の位置をほぼ同じ時刻とすることができ、切り替え時の違和感の発生を抑制することができる。
具体的には、例えば図10に示すように、コンテンツの映像については切り替え前の視点1のセグメントSG61とセグメントSG62がキャッシュされている状態で視点切り替え要求があったとする。なお、図10において横方向は時間、すなわち再生時刻を示しており、各四角形はセグメントを表している。
このとき、切り替え先の視点2のセグメントSG71が開始セグメントとされて、セグメントSG71とセグメントSG72のセグメントデータがダウンロードされ、同じ時刻の視点1のセグメントSG62と視点2のセグメントSG71の両方のセグメントデータがキャッシュされている状態となっている。
また、コンテンツの音声については切り替え前の視点1のセグメントSG81とセグメントSG82がキャッシュされている状態で視点切り替え要求があり、切り替え先の視点2のセグメントSG91が開始セグメントとされたとする。また、視点2のセグメントSG91とセグメントSG92のセグメントデータがダウンロードされ、同じ時刻の視点1のセグメントSG82と視点2のセグメントSG91の両方のセグメントデータがキャッシュされている状態となっている。
このとき例えば映像については、開始セグメントであるセグメントSG71の先頭の位置を切り替え点とし、音声については開始セグメントであるセグメントSG91の先頭の位置を切り替え点とすると、期間T61の分だけ映像と音声の切り替えにずれが生じる。
そこで、クライアント装置11は、映像と音声とで二重キャッシュする区間の少なくとも一部が重なるようにキャッシュ管理を行うとともに、映像と音声とで切り替え点がほぼ同じ時刻となるように切り替え点を決定する。
例えば図10の例では、期間T62において映像と音声の両方が二重キャッシュされている。ここで、期間T62の先頭位置はセグメントSG91の先頭位置となっており、期間T62の終了位置はセグメントSG71の終了位置となっている。
クライアント装置11は、この期間T62内の適切な位置を映像の切り替え点とするとともに、期間T62内における映像の切り替え点とほぼ同じ時刻の位置を音声の切り替え点とする。これにより、ユーザにとってはほぼ同時と感じられるタイミングで映像と音声がそれぞれ切り替えられ、違和感のない視点切り替えが実現される。
ここで、切り替えのタイミングをほぼ同時としているのは、映像と音声のサンプルレートの違いから、それらの映像と音声とでは時間グリッドが異なり、切り替え点の位置を完全に一致させることはできないからである。そのため、映像と音声のそれぞれのサンプル間隔(フレームのレベル)より短い精度という実現可能な最高の精度でほぼ同時に切り替えが行われる。
また、二重持ちキャッシュ管理により、視点1と視点2という同時刻の2系統の映像データが確保(保持)されているため、クロスフェードやワイプなどの様々なトランジション効果を映像エフェクトとして実行することが可能である。
なお、映像エフェクトは一般的には1秒から数秒程度の時間をかけて徐々に映像の入れ替えを行う処理であるが、この期間中は2つの異なる視点の映像が同時に表示されていることになり、視聴者からすれば、どちらか一方の視点の映像を見ている状況とは異なる。
このようなエフェクト期間中に切り替え元の視点から切り替え先の視点へと音声を切り替えれば、明確なタイミングで視点が切り替わるのではなく、切り替わりのタイミングがある程度曖昧になる。これにより、ユーザに対して視点の切り替わりを視覚的に認識させることができるとともに、映像と音声の切り替わりのずれを感じにくくさせることができ、その結果、視聴体感的な違和感を低減させることができる。したがって、映像エフェクトを行う場合には、映像と音声の視点の切り替わりタイミングを厳密に一致させなくても大きな違和感が生じることはない。
さらに、二重持ちキャッシュ管理により、同時刻の2系統の音声データが保持(確保)されているため、クロスフェード等の音声エフェクト処理を実行することが可能である。
例えばクロスフェードであれば、切り替え元の視点の音声を徐々に弱めながら、切り替え先の視点の音声を徐々に強めるように各視点の音声を合成し、最終的には切り替え先の視点の音声に滑らかに切り替わるといった音声の切り替えを実現することができる。
これにより、視点の切り替え時に瞬間的に音声が不連続となってしまうことを回避することができ、ノイズの発生を抑制することができる。なお、切り替え元の視点の音声と、切り替え先の視点の音声とが不連続なものであってもノイズが発生しないこともある。
〈ダウンロード処理の説明〉
続いて、図3に示したクライアント装置11により行われる処理について説明する。
続いて、図3に示したクライアント装置11により行われる処理について説明する。
まず、図11のフローチャートを参照して、クライアント装置11によるダウンロード処理について説明する。
このダウンロード処理は、コンテンツの再生開始が指示されると開始される。このとき、コンテンツが映像と音声からなる場合には、映像と音声のそれぞれについて個別にダウンロード処理が行われ、それらの映像と音声のセグメントデータがダウンロードされる。
この場合、まずHTTPダウンロードマネージャ23は、ダウンロード対象とするセグメント、すなわちセグメントデータを識別するセグメントインデックスの値を0とする。
ステップS11において、HTTPダウンロードマネージャ23は、セグメントインデックスの値を1だけインクリメントする。
ステップS12において、HTTPダウンロードマネージャ23は、セグメントインデックスに基づいて、最後のセグメントデータをダウンロードしたか否かを判定する。
ステップS12において最後のセグメントデータをダウンロードしたと判定された場合、つまり、コンテンツのセグメントデータを全てダウンロードした場合、ダウンロード処理は終了する。
これに対して、ステップS12においてまだ最後のセグメントデータをダウンロードしていないと判定された場合、ステップS13において、HTTPダウンロードマネージャ23は、セグメントインデックスにより示されるセグメントデータをダウンロードする。
すなわち、HTTPダウンロードマネージャ23はサーバに対してセグメントデータの送信を要求するとともに、その要求に応じてサーバから送信されてきたセグメントデータを受信して保持部25に供給し、保持させる。これにより、保持部25には、1つの視点のセグメントデータ、または切り替え前後の2つの視点のセグメントデータが保持された状態となる。
このようにHTTPダウンロードマネージャ23は、コンテンツのデータ(セグメントデータ)をセグメント単位、つまり1セグメント分ずつダウンロードする。なお、セグメントデータの取得元はサーバに限らず、記録媒体など、どのようなものであってもよい。
ステップS14において、HTTPダウンロードマネージャ23は、メモリ22のイベントキューに視点切り替え要求があるか否かを判定する。
ステップS14において視点切り替え要求がないと判定された場合、処理はステップS11に戻り、上述した処理が繰り返し行われる。
一方、ステップS14において視点切り替え要求があると判定された場合、ステップS15において、HTTPダウンロードマネージャ23は、切り替え元となる視点のキャッシュ量が十分であるか否かを判定する。
例えばステップS15では、映像と音声の視点の切り替えをほぼ同時に行う場合、映像と音声とで互いに重なる十分な長さの二重持ち期間を確保できる程度に切り替え元のセグメントデータのキャッシュがあるとき、キャッシュ量が十分であると判定される。
なお、コンテンツの再生をするにあたり、クライアント装置11で実施する処理の内容によっても十分であるとされるキャッシュ量は変化する。
例えば視点の切り替え時に映像エフェクトとして2秒間の間、クロスフェードが行われる場合には、その2秒間分の二重持ち期間を確保できる程度に切り替え元の視点のセグメントデータのキャッシュがあるとき、キャッシュ量が十分であると判定される。この場合、切り替え元の視点の2秒分以降のセグメントデータのキャッシュは破棄してもよい。
ステップS15においてキャッシュ量が十分でないと判定された場合、処理はステップS11に戻り、上述した処理が繰り返し行われる。
これに対して、ステップS15においてキャッシュ量が十分であると判定された場合、ステップS16において、HTTPダウンロードマネージャ23は、メモリ22のイベントキューから視点切り替え要求のイベントを削除する。
ステップS17において、HTTPダウンロードマネージャ23は視点の切り替えを行う。
すなわち、HTTPダウンロードマネージャ23は、ダウンロード対象のAdaptation SetおよびRepresentationを変更する。
この場合、HTTPダウンロードマネージャ23は、イベントキューにあった視点切り替え要求により示される切り替え先の視点に対応するAdaptation Setを変更後のAdaptation Setとして選択する。
また、HTTPダウンロードマネージャ23は、変更後のAdaptation SetのRepresentationのなかから、ネットワークの状況や所望する映像の解像度、切り替え元の視点のセグメントデータのキャッシュ量などに基づいて、適切なビットレートのRepresentationを変更後のRepresentationとして選択する。
この場合、上述したように、切り替え時には、切り替え前よりも低いビットレートのRepresentationが選択され、その後、徐々に高いビットレートのRepresentationが選択されていき、最終的には切り替え前と同じビットレートのRepresentationが選択されるようにしてもよい。
ステップS18において、HTTPダウンロードマネージャ23は、ダウンロード対象のセグメントデータとするセグメントインデックスの値を変更する。
すなわち、例えばHTTPダウンロードマネージャ23は、図4乃至図7や図10を参照して説明したように映像と音声の両方を考慮して切り替え点、開始セグメント、および二重持ち期間を決定する。
具体的には、例えば映像と音声の両方についての再生点や切り替え元の視点のセグメントデータのキャッシュ量、再生時間dur_vp1、ダウンロード時間dur_vp2、デコード時間dur_vp3、映像エフェクトの有無、音声エフェクトの有無、セグメントのビットレートなどに基づいて切り替え点、開始セグメント、および二重持ち期間が決定される。ここで、上述したように、開始セグメントを決定(選択)することはダウンロードの開始時刻とする再生時刻、つまり開始セグメントの先頭位置を選択することであるともいうことができる。
なお、より詳細には、開始セグメントの決定にセグメントのビットレート等を考慮する必要がある場合もあるので、ステップS17およびステップS18の処理は同時に行われる。
このようにして開始セグメントが決定されると、HTTPダウンロードマネージャ23は、セグメントインデックスの値が決定された開始セグメントの時間的に1つ前のセグメントを示す値となるように、グメントインデックスの値を変更する。これにより、次に行われるステップS13では、変更後のAdaptation SetのRepresentationについての開始セグメントのセグメントデータがダウンロードされる。
ステップS19において、HTTPダウンロードマネージャ23は、保持部25に保持されている切り替え元の視点の不要なキャッシュを破棄する。
すなわち、例えばHTTPダウンロードマネージャ23は、既に保持部25に保持されている切り替え元の視点のセグメントデータのうち、ステップS18で決定された二重持ち期間より後の再生時刻のセグメントデータを不要なキャッシュとして破棄する。つまり、不要なキャッシュとされたセグメントデータが保持部25から消去される。
なお、不要なキャッシュを破棄するタイミングは、切り替え先の視点のセグメントデータのダウンロード開始前であってもよいし、ダウンロードの開始後であってもよい。
このようにして不要なキャッシュが破棄されると、その後、処理はステップS11に戻り、上述した処理が繰り返し行われる。
以上のようにしてクライアント装置11は、再生点や切り替え元の視点のセグメントデータのキャッシュ量等に基づいて切り替え点や開始セグメントを決定し、切り替え先の視点のセグメントデータをダウンロードする。
このようにすることで、ユーザによる視点切り替え操作に対して、適切に必要なキャッシュを確保しつつ実際のコンテンツの視点の切り替えをより迅速に行うことができる。すなわち、ストリームの替え時の応答速度を向上させることができる。また、切り替え点や開始セグメント等の決定時に、映像と音声の両方を考慮することで、映像と音声の切り替えを略同時に行うことができる。
〈デコード処理の説明〉
図11を参照して説明したダウンロード処理が映像と音声について行われると、保持部25には映像と音声のセグメントデータがキャッシュ(蓄積)される。すると、クライアント装置11は、キャッシュされたセグメントデータをデコードしてコンテンツを再生する処理であるデコード処理を行う。
図11を参照して説明したダウンロード処理が映像と音声について行われると、保持部25には映像と音声のセグメントデータがキャッシュ(蓄積)される。すると、クライアント装置11は、キャッシュされたセグメントデータをデコードしてコンテンツを再生する処理であるデコード処理を行う。
以下、図12のフローチャートを参照して、クライアント装置11によるデコード処理について説明する。
ステップS51において、セグメントパーサ26は保持部25に保持されているセグメントデータをパースする。
すなわち、例えば二重持ち期間外の再生時刻については、セグメントパーサ26は保持部25-1および保持部25-2のうちの再生中の視点に対応する保持部25からセグメントデータを読み出して、そのセグメントデータから映像データを抽出し、ビデオデコーダ27へと供給する。
同時に、セグメントパーサ26は保持部25-3および保持部25-4のうちの再生中の視点に対応する保持部25からセグメントデータを読み出して、そのセグメントデータから音声データを抽出し、オーディオデコーダ29へと供給する。
これに対して、二重持ち期間内の再生時刻については、セグメントパーサ26は保持部25-1および保持部25-2のそれぞれからセグメントデータを読み出して、それらのセグメントデータから映像データを抽出し、ビデオデコーダ27-1およびビデオデコーダ27-2へと供給する。
同時に、セグメントパーサ26は保持部25-3および保持部25-4のそれぞれからセグメントデータを読み出して、それらのセグメントデータから音声データを抽出し、オーディオデコーダ29-1およびオーディオデコーダ29-2へと供給する。
ステップS52において、ビデオデコーダ27は、セグメントパーサ26から供給された映像データをデコードし、ビデオエフェクタ28に供給する。
例えば二重持ち期間外の再生時刻については、再生中の視点の映像データのみがデコードされてビデオエフェクタ28に供給される。これに対して、二重持ち期間内の再生時刻については、切り替え元の視点と切り替え先の視点の両方の映像データがデコードされてビデオエフェクタ28に供給される。
このように、二重持ち期間においては、ビデオデコーダ27-1およびビデオデコーダ27-2が並列使用されることになる。
ステップS53において、ビデオエフェクタ28は、ビデオデコーダ27から供給された映像データに対して映像エフェクトを施す。
すなわち、例えばビデオエフェクタ28は、映像エフェクトを行う期間の映像データに対しては切り替え元の視点の映像データと、その映像データと同じ再生時刻の切り替え先の視点の映像データとに基づいてクロスフェード処理やワイプ処理等のエフェクト処理を行い、提示用の映像データを生成する。すなわち、映像エフェクトが施された、切り替え元の視点の映像から、切り替え先の視点の映像へと表示が遷移していくエフェクト動画像の映像データが提示用の映像データとして生成される。
これに対して、映像エフェクトを行わない期間については、ビデオエフェクタ28は、再生中の視点の映像データを、そのまま提示用の映像データとする。例えば、二重持ち期間でも映像エフェクトが行われない再生時刻であれば、切り替え元の視点と切り替え先の視点のうちの再生中の視点の映像データが提示用の映像データとされる。
ステップS54において、ビデオエフェクタ28は、ステップS53の処理で得られた提示用の映像データを後段に出力する。
例えばビデオエフェクタ28は、エフェクト期間中であれば、エフェクト動画像の映像データを提示用の映像データとして出力する。また、例えばエフェクト期間の終了時刻であれば、ビデオエフェクタ28は、出力する提示用の映像データを、エフェクト動画像の映像データから、切り替え先の視点の映像データへと切り替える。
さらに、例えば映像エフェクトが行われない場合には、ビデオエフェクタ28は、切り替え点において、出力する提示用の映像データを、切り替え元の視点の映像データから、切り替え先の視点の映像データへと切り替える。
ステップS55において、オーディオデコーダ29は、セグメントパーサ26から供給された音声データをデコードし、オーディオエフェクタ30に供給する。
例えば二重持ち期間外の再生時刻については、再生中の視点の音声データのみがデコードされてオーディオエフェクタ30に供給される。これに対して、二重持ち期間内の再生時刻については、切り替え元の視点と切り替え先の視点の両方の音声データがデコードされてオーディオエフェクタ30に供給される。
なお、二重持ち期間においては、オーディオデコーダ29-1およびオーディオデコーダ29-2が並列使用されることになる。
ステップS56において、オーディオエフェクタ30は、オーディオデコーダ29から供給された音声データに対して音声エフェクトを施す。
すなわち、例えばオーディオエフェクタ30は、エフェクトを行う期間の音声データに対しては切り替え元の視点の音声データと、その音声データと同じ再生時刻の切り替え先の視点の音声データとに基づいてクロスフェード等のエフェクト処理を行い、提示用の音声データを生成する。これにより、例えば切り替え元の視点の音声がフェードアウトしていき、切り替え先の視点の音声がフェードインしていくエフェクト音声の音声データが提示用の音声データとして得られる。
これに対して、音声エフェクトを行わない期間については、オーディオエフェクタ30は、再生中の視点の音声データを、そのまま提示用の音声データとする。例えば、二重持ち期間でも音声エフェクトが行われない再生時刻であれば、切り替え元の視点と切り替え先の視点のうちの再生中の視点の音声データが提示用の音声データとされる。
ステップS57において、オーディオエフェクタ30は、ステップS56の処理で得られた提示用の音声データを後段に出力し、デコード処理は終了する。
例えばオーディオエフェクタ30は、エフェクト期間中であれば、エフェクト音声の音声データを提示用の音声データとして出力する。また、例えばエフェクト期間の終了時刻であれば、オーディオエフェクタ30は、出力する提示用の音声データを、エフェクト音声の音声データから、切り替え先の視点の音声データへと切り替える。
さらに、例えば音声エフェクトが行われない場合には、オーディオエフェクタ30は、切り替え点において、出力する提示用の音声データを、切り替え元の視点の音声データから、切り替え先の視点の音声データへと切り替える。
なお、視点の切り替え時には、ビデオエフェクタ28およびオーディオエフェクタ30は、映像データと音声データとで、切り替え元の視点から切り替え先の視点へと出力を切り替えるタイミングが略同じとなるように映像データや音声データの出力切り替えを制御する。
また、より詳細にはステップS52乃至ステップS54の処理と、ステップS55乃至ステップS57の処理とは並行して行われる。
以上のようにしてクライアント装置11は、映像データと音声データをデコードするとともに、適宜、映像データや音声データに対してエフェクト処理を行い、提示用の映像データおよび音声データを生成して出力する。
映像データや音声データに対して、適宜、エフェクトを施すことで、ユーザの視聴体感上の違和感を低減させることができる。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。
図13は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカアレイなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
さらに、本技術は、以下の構成とすることも可能である。
(1)
第1の再生データに基づく再生から、前記第1の再生データとは異なる第2の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第1の再生データと、前記第1の再生データの前記再生中の再生時刻から、既に取得された前記第1の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第2の再生データとを保持する保持部を備える
画像処理装置。
(2)
前記開始時刻以降の前記第2の再生データを取得する取得部をさらに備える
(1)に記載の画像処理装置。
(3)
前記保持部は、前記第2の再生データの取得開始前または取得開始後に、前記所定の再生時刻よりも後の再生時刻の前記第1の再生データを破棄する
(1)または(2)に記載の画像処理装置。
(4)
前記第1の再生データおよび前記第2の再生データは、同じコンテンツの互いに異なる視点の再生データである
(1)乃至(3)の何れか一項に記載の画像処理装置。
(5)
前記第1の再生データおよび前記第2の再生データは、映像データまたは音声データである
(1)乃至(4)の何れか一項に記載の画像処理装置。
(6)
前記取得部は、所定時間単位分ずつ前記第2の再生データを取得する
(2)に記載の画像処理装置。
(7)
前記所定時間単位はセグメントである
(6)に記載の画像処理装置。
(8)
前記取得部は、前記再生中の再生時刻から前記開始時刻までの前記第1の再生データの再生時間よりも、前記開始時刻を先頭とする前記所定時間単位の前記第2の再生データの取得に必要な時間が短くなるように前記開始時刻を選択する
(6)または(7)に記載の画像処理装置。
(9)
前記取得部は、再生中の前記所定時間単位の前記第1の再生データと同じ再生時刻の前記所定時間単位の前記第2の再生データである同時刻再生データの取得に必要な時間と、前記同時刻再生データの取得後、前記同時刻再生データのデコードが前記第1の再生データの再生に追いつくまでに必要な時間との和が、前記再生中の再生時刻から、再生中の前記所定時間単位の前記第1の再生データの再生が終了するまでの再生時間よりも短い場合、前記同時刻再生データの先頭位置を前記開始時刻として前記第2の再生データを取得する
(6)または(7)に記載の画像処理装置。
(10)
前記取得部は、前記開始時刻を先頭とする前記所定時間単位の前記第2の再生データとして、再生中の前記第1の再生データのビットレートよりも低いビットレートの前記第2の再生データを取得し、その後、取得される前記第2の再生データのビットレートが増加していくように、前記所定時間単位のより高いビットレートの前記第2の再生データを取得する
(6)乃至(9)の何れか一項に記載の画像処理装置。
(11)
前記再生中の再生時刻から前記所定の再生時刻までの間の再生時刻において、出力する再生データを前記第1の再生データから前記第2の再生データへと切り替える出力部をさらに備える
(2)に記載の画像処理装置。
(12)
前記出力部は、映像データである前記第1の再生データから前記第2の再生データへの出力の切り替えのタイミングと、音声データである前記第1の再生データから前記第2の再生データへの出力の切り替えのタイミングとが略同じとなるように制御する
(11)に記載の画像処理装置。
(13)
前記取得部は、映像データと音声データとで、同じ再生時刻の前記第1の再生データおよび前記第2の再生データが保持される期間の少なくとも一部が重なるように制御する
(12)に記載の画像処理装置。
(14)
前記保持部に保持されている同じ再生時刻の前記第1の再生データと前記第2の再生データとに基づいてエフェクト処理を行い、前記エフェクト処理により得られた再生データを出力する出力部をさらに備える
(1)乃至(10)の何れか一項に記載の画像処理装置。
(15)
第1の再生データに基づく再生から、前記第1の再生データとは異なる第2の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第1の再生データと、前記第1の再生データの前記再生中の再生時刻から、既に取得された前記第1の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第2の再生データとを保持する
ステップを含む画像処理方法。
(16)
第1の再生データに基づく再生から、前記第1の再生データとは異なる第2の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第1の再生データと、前記第1の再生データの前記再生中の再生時刻から、既に取得された前記第1の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第2の再生データとを保持する
ステップを含む処理をコンピュータに実行させるプログラム。
第1の再生データに基づく再生から、前記第1の再生データとは異なる第2の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第1の再生データと、前記第1の再生データの前記再生中の再生時刻から、既に取得された前記第1の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第2の再生データとを保持する保持部を備える
画像処理装置。
(2)
前記開始時刻以降の前記第2の再生データを取得する取得部をさらに備える
(1)に記載の画像処理装置。
(3)
前記保持部は、前記第2の再生データの取得開始前または取得開始後に、前記所定の再生時刻よりも後の再生時刻の前記第1の再生データを破棄する
(1)または(2)に記載の画像処理装置。
(4)
前記第1の再生データおよび前記第2の再生データは、同じコンテンツの互いに異なる視点の再生データである
(1)乃至(3)の何れか一項に記載の画像処理装置。
(5)
前記第1の再生データおよび前記第2の再生データは、映像データまたは音声データである
(1)乃至(4)の何れか一項に記載の画像処理装置。
(6)
前記取得部は、所定時間単位分ずつ前記第2の再生データを取得する
(2)に記載の画像処理装置。
(7)
前記所定時間単位はセグメントである
(6)に記載の画像処理装置。
(8)
前記取得部は、前記再生中の再生時刻から前記開始時刻までの前記第1の再生データの再生時間よりも、前記開始時刻を先頭とする前記所定時間単位の前記第2の再生データの取得に必要な時間が短くなるように前記開始時刻を選択する
(6)または(7)に記載の画像処理装置。
(9)
前記取得部は、再生中の前記所定時間単位の前記第1の再生データと同じ再生時刻の前記所定時間単位の前記第2の再生データである同時刻再生データの取得に必要な時間と、前記同時刻再生データの取得後、前記同時刻再生データのデコードが前記第1の再生データの再生に追いつくまでに必要な時間との和が、前記再生中の再生時刻から、再生中の前記所定時間単位の前記第1の再生データの再生が終了するまでの再生時間よりも短い場合、前記同時刻再生データの先頭位置を前記開始時刻として前記第2の再生データを取得する
(6)または(7)に記載の画像処理装置。
(10)
前記取得部は、前記開始時刻を先頭とする前記所定時間単位の前記第2の再生データとして、再生中の前記第1の再生データのビットレートよりも低いビットレートの前記第2の再生データを取得し、その後、取得される前記第2の再生データのビットレートが増加していくように、前記所定時間単位のより高いビットレートの前記第2の再生データを取得する
(6)乃至(9)の何れか一項に記載の画像処理装置。
(11)
前記再生中の再生時刻から前記所定の再生時刻までの間の再生時刻において、出力する再生データを前記第1の再生データから前記第2の再生データへと切り替える出力部をさらに備える
(2)に記載の画像処理装置。
(12)
前記出力部は、映像データである前記第1の再生データから前記第2の再生データへの出力の切り替えのタイミングと、音声データである前記第1の再生データから前記第2の再生データへの出力の切り替えのタイミングとが略同じとなるように制御する
(11)に記載の画像処理装置。
(13)
前記取得部は、映像データと音声データとで、同じ再生時刻の前記第1の再生データおよび前記第2の再生データが保持される期間の少なくとも一部が重なるように制御する
(12)に記載の画像処理装置。
(14)
前記保持部に保持されている同じ再生時刻の前記第1の再生データと前記第2の再生データとに基づいてエフェクト処理を行い、前記エフェクト処理により得られた再生データを出力する出力部をさらに備える
(1)乃至(10)の何れか一項に記載の画像処理装置。
(15)
第1の再生データに基づく再生から、前記第1の再生データとは異なる第2の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第1の再生データと、前記第1の再生データの前記再生中の再生時刻から、既に取得された前記第1の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第2の再生データとを保持する
ステップを含む画像処理方法。
(16)
第1の再生データに基づく再生から、前記第1の再生データとは異なる第2の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第1の再生データと、前記第1の再生データの前記再生中の再生時刻から、既に取得された前記第1の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第2の再生データとを保持する
ステップを含む処理をコンピュータに実行させるプログラム。
11 クライアント装置, 23 HTTPダウンロードマネージャ, 25-1乃至25-4,25 保持部, 26 セグメントパーサ, 27-1,27-2,27 ビデオデコーダ, 28 ビデオエフェクタ, 29-1,29-2,29 オーディオデコーダ, 30 オーディオエフェクタ
Claims (16)
- 第1の再生データに基づく再生から、前記第1の再生データとは異なる第2の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第1の再生データと、前記第1の再生データの前記再生中の再生時刻から、既に取得された前記第1の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第2の再生データとを保持する保持部を備える
画像処理装置。 - 前記開始時刻以降の前記第2の再生データを取得する取得部をさらに備える
請求項1に記載の画像処理装置。 - 前記保持部は、前記第2の再生データの取得開始前または取得開始後に、前記所定の再生時刻よりも後の再生時刻の前記第1の再生データを破棄する
請求項1に記載の画像処理装置。 - 前記第1の再生データおよび前記第2の再生データは、同じコンテンツの互いに異なる視点の再生データである
請求項1に記載の画像処理装置。 - 前記第1の再生データおよび前記第2の再生データは、映像データまたは音声データである
請求項1に記載の画像処理装置。 - 前記取得部は、所定時間単位分ずつ前記第2の再生データを取得する
請求項2に記載の画像処理装置。 - 前記所定時間単位はセグメントである
請求項6に記載の画像処理装置。 - 前記取得部は、前記再生中の再生時刻から前記開始時刻までの前記第1の再生データの再生時間よりも、前記開始時刻を先頭とする前記所定時間単位の前記第2の再生データの取得に必要な時間が短くなるように前記開始時刻を選択する
請求項6に記載の画像処理装置。 - 前記取得部は、再生中の前記所定時間単位の前記第1の再生データと同じ再生時刻の前記所定時間単位の前記第2の再生データである同時刻再生データの取得に必要な時間と、前記同時刻再生データの取得後、前記同時刻再生データのデコードが前記第1の再生データの再生に追いつくまでに必要な時間との和が、前記再生中の再生時刻から、再生中の前記所定時間単位の前記第1の再生データの再生が終了するまでの再生時間よりも短い場合、前記同時刻再生データの先頭位置を前記開始時刻として前記第2の再生データを取得する
請求項6に記載の画像処理装置。 - 前記取得部は、前記開始時刻を先頭とする前記所定時間単位の前記第2の再生データとして、再生中の前記第1の再生データのビットレートよりも低いビットレートの前記第2の再生データを取得し、その後、取得される前記第2の再生データのビットレートが増加していくように、前記所定時間単位のより高いビットレートの前記第2の再生データを取得する
請求項6に記載の画像処理装置。 - 前記再生中の再生時刻から前記所定の再生時刻までの間の再生時刻において、出力する再生データを前記第1の再生データから前記第2の再生データへと切り替える出力部をさらに備える
請求項2に記載の画像処理装置。 - 前記出力部は、映像データである前記第1の再生データから前記第2の再生データへの出力の切り替えのタイミングと、音声データである前記第1の再生データから前記第2の再生データへの出力の切り替えのタイミングとが略同じとなるように制御する
請求項11に記載の画像処理装置。 - 前記取得部は、映像データと音声データとで、同じ再生時刻の前記第1の再生データおよび前記第2の再生データが保持される期間の少なくとも一部が重なるように制御する
請求項12に記載の画像処理装置。 - 前記保持部に保持されている同じ再生時刻の前記第1の再生データと前記第2の再生データとに基づいてエフェクト処理を行い、前記エフェクト処理により得られた再生データを出力する出力部をさらに備える
請求項1に記載の画像処理装置。 - 第1の再生データに基づく再生から、前記第1の再生データとは異なる第2の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第1の再生データと、前記第1の再生データの前記再生中の再生時刻から、既に取得された前記第1の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第2の再生データとを保持する
ステップを含む画像処理方法。 - 第1の再生データに基づく再生から、前記第1の再生データとは異なる第2の再生データに基づく再生へと再生の切り替えを行う場合に、既に取得された再生中の再生時刻から所定の再生時刻までの前記第1の再生データと、前記第1の再生データの前記再生中の再生時刻から、既に取得された前記第1の再生データの最後の再生時刻までの間の再生時刻を開始時刻として取得された、前記開始時刻以降の前記第2の再生データとを保持する
ステップを含む処理をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/470,819 US20190387271A1 (en) | 2017-01-30 | 2018-01-17 | Image processing apparatus, image processing method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017014119 | 2017-01-30 | ||
JP2017-014119 | 2017-01-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2018139283A1 true WO2018139283A1 (ja) | 2018-08-02 |
Family
ID=62979500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/001093 WO2018139283A1 (ja) | 2017-01-30 | 2018-01-17 | 画像処理装置および方法、並びにプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20190387271A1 (ja) |
WO (1) | WO2018139283A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11736675B2 (en) * | 2018-04-05 | 2023-08-22 | Interdigital Madison Patent Holdings, Sas | Viewpoint metadata for omnidirectional video |
CN111479171B (zh) * | 2019-01-23 | 2022-05-20 | 上海哔哩哔哩科技有限公司 | Web播放不同视频源间的伪无缝切换方法、装置及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017005725A (ja) * | 2012-04-24 | 2017-01-05 | ヴィド スケール インコーポレイテッド | Mpeg/3gpp−dashにおける滑らかなストリーム切り換えのための方法および装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9001886B2 (en) * | 2010-11-22 | 2015-04-07 | Cisco Technology, Inc. | Dynamic time synchronization |
US9131271B2 (en) * | 2011-11-02 | 2015-09-08 | Connected Lyfe | Systems and methods for real-time adaptation of multimedia data |
US9009619B2 (en) * | 2012-09-19 | 2015-04-14 | JBF Interlude 2009 Ltd—Israel | Progress bar for branched videos |
CN103561283A (zh) * | 2013-10-30 | 2014-02-05 | 乐视致新电子科技(天津)有限公司 | 一种智能电视的码率切换方法及装置 |
US9792026B2 (en) * | 2014-04-10 | 2017-10-17 | JBF Interlude 2009 LTD | Dynamic timeline for branched video |
JP2017157903A (ja) * | 2016-02-29 | 2017-09-07 | 富士ゼロックス株式会社 | 情報処理装置 |
US10462202B2 (en) * | 2016-03-30 | 2019-10-29 | JBF Interlude 2009 LTD | Media stream rate synchronization |
JP7199221B2 (ja) * | 2016-05-20 | 2023-01-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置、復号装置、符号化方法及び復号方法 |
US10218760B2 (en) * | 2016-06-22 | 2019-02-26 | JBF Interlude 2009 LTD | Dynamic summary generation for real-time switchable videos |
-
2018
- 2018-01-17 WO PCT/JP2018/001093 patent/WO2018139283A1/ja active Application Filing
- 2018-01-17 US US16/470,819 patent/US20190387271A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017005725A (ja) * | 2012-04-24 | 2017-01-05 | ヴィド スケール インコーポレイテッド | Mpeg/3gpp−dashにおける滑らかなストリーム切り換えのための方法および装置 |
Non-Patent Citations (1)
Title |
---|
TANI, HIROAKI ET AL.: "QoE Assessment of Multi-View Video and Audio ( MW -A) Transmission with MPEG-DASH", IEICE TECHNICAL REPORT, vol. 114, no. 488, 24 February 2015 (2015-02-24), pages 37 - 42 * |
Also Published As
Publication number | Publication date |
---|---|
US20190387271A1 (en) | 2019-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100579387B1 (ko) | 디지털 정보의 효율적인 전송 및 재생 | |
US10930318B2 (en) | Gapless video looping | |
JP6293946B2 (ja) | 再生装置 | |
WO2013008867A1 (ja) | 送信装置、送信装置の制御方法、制御プログラム、及び記録媒体 | |
JP2021040342A (ja) | トリックプレイ再生の間にオーディオコンテンツを提供するためのシステムおよび方法 | |
JP2013021574A (ja) | 生成装置、配信サーバ、生成方法、再生装置、再生方法、再生システム、生成プログラム、再生プログラム、記録媒体およびデータ構造 | |
CN113424553B (zh) | 用于重放媒体项目的方法和系统 | |
KR102403263B1 (ko) | 다중 라이브 송출 환경에서의 채널 간 고속 전환 모드를 구현하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체 | |
JP6609468B2 (ja) | 受信装置、再生時刻制御方法、及びプログラム | |
WO2018139284A1 (ja) | 画像処理装置および方法、並びにプログラム | |
WO2018139283A1 (ja) | 画像処理装置および方法、並びにプログラム | |
US11960444B2 (en) | Methods and systems for providing file data for a media file | |
JP2016072858A (ja) | メディアデータ生成方法、メディアデータ再生方法、メディアデータ生成装置、メディアデータ再生装置、コンピュータ読み取り可能な記録媒体、及びプログラム | |
JP2017098706A (ja) | 受信装置、セグメント取得方法、及びプログラム | |
JP6294527B2 (ja) | 送信装置、送信方法、再生装置、及び再生方法 | |
WO2019188485A1 (ja) | 情報処理装置、情報処理装置およびプログラム | |
JP2021082882A (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
JP6581884B2 (ja) | 受信装置、バッファ管理方法、及びプログラム | |
JP6258897B2 (ja) | コンテンツ取得装置、コンテンツ取得方法、メタデータ配信装置、メタデータ配信方法 | |
WO2018139285A1 (ja) | 画像処理装置および方法、並びにプログラム | |
CN116723356A (zh) | 终端多媒体数据处理方法、装置、计算机设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18744626 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 18744626 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |