WO2007026763A1

WO2007026763A1 - ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法

Info

Publication number: WO2007026763A1
Application number: PCT/JP2006/317104
Authority: WO
Inventors: Chun Woei Teo; Sua Hong Neo; Koji Yoshida; Michiyo Goto
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2005-08-31
Filing date: 2006-08-30
Publication date: 2007-03-08
Also published as: JP5171256B2; US8457319B2; US20090262945A1; CN101253557A; EP1912206A1; JPWO2007026763A1; KR101340233B1; CN101253557B; KR20080039462A; EP1912206A4; EP1912206B1

Abstract

　ステレオ信号を低ビットレートで精度良く符号化し、音声通信における遅延を抑えることができるステレオ符号化装置を開示する。この装置の第１レイヤ（１１０）において、モノラル符号化を行う。第２レイヤ（１２０）において、フィルタリング部（１０３）はＬＰＣ（Linear Predictive Coding）係数を生成し、左チャネルの駆動音源信号を生成する。時間領域評価部（１０４）と周波数領域評価部（１０５）は両領域で信号の評価及び予測を行い、残差符号化部（１０６）は残差信号を符号化する。ビット配分制御部（１０７）は、音声信号の条件に応じて、時間領域評価部（１０４）、周波数領域評価部（１０５）、及び残差符号化部（１０６）に適応的にビットを配分する。

Description

明細書

ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法技術分野

[0001] 本発明は、移動体通信システムまたはインターネットプロトコル（IP： Internet Protoc ol)を用いたパケット通信システム等において、ステレオ音声信号やステレオ 'オーディォ信号の符号化 Z復号を行う際に用いられるステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法に関する。

背景技術

[0002] 移動体通信システムまたは IPを用いたパケット通信システム等にぉ、て、 DSP (Dig ital Signal Processor)によるディジタル信号処理速度と帯域幅の制限は徐々に緩和されつつある。伝送レートのさらなる高ビットレートイ匕が進めば、複数チャネルを伝送するだけの帯域を確保できるようになるため、モノラル方式が主流の音声通信においても、ステレオ方式による通信 (ステレオ通信）が普及することが期待される。

[0003] 現在の携帯電話は既に、ステレオ機能を有するマルチメディアプレイヤや FMラジォの機能を搭載することができる。従って、第 4世代の携帯電話及び IP電話等にステレオ'オーディオ信号だけでなぐステレオ音声信号の録音、再生等の機能を追加するのは自然なことである。

[0004] 従来、ステレオ信号を符号化する方法と言えば数多くあり、代表例として非特許文献 1に記載されている MPEG— 2 AAC (Moving Picture Experts Group- 2 Advanced Audio Coding)があげられる。 MPEG— 2 AACは信号を、モノラル、ステレオ、及びマルチチャネルに符号化することができる。 MPEG— 2 AACは MDCT (Modified Di screte Cosine Transform)処理を用いて時間領域信号を周波数領域信号に変換し、人間聴覚システムの原理に基づき、符号ィ匕によって発生する雑音をマスキングして人間の可聴域以下のレベルに抑えることによって、良音質を実現している。

非特許文献 l : ISO/IEC 13818- 7:1997- MPEG- 2 Advanced Audio Coding(AAC) 発明の開示

発明が解決しょうとする課題 [0005] しかしながら、 MPEG - 2 AACは、オーディオ信号により適しており、音声信号には適していないという問題がある。 MPEG - 2 AACはオーディオ信号の通信において重要でないスペクトル情報に対する量子化ビット数を抑制することによって、ステレォ感を有しつつ良好な音質を実現しながらビットレートを低く抑えている。しかし、ォ一ディォ信号に比べて音声信号はビットレートの減少による音質劣化がより大きいため、オーディオ信号において非常に良好な音質が得られる MPEG— 2 AACでも、これを音声信号に適用した場合には、満足できる音質を得られない場合がある。

[0006] MPEG - 2 AACのもう 1つの問題点は、アルゴリズムに起因する遅延である。 MP EG— 2 AACに使用されるフレームサイズは、 1024サンプル Zフレームである。例えば、サンプリング周波数が 32kHzを超えるとフレーム遅延は 32ミリ秒以下となり、これはリアルタイム音声通信システムにおいて許容できる遅延である。し力し、 MPEG - 2 AACは、符号化信号を復号するために、隣接する 2つのフレームのオーバーラップ ·アンド'アツド（重ね合わせ加算）を行う MDCT処理を必須としており、このアルゴリズムに起因した処理遅延が常に発生するので、リアルタイム通信システムには適さない。

[0007] なお、低ビットレート化のためには、 AMR-WB (Adaptive Multi-Rate Wide Band) 方式の符号ィ匕を行うことも可能であり、この方法によれば、 MPEG— 2 AACと比べて 2分の 1以下のビットレートで済む。ただ、 AMR— WB方式の符号化は、モノラル音声信号しかサポートして!/ヽなヽと、う問題がある。

[0008] 本発明の目的は、ステレオ信号を低ビットレートで精度良く符号ィ匕することができ、また、音声通信等における遅延を抑えることができるステレオ符号ィ匕装置、ステレオ復号装置、及びステレオ符号ィ匕方法を提供することである。

課題を解決するための手段

[0009] 本発明のステレオ符号ィ匕装置は、ステレオ信号の第 1チャネル信号に対して時間領域における評価 (estimation)を行ヽ、この評価結果を符号化する時間領域評価手段と、前記第 1チャネル信号の周波数帯域を複数に分割し、各帯域の前記第 1チヤネル信号に対し周波数領域における評価を行ヽ、この評価結果を符号化する周波数領域評価手段と、を具備する構成を採る。発明の効果

[0010] 本発明によれば、ステレオ信号を低ビットレートで精度良く符号ィ匕することができ、また、音声通信等における遅延を抑えることができる。

図面の簡単な説明

[0011] [図 1]本発明の一実施の形態に係るステレオ符号化装置の主要な構成を示すブロック図

[図 2]本発明の一実施の形態に係る時間領域評価部の主要な構成を示すブロック図 [図 3]本発明の一実施の形態に係る周波数領域評価部の主要な構成を示すブロック図

[図 4]本発明の一実施の形態に係るビット配分制御部の動作を説明するフロー図 [図 5]本発明の一実施の形態に係るステレオ復号装置の主要な構成を示すブロック図

発明を実施するための最良の形態

[0012] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。

[0013] 図 1は本発明の一実施の形態に係るステレオ符号化装置 100の主要な構成を示すブロック図である。

[0014] ステレオ符号化装置 100は、主に第 1レイヤ 110と第 2レイヤ 120とからなる階層的な構成を採る。

[0015] 第 1レイヤ 110では、ステレオ音声信号を構成する左チャネル信号 Lと右チャネル信号 Rとからモノラル信号 Mが生成され、このモノラル信号が符号化されて符号ィ匕情報 P及びモノラル駆動音源信号 e が生成される。第 1レイヤ 110は、モノラル合成部

A M

101とモノラル符号ィ匕部 102とからなり、各部は以下の処理を行う。

[0016] モノラル合成部 101は、左チャネル信号 Lと右チャネル信号 Rと力もモノラル信号 M を合成する。ここでは、左チャネル信号 Lと右チャネル信号 Rの平均値を求めることによりモノラル信号 Mを合成する。この方法を式で表すと M= (L+R) Z2となる。なお、モノラル信号の合成方法として他の方法を使っても良ぐその一例を式で表すと M =w L+w Rである。この式において w、 wは、 w +w = 1. 0の関係を満たす重み

1 2 1 2 1 2

付け係数である。 [0017] モノラル符号ィ匕部 102は、 AMR— WB方式の符号化装置の構成を採る。モノラル符号ィ匕部 102は、モノラル合成部 101から出力されるモノラル信号 Mを AMR—WB 方式で符号ィ匕し、符号化情報 Pを求めて多重化部 108に出力する。また、モノラル

A

符号ィ匕部 102は、符号ィ匕の過程において得られるモノラル駆動音源信号 e を第 2レ

M

ィャ 120に出力する。

[0018] 第 2レイヤ 120では、ステレオ音声信号に対して、時間領域及び周波数領域における評価及び予測（prediction and estimation)が行われ、各種の符号化情報が生成される。この処理において、まず、ステレオ音声信号を構成する左チャネル信号 Lが有する空間的情報が検出及び算出される。この空間的情報により、ステレオ音声信号は、臨場感 (拡がり感)を生じる。次に、この空間的情報をモノラル信号に与えることにより、左チャネル信号 Lに類似する評価信号が生成される。そして、各処理に関する情報が符号ィ匕情報として出力される。第 2レイヤ 120は、フィルタリング部 103、時間領域評価部 104、周波数領域評価部 105、残差符号化部 106、及びビット配分制御部 107からなり、各部は以下の動作を行う。

[0019] フィルタリング部 103は、左チャネル信号 Lから LPC分析により LPC (Linear Predict ive Coding)係数を生成し、符号化情報 Pとして多重化部 108に出力する。また、フィ

F

ルタリング部 103は、左チャネル信号 Lと LPC係数を用いて左チャネルの駆動音源信号 eを生成し、時間領域評価部 104に出力する。

し

[0020] 時間領域評価部 104は、第 1レイヤ 110のモノラル符号ィ匕部 102において生成されるモノラル駆動音源信号 e と、フィルタリング部 103において生成される左チャネル

M

の駆動音源信号 _eとに対し、時間領域における評価及び予測を行い、時間領域評

し

価信号 e を生成して周波数領域評価部 105に出力する。即ち、時間領域評価部 1 estl

04は、モノラル駆動音源信号 e と、左チャネルの駆動音源信号 eとの間の時間領域

M L

における空間的情報を検出及び算出する。

[0021] 周波数領域評価部 105は、フィルタリング部 103において生成される左チャネルの駆動音源信号 _eと、時間領域評価部 104において生成される時間領域評価信号 e

し est とに対し、周波数領域における評価および予測を行い、周波数領域評価信号 e

1 est2 を生成して残差符号ィ匕部 106に出力する。即ち、周波数領域評価部 105は、時間領域評価信号 e と左チャネルの駆動音源信号 eとの間の周波数領域における空間 estl L

的情報を検出及び算出する。

[0022] 残差符号ィ匕部 106は、周波数領域評価部 105において生成される周波数領域評価信号 e と、フィルタリング部 103において生成される左チャネルの駆動音源信号 est2

eとの間の残差信号を求め、この信号を符号ィ匕し、符号化情報 Pを生成して多重化し E

部 108に出力する。

[0023] ビット配分制御部 107は、モノラル符号ィ匕部 102において生成されるモノラル駆動音源信号 e と、フィルタリング部 103において生成される左チャネルの駆動音源信号

M

eとの類似具合に応じて、時間領域評価部 104、周波数領域評価部 105、及び残差し

符号化部 106に符号化ビットを配分する。なお、ビット配分制御部 107は、各部に配分するビット数に関する情報を符号ィ匕し、得られる符号ィ匕情報 P

Bを出力する。

[0024] 多重化部 108は、 P力も Pまでの符号ィ匕情報を多重化し、多重化後のビットストリ

A F

ームを出力する。

[0025] ステレオ符号化装置 100に対応するステレオ復号装置は、第 1レイヤ 110で生成されたモノラル信号の符号ィ匕情報 P及び第 2レイヤ 120で生成された左チャネル信号

A

の符号化情報 P 〜Pを取得し、これらの符号ィ匕情報力モノラル信号と左チャネル

B F

信号とを復号することができる。また、復号されたモノラル信号と左チャネル信号とから右チャネル信号も生成することができる。

[0026] 図 2は時間領域評価部 104の主要な構成を示すブロック図である。時間領域評価部 104には、モノラル駆動音源信号 e が目標信号として、左チャネルの駆動音源信

M

号 eが参照信号として入力される。時間領域評価部 104は、音声信号処理の毎フレし

ームに 1回、モノラル駆動音源信号 e と左チャネルの駆動音源信号 eとの間の空間

M L

的情報を検出及び算出し、これらの結果を符号化して符号ィ匕情報 P

Cを出力する。ここで、時間領域における空間的情報は、振幅情報 (と遅延情報 τとから構成される。

[0027] エネルギ算出部 141 1は、モノラル駆動音源信号 e が入力され、この信号の時

M

間領域におけるエネルギを算出する。

[0028] エネルギ算出部 141 2は、左チャネルの駆動音源信号 eが入力され、エネルギ

し

算出部 141— 1と同様な処理によって、左チャネルの駆動音源信号 eの時間領域におけるエネルギを算出する。

[0029] 比率算出部 142は、エネルギ算出部 141— 1と 141— 2においてそれぞれ算出されるエネルギ値が入力され、モノラル駆動音源信号 _e と左チャネルの駆動音源信号

M

eとのエネルギ比率を算出し、モノラル駆動音源信号 e と左チャネルの駆動音源信

L M

号 eとの間の空間的情報 (振幅情報 α )として出力する。

し

[0030] 相関値算出部 143は、モノラル駆動音源信号 e と左チャネルの駆動音源信号 eと

M L

が入力され、この 2つの信号間の相互相関値（cross correlation)を算出する。

[0031] 遅延検出部 144は、相関値算出部 143で算出する相互相関値が入力され、左チヤネルの駆動音源信号 eとモノラル駆動音源信号 e との間の時間遅延を検出し、モノ

L M

ラル駆動音源信号 _e と左チャネルの駆動音源信号 eとの間の空間的情報 (遅延情

M L

報 τ )として出力する。

[0032] 評価信号生成部 145は、比率算出部 142で算出される振幅情報 αと遅延検出部 1 44で算出される遅延情報 τとに基づいて、モノラル駆動音源信号 e から、左チヤネ

M

ルの駆動音源信号 _eに類似する時間領域評価信号 e を生成する。

L estl

[0033] このように、時間領域評価部 104は、音声信号処理の毎フレームに 1回、モノラル駆動音源信号 _e と左チャネルの駆動音源信号 eとの間の時間領域における空間的

M L

情報を検出及び算出し、得られる符号化情報 Pを出力する。ここで、

C 空間的情報は振幅情報 (Xと遅延情報てとから構成される。また、時間領域評価部 104は、この空間的情報をモノラル駆動音源信号 e に与え、左チャネルの駆動音源信号 eに類似す

M L

る時間領域評価信号 e を生成する。

estl

[0034] 図 3は周波数領域評価部 105の主要な構成を示すブロック図である。周波数領域評価部 105は、時間領域評価部 104が生成した時間領域評価信号 e を目標信号

estl

として、左チャネルの駆動音源信号 eを参照信号として入力して、周波数領域にお

し

ける評価および予測を行い、これらの結果を符号ィ匕して符号ィ匕情報 Pを出力する。

D

ここで、周波数領域における空間的情報は、スペクトルの振幅情報 |8と位相差情報 Θとから構成される。

[0035] FFT¾151— 1 «、高速フーリエ変換 (FFT)により、時間領域信号である左チヤネルの駆動音源信号 _eを周波数領域信号 (スペクトル）に変換する。 [0036] 分割部 152— 1は、 FFT部 151—1で生成される周波数領域信号の帯域を複数の帯域 (サブバンド）に分割する。各サブバンドは、人間の聴覚システムに対応するバークスケール（Bark Scale)に従っても良いし、または帯域幅内において等分割しても良い。

[0037] エネルギ算出部 153— 1は、左チャネルの駆動音源信号 eのスペクトルエネルギを

L

、分割部 152— 1から出力される各サブバンド毎に算出する。

[0038] FFT部 151— 2は、 FFT部 151— 1と同様な処理によって、時間領域評価信号 e estl を周波数領域信号に変換する。

[0039] 分割部 152— 2は、分割部 152— 1と同様な処理によって、 FFT部 151— 2で生成される周波数領域信号の帯域を複数のサブバンドに分割する。

[0040] エネルギ算出部 153— 2は、エネルギ算出部 153— 1と同様な処理によって、時間領域評価信号 e のスペクトルエネルギを、分割部 152— 2から出力される各サブバ estl

ンド毎に算出する。

[0041] 比率算出部 154は、エネルギ算出部 153— 1とエネルギ算出部 153— 2とで算出される各サブバンドのスペクトルエネルギを用いて、左チャネルの駆動音源信号 e

しと時間領域評価信号 e とのスペクトルエネルギ比率を各サブバンド毎に算出し、符号ィ匕 estl

情報 pの一部である振幅情報として出力する。

D

[0042] 位相算出部 155— 1は、左チャネルの駆動音源信号 eの各サブバンドにおける各

し

スペクトルの位相を算出する。

[0043] 位相選択部 156は、符号化情報の情報量を削減するために、各サブバンドにおけるスペクトルの位相から、符号化に適する位相を 1つ選択する。

[0044] 位相算出部 155— 2は、位相算出部 155— 1と同様な処理によって、時間領域評価信号 e の各サブバンドにおける各スペクトルの位相を算出する。

estl

[0045] 位相差算出部 157は、位相選択部 156で選択された各サブバンドにおける位相において、左チャネルの駆動音源信号 eと時間領域評価信号 e との位相差を算出し

L estl

、符号化情報 Pの一部である位相差情報 Θとして出力する。

D

[0046] 評価信号生成部 158は、左チャネルの駆動音源信号 eと時間領域評価信号 e と

L estl の間の振幅情報 ι8、および、左チャネルの駆動音源信号 eと時間領域評価信号 e との間の位相差情報 Θ、の双方に基づき、時間領域評価信号 e から周波数領域 estl

評価信号 e を生成する。

est2

[0047] ：のように、周波数領域評価部 105は、左チャネルの駆動音源信号 e及び時間領域評価部 104で生成される時間領域評価信号 e のそれぞれを複数のサブバンド estl

に分割し、サブバンド毎に時間領域評価信号 e と左チャネルの駆動音源信号 eと estl L の間のスペクトルエネルギ比率および位相差を算出する。時間領域における時間遅延と周波数領域における位相差とは等価であるから、周波数領域における位相差を算出し、これを正確に制御または調整することにより、時間領域では符号化しきれなかった特徴を周波数領域にて符号ィ匕することが可能となり、符号ィ匕精度はより向上する。周波数領域評価部 105は、時間領域評価により得られた左チャネルの駆動音源信号 eに類似する時間領域評価信号 e 〖こ、周波数領域評価によって算出される

L estl

微細な差異を与えて、より左チャネルの駆動音源信号 e

しに類似する周波数領域評価信号 e を生成する。また、周波数領域評価部 105は、この空間的情報を時間領域 est2

評価信号 e

estlに与えて、より左チャネルの駆動音源信号 e

Lに類似する周波数領域評価信号 e を生成する。

est2

[0048] 次いで、ビット配分制御部 107の動作の詳細について説明する。音声信号の各フレームに対し、符号ィ匕に割り当てられるビット数は予め決まっている。ビット配分制御部 107は、この所定のビットレートにおいて最適な音声品質を実現するために、左チャネルの駆動音源信号 eとモノラル駆動音源信号 e とが類似している力否かによつ

L M

て、各処理部に配分するビットの数を適応的に決定する。

[0049] 図 4はビット配分制御部 107の動作を説明するフロー図である。

[0050] ST (ステップ） 1071において、ビット配分制御部 107は、モノラル駆動音源信号 e

M

と左チャネルの駆動音源信号 eとを比較し、時間領域におけるこれら 2つの信号の類

し

似具合を判断する。具体的には、ビット配分制御部 107は、モノラル駆動音源信号 e と左チャネルの駆動音源信号 eとの二乗平均誤差を算出し、これを既定の閾値と

M L

比較して閾値以下であれば、 2つの信号は類似して、ると判断する。

[0051] モノラル駆動音源信号 e と左チャネルの駆動音源信号 eとが類似している場合 (S

M L

T1072 : YES)、この 2つの信号の時間領域における差は小さぐより小さな差を符号化するのに必要とされるビット数はより少なくて良い。つまり、時間領域評価部 104にはより少なぐ他の各部 (周波数領域評価部 105、残差符号ィ匕部 106)、特に周波数領域評価部 105にはより多くのビットを配分するような不均一なビット配分を行えば、効率的なビット割り当てなので符号ィ匕効率が良くなる。従って、ビット配分制御部 107 は、 ST1072において類似していると判断した場合、 ST1073において時間領域評価へより少ない数のビットを配分し、 ST1074で残りのビットを他の処理に均等に配分する。

[0052] 一方、モノラル駆動音源信号 e と左チャネルの駆動音源信号 eとが類似していな

M L

い場合 (ST1072 :NO)、 2つの時間領域信号間の差は大きくなり、時間領域評価はある程度までの類似性を評価できるだけで、評価信号の精度を高めるためには周波数領域における信号評価も重要である。よって、時間領域評価及び周波数領域評価の両方とも同等に重要である。また、かかる場合、周波数領域評価後にも、評価信号と左チャネルの駆動音源信号 eとの間には差が残っている可能性があるため、残差

し

についても符号ィ匕して符号ィ匕情報を得ることが重要である。従って、ビット配分制御部 107は、 ST1072においてモノラル駆動音源信号 e と左チャネルの駆動音源信

M

号 eとが類似していないと判断した場合、 ST1075において、すべての処理の重要し

度を同等と見なして、すべての処理に均等にビットを配分する。

[0053] 図 5は本実施の形態に係るステレオ復号装置 200の主要な構成を示すブロック図である。

[0054] ステレオ復号装置 200もステレオ符号化装置 100と同じぐ主に第 1レイヤ 210と第 2レイヤ 220とからなる階層的な構成を採る。また、ステレオ復号装置 200の各処理は、ステレオ符号ィ匕装置 100の対応する各処理の基本的に逆処理となる。即ち、ステレオ復号装置 200は、ステレオ符号化装置 100から送られる符号化情報を用いて、モノラル信号力左チャネル信号を予測して生成し、さらにモノラル信号と左チヤネル信号とを用いて、右チャネル信号を生成する。

[0055] 分離部 201は、入力されるビットストリームを P力も Pまでの符号化情報に分離す

A F

る。

[0056] 第 1レイヤ 210は、モノラル復号部 202から構成される。モノラル復号部 202は、符号化情報 Pを復号して、モノラル信号 M'及びモノラル駆動音源信号 e ，を生成する

A M

[0057] 第 2レイヤ 220は、ビット配分情報復号部 203、時間領域評価部 204、周波数領域評価部 205、及び残差復号部 206からなり、各部は以下の動作を行う。

[0058] ビット配分情報復号部 203は、符号化情報 Pを復号し、時間領域評価部 204、周

B

波数領域評価部 205、及び残差復号部 206でそれぞれ使用されるビット数を出力する。

[0059] 時間領域評価部 204は、モノラル復号部 202において生成されるモノラル駆動音源信号 e '、分離部 201から出力される符号ィ匕情報 P、及びビット配分情報復号部

M C

203から出力されるビット数を用いて、時間領域における評価及び予測を行い、時間領域評価信号 e 'を生成する。

estl

[0060] 周波数領域評価部 205は、時間領域評価部 204において生成される時間領域評価信号 e '、分離部 201から出力される符号ィ匕情報 P、及びビット配分情報復号 estl D

部 203から渡されたビット数を用いて、周波数領域における評価及び予測を行い、周波数領域評価信号 e 'を生成する。周波数領域評価部 205は、周波数領域におけ est2

る評価及び予測に先立ち、ステレオ符号ィ匕装置 100の周波数領域評価部 105と同様に、周波数変換を行う FFT部を有する。

[0061] 残差復号部 206は、分離部 201から出力される符号ィ匕情報 P及びビット配分情報

E

復号部 203から渡されたビット数を用いて、残差信号を復号する。また、残差復号部 206は、周波数領域評価部 205で生成される周波数領域評価信号 e 'に、この復 est2

号された残差信号を与え、左チャネルの駆動音源信号 e 'を生成する。

し

[0062] 合成フィルタリング部 207は、符号化情報 P力 LPC係数を復号し、この LPC係数

F

と残差復号部 206において生成される左チャネルの駆動音源信号 e 'とを合成して、

し

左チャネル信号 L'を生成する。

[0063] ステレオ変換部 208は、モノラル復号部 202で復号されるモノラル信号 M，、および合成フィルタ 207で生成される左チャネル信号 L，を用いて、右チャネル信号 R，を生成する。

[0064] このように、本実施の形態に係るステレオ符号ィ匕装置によれば、符号化対象であるステレオ音声信号に対し、まず時間領域において評価及び予測を行った後、周波数領域において更に詳細な評価及び予測を行って、これら 2段階の評価及び予測に関する情報を符号ィ匕情報として出力する。従って、時間領域における評価及び予測では十分に表現できな力つた情報に対して周波数領域において補完的な評価及び予測を行うことができ、ステレオ音声信号を低ビットレートで精度良く符号ィ匕することができる。

[0065] また、本実施の形態によれば、時間領域評価部 104における時間領域評価は、全周波数帯域に渡る信号の空間的情報の平均レベルを評価することに相当する。例えば、時間領域評価部 104ぉ、て空間的情報として求められるエネルギ比及び時間遅延は、 1フレームの符号化対象の信号をそのまま 1信号として処理し、この信号の全体的または平均的なエネルギ比及び時間遅延を求めたものである。一方、周波数領域評価部 105における周波数領域評価は、符号化対象の信号の周波数帯域を複数のサブバンドに分割し、この細分ィ匕された個々の信号の評価を行っている。換言すると、本実施の形態によれば、時間領域においてステレオ音声信号の概略的な評価を行った後、周波数領域において更なる評価を行うことにより評価信号を微調整する。従って、符号ィ匕対象の信号を 1信号として扱うと十分に表現できな力つた情報に対し、複数の信号に細分化して更なる評価を行うため、ステレオ音声信号の符号ィ匕精度を向上させることができる。

[0066] また、本実施の形態によれば、モノラル信号と左チャネル信号 (または右チャネル信号)との類似具合に応じて、すなわち、ステレオ音声信号の状況に応じて、所定ビットレートの範囲内において、時間領域評価、周波数領域評価等の各処理に対し適応的にビットを配分する。これにより、効率的でかつ精度良く符号ィ匕を行うことができると共に、ビットレートスケーラビリティを実現することができる。

[0067] また、本実施の形態によれば、 MPEG - 2 AACに必須の MDCT処理を必要としないため、リアルタイム音声通信システム等において、時間遅延を許容範囲限度内に抑えることができる。

[0068] また、本実施の形態によれば、時間領域評価にお!、て、エネルギ比および時間遅延という少ないパラメータで符号ィ匕を行うため、ビットレートを削減することができる。 [0069] また、本実施の形態によれば、 2つのレイヤ力もなる階層的な構成を採るため、モノラルレベルからステレオレベルへスケーリングすることができる。よって、何らかの原因で、周波数領域評価に関する情報を復号できない場合でも、時間領域評価に関する情報だけを復号することにより、品質は多少劣化するものの、所定品質のステレオ音声信号を復号することができるため、スケーラビリティを向上させることができる。

[0070] また、本実施の形態によれば、第 1レイヤにおいてモノラル信号を AMR— WB方式で符号ィ匕するため、ビットレートを低く抑えることができる。

[0071] なお、本実施の形態に係るステレオ符号ィヒ装置、ステレオ復号装置、及びステレオ符号化方法は、種々変更して実施することが可能である。

[0072] 例えば、本実施の形態では、ステレオ符号ィ匕装置 100でモノラル信号と左チャネル信号とを符号化対象とし、ステレオ復号装置 200では、モノラル信号および左チヤネル信号を復号してこれらの復号信号を合成することによって、右チャネル信号を復号する場合を例にとって説明したが、ステレオ符号ィ匕装置 100の符号ィ匕対象の信号はこれに限定されず、ステレオ符号ィ匕装置 100でモノラル信号と右チャネル信号とを符号化対象とし、ステレオ復号装置 200で復号された右チャネル信号とモノラル信号とを合成することによって、左チャネル信号を生成するようにしても良、。

[0073] また、本実施の形態でフィルタリング部 103にお、て、 LPC係数に対する符号化情報としては、 LPC係数を他の等価なパラメータに変換したもの（例えば LSPパラメ一タ）を用いても良い。

[0074] また、本実施の形態では、所定数のビットをビット配分制御部 107によって各処理に配分している力ビット配分制御処理を行わなくて、前もって各部に使われるビット数を決めておく固定ビット配分を行っても良い。かかる場合、ステレオ符号ィ匕装置 10 0においてはビット配分制御部 107が不要である。また、この固定のビット配分の割合は、ステレオ符号ィ匕装置 100及びステレオ復号装置 200に共通であるので、ステレォ復号装置 200においてもビット配分情報復号部 203は不要である。

[0075] また、本実施の形態でビット配分制御部 107は、ステレオ音声信号の状況に応じて適応的にビット配分を行っている力 S、ネットワークの状況に応じて適応的にビット配分を行っても良い。 [0076] また、本実施の形態に係る残差符号ィ匕部 106は、ビット配分制御部 107によって配分される所定数のビットを使用して符号ィ匕を行うことで、ロッシ一システムとなる。所定数のビットを使用する符号化としては、例えばベクトル量子化がある。一般的に、残差符号ィ匕部は、符号ィ匕方法の違いによって、ロッシ一システムまたはロスレスシステムという特徴の相異なる符号化システムとなる。ロスレスシステムは、ロッシ一システムに比べて、復号装置で信号をより正確に復号することができるという特徴があるが、圧縮率が低いためビットレートが高くなる。例えば、残差符号ィ匕部 106において、残差信号がハフマン (Huffinan)符号化、ライス (Rice)符号ィ匕等のノイズレス符号ィ匕方法によって符号化されれば、ロスレスシステムとなる。

[0077] また、本実施の形態で比率算出部 142は、モノラル駆動音源信号 e と左チャネル

M

の駆動音源信号 _eとのエネルギ比率を算出して振幅情報 _αとするが、エネルギ比率

し

の代わりにエネルギ差を算出して振幅情報 αとしても良!、。

[0078] また、本実施の形態で比率算出部 154は、各サブバンドにおける、左チャネルの駆動音源信号 eと時間領域評価信号 e とのスペクトルエネルギ比率を算出して振

L estl

幅情報 j8とするが、エネルギ比率の代わりにエネルギ差を算出して振幅情報 j8としても良い。

[0079] また、本実施の形態では、モノラル駆動音源信号 e と左チャネルの駆動音源信号 e

M

との間の時間領域における空間的情報が振幅情報 ocと遅延情報 τとからなっていし

るが、この空間的情報は他の情報をさらに含んでいても良いし、振幅情報 α、遅延情報て等とは全く異なる他の情報からなっていても良い。

[0080] また、本実施の形態では、左チャネルの駆動音源信号 eと時間領域評価信号 e

L estl との間の周波数領域における空間的情報が振幅情報と位相差情報 øとからなつているが、この空間的情報は他の情報をさらに含んでいても良いし、振幅情報 j8、位相差情報 Θ等とは全く異なる他の情報からなっていても良い。

[0081] また、本実施の形態で時間領域評価部 104は、モノラル駆動音源信号 e と左チヤ

M

ネルの駆動音源信号 eとの間の空間的情報の検出及び算出をフレーム毎に行うが、

L

この処理を 1フレーム内にぉ、て複数回行っても良、。

[0082] また、本実施の形態で位相選択部 156は、各サブバンドにおいて、 1つのスぺタトル位相を選択している力複数のスペクトル位相を選択しても良い。かかる場合、位相差算出部 157は、この複数の位相における、左チャネルの駆動音源信号 eと時間し領域評価信号 e との位相差 Θの平均を算出し、位相差算出部 157に出力する。

estl

[0083] また、本実施の形態で残差符号ィ匕部 106は、残差信号に対して時間領域符号化を行うが、周波数領域符号ィ匕を行っても良い。

[0084] また、本実施の形態では、音声信号を符号化対象とする場合を例にとって説明した力本発明に係るステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法は、音声信号のほかオーディオ信号にも適用することができる。

[0085] 以上、本発明の実施の形態について説明した。

[0086] 本発明に係るステレオ符号化装置およびステレオ復号装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。

[0087] また、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明した力本発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ符号化方法及びステレオ復号方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係るステレオ符号ィ匕及びステレオ復号装置と同様の機能を実現することができる。

[0088] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部または全てを含むように 1チップィ匕されても良い。

[0089] また、ここでは LSIとした力集積度の違いによって、 IC、システム LSI、スーパー L SI、ウノレ卜ラ LSI等と呼称されることちある。

[0090] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッサで実現しても良い。 LSI製造後に、プログラム化することが可能な FPGA (Field Pro grammable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギユラブル ·プロセッサを利用しても良、。 [0091] さらに、半導体技術の進歩または派生する別技術により、 LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行っても良い。バイオ技術の適応等が可能性としてあり得る。

[0092] 本明糸田書 ίま、 2005年 8月 31日出願の特願 2005— 252778に基づく。この内容【ますべてここに含めておく。

産業上の利用可能性

[0093] 本発明に係るステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法は、携帯電話、 IP電話、テレビ会議等に好適である。

Claims

請求の範囲

[1] ステレオ信号の第 1チャネル信号に対して時間領域における評価を行い、この評価結果を符号化する時間領域評価手段と、

前記第 1チャネル信号の周波数帯域を複数に分割し、各帯域の前記第 1チャネル信号に対し周波数領域における評価を行ヽ、この評価結果を符号化する周波数領域評価手段と、

を具備するステレオ符号化装置。

[2] 前記ステレオ信号力生成されるモノラル信号を符号ィ匕する第 1レイヤ符号ィ匕手段と、

前記時間領域評価手段および前記周波数領域評価手段を有する第 2レイヤ符号化手段と、

を具備してスケーラブル符号ィ匕を行う、

請求項 1記載のステレオ符号化装置。

[3] 前記時間領域評価手段は、

前記モノラル信号を用いて前記時間領域における評価を行ヽ、前記第 1チャネル信号に類似する時間領域評価信号を生成し、

前記周波数領域評価手段は、

前記第 1チャネル信号と同様に前記時間領域評価信号の周波数帯域も複数に分割し、各帯域の前記時間領域評価信号を用いて前記周波数領域における評価を行つて、前記第 1チャネル信号に類似する周波数領域評価信号を生成する、

請求項 2記載のステレオ符号化装置。

[4] 前記第 1チャネル信号と前記モノラル信号との類似具合に応じて、前記時間領域評価手段と前記周波数領域評価手段とにビットを配分するビット配分手段、をさらに具備する請求項 2記載のステレオ符号ィ匕装置。

[5] 前記ビット配分手段は、

前記第 1チャネル信号と前記モノラル信号との類似度が所定値以上の場合、より多くのビットを前記周波数領域評価手段に配分する、

請求項 4記載のステレオ符号化装置。

[6] 前記ビット配分手段は、

前記第 1チャネル信号と前記モノラル信号との類似度が所定値未満の場合、前記時間領域評価手段と前記周波数領域評価手段とに均等にビットを配分する、請求項 4記載のステレオ符号化装置。

[7] 前記第 1チャネル信号と前記周波数領域評価信号との間の残差を符号ィ匕する残差符号化手段、

をさらに具備する請求項 3記載のステレオ符号ィ匕装置。

[8] 前記時間領域評価手段は、

前記時間領域における評価にぉ、て、前記第 1チャネル信号と前記モノラル信号との間の空間的情報を求め、

前記周波数領域評価手段は、

前記周波数領域における評価において、前記第 1チャネル信号と前記時間領域評価信号との間の空間的情報を求める、

請求項 3記載のステレオ符号化装置。

[9] ステレオ信号の第 1チャネル信号に対して時間領域における評価がされ、この評価結果が符号化された符号ィ匕情報を復号する時間領域復号手段と、

前記第 1チャネル信号の周波数帯域が複数に分割され、各帯域の前記第 1チヤネル信号に対し周波数領域における評価がされ、この評価結果が符号化された符号化情報を復号する周波数領域復号手段と、

を具備するステレオ復号装置。

[10] ステレオ信号の第 1チャネル信号に対して時間領域における評価を行うステップと、前記時間領域における評価の結果を符号ィヒするステップと、

前記第 1チャネル信号の周波数帯域を複数に分割するステップと、

分割後の各帯域の前記第 1チャネル信号に対し周波数領域における評価を行うステツプと、

前記周波数領域における評価の結果を符号ィヒするステップと、

を具備するステレオ符号ィ匕方法。