WO2003010752A1

WO2003010752A1 - Speech bandwidth extension apparatus and speech bandwidth extension method

Info

Publication number: WO2003010752A1
Application number: PCT/JP2002/007605
Authority: WO
Inventors: Kazunori Ozawa
Original assignee: Nec Corporation
Priority date: 2001-07-26
Filing date: 2002-07-26
Publication date: 2003-02-06
Also published as: JP2003044098A; CN1535459A; US20040243402A1; EP1420389A4; EP1420389A1; KR100615480B1; KR20040028932A; CA2455059A1; HK1069247A1; CN1270292C

Description

明細書音声帯域拡張装置および音声帯域拡張方法技術分野

本発明は音声帯域拡張装置に関し、特に低いビットレートで符号化された音声信号の復号化後の再生周波数帯域を拡張し、聴感的な音質を改善する音声帯域拡張装置に関する。

背景技術

従来、音声帯域拡張方式として、低ビットレートで符号化された音声信号を、送信側から帯域拡張に関する補助情報を伝送することなく、受信側で再生する周波数帯域を拡張させる方式が知られている。例えば、 P. J axおよび P. Va r y氏らによる" Wi d e b and e x t en s i on o f t e l e phone s e e c h u s i ng h i dd e n ma r kov mod e l と題し 7こ論文 (P r o c. I EEE Sp e e c h Cod i ng Wo r k s hop, p p. 133 - 135, 2000.) が知られている。

この従来方式は、広帯域音声のスぺクトル包絡やフィルタ係数の HMM (H i d d e n Ma r kov Mo d e 1 ) によるモデル化を行うため、予めオフラインで多量の音声データベースに基いて HMMモデルのパラメ一夕を決定しておく必要があった。また、受信側でリアルタイムに周波数帯域の拡張処理を行うためには、 HMMモデルによる検索に多くの演算量が必要であった。

上述した従来の音声帯域拡張装置は、 HMMモデルのパラメ一夕を決定するためには、多量の音声データベースを参照しなければならないという問題点が生ずる。また、受信側でリアルタイムに周波数帯域の拡張処理を行うためには、 HMMモデルによる検索に多くの演算量が必要になるという欠点がある。

本発明の目的は、送信側から補助情報を受信することなく、比較的少ない演算量で、周波数帯域の拡張された良好な音質の音声が得られる音声帯域拡張装置を提供することにある。入力された再生音声信号をフレームに分割し、フレーム毎に求めたスぺクトルパラメ一夕の周波数をシフトし、且つ帯域拡張した線形予測係数で合成フィル夕を構成し、合成フィル夕を通した音源信号を用いて帯域拡張された音声信号に再生することにより、上記目的が達成される。

発明の開示

本発明の音声帯域拡張装置は、復号化された再生音声信号を入力し、スぺクトル特性を表すスぺクトルパラメ一夕を計算するスぺクトルパラメ一夕計算回路と、前記スぺクトルパラメ一夕の周波数を高い周波数にシフトしたのち周波数帯域の拡張されたフィルタ係数を求める係数計算回路と、前記再生音声信号を入力し有声 Z 無声判別情報およびピッチ周期を出力する有声 Z無声判別回路と、前記有声 Z無声判別情報に基づいてゲインを出力するゲイン調整回路と、前記ピッチ周期を入力し過去の音源信号にもとづき適応コードベクトルを発生する適応コードブック回路と、帯域制限された雑音信号を発生する雑音発生回路と、前記適応コードべクトルと前記雑音信号とを入力し少なくとも一方に適切なゲインを与えるゲイン回路と、前記ゲイン回路の出力を加算して音源信号を出力する第 1の加算器と、前記音源信号を前記フィル夕係数を用いて構成した合成フィル夕に通して周波数帯域の拡張された音源信号を出力する合成フィルタ回路と、前記再生音声信号を入力し予め定められた標本化周波数で変換した信号を出力する標本化周波数変換回路と、前記標本化周波数変換回路の出力と前記合成フィル夕回路の出力とを加算して帯域拡張された再生音声信号を出力する第 2の加算器と、より構成されることを特徴としている。

また、本発明の音声帯域拡張装置は、復号化された再生音声信号を入力し、スぺクトル特性を表すスぺクトルパラメータを計算するスぺクトルパラメータ計算回路と、前記スぺクトルパラメ一夕の周波数を高い周波数にシフトしたのち周波数帯域の拡張されたフィルタ係数を求める係数計算回路と、前記再生音声信号を入力し有声無声判別情報を出力する有声/無声判別回路と、前記有声 Z無声判別情報に基づいてゲインを出力するゲイン調整回路と、帯域制限された雑音信号を発生する雑音発生回路と、前記雑音信号を入力し適切なゲインを与えた音源信号を出力するゲイン回路と、前記音源信号を前記フィル夕係数を用いて構成した合成フィル夕に通して周波数帯域の拡張された音源信号を出力する合成フィルタ回路と、前記再生音声信号を入力し予め定められた標本化周波数で変換した信号を出力する標本化周波数変換回路と、前記標本化周波数変換回路の出力と前記合成フィルタ回路の出力とを加算して帯域拡張された再生音声信号を出力する加算器と、より構成されることを特徴としている。

また、前記スペクトルパラメ一夕計算回路は、前記再生音声信号をフレームに分割した後、フレーム毎にスぺクトル特性を表す前記スぺクトルパラメ一夕を予め定められた次数計算して出力することを特徴としている。

また、前記係数計算回路は、前記スぺクトルパラメ一夕の周波数を高い周波数にシフトさせたのち、予め定められた次数のフィル夕係数（線形予測係数）に変換して出力することを特徴としている。

また、適応コードブック回路は、前記ピッチ周期を入力し、フレーム毎に過去の音源信号を基に適応コードブックにおける適応コードべクトルを出力することを特徴としている。

また、前記雑音発生回路は、周波数帯域が制限され、平均振幅が予め定められたレベルで正規化され、且つフレーム長に等しい時間長の雑音信号を出力することを特徴としている。

また、本発明の音声帯域拡張方法は、復号化された再生音声信号の周波数帯域を拡張する音声帯域拡張方法であつて、入力された再生音声信号をフレームに分割し、フレーム毎に求めたスぺクトルパラメータの周波数を高い周波数にシフトさせたのち周波数帯域の拡張されたフィル夕係数（線形予測係数）に変換し、フレーム長に等しい時間長の雑音信号と過去の音源信号にもとづく適応コードべクトルとを加算した音源信号を前記フィル夕係数により構成された合成フィルタに通して周波数帯域の拡張された音源信号とし、前記再生音声信号を周波数成分の高い標本化周波数で変換した信号に前記拡張された音源信号を加算して、周波数帯域の拡張された音声信号を再生することを特徴としている。

図面の簡単な説明

図 1は、本発明の音声帯域拡張装置の一つの実施の形態を示すプロック図である。図 2は、本発明の音声帯域拡張装置の他の実施の形態を示すブロック図である。図 3は、本発明の音声帯域拡張装置の他の実施の形態を示すブロック図である。発明を実施するための最良の形態

次に、本発明の実施の形態について図面を参照して説明する。図 1は、本発明の音声帯域拡張装置の一つの実施の形態を示すブロック図である。

図 1に示す本実施の形態は、復号化された再生音声信号を入力し、スぺクトル特性を表すスぺクトルパラメ一夕を計算するスぺクトルパラメ一夕計算回路 100 と、スぺクトルパラメ一夕の周波数を高い周波数にシフトしたのち周波数帯域の拡張されたフィル夕係数を求める係数計算回路 130と、再生音声信号を入力し有声ノ無声判別情報およびピッチ周期を出力する有声無声判別回路 200と、有声無声判別情報に基づいてゲインを出力するゲイン調整回路 210と、ピッチ周期を入力し過去の音源信号にもとづき適応コードべクトルを発生する適応コードブック回路 110と、帯域制限された雑音信号を発生する雑音発生回路 120と、適応コードべクトルと雑音信号とを入力し少なくとも一方に適切なゲインを与えるゲィン回路 140と、ゲイン回路 140の出力を加算して音源信号を出力する加算器 160と、音源信号をフィルタ係数を用いて構成した合成フィルタに通して周波数帯域の拡張された音源信号を出力する合成フィルタ回路 170と、再生音声信号を入力して予め定められた標本化周波数で変換した信号を出力する標本化周波数変換回路 180と、標本化周波数変換回路 180の出力と合成フィルタ回路 170の出力とを加算して帯域拡張された再生信号を出力する加算器 190とより構成されている。

次に、本実施の形態の音声帯域拡張装置の動作について図 1を参照して詳細に説明する。以下の説明において、周波数帯域の拡張は、入力された再生音声信号の周波数帯域を 4 kHzから 5 kHzあるいは 7 k H zに拡張することを想定している。

図 1を参照すると、スぺクトルパラメータ計算回路 100は、復号化された再生音声信号を入力し、フレームに分割（例えば 10ms) し、この後、フレーム毎にスぺクトル特性を表すスぺクトルパラメ一夕を予め定められた次数（例えば P= 1 0次）計算して係数計算回路 130へ出力する。

ここで、スぺクトルパラメ一夕の計算には、周知の LP C (L i ne a r P r e d i c t i ve Cod i ng)分析や、 Bu r g分析などを用いることができる。本実施の形態では、 Bu r g分析を用いることとする。 Bu r g分析の詳細については、中溝著による "信号解析とシステム同定" と題した単行本（コロナ社 1 988年刊）の 82〜87頁等に記載されているので説明は省略する。

さらに、スぺクトルパラメ一夕計算回路 100は、 Bu r g法により計算された線形予測係数 a i (i = l、〜P) を量子化や補間に適した LSPパラメ一夕に変換したものとして出力する。

ここで、線形予測係数から LSPパラメ一夕への変換については、菅村ほかによる "線スペクトル対（LSP) 音声分析合成方式による音声情報圧縮" と題した論文（電子通信学会論文誌、 J 64— A、 p . 599— 606、 1981年）を参照することができる。

係数計算回路 130は、スぺクトルパラメータ計算回路 100から出力された L SPパラメ一夕を入力し、周波数帯域の拡張された信号の係数に変換して合成フィル夕回路 170へ出力する。この変換には、例えば、 LSPパラメータの周波数を単純に高い周波数へシフトさせる手法、非線形変換手法、または線形変換手法などの周知の方法を用いることができる。尚、ここでは LSPパラメータの全部または一部を使用して、 LSPパラメータの周波数を高い周波数にシフトさせた上で、予め定められた次数 Mの線形予測係数（フィル夕係数）に変換する。

有声無声判別回路 200は、復号化された再生音声信号を入力し、フレーム毎の信号が有声であるのか無声であるのかを判別する。以下、具体的な判別方法について述べる。正規化自己相関関数 D (T) の最大値が予め定められたしきい値より大きければ前記フレーム毎の信号は有声部分であり、小さければ無声部分であると判別される。再生音声信号 X (n) に対して、予め定められた遅れ時間 mまでの正規化自己相関関数 D (T) は以下に示す数式（1) に従って計算される。判別された有声無声判別情報はゲイン調整回路 210へ出力される。また、有声部分のフレーム毎の信号は、正規化自己相関関数 D (T) を最大化する Tの値をピッチ周期 Tとして適応コードブック回路 1 10へ出力される。尚、前記数式（1) において Nは正規化自己相関を計算するためのサンプル数である。 D(T) = [¾x(n)x(n - T)] /[ X² (n - T)] ( i ) n=0 n=0

ゲイン調整回路 2 1 0は、有声/無声判別回路 2 0 0から有声無声判別情報を入力し、有声部分か無声部分かに応じて、適応コードブック信号のゲインと雑音信号のゲインとをゲイン回路 1 4 0へ出力する。

適応コードブック回路 1 1 0は、有声/無声判別回路 2 0 0から適応コードブックのピッチ周期を入力し、適応コードべクトルを生成し出力する。適応コードブック回路 1 1 0は、過去の音源信号にもとづき適応コードブック成分も生成する。雑音発生回路 1 2 0は、周波数帯域が制限された上で、平均振幅が予め定められたレベルで正規化され、且つフレーム長に等しい時間長の雑音信号を発生し、ゲイン回路 1 4 0へ出力する。ここで、雑音信号としては、一例として白色雑音を用いるが、他の統計分布を有する雑音信号を使用することもできる。

ゲイン回路 1 4 0は、ゲイン調整回路 2 1 0から出力された適応コードブック信号のゲインと雑音信号のゲインとを入力し、適応コードブック回路 1 1 0から出力された適応コードべクトルおよび雑音発生回路 1 2 0から出力された雑音信号の少なくとも一方に適切なゲインを乗じた後、それぞれの信号を加算器 1 6 0へ出力する。

加算器 1 6 0は、ゲイン回路 1 4 0から出力された 2種類の信号を加算した音源信号を合成フィル夕回路 1 7 0および適応コードブック回路 1 1 0へ出力する。合成フィル夕回路 1 7 0は、係数計算回路 1 3 0から出力された次数 Mの線形予測係数（フィル夕係数）を入力して合成フィルタから構成される。合成フィルタ回路 1 7 0は、加算器 1 6 0から出力された音源信号を入力して周波数帯域の拡張された音源信号を出力する。

標本化周波数変換回路 1 8 0は、再生音声信号を入力し、予め定められた整数倍の標本化周波数により変換された信号を出力する。変換によって生成された信号は、周波数拡張前の成分を維持する。

加算器 1 9 0は、標本化周波数変換回路 1 8 0から出力された信号に、合成フィルタ回路 1 7 0から出力された音源信号を加算し、周波数帯域の拡張された再生音声信号を形成して出力する。本実施の形態によれば、入力された再生音声信号をフレームに分割し、フレーム毎に求めたスぺクトルパラメータ、あるいは L S Pパラメ一夕の周波数を高い周波数にシフトさせたのち周波数帯域の拡張されたフィル夕係数（線形予測係数）に変換し、このフィルタ係数により構成された合成フィルタに、フレーム長に等しい時間長の雑音信号と過去の音源信号にもとづく適応コードべクトルとを加算した音源信号を通して周波数帯域の拡張された音源信号とし、この拡張された音源信号を入力された再生音声信号を周波数成分の高い標本化周波数で変換した信号に加算することにより、周波数帯域の拡張された音声信号を再生することとしているので、送信側から帯域拡張のための情報を受信する必要がなく、また、従来手法のように HMMに基づく多量の演算を行う必要がなくなる。さらに、音源情報として白色雑音などを使用しているので、きわめて容易に処理することができる。

次に、本発明の他の実施の形態について説明する。図 2は、本発明の音声帯域拡張装置の他の実施の形態を示すブロック図である。図 1と同一の番号を付した構成要素は、図 1と同一の動作をするので、説明を省略する。

図 2において、ゲイン調整回路 3 1 0は、有声無声判別回路 2 0 0から有声 Z 無声判別情報を入力し、有声部分か無声部分かに応じて、雑音信号のゲインを調整する信号をゲイン回路 3 0 0へ出力する。

ゲイン回路 3 0 0は、ゲイン調整回路 3 1 0から出力された雑音信号のゲインを入力し、雑音発生回路 1 2 0から出力された雑音信号にゲインを乗じた信号を合成フィル夕回路 1 7 0へ出力する。

ここで、図 1に示した適応コードブック回路 1 1 0は、音声信号の母音などに含まれる周期的成分を発生させるために用いられている。そして、この母音信号は、一般に高い周波数まで延びていないと言われているので、音声帯域拡張装置では省略することも可能である。したがって、適応コードブック回路 1 1 0を取り外すことにより、データ処理量を低減することができる。

次に、本発明のさらに他の実施の形態について説明する。図 3は、本発明の音声帯域拡張装置の他の実施の形態を示すブロック図である。

前記他の実施の形態に係る音声帯域拡張装置は、図 3に示すように、デマルチプレクサ 5 0 5と、ゲイン復号回路 5 1 0と、適応コードブック回路 5 2 0と、音源信号復元回路 5 4 0と、スぺクトルパラメ一夕復号回路 5 7 0と、加算器 5 5 0と、合成フィル夕回路 5 6 0と、ゲインコードブック 3 8 0と、音源コードブック 3 5 1からなる音声復号器を前段に配置した構成としている。

ここで、スぺクトルパラメ一夕復号回路 5 7 0は、図 1に示すスぺクトルパラメ一夕計算回路 1 0 0の動作を兼ね備える。これにより、構成が簡略化されている。また、図 1と同一の番号を付した構成要素は、同一の動作をするので、ここでの説明を省略する。

図 3において、デマルチプレクサ 5 0 5は、受信した信号から、音声情報としての多重化されたゲインコードべクトルを示すィンデクス、適応コードブックの遅延を示すインデクス、音源信号の情報、並びに音源コードべクトルのインデクスおよびスぺクトルパラメ一夕のインデクスの各パラメータを分離して出力する。

ゲイン復号回路 5 1 0は、ゲインコードべクトルを示すインデクスを入力し、ゲインコードブック 3 8 0からインデクスに応じてゲインコードべクトルを読み出し、読み出したゲインコードベクトルを出力する。

適応コードブック回路 5 2 0は、適応コードブックの遅延を示すィンデクスを入力して適応コードべクトルを生成し、その適応コードべクトルにゲイン復号回路 5 1 0から出力されたゲインコードべクトルによる適応コードブックのゲインを乗じた適応コードべクトルを出力する。また、過去の駆動音源信号にもとづき適応コ一ドブック成分が生成される。

音源信号復元回路 5 4 0は、デマルチプレクサ 5 0 5から受け取った音源コードベクトルのインデクス、音源信号の情報および音源コードブック 3 5 1から読み出した極性コードべクトルとを用いて音源パルスを生成し、その音源パルスを加算器 5 5 0へ出力する。

加算器 5 5 0は、適応コードブック回路 5 2 0から出力された適応コードべクトルと音源信号復元回路 5 4 0から出力された音源パルスとを用いて、以下の数 2に示す数式（2 )にもとづき駆動音源信号 V ( n )を生成し、その駆動音源信号 V ( n ) を適応コードブック回路 5 2 0と合成フィル夕回路 5 6 0へ出力する。 M

v(n) = yS'_t v(n - T) + G'_t 29'ik S(n - mj) ( 2 )

i=1

スぺクトルパラメ一タ復号回路 5 7 0は、スぺクトルパラメ一夕のインデクスを入力してスぺクトルパラメ一夕を復号し、線形予測係数に変換して合成フィル夕回路 5 6 0および係数計算回路 1 3 0へ出力する。

合成フィルタ回路 5 6 0は、スぺクトルパラメ一夕復号回路 5 7 0から出力された線形予測係数 a iと加算器 5 5 0から出力された駆動音源信号 V ( n ) とを入力し、以下の数 3に示す数式（3 ) に従い再生信号 X ( n ) を計算し出力する。

10

x(n) = v(n) - ^ ajX(n - j) ( 3 )

i=1

産業上の利用可能性

以上説明したように、本発明の音声帯域拡張装置及び音声帯域拡張方法によれば、復号化された再生音声信号をフレームに分割し、フレーム毎に求めたスぺクトルパラメ一夕の周波数を高い周波数にシフトし、且つ周波数帯域の拡張されたフィル夕係数（線形予測係数）を求めることにより、スペクトルパラメ一夕を周波数帯域の拡張されたパラメ一夕に変換する際に、 HMMを例とする従来手法を用いることがないので、演算量を少なくすることができる。

また、フレーム長に等しい時間長の雑音信号（白色雑音）と過去の音源信号にもとづく適応コードベクトルとを加算した音源信号に用いることにより、少ない情報量できわめて容易に処理することができる。

また、周波数帯域の拡張されたフィルタ係数により構成された合成フィルタに通すことで周波数帯域の拡張された音源信号として、再生音声信号を周波数成分の高い標本化周波数で変換した信号に加算することにより、周波数帯域の拡張された音声信号を再生することとしているので、送信側から帯域拡張化処理を行うために必要な情報を受信することなく、聴感的な音質を改善することができる。

Claims

請求の範囲

1 . 復号化された再生音声信号を入力し、スペクトル特性を表すスペクトルパラメータを計算するスぺクトルパラメータ計算回路と、

前記スぺクトルパラメ一夕の周波数を高い周波数にシフトしたのち周波数帯域の拡張されたフィル夕係数を求める係数計算回路と、

前記再生音声信号を入力し有声/無声判別情報およびピッチ周期を出力する有声無声判別回路と、

前記有声ノ無声判別情報に基づいてゲインを出力するゲイン調整回路と、前記ピッチ周期を入力し過去の音源信号にもとづき適応コードべクトルを発生する適応コードブック回路と、

帯域制限された雑音信号を発生する雑音発生回路と、

前記適応コードべクトルと前記雑音信号とを入力し少なくとも一方に適切なゲインを与えるゲイン回路と、

前記ゲイン回路の出力を加算して音源信号を出力する第 1の加算器と、前記音源信号を前記フィルタ係数を用いて構成した合成フィル夕に通して周波数帯域の拡張された音源信号を出力する合成フィルタ回路と、

前記再生音声信号を入力し予め定められた標本化周波数で変換した信号を出力する標本化周波数変換回路と、前記標本化周波数変換回路の出力と前記合成フィル夕回路の出力とを加算して帯域拡張された再生音声信号を出力する第 2の加算器と、から構成されることを特徴とする音声帯域拡張装置。

2 . 復号化された再生音声信号を入力し、スぺクトル特性を表すスぺクトルパラメータを計算するスぺクトルパラメータ計算回路と、

前記スぺクトルパラメータの周波数を高い周波数にシフトしたのち周波数帯域の拡張されたフィルタ係数を求める係数計算回路と、

前記再生音声信号を入力し有声無声判別情報を出力する有声/無声判別回路と、

前記有声無声判別情報に基づいてゲインを出力するゲイン調整回路と、帯域制限された雑音信号を発生する雑音発生回路と、前記雑音信号を入力し適切なゲインを与えた音源信号を出力するゲイン回路と、前記音源信号を前記フィルタ係数を用いて構成した合成フィルタに通して周波数帯域の拡張された音源信号を出力する合成フィルタ回路と、

前記再生音声信号を入力し予め定められた標本化周波数で変換した信号を出力する標本化周波数変換回路と、

前記標本化周波数変換回路の出力と前記合成フィルタ回路の出力とを加算して帯域拡張された再生音声信号を出力する加算器と、から構成されることを特徴とする音声帯域拡張装置。

3 . 前記スペクトルパラメータ計算回路は、前記再生音声信号をフレームに分割した後、フレーム毎にスぺクトル特性を表す前記スぺクトルパラメ一夕を予め定められた次数計算して出力することを特徴とする請求の範囲第 1項又は第 2項に記載の音声帯域拡張装置。

4 . 前記係数計算回路は、前記スペクトルパラメ一夕の周波数を高い周波数にシフトさせたのち、予め定められた次数のフィル夕係数（線形予測係数）に変換して出力することを特徴とする請求の範囲第 1項、第 2項又は第 3項に記載の音声帯域

5 . 適応コードブック回路は、前記ピッチ周期を入力し、フレーム毎に過去の音源信号を基に適応コードブックにおける適応コードべクトルを出力することを特徴とする請求の範囲第 1項、第 3項又は第 4項に記載の音声帯域拡張装置。

6 . 前記雑音発生回路は、周波数帯域が制限され、平均振幅が予め定められたレベルで正規化され、且つフレーム長に等しい時間長の雑音信号を出力することを特徴とする請求の範囲第 1項、第 2項、第 3項、第 4項又は第 5項に記載の音声帯域

7 .復号化された再生音声信号の周波数帯域を拡張する音声帯域拡張方法であつて、

入力された再生音声信号をフレームに分割し、

フレーム毎に求めたスぺクトルパラメータの周波数を高い周波数にシフトさせたのち周波数帯域の拡張されたフィルタ係数（線形予測係数）に変換し、

フレーム長に等しい時間長の雑音信号と過去の音源信号にもとづく適応コードべクトルとを加算した音源信号を前記フィル夕係数により構成された合成フィル夕に通して周波数帯域の拡張された音源信号とし、

前記再生音声信号を周波数成分の高い標本化周波数で変換した信号に前記拡張された音源信号を加算して、周波数帯域の拡張された音声信号を再生することを特徴とする音声帯域拡張方法。