WO2007013525A1

WO2007013525A1 - 音源特性推定装置

Info

Publication number: WO2007013525A1
Application number: PCT/JP2006/314790
Authority: WO
Inventors: Kazuhiro Nakadai; Hiroshi Tsujino; Hirofumi Nakajima
Original assignee: Honda Motor Co., Ltd.; Nittobo Acoustic Engineering Co., Ltd.
Priority date: 2005-07-26
Filing date: 2006-07-26
Publication date: 2007-02-01
Also published as: JP4675381B2; US8290178B2; US20080199024A1; JPWO2007013525A1

Abstract

　本発明は、音源の種類が未知の環境で適用可能な音源特性推定装置（１０）を提供する。この装置は、空間内の任意の位置の音源より発せられた音源信号が複数のマイクロフォン（１４－１～１４－N）に入力されるとき、マイクロフォン間に生じる音源信号の差異を補正する関数を用いて、各マイクロフォンで検出された音響信号を重み付けして合計した信号を出力するビームフォーマー（２１－１～２１－M）を複数備える。ビームフォーマーの各々（２１－１～２１－M）は、空間内の任意の１方向に対応する単位指向特性をもつ関数を含んでおり、空間の任意の位置、及び単位指向特性に対応する方向毎に用意されている。音源特性推定装置（１０）は、さらに、マイクロフォン（１４）が音源信号を検出するとき、最大値を出力するビームフォーマーに対応する空間内の位置及び方向を、音源の位置及び方向として推定する手段（２３）を有する。

Description

明細書

音源特性推定装置

技術分野

[0001] 本発明は、音源のある位置や音源の向いている方向など、音源の特性を推定する装置に関する。

背景技術

[0002] マイクロフォンアレイを用いたビーム'フォーミングによって音源方向や位置を推定する手法が、長年に渡って研究されている。近年では、音源のある方向や位置の推定に加えて、音源の指向特性や開口部の大きさを推定する技術が提案されている（ ί列ば、 Ρ.し. Meuse ana H. F. Silverman, characterization of talker radiation patte rn using a microphone array, ICASSP- 94, Vol. 11, pp. 257- 260を参照)。

発明の開示

発明が解決しょうとする課題

[0003] し力しながら、 Meuseらの手法では、音源力も発せられる音響信号は、ある大きさを持った口（開口部)から放射されることを前提にしている。また、音響信号の放射バターンは、人間の音声と同じような放射パターンであることを前提としている。すなわち、音源の種類が人間の音声に限定されている。したがって、 Meuseらの手法は、音源の種類が未知である実環境にぉ、て適用が難、。

[0004] 本発明の目的は、任意の音源の特性を精度良く推定できる手法を提供することである。

課題を解決するための手段

[0005] 本発明の提供する音源特性推定装置は、空間内の任意の位置の音源より発せられた音源信号が複数のマイクロフォンに入力されるとき、マイクロフォン間に生じる音源信号の差異を補正する関数を用いて、マイクロフォンのそれぞれで検出された音響信号を重み付けして、複数のマイクロフォンにつ、て合計した信号を出力するビームフォーマーを複数備える。ビームフォーマーのそれぞれは、空間内の任意の 1方向に対応する単位指向特性の関数を含んでおり、空間の任意の位置、および単位指向特性に対応する方向ごとに用意されている。音源特性推定装置は、マイクロフォンが音源信号を検出するとき、複数のビームフォーマーのうち最大値を出力するビームフォーマーに対応する空間内の位置および方向を、音源の位置および方向として推定する手段を有する。

[0006] この発明により、人など指向性をもつ音源の位置を精度良く推定できる。また、単位指向特性を利用して音源の方向を推定するので、任意の音源の音響信号を精度良く推定できる。

[0007] 本発明の一実施形態によると、音源特性推定装置は、推定された音源の位置に対応し単位指向特性の異なる複数のビームフォーマーの出力を求め、この出力の組を音源の指向特性として推定する手段をさらに有する。これにより、任意の音源の指向特性を知ることができる。

[0008] 本発明の一実施形態によると、音源特性推定装置は、推定された指向特性を音源の種類に応じた複数の指向特性のデータを含むデータベースと参照することにより、最も近い指向特性を示すデータの種類を音源の種類として推定する手段をさらに有する。これにより、音源の種類を区別することができる。

[0009] 本発明の一実施形態によると、音源特性推定装置は、推定された音源の位置および方向、ならびに推定された音源の種類を、 1ステップ前の時間ステップにおいて推定された音源の位置、向き、および種類と比較して、位置および向きの偏差が所定の範囲内であり、かつ種類が同一であるときに、同一の音源としてグループィ匕する、音源追跡手段をさらに有する。これにより、音源の種類の同一性も考慮するので、空間内に複数の音源がある場合でも音源の追跡が可能となる。

[0010] 本発明の一実施形態によると、音源特性推定装置は、推定された音源の位置に対応し単位指向特性の異なる複数のビームフォーマーの出力を求め、この出力の合計値を音源信号として抽出する手段をさらに有する。これにより、任意の音源、特に指向性をもつ音源の音響信号を、精度良く抽出できる。

[0011] 本発明の提供する音源特性推定装置は、空間内の任意の位置の音源より発せられた音源信号が複数のマイクロフォンに入力されるとき、マイクロフォン間に生じる音源信号の差異を補正する関数を用いて、マイクロフォンのそれぞれで検出された音響信号を重み付けして、複数のマイクロフォンにつ、て合計した信号を出力するビームフォーマーを複数備える。ビームフォーマーのそれぞれは、空間内の任意の 1方向に対応する単位指向特性の関数を含んでおり、空間の任意の位置、および単位指向特性に対応する方向ごとに用意されている。音源特性推定装置は、マイクロフォンが音源信号を検出するとき、複数のビームフォーマーの出力を求め、空間の任意の位置に対応し単位指向特性の異なる複数のビームフォーマーの出力の合計値を求め、最大の合計値をとる位置を選択し、この選択された位置において最大値を出力するビームフォーマーに対応する方向を選択し、この選択された位置および方向を音源の位置および方向として推定する手段を有する。

本発明の一実施形態によると、音源特性推定装置は、空間内の任意の位置にある複数の音源より発せられた音源信号が前記複数のマイクロフォンに入力されるとき、複数の音源信号を抽出する手段をさらに有する。抽出手段は、マイクロフォンが音源信号を検出するとき、複数のビームフォーマーの出力を求め、空間内の各位置ごとに単位指向特性の異なる複数のビームフォーマーに対応する方向について該出力を合計し、合計した出力のうち最大値を有する位置を選択し、該選択した位置において最大値を出力するビームフォーマーに対応する方向を選択し、該選択した位置および方向を第 1の音源の位置および方向として推定する。推定された第 1の音源の位置に対応する単位指向特性の異なる複数のビームフォーマーの出力を求め、該出力の組を音源信号として抽出する。抽出された前記第 1の音源の位置より発せられた音源信号が複数のマイクロフォンに入力されるとき、抽出された音源信号から、マイク口フォン間に生じる音源信号の差異を表す関数を用いて複数のマイクロフォンに与える音響信号を単位指向性の異なる複数のビームフォーマーに対応する方向ごとに計算し、その複数の音響信号を前記複数のマイクロフォンのそれぞれで検出された音響信号より減算する。減算された音響信号に対して複数のビームフォーマーの出力を求め、空間内の各位置ごとに単位指向特性の異なる複数のビームフォーマーに対応する方向について、該出力を合計し、合計した出力のうち最大値を有する位置を選択し、該選択した位置にぉ、て最大値を出力するビームフォーマーに対応する方向を選択し、該選択した位置および方向を第 2の音源の位置および方向として推定する。推定された第 2の音源の位置に対応する単位指向特性の異なる複数のビームフォーマーの出力を求め、該出力の組を第 2の音源信号として抽出する。

図面の簡単な説明

[0013] [図 1]音源特性推定装置を含むシステムを示す概略図である。

[図 2]音源特性推定装置のブロック図である。

[図 3]マルチビームフォーマーの構成図である。

[図 4] Θ s = 0のときの指向特性 DP( Θ r)の一例を示す図である。

[図 5]実験環境を示す図である。

[図 6]音源種類推定実験で推定された指向特性 DP( Θ r)を示す図である。

符号の説明

[0014] 10 音源特性推定装置

12 音源

14 マイクロフォンアレイ

21 マノレチビームフォーマー

23 音源位置推定部

25 音源信号抽出部

27 音源指向特性推定部

29 音源種類推定部

33 音源追跡部

発明を実施するための最良の形態

[0015] 次に図面を参照して、この発明の実施の形態を説明する。図 1は、本発明の一実施形態による音源特性推定装置 10を含むシステムを示す概略図である。

[0016] このシステムの基本的な構成要素は、作業空間 16内の任意の位置 P (x、 y)にあり、任意の方向 Θに音響信号を発する音源 12と、作業空間 16内の任意の場所に設けられ音響信号を検出する複数のマイクロフォン 14— 1〜 14— N力もなるマイクロフォンアレイ 14と、マイクロフォンアレイ 14の検出結果に基づいて音源 12の位置や方向を推定する音源特性推定装置 10である。

[0017] 音源 12は、人間またはロボットに設けられたスピーカーなどのように、コミュニケーシヨン手段として音声を発するものである。音源 12から発せられる音響信号 (以下「音源信号」という）は、信号の発信方向 Θにおいて音波の強さが最大であり、方向によつて音波の強さが異なるという性質、すなわち指向性をもつ。

[0018] マイクロフォンアレイ 14は、 n個のマイクロフォン 14— 1〜14— Nで構成される。これらのマイクロフォン 14— 1〜14—Nは、それぞれ作業空間 16内の任意の場所に設置されている（但し、設置場所の位置座標は既知)。マイクロフォン 14— 1〜 14— Nの設置場所は、例えば作業空間 16が室内だとすると、部屋の壁面、室内の物体、天井、または床面などを適宜選択できる。なお、指向特性を推定する観点に立つと、マイク口フォン 14— 1〜14— Nは、音源 12から任意の一方向だけに集中せず、音源 12を取り囲むように配置されることが望ま、。

[0019] 音源特性推定装置 10は、マイクロフォンアレイ 14の各マイクロフォン 14— 1〜14— Nと有線または無線で接続されている（図 1では結線を省略)。音源特性推定装置 10 は、マイクロフォンアレイ 14により検出される音響信号に基づいて、音源 12の位置 P および方向 Θなど音源 12の各種特性を推定する。

[0020] 図 1に示すように、本実施形態では、作業空間 16に任意の 2次元座標系 18が設定されている。この 2次元座標系 18に基づいて、音源 12の位置は位置ベクトル P= (x、 y)で表される。また、音源 12から音源信号が発せられる方向は、 X軸方向を基準とする角度 Θで表される。そして、音源 12の位置 Pおよび方向 Θを含む位置ベクトルは、 P' = (x、 y、 θ )と表される。作業空間 16内の任意の位置ベクトル P'における音源 1 2から発せられた音源信号のスペクトルは、 X ( ω )と表される。

Ρ，

[0021] なお、音源 12の位置を三次元で推定する場合には、作業空間 16内に任意の三次元座標を設定し、音源 12の位置ベクトルを P， = (x、 y、 ζ、 0、 φ )と表しても良い。ここで、 φは xy平面を基準として表される、音源 12から発せられる音源信号の仰角を表す。

[0022] 続いて、図 2を参照して、音源特性推定装置 10の詳細について説明する。

[0023] 音源特性推定装置 10は、例として本発明の特徴を含むソフトウェアを入出力装置、 CPU,メモリ、外部記憶装置等を備えたコンピュータやワークステーション等で実行することにより実現されるが、一部をノヽードウエアにより実現することもできる。図 2は、これを踏まえて構成を機能ブロックで表現して、る。

[0024] 図 2は、本実施形態による音源特性推定装置 10のブロック図である。以下、音源特性推定装置 10の各ブロックについて個別に説明する。

[0025] マノレチビームフォーマー

マルチビームフォーマー 21は、マイクロフォンアレイ 14の各マイクロフォン 14— 1〜 14— Nで検出された信号 X (ω) (η=1, · · ·, N)にフィルタ関数を乗算して合成し η,Ρ'

て、複数のビームフォーマー出力信号 Υ (ω) (m=l, ···, M)を出力する。マル

P'm

チビームフォーマー 21は、図 3に示すように M個のビームフォーマー 21— 1〜21— Mから構成される。

[0026] ここで、 mは位置インデックスであり、作業空間 16内を X ,· · ·,χ , · · · , X、 y , · · · ,y

1 p P I q

, · · · , y 、 Θ ,···, Θ ,···, Θ と P, Q, R個に離散化して、 m=(p+qP)R+rで表され

Q 1 r R

る。位置インデックス mの総数 Mは P X Q X R個となる。

[0027] 各ビームフォーマー 21— 1〜21— Mには、それぞれ、マイクロフォンアレイ 14の各マイクロフォン 14— 1〜14— Nで検出された音響信号 X (ω)〜Χ (ω)が入力さ

Ι,Ρ' Ν,Ρ'

れる。

[0028] m番目（m=l、 ···、 Μ)のビームフォーマーにおいて、音響信号 X (ω)〜Χ (

1，Ρ， Ν，Ρ， ω)は、ビームフォーマー毎に個別に設定されたフィルタ関数 G 〜G を乗算

1. P'm N，P，m され、これらを合計したものがビームフォーマーの出力信号 Υ (ω)として算出される。

[0029] フィルタ関数 G 〜G は、音源 12が作業空間 16内の一意の位置ベクトル P' l，P，m N，P，m

m= (xp, yq, Θ r)にあると仮定するときに、マイクロフォンアレイ 14で検出された音響信号 X (ω)〜Χ (ω)から音源信号 X (ω)が抽出されるように、設定されている。

1、Ρ' Ν、Ρ' Ρ'

[0030] 次に、マルチビームフォーマー 21の各ビームフォーマー 21— 1〜21—Μのフィルタ関数 Gの導出について説明する。以下、 m番目（m=l、 ·'·、Μ)のビームフォーマ一のフィルタ関数 G 〜G の導出を例示する。

1. P'm N、P，m

[0031] 位置ベクトル P'mに対応するビームフォーマーの出力 Υ (ω)は、フィルタ関数 G

P m π、

(η=1, ···, Ν)を用いて（1)式で表される。

P'm

[数 1]

[0032] (1)式の X (ω)は、音源 12が位置ベクトル P'で音源信号 X (ω)を発したときに、

π、Ρ' P'

マイクロフォン 14— 1〜 14 Νで検出される音響信号であり、 (2)式で表される。

[数 2]

Χ_ηΡ, {ω) = Η_ρ,_η (ω)Χ_Ρ, {ω) (2) [0033] (2)式の Η (ω)は、位置 Ρ'から η番目のマイクロフォンへの伝達特性を表す伝達

関数である。本実施形態において、伝達関数 Η (ω)は、位置 P'にある音源 12から各マイクロフォン 14— 1〜14—Νへの音の伝わり方のモデルに指向性を加え、（3) 式のように定義される。

[数 3]

ここで vは音速を表す。 rは位置 P'と n番目のマイクロフォン座標との距離を表し、 r=(( xn— x;T2 + (yn— y;T2;T0.5と表される。 xn、 ynは、 n番目のマイクロフォンの x, y座標とする。

[0034] (3)式は、音源 12が自由空間における点音源と仮定して、音源 12からマイクロフォンへの音の伝わり方をモデルィ匕し、このモデルに単位指向特性 Α( Θ )を加えている。音の伝わり方は、位相差や音圧差など、マイクロフォンの位置の違いによってマイクロフォン間に生じる音源信号の差異を含む。単位指向特性 Α( Θ )は、ビームフォーマーに指向性を持たせるために、予め設定された関数である。単位指向特性 Α( Θ )の詳ヽては（8)式を参照して後述する。

[0035] 指向ゲイン Dを (4)式で定義する。

画

D(P'_m ,P'_S ∑ G_n>Fm (ω)Η_ρΐ3>η (ω) (4)

ここで、 P，sは、音源の位置を示す。

(4)式は、（5)式の行列演算として定義できる。

[数 5]

D = HG

D = [(! · · d · d_M

G = ,' · (5)

''^G '' ' 、^GN,_n

H = [h,,- ·

' *,H_m,い' · H_m ここで、 D、 H、 Gはそれぞれ、指向ゲイン行列、伝達関数行列、フィルタ関数行列を示す。

[0037] (5)式のフィルタ関数行列 Gは、（6)式より求める。

[数 6] h

d (6)

h ここで gmハット（（6)式では gmの上部に'の記号）はフィルタ関数行列 Gの位置 mに対応する成分 (列ベクトル)の近似、 h ^H、 [h ]+はそれぞれ、 hmのエルミート転置行列と擬

m m

似逆行列を示す。

[0038] (6)式の指向ゲイン行列 Dは、音源 Sの指向特性を推定するために（7)式で定義する。 Θ aは指向ゲイン行列 Dが示す指向特性のピーク方向を示す。

[数 7]

otherwise (7) 伝達関数行列 Hは、単位指向特性 A(6r)を (8)式で定義し求める。ここでで Δ Θは向き推定の分解能を表す (180/R度)。例えば 8方向の分解能 (R=8)で音源の向きを推定する場合は、 22.5度となる。 [数 8]

[0040] 単位指向特性 Α( Θ r)は、 (8)式の矩形波の他、特定の方向を中心にパワーが分布して、る関数 (例えば三角パルスなど)であれば良、。

[0041] フィルタ関数行列 Gは、伝達関数行列 Hと指向ゲイン行列 Dより導かれるため、音源の向きを推定するための単位指向特性や空間の伝達特性を含む。よってフィルタ関数 Gは、マイクロフォン毎に異なる音源との位置関係によって生じる位相差や音圧差、伝達特性などの差異と、音源の向きを関数としてモデルィ匕できる。

[0042] フィルタ関数行列 Gは、マイクロフォンアレイ 14の設置場所が変わったとき、または、作業空間内の物体の配置が変わったときなど、音響信号の計測条件が変化したときに再計算される。

[0043] なお、本実施形態では伝達関数 Hは（3)式に示すモデルを用いた力代替的に、作業空間内の全ての位置ベクトル P'に対するインパルス応答を計測し、これらのインパルス応答に応じて伝達関数が導出される形式でも良い。この場合でも、空間内の任意の位置 (x、 y)において方向 Θ毎にインパルス応答を計測するので、インパルスを出力したスピーカの指向特性が単位指向特性となる。

[0044] マルチビームフォーマー 21は、各ビームフォーマー 21— 1〜21—Mの出力 Y (

P'm ω )を、音源位置推定部 23、音源信号抽出部 25、および音源指向特性推定部 27へ送信する。

[0045] 音源位置推定き β

音源位置推定部 23は、マルチビームフォーマー 21の出力 Y ( co ) (m= l、 · · ·、 M)に基づいて、音源 12の位置ベクトル P' s = (xs, ys, Θ s)を推定する。音源位置推定部 23は、マルチビームフォーマー 21内の各ビームフォーマー 21— 1〜21—Mで算出された出力 Υ ( ω )のうち最大値をとるビームフォーマーを選択する。そして、選択したビームフォーマーが対応する音源 12の位置ベクトル P， mを、音源 12の位置べタトル P，s = (xs, ys, Θ s)として推定する。 [0046] 代替的に、音源位置推定部 23は、雑音の影響を減らすために下記のステップ 1〜

8により音源位置を推定してもよい。

[0047] 1.各マイクロフォンで検出された背景雑音のパワースペクトル Ν(ω)を求め、各マイクロフオンで検出された信号 X (ω)のうち、所定のしきい値 (例えば 20[dB])より大きいサブバンドを選択し、 ωΐ, ···, ωΐ, ···, coLとする。

[0048] 2.各サブバンドの信頼度 SCR(col)を（9)式および（10)式で定義する。

[数 9]

[0049] 3. Pm，におけるビームフォーマーの出力 Υ (ωΐ)を（1)式より求める。ここでは、

P，m

すべての P， m (m = 1 , · · · ,Μ)に対して Υ ( ω 1)が計算される。

P，m

[0050] 4.方向別スペクトル強度 I(P'm)を（11)式で求める。

[数 10]

[0051] 5.位置 P(xp, yq)における方向成分加算スペクトル強度 I(xp, yq)を（12)式で求める

[数 11]

[0052] 6.音源の位置ベクトル Ps=(xs, ys)は、（13)式より求められる。

[数 12] x_s,y_s) = argmaxl(x_p,y_q) ( 1 3)

[0053] 7.音源 Sの指向特性 DP( Θ r)を、（14)式より求める。

[数 13] = { ( )卜 1,.·.,4 ( 1 4 )

[0054] 8.音源の向き Θ sは（15)式より求められる。

[数 14]

O_s = argmax DP(0_r ) ( 1 5 )

[0055] 音源位置推定部 23は、導出した音源 12の位置および方向を、音源信号抽出部 25

、音源指向特性推定部 27、および音源追跡部 33へ送信する。

[0056] 音源信号抽出部

音源信号抽出部 25は、位置ベクトル P' sにある音源カゝら発せられた音源信号 Y (

P， ω )を抽出する。

[0057] 音源信号抽出部 25は、音源位置推定部 23で導出された音源 12の位置ベクトル Ρ s，に基づいて、マルチビームフォーマー 21のうち P' sに対応するビームフォーマーの出力を求め、この出力を音源信号 Υ ( ω )として抽出する。

P' s

[0058] また、音源位置推定部 23で推定された音源 12の位置ベクトル P = (xs, ys)を固定し、位置ベクトル（xs, ys, Θ ；)〜（xs, ys, Θ )に対応するビームフォーマーの出力を求め

1 R

、これらを合計して音源信号 Υ ( ω )

P s として抽出しても良い。

[0059] 咅源指向特件推定き β

音源指向特性推定部 27は、音源信号の指向特性 DP( Θ ) (r= 1,…， R)を推定する。音源指向特性推定部 27は、音源位置推定部 23で導出された音源 12の位置べタトル P' s=(xs, ys, Θ s)のうち位置座標 (xs, ys)を固定して、方向 Θを Θ 力も 0 まで

1 R 変化させたときのビームフォーマー出力 Υ

P， ( ω )

m を求める。音源指向特性推定部 27 は、位置ベクトル（xs， ys， Θ )〜（xs，ys， θ )に対応するビームフォーマーの出力を

1 R

求め、これらの出力の組を音源信号の指向特性 DP( Θ )とする。ここで、 Rは方向 0の分解能を決めるパラメータである。

[0060] 図 4は、 Θ s = 0のときの指向特性 DP( Θ r)の一例を示す図である。図 4に示すように、一般に、指向特性は、音源の方向 Θ sにおいて最大の値をとり、 Θ sから離れるにつれて小さい値をとるようになり、 Θ sの反対方向（図 4では ± 180度）において最小となる。

[0061] なお、音源位置推定部 23において、代替的に（9)〜（15)式を用いて音源位置を推定した場合には、（14)式の計算結果を利用して指向特性 DP( Θ r)を求めても良い

[0062] 音源指向特性推定部 27は、音源信号の指向特性 DP( Θ r)を音源種類推定部 29〖こ送信する。

[0063] 音源籠椎き β

音源種類推定部 29は、音源指向特性推定部 27で得られた指向特性 DP( Θ r)に基づいて、音源 12の種類を推定する。指向特性 DP( Θ r)は、一般に図 4に示すような形状をとるが、人間の発声や機械の音声などの音源の種類に依存してピーク値などの特徴が異なるので、音源の種類に応じてグラフの形状に相違が生じる。さまざまな音源の種類に対応した指向特性のデータが指向特性データベース 31に記録されている。音源種類推定部 29は、指向特性データベース 31を参照して、音源 12の指向特性 DP( Θ r)に最も近いデータを選択して、選択されたデータの種類を、音源 12の種類として推定する。

[0064] 音源種類推定部 29は、推定した音源 12の種類を音源追跡部 33に送信する。

[0065] 咅源自跡き β

音源追跡部 33は、音源 12が作業空間内を移動している場合に、音源 12を追跡する。音源追跡部 33は、音源位置推定部 23で推定された音源 12の位置ベクトル Ps，を、 1ステップ前に推定された音源 12の位置ベクトルと比較する。両ベクトルの差が所定範囲内にあり、かつ音源種類推定部 29で推定された音源 12の種類が同一であるとき、これらの位置ベクトルをグループィ匕して記憶することにより、音源 12の軌道が得られ、音源 12の追跡が可能となる。

[0066] 以上、図 2を参照して、音源特性推定装置 10の各機能ブロックについて説明した。

[0067] 本実施形態では、単一の音源 12について、音源 12の特性を推定する手法について説明した。これに対し、複数の音源のある場合には、音源位置推定部 23で推定された音源を第 1の音源として、その信号を元の信号から除いた残差信号を求め、再度、音源位置推定を行う処理を行い、複数音源の位置を推定することも可能である。 [0068] この処理は、所定の回数、あるいは音源の数だけ繰り返す。

[0069] 具体的には、まずマイクロフォンアレイ 14の各マイクロフォン 14-1〜14-Nで検出される第 1の音源に由来した音響信号 Xsn( ω )を（ 16)式で推定する。

[数 15]

R

^X _Sn ( = Σ ^H(xs_Mn■ ^Y s,ys,a-) (^) ( 1 6) ここで、 H は、位置 (xs,ys, 01)、 ···、 (xs,ys, Θ R)から n番目のマイクロフォン

(xs、ys、 θ ) n

14— ηへの伝達特性を表す伝達関数である。 Υ (_ω)は、第 1音源の位置 (xs,

(xs、 ys、 Θ r)

ys)に対応したビームフォーマー出力 Y (ω)、 ···、Υ (ω)である。

(xs、 ys、 θ 1) (xs、 ys、 Θ R)

[0070] 次に、マイクロフォンアレイの各マイクロフォン 14-1〜14-Nで検出された音響信号 X η,ρ'(ω )から減算して、残差信号 X ' η( ω )が（ 17)式より求められる。この残差信号 X ' η( ω )を (1)式の Χη,ρ' ( ω )の代わりに代入して、残差信号に対するビームフォーマーの出力 Υ' (ω)が（18)式より求められる。

P，m

[数 16]

p_M(w)=∑G„,_p,„» '„ ( （1 8)

[0071] 求められた Υ，（ω)のうち、最大値をとるビームフォーマーの位置ベクトル P，mを、

P，m

第 2の音源の位置として推定する。

[0072] (16)式の ωを音源位置推定部 23のステップ 1で求められた ω 1として（16)式を計算して音響信号 χ_δη(_ω1)を求め、算出した χ_δη(_ω1)を用いて（17)式を計算して残差信号 X ' η( ω 1)を求め、算出した X ' η( ω 1)を用いて（ 18)式を計算してビームフォーマ一の出力 Υ，（ωΐ)とし、音源位置推定部 23のステップ 3の Υ，（ωΐ)の代わりに代入

P'm P'm して音源位置推定を行っても良、。

[0073] 本実施例では音響信号力スペクトルを求め処理を行った力そのスペクトルの時間フレームに対応する時間波形信号を使っても良い。

[0074] 本発明を利用すると、例えば、室内を案内するサービスロボットが、テレビや他の口ボットと人を識別し、人の音源位置や向きを推定し、人に正対するよう正面から移動することができる。

[0075] また、人の位置と向きが分力つているので、人視点で案内することもできる。

[0076] 次に、本発明による音源特性推定装置 10を用いた音源位置推定実験、音源種類推定実験、および音源追跡実験について説明する。

[0077] これらの実験は、図 5に示す環境で行われた。作業空間は X方向 7メートル、 y方向 4メートルの広さである。作業空間内にはテーブルおよび流し台があり、壁面およびテーブル上に 64チャンネルのマイクロフォンアレイが設置されて!、る。位置ベクトルの分解能は 0.25メートルである。作業空間内の座標 Pl(2.59, 2.00)、 P2(2.05, 3.10) 、 P3(5.92, 2.25)に音源が配置される。

[0078] 音源位置推定実験は、作業空間内の座標 P1および P2にて、スピーカの録音音声および人間の音声を音源として、音源位置推定を行った。本実験では、伝達関数 H に（3)式を用い、 150回の試行の平均を求めた。音源位置 (xs, ys)の推定誤差は、スピーカの録音音声の場合、 P1において 0.15 (m)、 P2において 0.40 (m)であり、人間の音声の場合、 P1において 0.04 (m)、 P2において 0.36 (m)であった。

[0079] 音源種類推定実験は、作業空間内の座標 P1にて、スピーカの録音音声および人間の音声を音源として、音源の指向特性 DP( Θ r)の推定を行った。本実験では、伝達関数 Hとして、インパルス応答によって導出された関数が用いられ、音源の方向 Θ s は 180度と設定された。指向特性 DP( Θ r)は（14)式を用いて導出された。

[0080] 図 6は、推定された指向特性 DP( Θ r)を示す図である。図 6 (a)、 (b)共に、グラフの横軸は方向 Θ rを表し、グラフの縦軸はスペクトル強度 I(xs, ys, Θ r)/l(xs, ys)を表す。また、グラフの細線は、指向特性データベースに記憶されている録音音声の指向特性を示し、グラフの点線は、指向特性データベースに記憶されている人間の音声の指向特性を示す。図 6 (a)の太線は、音源力 Sスピーカの録音音声の場合に推定された音源の指向特性を示し、図 6 (b)の太線は、音源が人間の音声の場合に推定された音源の指向特性を示す。

[0081] 図 6に示すように、本発明による音源特性推定装置 10は、音源の種類に応じて、異なる指向特性を推定できて、る。

[0082] 音源追跡実験は、音源を P1→P2→P3と移動させたときに、音源位置の追跡を行つた。本実験では、音源はスピーカから出力されるホワイトノイズであり、伝達関数 H に（3)式を用い、 20ミリ秒ごとに音源の位置ベクトル P'を推定した。推定された音源の位置ベクトル P'は、超音波 3次元タグシステムによって計測された音源の位置および方向と比較され、各時刻の推定誤差を求め平均した。

[0083] 超音波タグシステムは、タグの超音波出力時刻とレシーバへの入力時刻との差分を検出し、差分情報を三角測量と同様の手法で三次元情報に変換することにより、室内の GPS機能を実現するものであり、数センチの誤差で定位をすることが可能である

[0084] 実験の結果、追跡誤差は、音源の位置 (xs,ys)については 0.24 (m)であり、音源の向き Θについては 9.8度であった。

[0085] 以上にこの発明を特定の実施例によって説明した力この発明はこのような実施例に限定されるものではない。

Claims

請求の範囲

[1] 空間内の任意の位置の音源より発せられた音源信号が複数のマイクロフォンに入力されるとき、前記マイクロフォン間に生じる前記音源信号の差異を補正する関数を用いて、前記マイクロフォンのそれぞれで検出された音響信号を重み付けして、前記複数のマイクロフォンについて合計した信号を出力するビームフォーマーを複数備え前記ビームフォーマーのそれぞれは、前記空間内の任意の 1方向に対応する単位指向特性をもつ前記関数を含んでおり、前記空間の任意の位置、および前記単位指向特性に対応する方向ごとに用意されており、

前記マイクロフォンが前記音源信号を検出するとき、前記複数のビームフォーマーのうち最大値を出力するビームフォーマーに対応する前記空間内の位置および方向を、前記音源の位置および方向として推定する手段を有する、

音源特性推定装置。

[2] 空間内の任意の位置の音源より発せられた音源信号が複数のマイクロフォンに入力されるとき、前記マイクロフォン間に生じる前記音源信号の差異を補正する関数を用いて、前記マイクロフォンのそれぞれで検出された音響信号を重み付けして、前記複数のマイクロフォンについて合計した信号を出力するビームフォーマーを複数備え前記ビームフォーマーのそれぞれは、前記空間内の任意の 1方向に対応する単位指向特性をもつ前記関数を含んでおり、前記空間の任意の位置、および前記単位指向特性に対応する方向ごとに用意されており、

前記マイクロフォンが前記音源信号を検出するとき、前記複数のビームフォーマーの出力を求め、前記空間の任意の位置に対応し前記単位指向特性の異なる複数のビームフォーマーの出力の合計値を求め、最大の合計値をとる位置を選択し、該選択された位置において最大値を出力するビームフォーマーに対応する方向を選択し、該選択された位置および方向を前記音源の位置および方向として推定する手段を有する、

音源特性推定装置。

[3] 前記推定された前記音源の位置に対応し前記単位指向特性の異なる複数のビームフォーマーの出力を求め、該出力の組を前記音源の指向特性として推定する手段をさらに有する、

請求項 1または請求項 2に記載の音源特性推定装置。

[4] 前記推定された指向特性を音源の種類に応じた複数の指向特性のデータを含むデータベースと参照することにより、最も近い指向特性を示すデータの種類を前記音源の種類として推定する手段をさらに有する、

請求項 3に記載の音源特性推定装置。

[5] 前記推定された前記音源の位置および方向、ならびに前記推定された前記音源の種類を、 1ステップ前の時間ステップにおいて推定された前記音源の位置、向き、および種類と比較して、前記位置および前記方向の偏差が所定の範囲内であり、かつ前記種類が同一であるときに、同一の音源としてグループィ匕する、音源追跡手段をさらに有する、請求項 4に記載の音源特性推定装置。

[6] 前記推定された前記音源の位置に対応し前記単位指向特性の異なる複数のビームフォーマーの出力を求め、該出力の合計値を前記音源信号として抽出する手段をさらに有する、請求項 1または請求項 2に記載の音源特性推定装置。

[7] 前記空間内の任意の位置にある複数の音源より発せられた音響信号が前記複数のマイクロフォンに入力されるとき、

前記マイクロフォンが前記音源信号を検出するとき、前記複数のビームフォーマーの出力を求め、前記空間内の各位置ごとに前記単位指向特性の異なる複数のビームフォーマーに対応する方向について該出力を合計し、合計した出力のうち最大値を有する位置を選択し、該選択した位置にお!、て最大値を出力するビームフォーマ一に対応する方向を選択し、該選択した位置および方向を第 1の音源の位置および方向として推定し、

前記推定された前記第 1の音源の位置に対応する前記単位指向特性の異なる複数のビームフォーマーの出力を求め、該出力の組を前記音源信号として抽出し、前記抽出された前記第 1の音源の位置より発せられた音源信号が複数のマイクロフオンに入力されるとき、前記抽出された音源信号から、前記マイクロフォン間に生じる音源信号の差異を表す関数を用いて前記複数のマイクロフォンに与える音響信号を単位指向性の異なる複数のビームフォーマーに対応する方向ごとに計算し、その複数の音響信号を前記複数のマイクロフォンのそれぞれで検出された音響信号より減し、

前記減算された音響信号に対して前記複数のビームフォーマーの出力を求め、前記空間内の各位置ごとに前記単位指向特性の異なる複数のビームフォーマーに対応する方向について、該出力を合計し、合計した出力のうち最大値を有する位置を選択し、該選択した位置にぉ、て最大値を出力するビームフォーマーに対応する方向を選択し、該選択した位置および方向を第 2の音源の位置および方向として推定し、

前記推定された前記第 2の音源の位置に対応する前記単位指向特性の異なる複数のビームフォーマーの出力を求め、該出力の組を前記第 2の音源信号として抽出する手段を更に有する、

請求項 1または請求項 2に記載の音源特性推定装置。