WO2007013525A1 - 音源特性推定装置 - Google Patents
音源特性推定装置 Download PDFInfo
- Publication number
- WO2007013525A1 WO2007013525A1 PCT/JP2006/314790 JP2006314790W WO2007013525A1 WO 2007013525 A1 WO2007013525 A1 WO 2007013525A1 JP 2006314790 W JP2006314790 W JP 2006314790W WO 2007013525 A1 WO2007013525 A1 WO 2007013525A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- sound source
- outputs
- microphones
- space
- signal
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 description 34
- 239000013598 vector Substances 0.000 description 27
- 239000011159 matrix material Substances 0.000 description 15
- 238000012546 transfer Methods 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000000034 method Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 230000005855 radiation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Definitions
- the present invention relates to an apparatus for estimating the characteristics of a sound source such as the position of the sound source and the direction in which the sound source is directed.
- An object of the present invention is to provide a technique capable of accurately estimating the characteristics of an arbitrary sound source.
- the sound source characteristic estimation device corrects a difference in sound source signals generated between microphones when a sound source signal emitted from a sound source at an arbitrary position in space is input to a plurality of microphones.
- a plurality of beam formers that output the summed signal for a plurality of microphones by weighting the sound signal detected by each of the microphones by using the function is provided.
- Each beamformer contains a function of unit directivity corresponding to any one direction in the space, and any position in the space and unit finger. It is prepared for each direction corresponding to the direction characteristic.
- the sound source characteristic estimation device is a means for estimating the position and direction in the space corresponding to the beam former that outputs the maximum value among a plurality of beam formers as the position and direction of the sound source.
- the position of a sound source having directivity such as a person can be estimated with high accuracy.
- the direction of the sound source is estimated using the unit directivity, the sound signal of any sound source can be estimated with high accuracy.
- the sound source characteristic estimation apparatus obtains outputs of a plurality of beam formers having different unit directivity characteristics corresponding to the estimated sound source positions, and uses the set of outputs as a sound source.
- a means for estimating the directivity is further included. This makes it possible to know the directivity characteristics of any sound source.
- the sound source characteristic estimation device refers to the estimated directivity characteristic with a database including data of a plurality of directivity characteristics according to the type of the sound source, thereby obtaining the closest directivity characteristic. There is further provided means for estimating the type of data shown as the type of sound source. Thereby, the kind of sound source can be distinguished.
- the sound source characteristic estimation device is configured to estimate the estimated position and direction of the sound source and the estimated sound source type in the time step one step before.
- the sound source tracking means further includes grouping as the same sound source when the position and orientation deviation is within a predetermined range and the type is the same.
- the sound source characteristic estimation apparatus obtains outputs of a plurality of beam formers having different unit directivity characteristics corresponding to the estimated sound source positions, and calculates a total value of the outputs as a sound source. It further has means for extracting as a signal. As a result, it is possible to accurately extract an acoustic signal of an arbitrary sound source, particularly a directional sound source.
- the sound source characteristic estimation device corrects a difference in sound source signals generated between microphones when a sound source signal emitted from a sound source at an arbitrary position in space is input to a plurality of microphones. Sound detected by each of the microphones using the function There are multiple beam formers that weight the reverberation signal and output the total signal for multiple microphones.
- Each beamformer includes a function of unit directivity corresponding to one arbitrary direction in the space, and is prepared for each position corresponding to an arbitrary position in the space and the unit directivity.
- the sound source characteristic estimation device obtains outputs of a plurality of beam formers, and obtains a total value of outputs of the plurality of beam formers corresponding to arbitrary positions in space and having different unit directivity characteristics. Therefore, the position that takes the maximum total value is selected, the direction corresponding to the beamformer that outputs the maximum value at the selected position is selected, and the selected position and direction are estimated as the position and direction of the sound source. Means to do.
- the sound source characteristic estimation device extracts a plurality of sound source signals when sound source signals emitted from a plurality of sound sources at arbitrary positions in space are input to the plurality of microphones. It further has means.
- the extraction means obtains outputs of a plurality of beam formers, and sums the outputs for directions corresponding to the plurality of beam formers having different unit directivity characteristics for each position in the space.
- the position having the maximum value is selected from the total outputs, the direction corresponding to the beam former that outputs the maximum value is selected at the selected position, and the selected position and direction are set to those of the first sound source. Estimate as position and direction.
- the outputs of a plurality of beam formers having different unit directivity characteristics corresponding to the estimated position of the first sound source are obtained, and the set of outputs is extracted as a sound source signal.
- a sound source signal emitted from the extracted position of the first sound source is input to a plurality of microphones, a plurality of functions are used to express the difference between the sound source signals generated between the microphone ports from the extracted sound source signals.
- the sound signal applied to the microphone is calculated for each direction corresponding to a plurality of beam formers having different unit directivities, and the plurality of sound signals are subtracted from the sound signals detected by the plurality of microphones. .
- the outputs of multiple beamformers are obtained for the subtracted acoustic signal, and the outputs are summed for the directions corresponding to multiple beamformers with different unit directivity at each position in space.
- the position having the maximum value is selected from among the outputs, and the direction corresponding to the beam former that outputs the maximum value is selected at the selected position, and the position and direction of the second sound source are selected based on the selected position and direction. And estimated as direction To do.
- the outputs of a plurality of beam formers having different unit directivity characteristics corresponding to the estimated position of the second sound source are obtained, and the set of outputs is extracted as a second sound source signal.
- FIG. 1 is a schematic diagram showing a system including a sound source characteristic estimation device.
- FIG. 2 is a block diagram of a sound source characteristic estimation apparatus.
- FIG. 3 is a configuration diagram of a multi-beam former.
- FIG. 5 is a diagram showing an experimental environment.
- FIG. 6 is a diagram showing the directivity characteristic DP ( ⁇ r) estimated in the sound source type estimation experiment.
- FIG. 1 is a schematic diagram showing a system including a sound source characteristic estimation apparatus 10 according to an embodiment of the present invention.
- the basic components of this system are at an arbitrary position P (x, y) in the work space 16 and a sound source 12 that emits an acoustic signal in an arbitrary direction ⁇ , and an arbitrary position in the work space 16.
- a plurality of microphones 14-1 to 14-with N force provided at a place to detect acoustic signals, and a sound source characteristic estimation device 10 that estimates the position and direction of the sound source 12 based on the detection result of the microphone array 14 10 It is.
- the sound source 12 is a communication device such as a speaker provided on a human or a robot. As a means, Yong is uttered.
- the sound signal emitted from the sound source 12 (hereinafter referred to as “sound source signal”) has the property that the sound wave intensity is maximum in the signal transmission direction ⁇ and the sound wave intensity varies depending on the direction, that is, directivity. Have.
- the microphone array 14 includes n microphones 14-1 to 14-N. These microphones 14-1 to 14 -N are installed at arbitrary locations in the work space 16 (however, the position coordinates of the installation locations are known). For example, if the work space 16 is indoors, the microphones 14-1 to 14-N can be appropriately selected from room walls, indoor objects, ceilings, floors, and the like. From the viewpoint of estimating the directional characteristics, it is desirable that the microphones 14-1 to 14-N be arranged so as to surround the sound source 12 without concentrating in only one arbitrary direction from the sound source 12. .
- the sound source characteristic estimation apparatus 10 is connected to each microphone 14-1 to 14-N of the microphone array 14 by wire or wirelessly (connection is omitted in FIG. 1).
- the sound source characteristic estimation device 10 estimates various characteristics of the sound source 12 such as the position P and the direction ⁇ of the sound source 12 based on the acoustic signal detected by the microphone array 14.
- the sound source characteristic estimation device 10 is realized by executing software including the features of the present invention on a computer or workstation equipped with an input / output device, a CPU, a memory, an external storage device, etc. as an example. Part of it can also be realized by nodeware.
- Figure 2 Based on this, the configuration is expressed in functional blocks.
- FIG. 2 is a block diagram of the sound source characteristic estimation apparatus 10 according to the present embodiment. Hereinafter, each block of the sound source characteristic estimation apparatus 10 will be described individually.
- the chi-beam former 21 includes M beam formers 21-1 to 21-M.
- m is a position index
- the total number M of position indices m is P X Q X R.
- Acoustic signals X ( ⁇ ) to ⁇ ( ⁇ ) detected by the microphones 14-1 to 14-N of the microphone array 14 are input to the beam formers 21—1 to 21—M, respectively.
- the filter functions G to G are the positions where the sound source 12 is a unique position vector P ′ l, P, m N, P, m in the work space 16.
- the sound source signal X ( ⁇ ) is extracted from the acoustic signals X ( ⁇ ) to ⁇ ( ⁇ ) detected by the microphone array 14. Is set.
- the output ⁇ ( ⁇ ) of the beamformer corresponding to the position vector P'm is the filter function G
- X ( ⁇ ) in equation (1) is obtained when the sound source 12 emits the sound source signal X ( ⁇ ) with the position vector P ′.
- Microphone 14 This is an acoustic signal detected by 1 to 14 mm and is expressed by equation (2).
- the transfer function ⁇ ( ⁇ ) is added to the model of how sound is transmitted from the sound source 12 at the position P ′ to each microphone 14-1 to 14- ⁇ , and the equation (3) Is defined as
- Equation (3) assumes that the sound source 12 is a point sound source in free space and models how the sound is transmitted from the sound source 12 to the microphone.
- the unit directivity ⁇ ( ⁇ ) is expressed in this model. Added. The way of sound transmission includes differences in sound source signals between microphones due to differences in microphone positions, such as phase differences and sound pressure differences.
- the unit directivity characteristic ⁇ ( ⁇ ) is a function set in advance to give the beamformer directivity. Details of the unit directivity ⁇ ( ⁇ ) will be described later with reference to equation (8).
- the directivity gain D is defined by equation (4).
- Equation (4) can be defined as a matrix operation of equation (5).
- the directivity gain matrix D of Equation (6) is defined by Equation (7) in order to estimate the directivity characteristics of the sound source S.
- ⁇ a indicates the peak direction of the directivity indicated by the directivity gain matrix D.
- Equation 7 otherwise (7)
- the transfer function matrix H is obtained by defining the unit directivity A (6r) using Eq. (8).
- Equation 8
- the unit directivity ⁇ ( ⁇ r) may be any function (for example, a triangular pulse) in which power is distributed around a specific direction in addition to the rectangular wave of equation (8).
- the filter function matrix G is derived from the transfer function matrix H and the directivity gain matrix D, the filter function matrix G includes unit directivity characteristics and spatial transfer characteristics for estimating the direction of the sound source. Therefore, the filter function G can be modeled as a function of differences in phase difference, sound pressure difference, transfer characteristics, etc. caused by the positional relationship with different sound sources for each microphone, and the direction of the sound source.
- the filter function matrix G is recalculated when the acoustic signal measurement conditions change, such as when the installation location of the microphone array 14 changes or when the arrangement of objects in the workspace changes. .
- the transfer function H is a force using the model shown in Equation (3). Instead, the impulse responses for all position vectors P ′ in the work space are measured, and these impulse responses are measured.
- the transfer function may be derived according to the above. Even in this case, the impulse response is measured for each direction ⁇ at any position (x, y) in the space, so the directivity of the speaker that outputs the impulse becomes the unit directivity.
- the multi-beamformer 21 is an output Y (
- the sound source position may be estimated by 8.
- the sound source position estimation unit 23 uses the derived position and direction of the sound source 12 to determine the sound source signal extraction unit 25.
- the sound source directivity characteristic estimation unit 27 and the sound source tracking unit 33 are transmitted.
- the sound source signal extraction unit 25 generates a sound source signal Y (
- the sound source signal extraction unit 25 outputs the beamformer output corresponding to P ′ s among the multibeamformers 21 based on the position vector ⁇ s of the sound source 12 derived by the sound source position estimation unit 23. This output is extracted as a sound source signal ⁇ ( ⁇ ).
- the position vector P (xs, ys) of the sound source 12 estimated by the sound source position estimation unit 23 is fixed and corresponds to the position vectors (xs, ys, ⁇ ;) to (xs, ys, ⁇ )
- the sound source directivity estimation unit 27 outputs the output of the beam former corresponding to the position vectors (xs, ys, ⁇ ) to (xs, ys, ⁇ ).
- the set of these outputs is defined as the directivity characteristic DP ( ⁇ ) of the sound source signal.
- R is a parameter that determines the resolution in direction 0.
- the sound source position estimation unit 23 alternatively estimates the sound source position using equations (9) to (15), the directivity characteristics DP ( ⁇ r) may be obtained
- the sound source directivity estimating unit 27 transmits the directivity DP ( ⁇ r) of the sound source signal 29 times.
- the sound source type estimation unit 29 estimates the type of the sound source 12 based on the directivity characteristic DP ( ⁇ r) obtained by the sound source directivity characteristic estimation unit 27.
- the directivity characteristic DP ( ⁇ r) generally takes the form shown in Fig. 4, but the characteristics such as peak value differ depending on the type of sound source such as human speech or machine speech. Depending on the difference in the shape of the graph.
- Directivity data corresponding to various sound source types is recorded in the directivity database 31.
- the sound source type estimation unit 29 refers to the directivity characteristic database 31 and selects data closest to the directivity characteristic DP ( ⁇ r) of the sound source 12 and estimates the selected data type as the type of the sound source 12. To do.
- the sound source type estimation unit 29 transmits the estimated type of the sound source 12 to the sound source tracking unit 33.
- the sound source tracking unit 33 tracks the sound source 12 when the sound source 12 is moving in the work space.
- the sound source tracking unit 33 compares the position vector Ps of the sound source 12 estimated by the sound source position estimating unit 23 with the position vector of the sound source 12 estimated one step before.
- the position vectors of the sound source 12 are stored by grouping and storing these position vectors. The trajectory is obtained and the sound source 12 can be tracked.
- the method for estimating the characteristics of the sound source 12 for the single sound source 12 has been described.
- the sound source estimated by the sound source position estimation unit 23 is used as the first sound source, and a residual signal obtained by removing the signal from the original signal is obtained. It is also possible to estimate the position of a plurality of sound sources by performing an estimation process. [0068] This process is repeated a predetermined number of times or the number of sound sources.
- an acoustic signal Xsn ( ⁇ ) derived from the first sound source detected by each of the microphones 14-1 to 14-N of the microphone array 14 is estimated by the equation (16).
- Transfer function representing the transfer characteristic to ⁇ .
- ⁇ ( ⁇ ) is the position of the first sound source (xs,
- the beamformer output ⁇ ⁇ ⁇ ⁇ ' ( ⁇ ) for the residual signal is Desired.
- Eq. (16) is calculated to obtain the acoustic signal ⁇ ⁇ ( ⁇ 1), and the calculated ⁇ ⁇ ( omega 1) 'seeking eta (omega 1), calculated X' in (17) the calculated residual signal X with using eta an (omega 1) (18) beam former one by calculating the equation Output ⁇ ⁇ , ( ⁇ ) and substitute for ⁇ , ( ⁇ ) in step 3 of the sound source position estimation unit 23
- P'm P'm can be used to estimate the sound source position.
- the force obtained by obtaining the acoustic signal force spectrum and performing the processing may use a time waveform signal corresponding to the time frame of the spectrum.
- a service robot that guides a room distinguishes a person from a TV or other mouth bot, estimates the position and direction of a person's sound source, and moves from the front to face the person. can do.
- the work space is 7 meters in the X direction and 4 meters in the y direction.
- the resolution of the position vector is 0.25 meters. Sound sources are arranged at coordinates Pl (2.59, 2.00), P2 (2.05, 3.10), and P3 (5.92, 2.25) in the workspace.
- the directivity characteristic DP ( ⁇ r) of the sound source was estimated using the recorded sound of the speaker and the human sound as the sound source at the coordinate P1 in the work space.
- the function derived by the impulse response was used as the transfer function H, and the sound source direction ⁇ s was set to 180 degrees.
- the directivity DP ( ⁇ r) was derived using Eq. (14).
- FIG. 6 is a diagram showing the estimated directivity characteristic DP ( ⁇ r).
- the horizontal axis of the graph represents the direction ⁇ r
- the vertical axis of the graph represents the spectral intensity I (xs, ys, ⁇ r) / l (xs, ys).
- the thin line in the graph indicates the directional characteristic of the recorded voice stored in the directional characteristic database
- the dotted line in the graph indicates the directional characteristic of the human voice stored in the directional characteristic database.
- the thick line in Fig. 6 (a) shows the directional characteristics of the sound source estimated in the case of recorded sound from a sound source S speaker.
- the thick line in Fig. 6 (b) shows the sound source estimated when the sound source is human speech. The directivity characteristics are shown.
- the sound source characteristic estimation apparatus 10 can estimate different directivity characteristics depending on the type of sound source.
- the sound source position is tracked when the sound source is moved from P1 to P2 to P3. I got it.
- the sound source was white noise output from the speaker, and the position vector P ′ of the sound source was estimated every 20 milliseconds using Equation (3) as the transfer function H.
- the estimated position vector P 'of the sound source was compared with the position and direction of the sound source measured by the ultrasonic 3D tag system, and the estimation error at each time was obtained and averaged.
- the ultrasonic tag system detects the difference between the ultrasonic output time of the tag and the input time to the receiver, and converts the difference information into three-dimensional information in the same manner as triangulation, thereby It realizes the GPS function and can be localized with an error of several centimeters.
- the tracking error was 0.24 (m) for the sound source position (xs, ys) and 9.8 degrees for the sound source direction ⁇ .
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本発明は、音源の種類が未知の環境で適用可能な音源特性推定装置(10)を提供する。この装置は、空間内の任意の位置の音源より発せられた音源信号が複数のマイクロフォン(14-1~14-N)に入力されるとき、マイクロフォン間に生じる音源信号の差異を補正する関数を用いて、各マイクロフォンで検出された音響信号を重み付けして合計した信号を出力するビームフォーマー(21-1~21-M)を複数備える。ビームフォーマーの各々(21-1~21-M)は、空間内の任意の1方向に対応する単位指向特性をもつ関数を含んでおり、空間の任意の位置、及び単位指向特性に対応する方向毎に用意されている。音源特性推定装置(10)は、さらに、マイクロフォン(14)が音源信号を検出するとき、最大値を出力するビームフォーマーに対応する空間内の位置及び方向を、音源の位置及び方向として推定する手段(23)を有する。
Description
明 細 書
音源特性推定装置
技術分野
[0001] 本発明は、音源のある位置や音源の向いている方向など、音源の特性を推定する 装置に関する。
背景技術
[0002] マイクロフォンアレイを用いたビーム'フォーミングによって音源方向や位置を推定 する手法が、長年に渡って研究されている。近年では、音源のある方向や位置の推 定に加えて、音源の指向特性や開口部の大きさを推定する技術が提案されている( ί列 ば、 Ρ.し. Meuse ana H. F. Silverman, characterization of talker radiation patte rn using a microphone array, ICASSP- 94, Vol. 11, pp. 257- 260を参照)。
発明の開示
発明が解決しょうとする課題
[0003] し力しながら、 Meuseらの手法では、音源力も発せられる音響信号は、ある大きさを 持った口(開口部)から放射されることを前提にしている。また、音響信号の放射バタ ーンは、人間の音声と同じような放射パターンであることを前提としている。すなわち 、音源の種類が人間の音声に限定されている。したがって、 Meuseらの手法は、音源 の種類が未知である実環境にぉ 、て適用が難 、。
[0004] 本発明の目的は、任意の音源の特性を精度良く推定できる手法を提供することで ある。
課題を解決するための手段
[0005] 本発明の提供する音源特性推定装置は、空間内の任意の位置の音源より発せら れた音源信号が複数のマイクロフォンに入力されるとき、マイクロフォン間に生じる音 源信号の差異を補正する関数を用いて、マイクロフォンのそれぞれで検出された音 響信号を重み付けして、複数のマイクロフォンにつ 、て合計した信号を出力するビー ムフォーマーを複数備える。ビームフォーマーのそれぞれは、空間内の任意の 1方向 に対応する単位指向特性の関数を含んでおり、空間の任意の位置、および単位指
向特性に対応する方向ごとに用意されている。音源特性推定装置は、マイクロフォン が音源信号を検出するとき、複数のビームフォーマーのうち最大値を出力するビーム フォーマーに対応する空間内の位置および方向を、音源の位置および方向として推 定する手段を有する。
[0006] この発明により、人など指向性をもつ音源の位置を精度良く推定できる。また、単位 指向特性を利用して音源の方向を推定するので、任意の音源の音響信号を精度良 く推定できる。
[0007] 本発明の一実施形態によると、音源特性推定装置は、推定された音源の位置に対 応し単位指向特性の異なる複数のビームフォーマーの出力を求め、この出力の組を 音源の指向特性として推定する手段をさらに有する。これにより、任意の音源の指向 特性を知ることができる。
[0008] 本発明の一実施形態によると、音源特性推定装置は、推定された指向特性を音源 の種類に応じた複数の指向特性のデータを含むデータベースと参照することにより、 最も近い指向特性を示すデータの種類を音源の種類として推定する手段をさらに有 する。これにより、音源の種類を区別することができる。
[0009] 本発明の一実施形態によると、音源特性推定装置は、推定された音源の位置およ び方向、ならびに推定された音源の種類を、 1ステップ前の時間ステップにおいて推 定された音源の位置、向き、および種類と比較して、位置および向きの偏差が所定 の範囲内であり、かつ種類が同一であるときに、同一の音源としてグループィ匕する、 音源追跡手段をさらに有する。これにより、音源の種類の同一性も考慮するので、空 間内に複数の音源がある場合でも音源の追跡が可能となる。
[0010] 本発明の一実施形態によると、音源特性推定装置は、推定された音源の位置に対 応し単位指向特性の異なる複数のビームフォーマーの出力を求め、この出力の合計 値を音源信号として抽出する手段をさらに有する。これにより、任意の音源、特に指 向性をもつ音源の音響信号を、精度良く抽出できる。
[0011] 本発明の提供する音源特性推定装置は、空間内の任意の位置の音源より発せら れた音源信号が複数のマイクロフォンに入力されるとき、マイクロフォン間に生じる音 源信号の差異を補正する関数を用いて、マイクロフォンのそれぞれで検出された音
響信号を重み付けして、複数のマイクロフォンにつ 、て合計した信号を出力するビー ムフォーマーを複数備える。ビームフォーマーのそれぞれは、空間内の任意の 1方向 に対応する単位指向特性の関数を含んでおり、空間の任意の位置、および単位指 向特性に対応する方向ごとに用意されている。音源特性推定装置は、マイクロフォン が音源信号を検出するとき、複数のビームフォーマーの出力を求め、空間の任意の 位置に対応し単位指向特性の異なる複数のビームフォーマーの出力の合計値を求 め、最大の合計値をとる位置を選択し、この選択された位置において最大値を出力 するビームフォーマーに対応する方向を選択し、この選択された位置および方向を 音源の位置および方向として推定する手段を有する。
本発明の一実施形態によると、音源特性推定装置は、空間内の任意の位置にある 複数の音源より発せられた音源信号が前記複数のマイクロフォンに入力されるとき、 複数の音源信号を抽出する手段をさらに有する。抽出手段は、マイクロフォンが音源 信号を検出するとき、複数のビームフォーマーの出力を求め、空間内の各位置ごとに 単位指向特性の異なる複数のビームフォーマーに対応する方向について該出力を 合計し、合計した出力のうち最大値を有する位置を選択し、該選択した位置におい て最大値を出力するビームフォーマーに対応する方向を選択し、該選択した位置お よび方向を第 1の音源の位置および方向として推定する。推定された第 1の音源の位 置に対応する単位指向特性の異なる複数のビームフォーマーの出力を求め、該出 力の組を音源信号として抽出する。抽出された前記第 1の音源の位置より発せられた 音源信号が複数のマイクロフォンに入力されるとき、抽出された音源信号から、マイク 口フォン間に生じる音源信号の差異を表す関数を用いて複数のマイクロフォンに与え る音響信号を単位指向性の異なる複数のビームフォーマーに対応する方向ごとに計 算し、その複数の音響信号を前記複数のマイクロフォンのそれぞれで検出された音 響信号より減算する。減算された音響信号に対して複数のビームフォーマーの出力 を求め、空間内の各位置ごとに単位指向特性の異なる複数のビームフォーマーに対 応する方向について、該出力を合計し、合計した出力のうち最大値を有する位置を 選択し、該選択した位置にぉ 、て最大値を出力するビームフォーマーに対応する方 向を選択し、該選択した位置および方向を第 2の音源の位置および方向として推定
する。推定された第 2の音源の位置に対応する単位指向特性の異なる複数のビーム フォーマーの出力を求め、該出力の組を第 2の音源信号として抽出する。
図面の簡単な説明
[0013] [図 1]音源特性推定装置を含むシステムを示す概略図である。
[図 2]音源特性推定装置のブロック図である。
[図 3]マルチビームフォーマーの構成図である。
[図 4] Θ s = 0のときの指向特性 DP( Θ r)の一例を示す図である。
[図 5]実験環境を示す図である。
[図 6]音源種類推定実験で推定された指向特性 DP( Θ r)を示す図である。
符号の説明
[0014] 10 音源特性推定装置
12 音源
14 マイクロフォンアレイ
21 マノレチビームフォーマー
23 音源位置推定部
25 音源信号抽出部
27 音源指向特性推定部
29 音源種類推定部
33 音源追跡部
発明を実施するための最良の形態
[0015] 次に図面を参照して、この発明の実施の形態を説明する。図 1は、本発明の一実施 形態による音源特性推定装置 10を含むシステムを示す概略図である。
[0016] このシステムの基本的な構成要素は、作業空間 16内の任意の位置 P (x、 y)にあり 、任意の方向 Θに音響信号を発する音源 12と、作業空間 16内の任意の場所に設け られ音響信号を検出する複数のマイクロフォン 14— 1〜 14— N力もなるマイクロフォ ンアレイ 14と、マイクロフォンアレイ 14の検出結果に基づいて音源 12の位置や方向 を推定する音源特性推定装置 10である。
[0017] 音源 12は、人間またはロボットに設けられたスピーカーなどのように、コミュニケーシ
ヨン手段として音声を発するものである。音源 12から発せられる音響信号 (以下「音 源信号」という)は、信号の発信方向 Θにおいて音波の強さが最大であり、方向によ つて音波の強さが異なるという性質、すなわち指向性をもつ。
[0018] マイクロフォンアレイ 14は、 n個のマイクロフォン 14— 1〜14— Nで構成される。これ らのマイクロフォン 14— 1〜14—Nは、それぞれ作業空間 16内の任意の場所に設置 されている(但し、設置場所の位置座標は既知)。マイクロフォン 14— 1〜 14— Nの設 置場所は、例えば作業空間 16が室内だとすると、部屋の壁面、室内の物体、天井、 または床面などを適宜選択できる。なお、指向特性を推定する観点に立つと、マイク 口フォン 14— 1〜14— Nは、音源 12から任意の一方向だけに集中せず、音源 12を 取り囲むように配置されることが望ま 、。
[0019] 音源特性推定装置 10は、マイクロフォンアレイ 14の各マイクロフォン 14— 1〜14— Nと有線または無線で接続されている(図 1では結線を省略)。音源特性推定装置 10 は、マイクロフォンアレイ 14により検出される音響信号に基づいて、音源 12の位置 P および方向 Θなど音源 12の各種特性を推定する。
[0020] 図 1に示すように、本実施形態では、作業空間 16に任意の 2次元座標系 18が設定 されている。この 2次元座標系 18に基づいて、音源 12の位置は位置ベクトル P= (x、 y)で表される。また、音源 12から音源信号が発せられる方向は、 X軸方向を基準とす る角度 Θで表される。そして、音源 12の位置 Pおよび方向 Θを含む位置ベクトルは、 P' = (x、 y、 θ )と表される。作業空間 16内の任意の位置ベクトル P'における音源 1 2から発せられた音源信号のスペクトルは、 X ( ω )と表される。
Ρ,
[0021] なお、音源 12の位置を三次元で推定する場合には、作業空間 16内に任意の三次 元座標を設定し、音源 12の位置ベクトルを P, = (x、 y、 ζ、 0、 φ )と表しても良い。こ こで、 φは xy平面を基準として表される、音源 12から発せられる音源信号の仰角を 表す。
[0022] 続いて、図 2を参照して、音源特性推定装置 10の詳細について説明する。
[0023] 音源特性推定装置 10は、例として本発明の特徴を含むソフトウェアを入出力装置、 CPU,メモリ、外部記憶装置等を備えたコンピュータやワークステーション等で実行 することにより実現されるが、一部をノヽードウエアにより実現することもできる。図 2は、
これを踏まえて構成を機能ブロックで表現して 、る。
[0024] 図 2は、本実施形態による音源特性推定装置 10のブロック図である。以下、音源特 性推定装置 10の各ブロックについて個別に説明する。
[0025] マノレチビームフォーマー
マルチビームフォーマー 21は、マイクロフォンアレイ 14の各マイクロフォン 14— 1〜 14— Nで検出された信号 X (ω) (η=1, · · ·, N)にフィルタ関数を乗算して合成し η,Ρ'
て、複数のビームフォーマー出力信号 Υ (ω) (m=l, ···, M)を出力する。マル
P'm
チビームフォーマー 21は、図 3に示すように M個のビームフォーマー 21— 1〜21— Mから構成される。
[0026] ここで、 mは位置インデックスであり、作業空間 16内を X ,· · ·,χ , · · · , X、 y , · · · ,y
1 p P I q
, · · · , y 、 Θ ,···, Θ ,···, Θ と P, Q, R個に離散化して、 m=(p+qP)R+rで表され
Q 1 r R
る。位置インデックス mの総数 Mは P X Q X R個となる。
[0027] 各ビームフォーマー 21— 1〜21— Mには、それぞれ、マイクロフォンアレイ 14の各 マイクロフォン 14— 1〜14— Nで検出された音響信号 X (ω)〜Χ (ω)が入力さ
Ι,Ρ' Ν,Ρ'
れる。
[0028] m番目(m=l、 ···、 Μ)のビームフォーマーにおいて、音響信号 X (ω)〜Χ (
1,Ρ, Ν,Ρ, ω)は、ビームフォーマー毎に個別に設定されたフィルタ関数 G 〜G を乗算
1. P'm N,P,m され、これらを合計したものがビームフォーマーの出力信号 Υ (ω)として算出され る。
[0029] フィルタ関数 G 〜G は、音源 12が作業空間 16内の一意の位置ベクトル P' l,P,m N,P,m
m= (xp, yq, Θ r)にあると仮定するときに、マイクロフォンアレイ 14で検出された音響 信号 X (ω)〜Χ (ω)から音源信号 X (ω)が抽出されるように、設定されている。
1、Ρ' Ν、Ρ' Ρ'
[0030] 次に、マルチビームフォーマー 21の各ビームフォーマー 21— 1〜21—Μのフィル タ関数 Gの導出について説明する。以下、 m番目(m=l、 ·'·、Μ)のビームフォーマ 一のフィルタ関数 G 〜G の導出を例示する。
1. P'm N、P,m
[0031] 位置ベクトル P'mに対応するビームフォーマーの出力 Υ (ω)は、フィルタ関数 G
P m π、
(η=1, ···, Ν)を用いて(1)式で表される。
P'm
[0032] (1)式の X (ω)は、音源 12が位置ベクトル P'で音源信号 X (ω)を発したときに、
π、Ρ' P'
マイクロフォン 14— 1〜 14 Νで検出される音響信号であり、 (2)式で表される。
[数 2]
関数である。本実施形態において、伝達関数 Η (ω)は、位置 P'にある音源 12か ら各マイクロフォン 14— 1〜14—Νへの音の伝わり方のモデルに指向性を加え、(3) 式のように定義される。
ここで vは音速を表す。 rは位置 P'と n番目のマイクロフォン座標との距離を表し、 r=(( xn— x;T2 + (yn— y;T2;T0.5と表される。 xn、 ynは、 n番目のマイクロフォンの x, y座標とす る。
[0034] (3)式は、音源 12が自由空間における点音源と仮定して、音源 12からマイクロフォ ンへの音の伝わり方をモデルィ匕し、このモデルに単位指向特性 Α( Θ )を加えている。 音の伝わり方は、位相差や音圧差など、マイクロフォンの位置の違いによってマイクロ フォン間に生じる音源信号の差異を含む。単位指向特性 Α( Θ )は、ビームフォーマー に指向性を持たせるために、予め設定された関数である。単位指向特性 Α( Θ )の詳 ヽては(8)式を参照して後述する。
[0035] 指向ゲイン Dを (4)式で定義する。
画
(4)式は、(5)式の行列演算として定義できる。
[数 5]
D = HG
D = [(! · · d · dM
G = ,' · (5)
''G '' ' 、GN,n
H = [h,,- ·
' *,Hm,い' · Hm ここで、 D、 H、 Gはそれぞれ、指向ゲイン行列、伝達関数行列、フィルタ関数行列を 示す。
[0037] (5)式のフィルタ関数行列 Gは、(6)式より求める。
[数 6] h
d (6)
h ここで gmハット((6)式では gmの上部に'の記号)はフィルタ関数行列 Gの位置 mに対 応する成分 (列ベクトル)の近似、 h H、 [h ]+はそれぞれ、 hmのエルミート転置行列と擬
m m
似逆行列を示す。
[0038] (6)式の指向ゲイン行列 Dは、音源 Sの指向特性を推定するために(7)式で定義す る。 Θ aは指向ゲイン行列 Dが示す指向特性のピーク方向を示す。
[数 7]
otherwise (7) 伝達関数行列 Hは、単位指向特性 A(6r)を (8)式で定義し求める。ここでで Δ Θは 向き推定の分解能を表す (180/R度)。例えば 8方向の分解能 (R=8)で音源の向きを推 定する場合は、 22.5度となる。
[数 8]
[0040] 単位指向特性 Α( Θ r)は、 (8)式の矩形波の他、特定の方向を中心にパワーが分布 して 、る関数 (例えば三角パルスなど)であれば良 、。
[0041] フィルタ関数行列 Gは、伝達関数行列 Hと指向ゲイン行列 Dより導かれるため、音源 の向きを推定するための単位指向特性や空間の伝達特性を含む。よってフィルタ関 数 Gは、マイクロフォン毎に異なる音源との位置関係によって生じる位相差や音圧差 、伝達特性などの差異と、音源の向きを関数としてモデルィ匕できる。
[0042] フィルタ関数行列 Gは、マイクロフォンアレイ 14の設置場所が変わったとき、または 、作業空間内の物体の配置が変わったときなど、音響信号の計測条件が変化したと きに再計算される。
[0043] なお、本実施形態では伝達関数 Hは(3)式に示すモデルを用いた力 代替的に、 作業空間内の全ての位置ベクトル P'に対するインパルス応答を計測し、これらのイン パルス応答に応じて伝達関数が導出される形式でも良い。この場合でも、空間内の 任意の位置 (x、 y)において方向 Θ毎にインパルス応答を計測するので、インパルス を出力したスピーカの指向特性が単位指向特性となる。
[0044] マルチビームフォーマー 21は、各ビームフォーマー 21— 1〜21—Mの出力 Y (
P'm ω )を、音源位置推定部 23、音源信号抽出部 25、および音源指向特性推定部 27へ 送信する。
[0045] 音源位置推定き β
音源位置推定部 23は、マルチビームフォーマー 21の出力 Y ( co ) (m= l、 · · ·、 M)に基づいて、音源 12の位置ベクトル P' s = (xs, ys, Θ s)を推定する。音源位置推 定部 23は、マルチビームフォーマー 21内の各ビームフォーマー 21— 1〜21—Mで 算出された出力 Υ ( ω )のうち最大値をとるビームフォーマーを選択する。そして、選 択したビームフォーマーが対応する音源 12の位置ベクトル P, mを、音源 12の位置べ タトル P,s = (xs, ys, Θ s)として推定する。
[0046] 代替的に、音源位置推定部 23は、雑音の影響を減らすために下記のステップ 1〜
8により音源位置を推定してもよい。
[0047] 1.各マイクロフォンで検出された背景雑音のパワースペクトル Ν(ω)を求め、各マイ クロフオンで検出された信号 X (ω)のうち、 所定のしきい値 (例えば 20[dB])より大 きいサブバンドを選択し、 ωΐ, ···, ωΐ, ···, coLとする。
[0048] 2.各サブバンドの信頼度 SCR(col)を(9)式および(10)式で定義する。
[0049] 3. Pm,におけるビームフォーマーの出力 Υ (ωΐ)を(1)式より求める。ここでは、
P,m
すべての P, m (m = 1 , · · · ,Μ)に対して Υ ( ω 1)が計算される。
P,m
[0050] 4.方向別スペクトル強度 I(P'm)を(11)式で求める。
[0051] 5.位置 P(xp, yq)における方向成分加算スペクトル強度 I(xp, yq)を(12)式で求める
[0052] 6.音源の位置ベクトル Ps=(xs, ys)は、(13)式より求められる。
[数 12] xs,ys) = argmaxl(xp,yq) ( 1 3)
[0053] 7.音源 Sの指向特性 DP( Θ r)を、(14)式より求める。
[数 13]
= { ( )卜 1,.·.,4 ( 1 4 )
[0054] 8.音源の向き Θ sは(15)式より求められる。
[数 14]
Os = argmax DP(0r ) ( 1 5 )
[0055] 音源位置推定部 23は、導出した音源 12の位置および方向を、音源信号抽出部 25
、音源指向特性推定部 27、および音源追跡部 33へ送信する。
[0056] 音源信号抽出部
音源信号抽出部 25は、位置ベクトル P' sにある音源カゝら発せられた音源信号 Y (
P, ω )を抽出する。
[0057] 音源信号抽出部 25は、音源位置推定部 23で導出された音源 12の位置ベクトル Ρ s,に基づいて、マルチビームフォーマー 21のうち P' sに対応するビームフォーマーの 出力を求め、この出力を音源信号 Υ ( ω )として抽出する。
P' s
[0058] また、音源位置推定部 23で推定された音源 12の位置ベクトル P = (xs, ys)を固定し 、位置ベクトル(xs, ys, Θ ;)〜(xs, ys, Θ )に対応するビームフォーマーの出力を求め
1 R
、これらを合計して音源信号 Υ ( ω )
P s として抽出しても良い。
[0059] 咅源指向特件推定き β
音源指向特性推定部 27は、音源信号の指向特性 DP( Θ ) (r= 1,…, R)を推定す る。音源指向特性推定部 27は、音源位置推定部 23で導出された音源 12の位置べ タトル P' s=(xs, ys, Θ s)のうち位置座標 (xs, ys)を固定して、方向 Θを Θ 力も 0 まで
1 R 変化させたときのビームフォーマー出力 Υ
P, ( ω )
m を求める。音源指向特性推定部 27 は、位置ベクトル(xs, ys, Θ )〜(xs,ys, θ )に対応するビームフォーマーの出力を
1 R
求め、これらの出力の組を音源信号の指向特性 DP( Θ )とする。ここで、 Rは方向 0の 分解能を決めるパラメータである。
[0060] 図 4は、 Θ s = 0のときの指向特性 DP( Θ r)の一例を示す図である。図 4に示すように 、一般に、指向特性は、音源の方向 Θ sにおいて最大の値をとり、 Θ sから離れるにつ れて小さい値をとるようになり、 Θ sの反対方向(図 4では ± 180度)において最小とな
る。
[0061] なお、音源位置推定部 23において、代替的に(9)〜(15)式を用いて音源位置を 推定した場合には、(14)式の計算結果を利用して指向特性 DP( Θ r)を求めても良い
[0062] 音源指向特性推定部 27は、音源信号の指向特性 DP( Θ r)を音源種類推定部 29〖こ 送信する。
[0063] 音源籠椎 き β
音源種類推定部 29は、音源指向特性推定部 27で得られた指向特性 DP( Θ r)に基 づいて、音源 12の種類を推定する。指向特性 DP( Θ r)は、一般に図 4に示すような形 状をとるが、人間の発声や機械の音声などの音源の種類に依存してピーク値などの 特徴が異なるので、音源の種類に応じてグラフの形状に相違が生じる。さまざまな音 源の種類に対応した指向特性のデータが指向特性データベース 31に記録されてい る。音源種類推定部 29は、指向特性データベース 31を参照して、音源 12の指向特 性 DP( Θ r)に最も近いデータを選択して、選択されたデータの種類を、音源 12の種類 として推定する。
[0064] 音源種類推定部 29は、推定した音源 12の種類を音源追跡部 33に送信する。
[0065] 咅源自跡き β
音源追跡部 33は、音源 12が作業空間内を移動している場合に、音源 12を追跡す る。音源追跡部 33は、音源位置推定部 23で推定された音源 12の位置ベクトル Ps, を、 1ステップ前に推定された音源 12の位置ベクトルと比較する。両ベクトルの差が 所定範囲内にあり、かつ音源種類推定部 29で推定された音源 12の種類が同一であ るとき、これらの位置ベクトルをグループィ匕して記憶することにより、音源 12の軌道が 得られ、音源 12の追跡が可能となる。
[0066] 以上、図 2を参照して、音源特性推定装置 10の各機能ブロックについて説明した。
[0067] 本実施形態では、単一の音源 12について、音源 12の特性を推定する手法につい て説明した。これに対し、複数の音源のある場合には、音源位置推定部 23で推定さ れた音源を第 1の音源として、その信号を元の信号から除いた残差信号を求め、再度 、音源位置推定を行う処理を行い、複数音源の位置を推定することも可能である。
[0068] この処理は、所定の回数、あるいは音源の数だけ繰り返す。
[0069] 具体的には、まずマイクロフォンアレイ 14の各マイクロフォン 14-1〜14-Nで検出さ れる第 1の音源に由来した音響信号 Xsn( ω )を( 16)式で推定する。
[数 15]
R
X Sn ( = Σ H(xsMn■ Y s,ys,a-) (^) ( 1 6) ここで、 H は、位置 (xs,ys, 01)、 ···、 (xs,ys, Θ R)から n番目のマイクロフォン
(xs、ys、 θ ) n
14— ηへの伝達特性を表す伝達関数である。 Υ (ω)は、第 1音源の位置 (xs,
(xs、 ys、 Θ r)
ys)に対応したビームフォーマー出力 Y (ω)、 ···、Υ (ω)である。
(xs、 ys、 θ 1) (xs、 ys、 Θ R)
[0070] 次に、マイクロフォンアレイの各マイクロフォン 14-1〜14-Nで検出された音響信号 X η,ρ'(ω )から減算して、残差信号 X ' η( ω )が( 17)式より求められる。この残差信号 X ' η( ω )を (1)式の Χη,ρ' ( ω )の代わりに代入して、残差信号に対するビームフォーマー の出力 Υ' (ω)が(18)式より求められる。
P,m
[0071] 求められた Υ, (ω)のうち、最大値をとるビームフォーマーの位置ベクトル P,mを、
P,m
第 2の音源の位置として推定する。
[0072] (16)式の ωを音源位置推定部 23のステップ 1で求められた ω 1として(16)式を計 算して音響信号 χδη(ω1)を求め、算出した χδη(ω1)を用いて(17)式を計算して残差 信号 X ' η( ω 1)を求め、算出した X ' η( ω 1)を用いて( 18)式を計算してビームフォーマ 一の出力 Υ, (ωΐ)とし、音源位置推定部 23のステップ 3の Υ, (ωΐ)の代わりに代入
P'm P'm して音源位置推定を行っても良 、。
[0073] 本実施例では音響信号力 スペクトルを求め処理を行った力 そのスペクトルの時 間フレームに対応する時間波形信号を使っても良い。
[0074] 本発明を利用すると、例えば、室内を案内するサービスロボットが、テレビや他の口 ボットと人を識別し、人の音源位置や向きを推定し、人に正対するよう正面から移動
することができる。
[0075] また、人の位置と向きが分力つているので、人視点で案内することもできる。
[0076] 次に、本発明による音源特性推定装置 10を用いた音源位置推定実験、音源種類 推定実験、および音源追跡実験について説明する。
[0077] これらの実験は、図 5に示す環境で行われた。作業空間は X方向 7メートル、 y方向 4メートルの広さである。作業空間内にはテーブルおよび流し台があり、壁面および テーブル上に 64チャンネルのマイクロフォンアレイが設置されて!、る。位置ベクトル の分解能は 0.25メートルである。作業空間内の座標 Pl(2.59, 2.00)、 P2(2.05, 3.10) 、 P3(5.92, 2.25)に音源が配置される。
[0078] 音源位置推定実験は、作業空間内の座標 P1および P2にて、スピーカの録音音声 および人間の音声を音源として、音源位置推定を行った。本実験では、伝達関数 H に(3)式を用い、 150回の試行の平均を求めた。音源位置 (xs, ys)の推定誤差は、 スピーカの録音音声の場合、 P1において 0.15 (m)、 P2において 0.40 (m)であり、人 間の音声の場合、 P1において 0.04 (m)、 P2において 0.36 (m)であった。
[0079] 音源種類推定実験は、作業空間内の座標 P1にて、スピーカの録音音声および人 間の音声を音源として、音源の指向特性 DP( Θ r)の推定を行った。本実験では、伝達 関数 Hとして、インパルス応答によって導出された関数が用いられ、音源の方向 Θ s は 180度と設定された。指向特性 DP( Θ r)は(14)式を用いて導出された。
[0080] 図 6は、推定された指向特性 DP( Θ r)を示す図である。図 6 (a)、 (b)共に、グラフの 横軸は方向 Θ rを表し、グラフの縦軸はスペクトル強度 I(xs, ys, Θ r)/l(xs, ys)を表す。 また、グラフの細線は、指向特性データベースに記憶されている録音音声の指向特 性を示し、グラフの点線は、指向特性データベースに記憶されている人間の音声の 指向特性を示す。図 6 (a)の太線は、音源力 Sスピーカの録音音声の場合に推定され た音源の指向特性を示し、図 6 (b)の太線は、音源が人間の音声の場合に推定され た音源の指向特性を示す。
[0081] 図 6に示すように、本発明による音源特性推定装置 10は、音源の種類に応じて、異 なる指向特性を推定できて 、る。
[0082] 音源追跡実験は、音源を P1→P2→P3と移動させたときに、音源位置の追跡を行
つた。本実験では、音源はスピーカから出力されるホワイトノイズであり、伝達関数 H に(3)式を用い、 20ミリ秒ごとに音源の位置ベクトル P'を推定した。推定された音源 の位置ベクトル P'は、超音波 3次元タグシステムによって計測された音源の位置およ び方向と比較され、各時刻の推定誤差を求め平均した。
[0083] 超音波タグシステムは、タグの超音波出力時刻とレシーバへの入力時刻との差分を 検出し、差分情報を三角測量と同様の手法で三次元情報に変換することにより、室 内の GPS機能を実現するものであり、数センチの誤差で定位をすることが可能である
[0084] 実験の結果、追跡誤差は、音源の位置 (xs,ys)については 0.24 (m)であり、音源の 向き Θについては 9.8度であった。
[0085] 以上にこの発明を特定の実施例によって説明した力 この発明はこのような実施例 に限定されるものではない。
Claims
[1] 空間内の任意の位置の音源より発せられた音源信号が複数のマイクロフォンに入 力されるとき、前記マイクロフォン間に生じる前記音源信号の差異を補正する関数を 用いて、前記マイクロフォンのそれぞれで検出された音響信号を重み付けして、前記 複数のマイクロフォンについて合計した信号を出力するビームフォーマーを複数備え 前記ビームフォーマーのそれぞれは、前記空間内の任意の 1方向に対応する単位 指向特性をもつ前記関数を含んでおり、前記空間の任意の位置、および前記単位 指向特性に対応する方向ごとに用意されており、
前記マイクロフォンが前記音源信号を検出するとき、前記複数のビームフォーマー のうち最大値を出力するビームフォーマーに対応する前記空間内の位置および方向 を、前記音源の位置および方向として推定する手段を有する、
音源特性推定装置。
[2] 空間内の任意の位置の音源より発せられた音源信号が複数のマイクロフォンに入 力されるとき、前記マイクロフォン間に生じる前記音源信号の差異を補正する関数を 用いて、前記マイクロフォンのそれぞれで検出された音響信号を重み付けして、前記 複数のマイクロフォンについて合計した信号を出力するビームフォーマーを複数備え 前記ビームフォーマーのそれぞれは、前記空間内の任意の 1方向に対応する単位 指向特性をもつ前記関数を含んでおり、前記空間の任意の位置、および前記単位 指向特性に対応する方向ごとに用意されており、
前記マイクロフォンが前記音源信号を検出するとき、前記複数のビームフォーマー の出力を求め、前記空間の任意の位置に対応し前記単位指向特性の異なる複数の ビームフォーマーの出力の合計値を求め、最大の合計値をとる位置を選択し、該選 択された位置において最大値を出力するビームフォーマーに対応する方向を選択し 、該選択された位置および方向を前記音源の位置および方向として推定する手段を 有する、
音源特性推定装置。
[3] 前記推定された前記音源の位置に対応し前記単位指向特性の異なる複数のビー ムフォーマーの出力を求め、該出力の組を前記音源の指向特性として推定する手段 をさらに有する、
請求項 1または請求項 2に記載の音源特性推定装置。
[4] 前記推定された指向特性を音源の種類に応じた複数の指向特性のデータを含む データベースと参照することにより、最も近い指向特性を示すデータの種類を前記音 源の種類として推定する手段をさらに有する、
請求項 3に記載の音源特性推定装置。
[5] 前記推定された前記音源の位置および方向、ならびに前記推定された前記音源の 種類を、 1ステップ前の時間ステップにおいて推定された前記音源の位置、向き、お よび種類と比較して、前記位置および前記方向の偏差が所定の範囲内であり、かつ 前記種類が同一であるときに、同一の音源としてグループィ匕する、音源追跡手段をさ らに有する、請求項 4に記載の音源特性推定装置。
[6] 前記推定された前記音源の位置に対応し前記単位指向特性の異なる複数のビー ムフォーマーの出力を求め、該出力の合計値を前記音源信号として抽出する手段を さらに有する、請求項 1または請求項 2に記載の音源特性推定装置。
[7] 前記空間内の任意の位置にある複数の音源より発せられた音響信号が前記複数 のマイクロフォンに入力されるとき、
前記マイクロフォンが前記音源信号を検出するとき、前記複数のビームフォーマー の出力を求め、前記空間内の各位置ごとに前記単位指向特性の異なる複数のビー ムフォーマーに対応する方向について該出力を合計し、合計した出力のうち最大値 を有する位置を選択し、該選択した位置にお!、て最大値を出力するビームフォーマ 一に対応する方向を選択し、該選択した位置および方向を第 1の音源の位置および 方向として推定し、
前記推定された前記第 1の音源の位置に対応する前記単位指向特性の異なる複 数のビームフォーマーの出力を求め、該出力の組を前記音源信号として抽出し、 前記抽出された前記第 1の音源の位置より発せられた音源信号が複数のマイクロフ オンに入力されるとき、前記抽出された音源信号から、前記マイクロフォン間に生じる
音源信号の差異を表す関数を用いて前記複数のマイクロフォンに与える音響信号を 単位指向性の異なる複数のビームフォーマーに対応する方向ごとに計算し、その複 数の音響信号を前記複数のマイクロフォンのそれぞれで検出された音響信号より減 し、
前記減算された音響信号に対して前記複数のビームフォーマーの出力を求め、前 記空間内の各位置ごとに前記単位指向特性の異なる複数のビームフォーマーに対 応する方向について、該出力を合計し、合計した出力のうち最大値を有する位置を 選択し、該選択した位置にぉ 、て最大値を出力するビームフォーマーに対応する方 向を選択し、該選択した位置および方向を第 2の音源の位置および方向として推定 し、
前記推定された前記第 2の音源の位置に対応する前記単位指向特性の異なる複 数のビームフォーマーの出力を求め、該出力の組を前記第 2の音源信号として抽出 する手段を更に有する、
請求項 1または請求項 2に記載の音源特性推定装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007526879A JP4675381B2 (ja) | 2005-07-26 | 2006-07-26 | 音源特性推定装置 |
US12/010,553 US8290178B2 (en) | 2005-07-26 | 2008-01-25 | Sound source characteristic determining device |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US70277305P | 2005-07-26 | 2005-07-26 | |
US60/702,773 | 2005-07-26 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US12/010,553 Continuation-In-Part US8290178B2 (en) | 2005-07-26 | 2008-01-25 | Sound source characteristic determining device |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2007013525A1 true WO2007013525A1 (ja) | 2007-02-01 |
Family
ID=37683416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2006/314790 WO2007013525A1 (ja) | 2005-07-26 | 2006-07-26 | 音源特性推定装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8290178B2 (ja) |
JP (1) | JP4675381B2 (ja) |
WO (1) | WO2007013525A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009130388A1 (en) * | 2008-04-25 | 2009-10-29 | Nokia Corporation | Calibrating multiple microphones |
US8244528B2 (en) | 2008-04-25 | 2012-08-14 | Nokia Corporation | Method and apparatus for voice activity determination |
JP2012161071A (ja) * | 2011-01-28 | 2012-08-23 | Honda Motor Co Ltd | 音源位置推定装置、音源位置推定方法、及び音源位置推定プログラム |
US8275136B2 (en) | 2008-04-25 | 2012-09-25 | Nokia Corporation | Electronic device speech enhancement |
JP2020503780A (ja) * | 2017-01-03 | 2020-01-30 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | ビームフォーミングを使用するオーディオキャプチャのための方法及び装置 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101415026B1 (ko) * | 2007-11-19 | 2014-07-04 | 삼성전자주식회사 | 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치 |
TWI441525B (zh) * | 2009-11-03 | 2014-06-11 | Ind Tech Res Inst | 室內收音系統及室內收音方法 |
US9502022B2 (en) * | 2010-09-02 | 2016-11-22 | Spatial Digital Systems, Inc. | Apparatus and method of generating quiet zone by cancellation-through-injection techniques |
JP5974901B2 (ja) * | 2011-02-01 | 2016-08-23 | 日本電気株式会社 | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム |
US9973848B2 (en) * | 2011-06-21 | 2018-05-15 | Amazon Technologies, Inc. | Signal-enhancing beamforming in an augmented reality environment |
EP2600637A1 (en) * | 2011-12-02 | 2013-06-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for microphone positioning based on a spatial power density |
US20130329908A1 (en) * | 2012-06-08 | 2013-12-12 | Apple Inc. | Adjusting audio beamforming settings based on system state |
JP5841986B2 (ja) | 2013-09-26 | 2016-01-13 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
US9953640B2 (en) | 2014-06-05 | 2018-04-24 | Interdev Technologies Inc. | Systems and methods of interpreting speech data |
US9769552B2 (en) * | 2014-08-19 | 2017-09-19 | Apple Inc. | Method and apparatus for estimating talker distance |
JP2016092767A (ja) * | 2014-11-11 | 2016-05-23 | 共栄エンジニアリング株式会社 | 音響処理装置及び音響処理プログラム |
JP6592940B2 (ja) * | 2015-04-07 | 2019-10-23 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
CN105246004A (zh) * | 2015-10-27 | 2016-01-13 | 中国科学院声学研究所 | 一种传声器阵列系统 |
EP3520437A1 (en) | 2016-09-29 | 2019-08-07 | Dolby Laboratories Licensing Corporation | Method, systems and apparatus for determining audio representation(s) of one or more audio sources |
US10694285B2 (en) | 2018-06-25 | 2020-06-23 | Biamp Systems, LLC | Microphone array with automated adaptive beam tracking |
US10210882B1 (en) * | 2018-06-25 | 2019-02-19 | Biamp Systems, LLC | Microphone array with automated adaptive beam tracking |
US10433086B1 (en) | 2018-06-25 | 2019-10-01 | Biamp Systems, LLC | Microphone array with automated adaptive beam tracking |
DE102020103264B4 (de) | 2020-02-10 | 2022-04-07 | Deutsches Zentrum für Luft- und Raumfahrt e.V. | Automatisierte Quellidentifizierung aus Mikrofonarraydaten |
US11380302B2 (en) * | 2020-10-22 | 2022-07-05 | Google Llc | Multi channel voice activity detection |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1141687A (ja) * | 1997-07-18 | 1999-02-12 | Toshiba Corp | 信号処理装置および信号処理方法 |
JP2001245382A (ja) * | 2000-01-13 | 2001-09-07 | Nokia Mobile Phones Ltd | スピーカをトラッキングする方法およびシステム |
JP2001313992A (ja) * | 2000-04-28 | 2001-11-09 | Nippon Telegr & Teleph Corp <Ntt> | 収音装置および収音方法 |
JP2002091469A (ja) * | 2000-09-19 | 2002-03-27 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識装置 |
JP2003270034A (ja) * | 2002-03-15 | 2003-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音情報解析方法、装置、プログラム、および記録媒体 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3441900A (en) * | 1967-07-18 | 1969-04-29 | Control Data Corp | Signal detection,identification,and communication system providing good noise discrimination |
US4485484A (en) * | 1982-10-28 | 1984-11-27 | At&T Bell Laboratories | Directable microphone system |
US4741038A (en) * | 1986-09-26 | 1988-04-26 | American Telephone And Telegraph Company, At&T Bell Laboratories | Sound location arrangement |
US5581620A (en) * | 1994-04-21 | 1996-12-03 | Brown University Research Foundation | Methods and apparatus for adaptive beamforming |
US5699437A (en) * | 1995-08-29 | 1997-12-16 | United Technologies Corporation | Active noise control system using phased-array sensors |
JP2000004495A (ja) * | 1998-06-16 | 2000-01-07 | Oki Electric Ind Co Ltd | 複数マイク自由配置による複数話者位置推定方法 |
US6219645B1 (en) * | 1999-12-02 | 2001-04-17 | Lucent Technologies, Inc. | Enhanced automatic speech recognition using multiple directional microphones |
GB2364121B (en) * | 2000-06-30 | 2004-11-24 | Mitel Corp | Method and apparatus for locating a talker |
US20030161485A1 (en) * | 2002-02-27 | 2003-08-28 | Shure Incorporated | Multiple beam automatic mixing microphone array processing via speech detection |
US6912178B2 (en) * | 2002-04-15 | 2005-06-28 | Polycom, Inc. | System and method for computing a location of an acoustic source |
DE10217822C1 (de) * | 2002-04-17 | 2003-09-25 | Daimler Chrysler Ag | Verfahren und Vorrichtung zur Blickrichtungserkennung einer Person mittels wenigstens eines richtungsselektiven Mikrofons |
US7885818B2 (en) * | 2002-10-23 | 2011-02-08 | Koninklijke Philips Electronics N.V. | Controlling an apparatus based on speech |
US6999593B2 (en) * | 2003-05-28 | 2006-02-14 | Microsoft Corporation | System and process for robust sound source localization |
KR100586893B1 (ko) * | 2004-06-28 | 2006-06-08 | 삼성전자주식회사 | 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법 |
US7783060B2 (en) * | 2005-05-10 | 2010-08-24 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Deconvolution methods and systems for the mapping of acoustic sources from phased microphone arrays |
US7415372B2 (en) * | 2005-08-26 | 2008-08-19 | Step Communications Corporation | Method and apparatus for improving noise discrimination in multiple sensor pairs |
-
2006
- 2006-07-26 JP JP2007526879A patent/JP4675381B2/ja not_active Expired - Fee Related
- 2006-07-26 WO PCT/JP2006/314790 patent/WO2007013525A1/ja active Application Filing
-
2008
- 2008-01-25 US US12/010,553 patent/US8290178B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1141687A (ja) * | 1997-07-18 | 1999-02-12 | Toshiba Corp | 信号処理装置および信号処理方法 |
JP2001245382A (ja) * | 2000-01-13 | 2001-09-07 | Nokia Mobile Phones Ltd | スピーカをトラッキングする方法およびシステム |
JP2001313992A (ja) * | 2000-04-28 | 2001-11-09 | Nippon Telegr & Teleph Corp <Ntt> | 収音装置および収音方法 |
JP2002091469A (ja) * | 2000-09-19 | 2002-03-27 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識装置 |
JP2003270034A (ja) * | 2002-03-15 | 2003-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音情報解析方法、装置、プログラム、および記録媒体 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009130388A1 (en) * | 2008-04-25 | 2009-10-29 | Nokia Corporation | Calibrating multiple microphones |
US8244528B2 (en) | 2008-04-25 | 2012-08-14 | Nokia Corporation | Method and apparatus for voice activity determination |
US8275136B2 (en) | 2008-04-25 | 2012-09-25 | Nokia Corporation | Electronic device speech enhancement |
US8611556B2 (en) | 2008-04-25 | 2013-12-17 | Nokia Corporation | Calibrating multiple microphones |
US8682662B2 (en) | 2008-04-25 | 2014-03-25 | Nokia Corporation | Method and apparatus for voice activity determination |
JP2012161071A (ja) * | 2011-01-28 | 2012-08-23 | Honda Motor Co Ltd | 音源位置推定装置、音源位置推定方法、及び音源位置推定プログラム |
JP2020503780A (ja) * | 2017-01-03 | 2020-01-30 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | ビームフォーミングを使用するオーディオキャプチャのための方法及び装置 |
JP7041156B2 (ja) | 2017-01-03 | 2022-03-23 | コーニンクレッカ フィリップス エヌ ヴェ | ビームフォーミングを使用するオーディオキャプチャのための方法及び装置 |
JP7041156B6 (ja) | 2017-01-03 | 2022-05-31 | コーニンクレッカ フィリップス エヌ ヴェ | ビームフォーミングを使用するオーディオキャプチャのための方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4675381B2 (ja) | 2011-04-20 |
US8290178B2 (en) | 2012-10-16 |
US20080199024A1 (en) | 2008-08-21 |
JPWO2007013525A1 (ja) | 2009-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4675381B2 (ja) | 音源特性推定装置 | |
Brandstein et al. | A practical methodology for speech source localization with microphone arrays | |
Rascon et al. | Localization of sound sources in robotics: A review | |
JP5814476B2 (ja) | 空間パワー密度に基づくマイクロフォン位置決め装置および方法 | |
TWI530201B (zh) | 經由自抵達方向估值提取幾何資訊之聲音擷取技術 | |
CN104106267B (zh) | 在增强现实环境中的信号增强波束成形 | |
CN102447697B (zh) | 开放环境中的半私人通信的方法及系统 | |
US9488716B2 (en) | Microphone autolocalization using moving acoustic source | |
US20050047611A1 (en) | Audio input system | |
CN103181190A (zh) | 用于远场多源追踪和分离的系统、方法、设备和计算机可读媒体 | |
Li et al. | Reverberant sound localization with a robot head based on direct-path relative transfer function | |
KR20110057661A (ko) | 이동체 및 그 제어방법 | |
Youssef et al. | A binaural sound source localization method using auditive cues and vision | |
An et al. | Diffraction-and reflection-aware multiple sound source localization | |
CN111157952B (zh) | 一种基于移动麦克风阵列的房间边界估计方法 | |
Liu et al. | Acoustic positioning using multiple microphone arrays | |
Cho et al. | Sound source localization for robot auditory systems | |
KR20090128221A (ko) | 음원 위치 추정 방법 및 그 방법에 따른 시스템 | |
Svaizer et al. | Environment aware estimation of the orientation of acoustic sources using a line array | |
JP2018034221A (ja) | ロボットシステム | |
US20240114308A1 (en) | Frequency domain multiplexing of spatial audio for multiple listener sweet spots | |
KR101483271B1 (ko) | 음원 위치 추정에 있어 대표 점 선정 방법 및 그 방법을이용한 음원 위치 추정 시스템 | |
Kwon et al. | Sound source localization methods with considering of microphone placement in robot platform | |
Kijima et al. | Tracking of multiple moving sound sources using particle filter for arbitrary microphone array configurations | |
Barfuss et al. | On the impact of localization errors on HRTF-based robust least-squares beamforming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application | ||
WWE | Wipo information: entry into national phase |
Ref document number: 2007526879 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 06781702 Country of ref document: EP Kind code of ref document: A1 |