+

WO2019066348A1 - Audio signal processing method and device - Google Patents

Audio signal processing method and device Download PDF

Info

Publication number
WO2019066348A1
WO2019066348A1 PCT/KR2018/010926 KR2018010926W WO2019066348A1 WO 2019066348 A1 WO2019066348 A1 WO 2019066348A1 KR 2018010926 W KR2018010926 W KR 2018010926W WO 2019066348 A1 WO2019066348 A1 WO 2019066348A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
listener
processing apparatus
sound
signal processing
Prior art date
Application number
PCT/KR2018/010926
Other languages
French (fr)
Korean (ko)
Inventor
정현주
전상배
전세운
백용현
문현기
Original Assignee
가우디오디오랩 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가우디오디오랩 주식회사 filed Critical 가우디오디오랩 주식회사
Publication of WO2019066348A1 publication Critical patent/WO2019066348A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present disclosure relates to an audio signal processing method and apparatus, and more particularly, to an audio signal processing method and apparatus for providing an immersive sound for a portable device including an HMD (Head Mounted Display) device.
  • HMD Head Mounted Display
  • 3D audio technology refers to signal processing, transmission, encoding, and rendering technologies that provide sound in a three-dimensional space.
  • 3D audio can reproduce a sound scene with a height direction added to a sound scene on a horizontal plane (2D) where surround audio is reproduced.
  • the audio device can use more number of speakers than the conventional one.
  • the audio device is required to have a rendering technique that causes the sound image to be formed at a virtual position where no speaker is present.
  • 3D audio rendering technology is more needed because the sense of presence is more important in a virtual reality (VR) or augmented reality (AR) space reproduced using an HMD device or the like.
  • VR virtual reality
  • AR augmented reality
  • the most typical binaural rendering in 3D audio rendering technology is to model the 3D audio signal as an audio signal that is delivered to the user's ears.
  • the user can feel the stereoscopic effect through the binaural rendered 2 channel audio output signal through the headphone or the earphone. Specifically, the user can recognize the position and direction of the sound source corresponding to the sound through the sound heard through both ears of the user.
  • the audio signal processing apparatus can reproduce the 3D sense of 3D audio by modeling the 3D audio signal in the form of a two-channel audio signal transmitted to both ears of the user.
  • an acoustic space that realistically simulates an environment in which a plurality of objects and a user interacts can be an important factor for increasing a user's immersion feeling .
  • the acoustic characteristics of each of the plurality of objects may be reflected in a complex manner.
  • the interaction between an object and a user can be defined relatively simply by making it heard at a specific position according to the relative position of the sound source.
  • the acoustic space may vary depending on the relative position and size of the object between the user and the sound source. This is because various acoustic phenomena may occur depending on the interaction between the objects.
  • a sound object sound object
  • Non-sound objects passive objects, non-audio objects, scene objects, acoustic elements
  • the audio signal processing apparatus can simulate the interaction between the sound source and the user by using the relative positions of the sound sources on the basis of the listeners in the virtual space.
  • the sound space may vary depending on the position and size of the object. For example, when there is an object blocking the sound such as a wall between a listener and a sound source in a virtual space, when the audio signal corresponding to the sound source reaches the listener, the size of the audio signal is smaller than when the object is absent Can be attenuated. Also, the sound corresponding to the sound source can be reflected by the wall surface.
  • a technique for simulating the above-described acoustic characteristics is required because a user often interacts with various terrains and objects in a virtual reality space, particularly, in a field such as a game.
  • One embodiment of the present disclosure aims to reproduce a more realistic spatial sound to the user.
  • the present disclosure aims to efficiently simulate a spatial sound including an occlusion effect caused by an obstacle between a sound source and a listener.
  • one embodiment of the present disclosure aims to simulate the effect of the culling on an input audio signal in which various audio signals coexist.
  • one embodiment of the present disclosure is directed to simulating the interaction between audio signals in various formats and non-sound objects that do not produce sound.
  • An apparatus for processing an audio signal may include a processor for outputting an output audio signal generated based on an input audio signal.
  • the processor is configured to obtain information about a virtual space in which the input audio signal and the input audio signal are simulated and determine a position of each of at least one object included in the virtual space based on the listener of the virtual space And determining whether there is a blocking object blocking the direct acoustic path between the sound source and the listener based on the position of the sound source corresponding to the input audio signal And binaurally rendering the input audio signal based on the determination result to generate an output audio signal.
  • the output audio signal may include a transmission audio signal through which the sound corresponding to the input audio signal is passed to the listener through the blocking object.
  • the processor determines whether or not the input audio signal is converted based on the length of a section in which the direct acoustic path between the sound source and the listener overlaps with the blocking object and the acoustic transmittance of the blocking object. And can generate the transparent audio signal.
  • the acoustic transmittance of the blocking object may have different values depending on the frequency bin.
  • the output audio signal may include a diffracted audio signal that simulates sound that is diffracted by the blocking object to arrive at the listener.
  • the processor determines, based on the shape of the blocking object, at least one diffraction spot at which the sound corresponding to the input audio signal is diffracted at the surface of the blocking object, Based on this, the input audio signal can be binaurally rendered to generate the diffracted audio signal.
  • the processor is configured to obtain a first HRTF corresponding to the at least one diffraction point based on the head direction of the listener and to generate the HRTF using the first HRTF, Binaural rendering to generate the diffracted audio signal.
  • the processor may determine a point at which the sum of distances of the first path from the point on the surface of the object to the listener and the distance of each of the second path from the point to the source is the at least one diffraction point.
  • the first path and the second path may be shortest paths that do not cross the object.
  • the processor is further configured to perform a binaural rendering of the input audio signal based on the first HRTF and a diffraction distance representing a sum of a distance of the first path and a distance of the second path along the at least one diffraction point, Thereby generating the diffracted audio signal.
  • the attenuation gain may have different values according to the frequency bin of the audio signal.
  • the processor mixes the diffracted audio signal and the transparent audio signal to generate the output audio signal.
  • the output audio signal may include a two-channel output audio signal corresponding to each of the two ears of the listener.
  • the processor determines whether there is the blocking object for each of the right and left sides of the listener based on the position of each of the two ears of the listener, and based on the determination result, It can be generated for each channel.
  • the blocking object may include a first blocking object that only blocks either the right or left of the listener.
  • the 2-channel output audio signal may also include a reflected audio signal that simulates sound that is reflected by the blocking object to the listener and that corresponds to the input audio signal.
  • the processor may be configured to detect, based on the position of the ear corresponding to the other one of the listeners of the listener and the shape of the first blocking object, the reflection of the sound corresponding to the input audio signal at the surface of the first blocking object And binaurally rendering the input audio signal based on the position of the reflection point to generate a first reflected audio signal corresponding to the first blocking object.
  • the processor is further configured to: obtain a second HRTF corresponding to the reflection point with respect to the head direction of the listener, binaurally render the input audio signal using the second HRTF to generate the first reflected audio signal can do.
  • the processor is further configured to determine a channel comprising the first reflected audio signal from the two-channel output audio signal based on the position of the first blocking object, Can be generated.
  • the channel audio signal corresponding to the other one includes the first reflected audio signal
  • the channel audio signal corresponding to either one of the two includes a first reflected audio signal .
  • the processor may determine a position of each of the ears of the listener based on the head size of the listener.
  • the processor is further configured to determine, based on the position of the listener, a set of HRTFs comprising a plurality of HRTFs along an elevation angle and an elevation angle of the listener based on the measured reference distance, the location of each ear of the listener, The east side HRTF and the large side HRTF corresponding to the east side and the large side, respectively, and binaurally render the input audio signal based on the east side HRTF and the large side HRTF.
  • the east side HRTF and the large side HRTF may be HRTF corresponding to different positions among the plurality of HRTFs.
  • the virtual space may include a plurality of subdivisions in which the reverberation filter is different.
  • the processor may filter the input audio signal based on different reverberation filters for the right and left sides of the listener, respectively, when the positions of the respective ears of the listener are located in different divided spaces, It is possible to generate the reverberant audio signals corresponding to the right and left sides of the reverberant audio signal.
  • the blocking object may be a non-sound object having no sound output from the blocking object in the virtual space.
  • the processor may receive metadata indicating information about a non-sound object included in the virtual space together with the input audio signal.
  • An operation method of an audio signal processing apparatus for rendering an input audio signal includes the steps of obtaining information about an input audio signal and a virtual space in which the input audio signal is simulated, Based on the position of each of the at least one object included in the virtual space and the position of the sound source corresponding to the input audio signal based on the position of the sound source and the position of the sound source corresponding to the input audio signal, Generating binaural rendering of the input audio signal based on the determination result to generate an output audio signal, and outputting the output audio signal.
  • the audio signal processing apparatus can provide an immersive three-dimensional audio signal.
  • the audio signal processing apparatus can efficiently simulate a spatial sound including an occlusion effect caused by an obstacle between a sound source and a listener.
  • the audio signal processing apparatus can simulate the effect of the arcade on an input audio signal in which audio signals of various formats coexist. Further, the audio signal processing apparatus according to the embodiment of the present disclosure can simulate an interaction between audio signals in various formats and a non-sound object that does not produce sound.
  • FIG. 1 is a diagram showing that characteristics of an audio signal are changed by an acoustic acicular effect according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram showing a configuration of an audio signal processing apparatus according to an embodiment of the present disclosure.
  • FIG. 3 is a diagram illustrating a method by which an audio signal processing apparatus according to an embodiment of the present disclosure generates a transmission audio signal based on an input audio signal.
  • FIGS. 4 and 5 are diagrams illustrating a method by which an audio signal processing apparatus according to an embodiment of the present disclosure generates a diffracted audio signal based on an input audio signal.
  • FIG. 6 is a diagram showing HRTFs determined based on the listener's head direction and sound source position with respect to the head center of the listener.
  • Figs. 7 and 8 are diagrams showing HRTF pairs obtained when the distance from the listener to the sound source is located closer or farther than the reference distance at which the HRTF set is generated.
  • FIG. 9 is a diagram showing the operation of the audio signal processing apparatus when the presence or absence of an object is different in each acoustic path between each of the ears of the listener and the sound source.
  • FIG. 10 is a diagram illustrating an example in which an output audio signal according to an embodiment of the present disclosure is configured differently for each ear of the listener.
  • FIG. 11 is a diagram illustrating a method by which an audio signal processing apparatus according to an embodiment of the present disclosure generates a reflected audio signal.
  • FIG. 12 is a diagram showing a method of generating a reverberation audio signal corresponding to each of the two ears of the listener.
  • FIG. 13 is a block diagram illustrating a process of processing an input audio signal by an audio signal processing apparatus according to an embodiment of the present disclosure.
  • FIG. 14 is a block diagram showing the preprocessing operation of the audio signal processing apparatus in more detail.
  • 15 is a block diagram showing the audio signal preprocessing operation of the audio signal processing apparatus in more detail.
  • FIG. 16 is a view showing the binaural rendering process described in FIG. 13 in more detail.
  • 17 is a block diagram showing in detail the configuration of an audio signal processing apparatus according to an embodiment of the present disclosure.
  • FIG. 18 is a block diagram showing the configuration of an audio signal processing apparatus according to an embodiment of the present disclosure in detail.
  • 19 is a block diagram showing in detail the configuration of an audio signal processing apparatus according to an embodiment of the present disclosure.
  • 20 is a block diagram specifically illustrating an object renderer according to an embodiment of the present disclosure
  • 21 is a diagram showing an object renderer further including a coordinate transformation processing unit according to an embodiment of the present disclosure
  • FIG. 22 is a block diagram specifically illustrating an ambsonic renderer according to an embodiment of the present disclosure
  • FIG. 23 is a block diagram specifically illustrating a channel renderer according to an embodiment of the present disclosure.
  • the audio signal processing device can simulate acoustic acrobation effects by the object (s) blocking the direct acoustic path between the sound source and the listener in the virtual space. In this way, the audio signal processing device can provide the user with a lively output audio signal.
  • a direct acoustic path or acoustic path can be used to denote an acoustic path of a direct sound between a sound source and a listener.
  • the present disclosure relates to an audio signal processing apparatus for binaurally rendering an input audio signal based on object-related information related to an object included in a virtual space, and simulating an acoustic acrobation effect.
  • an object blocking between a sound source and a listener may be referred to as a blocking object (s).
  • a listener may represent a listener in a virtual space unless otherwise noted.
  • FIG. 1 is a diagram showing that characteristics of an audio signal are changed by an acoustic acicular effect according to an embodiment of the present disclosure.
  • the acoustic path of the direct sound from which the sound output from the sound source O is directly transmitted to the listener, can be modeled as a shortest path connecting the head center of the listener A from the sound source O.
  • the characteristics of the audio signal corresponding to the sound source O may be changed.
  • the direct sound output from the sound source O may be attenuated depending on the acoustic transmittance that indicates the degree to which the sound passes through the object W.
  • the audio signal processing apparatus can simulate a direct sound attenuated by the object by attenuating the audio signal corresponding to the sound source O. [ At this time, the audio signal processing apparatus can set the degree of attenuation of the audio signal differently for each frequency component.
  • a method for simulating a direct sound attenuated by an object by an audio signal processing apparatus will be described in detail with reference to FIG. Further, the sound output from the sound source O may be diffracted at a specific point (for example, 'a' in FIG. 1) on the surface of the object W and transmitted to the listener A.
  • a method of simulating a diffracted sound diffracted by the audio signal processing device on the surface of the object W and transmitted to the listener A will be described in detail with reference to FIG.
  • the acoustic path may include a first acoustic path and a second acoustic path with respect to each of the ears of the listener A, respectively.
  • the first acoustic path and the second acoustic path may be different from each other.
  • the first acoustic path and the second acoustic path may be modeled as a shortest path connecting each of the ears of the listener A from the sound source O.
  • the audio signal processing apparatus can simulate acoustic acrobatic effects for each of the first acoustic path and the second acoustic path, rather than one acoustic path based on the head center of the listener A.
  • the occlusion effect by the blocking object may be different for each of the first acoustic path and the second acoustic path.
  • a blocking object may exist only in either the first acoustic path or the second acoustic path.
  • the object on the first acoustic path and the object on the second acoustic path may be different.
  • a method for the audio signal processing apparatus to classify the first acoustic path and the second acoustic path to simulate the acoustic eclipse effect will be described in detail with reference to FIG. 6 through FIG.
  • FIG. 2 is a block diagram showing a configuration of an audio signal processing apparatus 10 according to an embodiment of the present disclosure.
  • the audio signal processing apparatus 10 may further include components not shown in Fig.
  • the audio signal processing apparatus 10 may include at least two or more different components as one unit.
  • the audio signal processing apparatus 10 may be implemented as one semiconductor chip.
  • each component may be implemented through a hardware component, such as a separate circuit
  • the audio signal processing apparatus 10 may include a receiving unit 11, a processor 12, and an output unit 13.
  • the receiving unit 11 may receive an input audio signal input to the audio signal processing apparatus 10.
  • the receiving unit 11 can receive an input audio signal to be processed by the processor 12 for audio signal processing.
  • the output unit 13 may also transmit the output audio signal generated by the processor 12.
  • the input audio signal may include at least one of an object signal, an ambsonic signal, and a channel signal.
  • the output audio signal may be an audio signal rendered from the input audio signal.
  • the receiving unit 11 may receive an input audio signal input to the audio signal processing apparatus 10.
  • the receiving unit 11 can receive an input audio signal to be processed by the processor 12 for audio signal processing.
  • the receiving unit 11 may include receiving means for receiving an audio signal.
  • the receiving unit 11 may include an audio signal input / output terminal for receiving an audio signal transmitted through a wire.
  • the receiving unit 11 may include a wireless audio receiving module for transmitting and receiving an audio signal transmitted wirelessly.
  • the receiving unit 11 can receive an audio signal wirelessly transmitted using a Bluetooth or Wi-Fi communication method.
  • the receiving unit 11 may receive a bitstream encoded from the input audio signal.
  • the decoder may be implemented through the processor 12, which will be described later.
  • the receiving unit 11 may receive information related to the input audio signal together with the input audio signal.
  • the bitstream may additionally include information related to the input audio signal in addition to the input audio signal. This will be described in detail with reference to FIG. 17 through FIG.
  • the receiving unit 11 may include one or more components communicating with other devices outside the audio signal processing apparatus 10. [ Also, the receiving unit 11 may include at least one antenna for receiving the bit stream. Also, the receiving unit 11 may include hardware for wired communication for receiving the bit stream.
  • the processor 12 can control the overall operation of the audio signal processing apparatus 10. [ The processor 12 can control each component of the audio signal processing apparatus 10. The processor 12 may perform arithmetic processing and processing of various data and signals.
  • the processor 12 may be implemented in hardware in the form of a semiconductor chip or an electronic circuit, or may be implemented in software that controls hardware.
  • the processor 12 may be implemented as a combination of hardware and software.
  • the processor 12 can control the operations of the receiving unit 11 and the output unit 13 by executing at least one program included in the software.
  • the processor 12 may execute at least one program to perform operations of the audio signal processing apparatus 10 described in Figs. 3 to 23, which will be described later.
  • the processor 12 may render the input audio signal based on the spatial information and the listener information to generate an output audio signal.
  • the spatial information may include information about a plurality of objects included in a virtual space in which the input audio signal is simulated.
  • the information on the plurality of objects may include at least one of the position, the structural characteristic, or the physical characteristic of each of the plurality of objects.
  • the structural characteristics of the object may include at least one of the size or the shape of the object.
  • the physical property of the object may include at least one of information indicating the material of the object or the transmittance of the object.
  • the listener information may also include information associated with the listener in the virtual space. Specifically, the listener information may include listener position information indicating the position of the listener in the virtual space. In addition, the listener information may include head direction information indicating the head direction of the listener according to the head movement of the listener. Head direction information can be acquired in real time via the head-mounted display and sensors attached to the hardware. Also, the listener's location and heading direction information may be obtained based on the user's input. At this time, the user may be a user who controls the operation of the listener in a game environment provided by a device such as a PC or a mobile. The listener information may include head size information indicating the head size of the listener.
  • the processor 12 may estimate the position of both ears of the listener based on the listener's location information and the listener's head size information. Or the processor 12 may obtain the position of both ears of the listener via the listener information including information about the position of both ears of the listener. For example, the processor 12 may receive at least one of spatial information or listener information through the receiving unit 11 described above. The processor 12 may receive the spatial information corresponding to the input audio signal together with the input audio signal through the receiving unit 11. [ The way in which the processor 12 receives the spatial information will be described later with reference to Figs. 17 to 19. Fig. In addition, the processor 12 may further perform post-processing on the output audio signal.
  • Post processing may include at least one of crosstalk removal, dynamic range control (DRC), volume normalization, and peak limiting.
  • the audio signal processing apparatus 10 may include a separate post-processing unit for performing post-processing, and the post-processing unit may be included in the processor 12 according to another embodiment.
  • the output unit 13 can output the output audio signal.
  • the output unit 13 may output the output audio signal generated by the processor 12.
  • the output unit 13 may include at least one output channel.
  • the output audio signal may be a two-channel output audio signal corresponding to the amount of the listener, respectively.
  • the output audio signal may be a binaural 2-channel output audio signal.
  • the output unit 13 can output the 3D audio headphone signal generated by the processor 12.
  • the output unit 13 may comprise output means for outputting an output audio signal.
  • the output unit 13 may include an output terminal for outputting the output audio signal to the outside.
  • the audio signal processing apparatus 10 can output an output audio signal to an external device connected to the output terminal.
  • the output unit 13 may include a wireless audio transmission module for outputting an output audio signal to the outside.
  • the output unit 13 can output an output audio signal to an external device using a wireless communication method such as Bluetooth or Wi-Fi.
  • the output unit 13 may include a speaker.
  • the audio signal processing apparatus 10 can output the output audio signal through the speaker.
  • the output unit 13 may include a plurality of speakers arranged according to a predetermined channel layout.
  • the output unit 13 may further include a converter (e.g., a digital-to-analog converter (DAC)) for converting the digital audio signal into an analog audio signal.
  • DAC digital-to-analog converter
  • the apparatus for processing an audio signal can determine whether there is an object blocking between a sound source and a listener based on information about a virtual space.
  • the information about the virtual space may include position information indicating the position of the sound source based on the listener and the position of each of the plurality of objects included in the virtual space.
  • the audio signal processing apparatus can binaurally render the input audio signal based on the determination result to generate an output audio signal. For example, if there is no blocking object, then the audio signal processing device may not use the information associated with the blocking object in filtering the input audio signal.
  • the audio signal processing device can filter the input audio signal based on the information associated with the blocking object. In this case, the audio signal processing apparatus can binaurally render the input audio signal using the HRTF corresponding to the additional position in addition to the head related transfer function (HRTF) corresponding to the sound source.
  • HRTF head related transfer function
  • an object W in the acoustic path between the sound source and the listener there may be an object W in the acoustic path between the sound source and the listener.
  • the object W may be an object other than a listener and a sound source.
  • the sound source of the input audio signal to be processed by the audio signal processing apparatus may be a sound source O occluded by the object W in the listener A position.
  • the audio signal processing apparatus can simulate the effect of the archery by the object W.
  • the effect of the occlusion by the object W can be modeled as a transmission sound, a diffraction sound, and a reflection sound representing a direct sound attenuated through the object W.
  • the audio signal processing apparatus can generate a transmission audio signal, a diffraction audio signal, and a reflection audio signal corresponding to the transmission sound, the diffraction sound, and the reflection sound, respectively, based on the input audio signal.
  • the output audio signal described in this disclosure may include at least one of a transmitted audio signal, a diffracted audio signal, or a reflected audio signal.
  • FIG 3 is a diagram illustrating a method by which an audio signal processing apparatus according to an embodiment of the present disclosure generates a transmission audio signal based on an input audio signal.
  • the audio signal processing apparatus when the transmittance of the object W is equal to or greater than the reference transmittance, the audio signal processing apparatus can generate a transparent audio signal based on the transmission attenuation gain. If the transmittance of the object is less than the reference transmittance, the audio signal processing apparatus may not generate the transparent audio signal. If the transmittance of the object is less than the reference transmittance, it may be similar to the case where there is no transmitted sound passing through the object to the listener.
  • an audio signal processing apparatus may binaurally render an input audio signal based on a transmission attenuation gain to produce a transmitted audio signal.
  • the audio signal processing apparatus can generate the transparent audio signal by adjusting the size of the input audio signal with the transmission attenuation gain.
  • the transmission attenuation gain may indicate a ratio of the size of the transmission audio signal to the size of the input audio signal.
  • the transmission attenuation gain may be a filter coefficient that models the ratio of the lost sound as it passes through the object W.
  • the audio signal processing apparatus may multiply an input audio signal by a transmission attenuation gain to generate a transmission audio signal.
  • the audio signal processing apparatus may filter the input audio signal corresponding to the sound source O based on the length x of the section in which the direct acoustic path overlaps with the object W.
  • the audio signal processing apparatus can determine the attenuation gain based on the length (x).
  • the attenuation gain may become smaller as the length (x) of the section in which the acoustic path overlaps with the object W is longer. This is because the longer the length (x) of the section through which the original sound output from the sound source passes through the object, the greater the degree of attenuation of the transmitted sound transmitted to the listener.
  • the attenuation gain may be inversely proportional to the length (x).
  • the audio signal processing apparatus can calculate the length x based on the position of the sound source and the position of the object W with respect to the listener. Further, the audio signal processing apparatus can calculate the length (x) based on the shape of the object (W).
  • the audio signal processing apparatus can filter the input audio signal based on the acoustic transmittance of the object W. Specifically, the audio signal processing apparatus can determine the transmission attenuation gain based on the acoustic transmittance of the object W.
  • the acoustic transmittance may indicate the degree to which the object W passes the sound.
  • the acoustic transmittance of the object W may vary depending on the material constituting the object W.
  • the acoustical transmittance may vary according to the frequency component of the audio signal. In the present disclosure, a frequency component may represent a frequency bin of a predetermined magnitude.
  • the audio signal processing apparatus can determine the acoustic transmittance based on the information about the material constituting the object W. [
  • the first material may transmit an audio signal relatively more than the second material.
  • the acoustic transmittance of the object W may be higher than other objects constituted of the second material.
  • the transmittance of the third material may be different from that of the fourth material.
  • the third material may transmit the first frequency component relatively more than the second frequency component.
  • the acoustic transmittance of the object W may be relatively high in the first frequency component as compared to the second frequency component.
  • the first frequency component and the second frequency component may be frequency bands differentiated based on a predetermined frequency in the entire frequency domain.
  • the first frequency component may be a frequency band lower than a predetermined frequency.
  • the second frequency component may be a frequency band higher than a predetermined frequency.
  • the audio signal processing apparatus can binaurally render the input audio signal based on the HRTF and the attenuation gain corresponding to the sound source to generate a transmission audio signal.
  • the audio signal processing apparatus can obtain the HRTF corresponding to the sound source based on the head direction of the listener and the position of the sound source.
  • the HRTF may include the east side HRTF and the large side HRTF pair.
  • the transfer functions include a Head Related Transfer Function (HRTF), an Interaural Transfer Function (ITF), a Modified ITF (MITF), a Binaural Room Transfer Function (BRTF), a Room Impulse Response (RIR), a Binaural Room Impulse Response ), Head Related Impulse Response (HRIR), and modified and edited data thereof, and the present disclosure is not limited thereto.
  • the audio signal processing apparatus can acquire the transfer function from a separate database.
  • the transfer function is a Fast Fourier Transform (IR) of an impulse response, but the method of conversion is not limited thereto.
  • the transform method may include at least one of a Quadratic Mirror Filterbank (QMF), a Discrete Cosine Transform (DCT), a Discrete Sine Transform (DST), or a wavelet.
  • QMF Quadratic Mirror Filterbank
  • DCT Discrete Cosine Transform
  • DST Discrete Sine Transform
  • the audio signal processing apparatus can obtain H0 which is the HRTF corresponding to the sound source. Further, the audio signal processing apparatus can generate a transparent audio signal based on H0 and the above-described attenuation gain.
  • FIGS. 4 and 5 are diagrams illustrating a method by which an audio signal processing apparatus according to an embodiment of the present disclosure generates a diffracted audio signal based on an input audio signal.
  • the audio signal processing device may determine a diffraction point at which the acoustic corresponding to the input audio signal is diffracted at the surface of the blocking object.
  • the sound output from the sound source can be diffracted at the diffraction point on the surface of the blocking object to reach the listener.
  • the audio signal processing apparatus can determine at least one diffraction point based on the shape of the blocking object.
  • the audio signal processing apparatus can determine at least one diffraction point based on the diffraction distance at the surface of the blocking object.
  • the audio signal processing apparatus can determine a point at which the diffraction distance is the smallest among the points on the surface of the blocking object as the diffraction point.
  • the diffraction distance may represent the sum of the first path from the source to the first point on the blocking object surface and the distance of each of the second path from the first point to the listener.
  • the first path and the second path may be shortest paths that do not cross the blocking object.
  • the longer the distance the sound is diffracted the smaller the size of the sound reaching the listener and the less the characteristics of the audio signal can be transformed.
  • the longer the diffraction distance the greater the degree of attenuation, which may be ineffective to reproduce the effect of the occlusion relative to the required computational complexity.
  • the audio signal processing apparatus can efficiently model the diffracted sound based on the diffracted distance.
  • the shortest path that does not intersect the blocking object may pass through a plurality of points on the surface of the blocking object.
  • the audio signal processing apparatus can determine the last point where the diffraction path of the sound output from the sound source meets the blocking object as the diffraction point.
  • the diffraction path represents the entire first path and the second path.
  • the audio signal processing device can binaurally render the input audio signal based on the last point at which the acoustic path of the acoustic to be diffracted abuts the blocking object to produce a diffracted audio signal.
  • the diffraction distance with respect to the point a on the surface of the blocking object W is determined by the first distance from the position O of the sound source to the point a and the distance from the point a to the listener A It can be the sum of two distances.
  • the audio signal processing apparatus can determine the point (a) having the smallest diffraction distance as the diffraction point.
  • Point (a) may be one point with the shortest diffraction distance among the plurality of points on the surface of the blocking object.
  • the audio signal processing apparatus may generate a diffraction audio signal based on a plurality of diffraction points.
  • the audio signal processing apparatus can divide the blocking object into a plurality of regions to determine a diffraction point for each region.
  • the audio signal processing apparatus can determine a point corresponding to the shortest diffraction distance for each divided region as a diffraction point for each region.
  • the audio signal processing apparatus can divide the blocking object based on at least one of the size and the shape of the object.
  • the audio signal processing apparatus can divide the blocking object into a plurality of regions by referring to a coordinate axis representing a blocking object in a virtual space.
  • the blocking object may be a two-dimensional or a three-dimensional object.
  • the audio signal processing apparatus can divide a blocking object into a first area including a point a and a second area including a points b and c, based on a side including a point a and a point c have.
  • the audio signal processing apparatus can determine the point a having the shortest diffraction distance in the first region as the diffraction point in the first region.
  • the audio signal processing apparatus can determine the point c having the shortest diffraction distance in the second region as the diffraction point in the second region.
  • the diffraction distance corresponding to the point c may be the distance from the sound source O to the point b, the distance from the point b to the point c, and the distance from the point c to the listener.
  • the diffraction path of the diffracted sound in the second region can cross a plurality of points on the surface of the blocking object.
  • the audio signal processing apparatus can determine the point c, which is the last point where the diffraction path of the sound output from the sound source meets the blocking object, as the diffraction point. Further, the audio signal processing apparatus can binaurally render the input audio signal based on the point c. This will be described later.
  • the audio signal processing apparatus can limit the number of diffraction points. For example, the audio signal processing apparatus can determine the maximum number of diffraction points. In addition, the audio signal processing apparatus can generate a diffracted audio signal based on the number of diffraction points that is equal to or less than the maximum number of diffraction points. For example, the audio signal processing apparatus can generate a diffracted audio signal corresponding to each diffraction point based on a maximum number of diffraction points, among the diffraction points for each region.
  • the audio signal processing apparatus can determine the diffraction points corresponding to the maximum number or less from the diffraction point having the shortest diffraction distance to the shortest diffraction distance, based on the diffraction distance. For example, when the maximum number of diffraction points is two and the blocking object is divided into three regions, the audio signal processing apparatus generates a first diffraction audio signal based on the first diffraction point corresponding to the shortest diffraction distance . At this time, if there is one point corresponding to the shortest diffraction distance, the audio signal processing apparatus can generate the second diffraction audio signal based on the second diffraction point corresponding to the second shortest diffraction distance.
  • the number of different diffraction points corresponding to the same diffraction distance may be larger than the remaining number of diffraction points.
  • the audio signal processing apparatus can select any point corresponding to the maximum number of diffraction points remaining among the different points corresponding to the same diffraction distance.
  • the audio signal processing apparatus can set the diffraction point so that the distance between the selected diffraction points becomes maximum. Further, according to one embodiment, the audio signal processing apparatus can determine the maximum number of diffraction points based on the processing performance of the audio signal processing apparatus.
  • the processing performance may include the processing speed of the processor included in the audio signal processing apparatus. Since the resources that can be allocated to the operation for generating the diffracted audio signal can be limited depending on the processing speed of the processor.
  • the processing capabilities of the audio signal processing apparatus may include the computing power of the memory or GPU included in the audio signal processing apparatus.
  • the audio signal processing apparatus may determine a point at which the diffraction distance along each point on the surface of the blocking object is shorter than a predetermined distance as the diffraction point. The longer the diffraction distance becomes, the greater the degree of attenuation becomes, and the reproduction of the effect of the arcucation relative to the required computation amount may be ineffective.
  • the audio signal processing apparatus may not generate the diffraction audio signal.
  • the diffraction distance based on the point c is longer than the predetermined length, and the diffraction distance based on the point a may be shorter than the predetermined distance.
  • the audio signal processing apparatus may determine only the point a as the diffraction point. If there is no point having a diffraction distance shorter than the predetermined distance, the audio signal processing apparatus can not determine the diffraction point. On the other hand, when there are a plurality of points having a diffraction distance shorter than a predetermined distance, the audio signal processing apparatus can select some of the plurality of points.
  • the predetermined distance may be a value set based on the distance from the sound source to the listener.
  • the predetermined distance may be set to a larger value as the distance from the sound source to the listener becomes longer.
  • the audio signal processing apparatus can obtain the HRTF corresponding to the diffraction point based on the head direction and the diffraction point of the listener.
  • the HRTF may be an HRTF corresponding to a different location from the HRTF used to generate the transmitted audio signal.
  • the audio signal processing apparatus can obtain the HRTF corresponding to the diffraction point with respect to the head direction of the listener.
  • the audio signal processing apparatus can obtain H1 different from H0 which is the HRTF corresponding to the position of the sound source.
  • H1 may be the HRTF corresponding to the diffraction point (a) with respect to the head direction of the listener.
  • the audio signal processing apparatus can obtain the HRTF corresponding to each of the plurality of diffraction points based on the position of the listener. Further, the audio signal processing apparatus can binaurally render the input audio signal using the HRTF corresponding to the diffraction point. The audio signal processing apparatus may binaurally render the input audio signal using the HRTF corresponding to the diffraction point to generate a diffracted audio signal. As described above, the diffraction path can cross a plurality of points on the surface of the blocking object. In this case, the audio signal processing apparatus can binaurally render the input audio signal to generate a diffracted audio signal based on the HRTF corresponding to the last point where the diffraction path of the sound output from the sound source meets the blocking object.
  • the audio signal processing apparatus can generate the diffracted audio signal based on the diffraction distance.
  • the audio signal processing apparatus can generate the diffracted audio signal by attenuating the input audio signal based on the diffraction distance corresponding to the diffraction point.
  • the size of the sound output from the sound source is attenuated according to the diffraction distance.
  • the audio signal processing apparatus can determine the diffraction attenuation gain by diffraction based on the diffraction distance along the diffraction point.
  • the audio signal processing device may multiply the input audio signal by a diffraction attenuation gain. At this time, the audio signal processing apparatus can determine the diffraction damping gain differently for each frequency component.
  • the audio signal processing apparatus can set the attenuation gain so that the degree of attenuation becomes smaller as the frequency becomes lower.
  • the diffracted sound can be delayed compared to the direct sound. This is because the path through which the sound output from the sound source is transmitted to the listener becomes longer.
  • the audio signal processing apparatus can generate the diffracted audio signal by delaying the input audio signal based on the diffraction distance.
  • the audio signal processing apparatus may mix the transmission audio signal and the diffraction audio signal generated by the method described with reference to FIG. 3 to generate an output audio signal.
  • the audio signal processing device may mix the binaurally rendered transmitted audio signal and the diffracted audio signal for each ear of the listener.
  • the acoustic path from the sound source to the head center of the listener and the acoustic path from the sound source to both ears of the listener may be different from each other. Accordingly, the influence of the object W on each acoustic path from the sound source to both ears of the listener can be changed.
  • the object W may be located on the second acoustic path from the sound source to the listener's right ear, while the object W is not located on the first acoustic path from the sound source to the listener's left ear. have.
  • different objects may be located in each of the first acoustic path and the second acoustic path.
  • the audio signal processing apparatus may model different transfer functions for the first acoustic path and the second acoustic path, respectively.
  • the audio signal processing apparatus can determine an azimuth angle and an elevation angle corresponding to a position O of a sound source from a center of a listener's head in a virtual space.
  • the audio signal processing apparatus can binaurally render the input audio signal corresponding to the sound source using the transfer function H0 corresponding to the determined azimuth and elevation angles.
  • the reference distance may represent the measured distance of the HRTF set including the HRTF based on the listener.
  • the transfer function H0 may be part of the HRTF set (set) measured based on the reference distance R.
  • the set of HRTFs may be a set of transfer functions centered at the listener ' s head center and representing properties measured at points on the sphere with the reference distance R as a radius.
  • the audio signal processing apparatus can use the transfer function H0 obtained by the above-described method. However, if the head size of the listener (or the distance between the ears) is greater than or equal to a threshold distance set with respect to the HRTF measurement distance R, and the audio signal processing device is binaurally rendering using the transfer function H0, Performance may be degraded. As shown in FIGS. 7 and 8, the HRTF obtained based on the position of each ear of the listener and the HRTF obtained based on the position of the head center of the listener are different.
  • the HRTF set having various reference distances is configured to improve the performance of the binaural rendering
  • the number of points to be measured by the apparatus for generating the HRTF set may increase.
  • the database may be difficult to store all of the HRTF sets measured at various reference distances.
  • Figs. 7 and 8 are diagrams showing HRTF pairs obtained when the distance from the listener to the sound source is located closer or farther than the reference distance at which the HRTF set is generated.
  • the angle from the left ear to the sound source of the listener with respect to the head direction of the listener is theta_c.
  • the angle from the right ear to the sound source of the listener based on the head direction of the listener is theta_i.
  • theta_c and theta_i may be different from each other.
  • theta_c and theta_i are different from the angle theta_O from the center of the listener's head to the sound source with respect to the listener's head direction.
  • the acoustic path from the source to both ears of the listener may be different from the acoustic path from the source to the listener's head center.
  • the transfer function reference positions Hi and Hc transferred on the spherical surface having the measured reference distance R as the radius of the HRTF set may be different from the transfer function H0 obtained on the basis of the head center of the listener.
  • the audio signal processing apparatus can obtain the HRTF corresponding to different positions for each of the listeners' ears based on the reference distance at which the HRTF set is generated and the distance between the sound source and the listener.
  • the audio signal processing apparatus can obtain the east side HRTF and the large side HRTF corresponding to the east side and the large side of the listener, respectively, based on the reference distance, the position of each of the listener's ears, and the position of the source.
  • the east side (left) HRTF may be the HRTF corresponding to the left ear of the listener in the transfer function pair corresponding to the position of Hc.
  • the opposite (right) HRTF may be the HRTF corresponding to the right ear of the listener in the transfer function pair corresponding to the position of Hi.
  • the audio signal processing apparatus can binaurally render the input audio signal based on the obtained east side HRTF and the opposite side HRTF to generate an output audio signal.
  • the audio signal processing apparatus can determine the presence or absence of a blocking object independently of each of the east side and the large side of the listener from the sound source based on the positions of the ears of the listener. This is because the influence of the object can be changed according to the position of both ears of the listener and the positional relationship of the sound source corresponding to the input audio signal. Specifically, the audio signal processing apparatus can determine whether there is an obstacle between the sound source corresponding to the input audio signal and the east side of the listener based on the information about the virtual space. Further, the audio signal processing apparatus can determine whether there is an obstacle between the sound source corresponding to the input audio signal and the opposite side of the listener, based on the information about the virtual space.
  • FIG. 9 is a diagram showing the operation of the audio signal processing apparatus when the presence or absence of an object is different in each acoustic path between each of the ears of the listener and the sound source.
  • the audio signal processing apparatus can generate an output audio signal using the HRTF obtained at different positions for each of the east side and the large side corresponding to each of the ears of the listener, as in Figs. 7 and 8.
  • the output audio signal may include an east-side output audio signal and a large-side output audio signal.
  • no blocking object may be located in the first acoustic path between the sound source and the left ear L of the listener.
  • the audio signal processing apparatus may not apply the effect of the object W to the left output audio signal for the left ear (L) of the listener.
  • the output audio signal for the left ear (L) of the listener may be closer to the actual sound than not to apply the archiving effect by the object W.
  • the audio signal processing apparatus can apply the effect of the object W to the right output audio signal for the right ear (R) of the listener.
  • the audio signal processing apparatus can generate the left output audio signal based on the left transfer function Hi.
  • the audio signal processing apparatus can generate a right output audio signal in which the transmission audio signal and the diffraction audio signal are mixed based on the information on the right transfer function Hc and the blocking object.
  • an audio signal processing apparatus is characterized in that the sound diffracted at the diffraction point determined by the method described above with reference to Figs. 4 and 5 is diffracted at another point on the surface of the blocking object including the diffraction point Thereby generating an indirectly diffracted audio signal that is delivered to the listener.
  • the blocking object may mask only one of the acoustic paths corresponding to each of the ears of the listener.
  • the output audio signal corresponding to the other one may not include the diffracted audio signal.
  • the audio signal processing device can provide a realistic audio signal to the user.
  • the indirect diffraction spot may represent a diffraction spot determined with the diffraction spot as a virtual sound source.
  • the indirectly diffracted audio signal may be an audio signal simulating an indirect diffraction sound.
  • the indirect diffraction sound may be sound output from the source and diffracted at the surface of the blocking object diffracted at other points of the same blocking object surface and delivered to the listener.
  • the diffraction spot rather than the indirect diffraction spot is referred to as a direct diffraction spot.
  • the indirect diffraction point may be a diffraction point determined by using the direct diffraction point as a virtual sound source.
  • the audio signal processing apparatus includes a first path from a sound source to a direct diffraction point, a third path from the direct diffraction point to the indirect diffraction point, and a point where the sum of the distances of the fourth path from the indirect diffraction point to the listener is minimum, Can be determined as a point.
  • each path may be a shortest path that does not traverse the blocking object, like the first path and the second path described in Fig.
  • FIG. 10 is a diagram illustrating an example in which an output audio signal according to an embodiment of the present disclosure is configured differently for each ear of the listener.
  • no blocking object is located in the first acoustic path between the sound source and the left ear (L) of the listener, and the blocking object may be located in the second acoustic path between the sound source and the listener's right ear (R) .
  • the diffraction points for the first acoustic path may be D1 and D3.
  • the audio signal processing apparatus can generate the right diffracted audio signal based on the diffraction points D1 and D3 on the surface of the blocking object.
  • the audio signal processing apparatus can binaurally render the input audio signal based on the transfer function HD1 corresponding to the diffraction point D1 to generate a first right diffracted audio signal. Further, the audio signal processing apparatus can binaurally render the input audio signal on the basis of the transfer function HD3 corresponding to the diffraction point D3 to generate the second right-hand diffraction audio signal. In addition, the audio signal processing apparatus can binaurally render the input audio signal on the basis of the right transfer function Hi to generate a transparent audio signal. Next, the audio signal processing apparatus may mix the transmission audio signal, the first right-hand diffraction audio signal, and the second right-hand diffraction audio signal to generate a right output audio signal.
  • the left output audio signal corresponding to the second acoustic path may not include the diffracted audio signal. In the case of the second acoustic path, it does not overlap with the blocking object. However, the audio signal processing apparatus may generate a left output audio signal including an indirectly diffracted audio signal. Referring to FIG. 10, the audio signal processing apparatus may generate the indirectly diffracted audio signal by using the diffraction points D1 and D3 for the first acoustic path as virtual sound sources. First, in the case of D1, the shortest path from D1 to the left ear (L) of the listener may not pass through the other point of the blocking object, so that an indirect diffraction sound may not exist.
  • the audio signal processing apparatus can determine the point D2 as the indirect diffraction point. Further, the audio signal processing apparatus can render the input audio signal based on the indirect diffraction point D2. For example, the audio signal processing apparatus can binaurally render the input audio signal based on the transfer function HD2 corresponding to the diffraction point D2 to generate an indirectly diffracted audio signal.
  • the method for determining the direct diffraction point described above and the method for generating the diffracted audio signal can be applied in the same or corresponding manner to each of the method for determining the indirect diffraction spot and the method for generating the indirect diffraction audio signal.
  • the audio signal processing apparatus may attenuate an input audio signal based on an indirect diffraction distance at which the sound output from the sound source reaches the listener through the direct diffraction point and the indirect diffraction point.
  • the audio signal processing apparatus can generate an indirectly diffracted audio signal by delaying the input audio signal based on the indirect diffraction distance.
  • the audio signal processing apparatus can directly generate an audio signal based on the left transfer function Hc.
  • the audio signal processing apparatus can mix the direct audio signal and the left diffracted audio signal to generate a left output audio signal.
  • the audio signal processing apparatus can determine whether to generate an indirectly diffracted audio signal based on the size of the blocking object. For example, if the size of the blocking object is smaller than the head size of the listener, the audio signal processing apparatus can generate an indirectly diffracted audio signal. In this case, modeling the indirect diffraction sound by the audio signal processing apparatus can help provide a sense of reality to the user. On the other hand, when the size of the blocking object is larger than the head size of the listener, the audio signal processing apparatus may not generate the indirectly diffracted audio signal. Further, the audio signal processing apparatus can determine whether to generate the indirectly diffracted audio signal based on at least one of the position and the shape of the blocking object.
  • FIG. 11 is a diagram illustrating a method by which an audio signal processing apparatus according to an embodiment of the present disclosure generates a reflected audio signal. 11, no blocking object is located in the first acoustic path between the sound source and the left ear (L) of the listener, and the blocking object may be located in the second acoustic path between the sound source and the listener's right ear (R) .
  • the audio signal processing device can determine the reflection point at which the sound corresponding to the input audio signal is reflected at the surface of the blocking object. Specifically, the audio signal processing apparatus can determine the reflection point based on the position, size, and shape of the blocking object. The audio signal processing apparatus can determine, as a reflection point, a point where the reflection angle and the incident angle on the surface of the blocking object become equal to each other based on the position of the sound source and the position of the listener. For example, the audio signal processing apparatus can determine, as the reflection point, a point at which the angle of incidence from the sound source at the surface of the blocking object becomes equal to the reflection angle from the listener to the listener.
  • the audio signal processing apparatus can binaurally render the input audio signal based on the position of the listener's head direction and the reflection point to generate a reflected audio signal.
  • the audio signal processing apparatus can obtain the HRTF corresponding to the reflection point based on the position of the listener's head direction and the reflection point.
  • the audio signal processing apparatus can obtain the transfer function HR corresponding to the reflection point R '.
  • the audio signal processing apparatus can binaurally render the input audio signal based on the transfer function HR to generate a reflected audio signal.
  • the audio signal processing apparatus can generate the reflected audio signal based on the information about the blocking object.
  • the information about the blocking object may include the acoustic reflectance of the object.
  • Acoustic reflectance can indicate the magnitude ratio of the sound reflected by the object to the acoustic contrast before being reflected.
  • the audio signal processing apparatus can determine the reflection attenuation gain based on at least one of the information indicating the material constituting the blocking object or the reflectance of the blocking object. This is because the reflection attenuation gain may vary depending on the material constituting the blocking object.
  • the audio signal processing apparatus can generate the reflected audio signal based on the reflection distance indicating the length of the reflection path. Specifically, the audio signal processing device can generate a reflected audio signal by attenuating the input audio signal based on the reflection distance corresponding to the reflection point. The size of the reflected sound transmitted to the listener is attenuated compared to the sound output from the sound source according to the reflection distance. Specifically, the audio signal processing apparatus can determine the reflection attenuation gain due to reflection based on the reflection distance along the reflection point. Also, the reflected sound can be delayed compared to the direct sound. This is because the path through which the sound output from the sound source is transmitted becomes longer.
  • the audio signal processing apparatus can generate the diffracted audio signal by delaying the input audio signal based on the reflection distance.
  • the audio signal processing apparatus may mix the direct audio signal, the indirectly diffracted audio signal, and the reflected audio signal generated by the above-described method to generate a left output audio signal.
  • the audio signal processing apparatus can mix the transmission audio signal and the diffraction audio signal generated by the above-described method to generate a right output audio signal.
  • an audio signal processing apparatus can generate a reverberant audio signal corresponding to a room reverberation due to a virtual space of sound output from a sound source.
  • the reverberation may be performed in the post-processing process by the processor 12 described above.
  • 12 is a diagram showing a method of generating a reverberation audio signal corresponding to each of the two ears of the listener.
  • the listener in the virtual space may be located at the boundary of the divided space to have different reverberation characteristics as shown in FIG. In this case, both ears of the listener can acquire sound through spaces having different reverberation characteristics.
  • the audio signal processing apparatus can generate a reverberant audio signal for each of the listeners 'ears, based on the reverberation filter corresponding to the divided space where each of the listeners' ears is located.
  • the audio signal processing apparatus may filter the input audio signal based on different reverberation filters for each of the right and left of the listener .
  • the audio signal processing apparatus can determine the right reverberation filter and the left reverberation filter corresponding to the right and left sides of the listener, respectively, based on the position of each of the listeners' ears.
  • the audio signal processing apparatus binaurally renders an input audio signal on the basis of the right reverberation filter and the left reverberation filter, thereby generating a reverberant audio signal corresponding to each of the right and left sides of the listener.
  • the audio signal processing apparatus can generate a reverberant audio signal for the left ear based on the first reverberation filter generated based on the characteristics of the space R_A.
  • the audio signal processing apparatus can generate a reverberant audio signal for the right ear based on the second reverberation filter generated based on the characteristics of the space R_B.
  • the first and second reverberation filters may be filters having different values of at least one filter coefficient.
  • the audio signal processing device may combine the first and second reverberation filters to generate one representative reverberation filter.
  • the audio signal processing apparatus may generate reverberant audio signals for left and right using the representative reverberation filter.
  • the process described below may be a software component that is executed by a hardware configuration such as a processor.
  • the processor 12 described above with reference to FIG. 2 may perform the processing described in FIGS.
  • the audio signal processing apparatus may preprocess the input audio signal based on the spatial information and the listener information (S100).
  • the input audio signal may include a plurality of object signals.
  • the input audio signal may include at least one of an object signal, an ambsonic signal, and a channel signal.
  • the audio signal processing apparatus can generate the intermediate audio signal in which the acoustic acicular effect by the plurality of objects included in the virtual space is simulated.
  • the intermediate audio signal may be one object signal or a monaural signal.
  • an intermediate audio signal may be a multi-channel signal.
  • the audio signal processing apparatus can acquire the HRTF used for binaural rendering based on the spatial information and the listener information.
  • the HRTF may include the east side HRTF and the large side HRTF pair.
  • the audio signal processing apparatus may binaurally render the preprocessed audio signal to generate an output audio signal (S200).
  • the output audio signal may be a binaural signal.
  • the output audio signal may be a 3D audio headphone signal (i.e., a 3D audio 2-channel signal).
  • the audio signal processing apparatus can binaurally render the intermediate audio signal using the HRTF pair obtained in the preprocessing step (S100).
  • the binaural rendering may be performed in the time domain or the frequency domain.
  • the intermediate audio signal may be a two-channel audio signal for each of the listeners' ears.
  • the audio signal processing apparatus may be further subjected to Post-Processing on the output audio signal.
  • Post-processing may include Cross-Talk Cancellation, Dynamic Range Control (DRC), Volume Normalization, Peak Limiter, and Reverberator.
  • the post-processing can be performed in the time domain or the frequency domain as well as the binaural rendering.
  • the audio signal processing apparatus may perform frequency / time domain conversion of the output audio signal in the post-processing process.
  • the audio signal processing apparatus may include a post-processing block processor for performing post-processing. Or post-processing may be performed through the processor 12 of FIG.
  • an audio signal processing apparatus may analyze an acoustic space (S110).
  • the audio signal processing apparatus can analyze the acoustic path from the sound source to both ears of the listener based on the position of the listener.
  • the audio signal processing apparatus can determine whether there is a blocking object between the listener and the sound source based on the acoustic path.
  • the audio signal processing apparatus can determine whether a blocking object exists based on the position of the sound source, the position of the listener, and the position of each of a plurality of objects included in the virtual space.
  • the audio signal processing apparatus can determine at least one blocking object from among a plurality of objects.
  • the audio signal processing apparatus can generate the modeling information based on the object-related information of each of the determined blocking objects.
  • the object related information may be in the form of metadata for the input audio signal.
  • the object-related information may include positional information of the object.
  • the object-related information may include attribute information indicating whether the object is a sound object or a non-sound object.
  • the blocking object may be a non-sound object.
  • the blocking object may also be a passive object, a non-audio object, a scene object, a visual object, an acoustic object, an acoustic element, , An occluder, a reflector, or an absorber.
  • the object-related information may include information on the material constituting the object.
  • the information about the material may include at least one of sound absorption rate, reflectance, transmittance, diffraction rate, and scattering rate for each frequency component of the material constituting the object.
  • the object-related information may include a frequency response characteristic in which information about a material constituting the object is reflected.
  • the audio signal processing apparatus may selectively transmit an audio signal on which binaural rendering is performed based on object-related information of each object. Specifically, the audio signal processing apparatus may not select the first audio signal corresponding to each of the at least one sound source blocked by the first blocking object, when the transmittance of the first blocking object is less than the reference transmittance. In this case, the audio signal processing apparatus may binaurally render an input audio signal except for the first audio signal to generate an output audio signal.
  • the audio signal processing apparatus can generate binaural information necessary for binaural rendering of the intermediate audio signal.
  • the binaural information may include a binaural filter that binaurally renders an audio signal.
  • binaural information may include horizontal angle and elevation angle information of a specific point relative to the listener.
  • the audio signal processing apparatus can generate binaural information based on the listener position information and the listener's head direction information. For example, the audio signal processing apparatus can obtain the horizontal angle and the altitude angle corresponding to the position of the sound source on the basis of the listener. Further, the audio signal processing apparatus may acquire the HRTF corresponding to the position of the sound source on the basis of the listener.
  • the audio signal processing apparatus can generate a binaural filter based on the position, size, and shape of the object. Thereby, the audio signal processing apparatus can model the diffracted sound or the reflected sound. For example, the audio signal processing device may obtain a horizontal angle and an elevation angle representing a specific point on the surface of the object. The audio signal processing device may obtain a binaural filter that is used to generate the output audio signal based on the horizontal angle and the altitude angle representing a specific point on the surface of the object.
  • the binaural information may include Ipsilateral binaural information and contralateral binaural information.
  • the first binaural information and the second binaural information may represent the east side binaural information and the large side binaural information, respectively.
  • the east side binaural information may also include at least one binaural filter for modeling the east side sound.
  • the lateral binaural information may include at least one binaural filter for modeling the major acoustic.
  • an audio signal processing device may use binaural information to simulate acoustic acrobation effects by blocking objects.
  • the audio signal processing apparatus can acquire binaural information including a plurality of binaural filter pairs through the above-described acoustic space analysis (S110). Or the audio signal processing apparatus may obtain binaural information including a plurality of sets of horizontal angle and altitude angles.
  • the audio signal processing apparatus can generate the intermediate audio signal using the binaural information. For example, an audio signal processing apparatus may generate one representative binaural filter pair based on a plurality of binaural filter pairs. At this time, the audio signal processing apparatus can generate a plurality of intermediate audio signals for each of the east side and the large side based on a plurality of binaural filter pairs. This is because the binaural filter pairs used may vary depending on the type of sound being modeled (for example, transmitted sound, diffracted sound, and reflected sound). Further, when there are a plurality of blocking objects located between the listener and one sound source, the binaural filter pair may vary depending on the blocking object.
  • the audio signal processing apparatus may mix a plurality of intermediate audio signals to generate a final intermediate audio signal.
  • the audio signal processing apparatus may generate a representative binaural filter pair through a method of averaging, weighting, or compositing a plurality of binaural filter pairs. In this case, the audio signal processing apparatus can binaurally render the intermediate audio signal based on the generated representative binaural filter pair.
  • the audio signal processing apparatus may generate the intermediate audio signal based on the modeling information obtained in the acoustic space analysis step (S110) (S120).
  • the audio signal processing apparatus can generate an intermediate audio signal by filtering the input audio signal based on the modeling information.
  • the intermediate audio signal may include a plurality of audio signals processed in a different manner from the input audio signal.
  • the intermediate audio signal may include an audio signal that models the transmitted sound through the blocking object.
  • the intermediate audio signal may also include an audio signal that models the diffracted sound diffracted at the surface of the blocking object and the reflected sound reflected at the surface of the blocking object.
  • the audio signal processing apparatus may model the transmitted sound by preprocessing the input audio signal (S121). For example, the audio signal processing apparatus can filter the input audio signal based on the transmittance of the blocking object to generate a transparent audio signal. At this time, the transmittance may be applied to different values depending on the frequency bin of the input audio signal.
  • the audio signal processing apparatus can pre-process the input audio signal to model at least one of the diffracted sound or the reflected sound (S122).
  • the audio signal processing apparatus can model the diffracted sound and the reflected sound based on the time delay and the decay rate generated by the distortion of the acoustic path.
  • the audio signal processing apparatus may filter the input audio signal based on the diffraction point on the surface of the blocking object to generate a diffracted audio signal.
  • the method described in FIG. 4 can be applied to the method by which the audio signal processing apparatus generates the diffracted audio signal.
  • the audio signal processing apparatus can generate a reflected audio signal from the input audio signal based on the reflection point on the surface of the blocking object.
  • the method described in FIG. 11 can be applied to a method by which an audio signal processing apparatus generates a reflected audio signal.
  • the audio signal processing apparatus may generate at least one of the intermediate audio signals by mixing the input audio signal, the transparent audio signal, the diffracted audio signal, and the reflected audio signal, the modeling of which is bypassed (S123).
  • the audio signal processing apparatus can determine the mixing ratio of the input audio signal, the transparent audio signal, the diffracted audio signal, and the reflected audio signal based on the modeling information. Further, the audio signal processing apparatus can mix the input audio signal, the transmission audio signal, the diffraction audio signal, and the reflection audio signal based on the determined mixing ratio. For example, if a blocking object is present, the audio signal processing apparatus may not include the input audio signal to which the modeling is bypassed.
  • the audio signal processing apparatus may omit some processing steps based on the modeling information obtained in the acoustic space analysis (S110).
  • the audio signal processing apparatus can mix the audio signals required for modeling on both the east side and the large side. Specifically, when there is a blocking object only in the acoustic path corresponding to the east side, the audio signal processing apparatus can mix the transmitted audio signal and the diffracted audio signal to generate the east side intermediate audio signal. Further, the audio signal processing apparatus can mix the input audio signal and the reflection audio signal, which modeling is bypassed, to generate a large-side audio signal. Thus, the audio signal processing apparatus can provide more realistic spatial sound to the user.
  • the intermediate audio signal may be a two-channel audio signal corresponding to each of the two ears of the listener.
  • the intermediate audio signal may comprise a first intermediate audio signal and a second intermediate audio signal.
  • the audio signal processing apparatus can analyze the acoustic space by dividing the sound path into left and right (or east side and large side) acoustic paths along both ears of the listener. In this case, the audio signal processing apparatus can process the audio signal according to the divided acoustic paths. For example, in the acoustic spatial analysis process (S110), the audio signal processing apparatus can generate the east side and the large side binaural filters, respectively. Further, in the audio signal preprocessing step (S120), the audio signal processing apparatus can generate the east side intermediate audio signal and the large side intermediate audio signal. In this case, the audio signal processing apparatus can independently process the first intermediate audio signal and the second intermediate audio signal.
  • FIG. 16 is a diagram specifically illustrating the binaural rendering process (S200) illustrated in FIG.
  • the audio signal processing apparatus can independently generate an output audio signal corresponding to each of the east side and the large side.
  • the audio signal processing apparatus may binaurally render the first intermediate audio signal based on the first binaural information obtained in the acoustic space analysis step (S110) to generate a first output audio signal S210).
  • the audio signal processor may binaurally render the second intermediate audio signal based on the second binaural information obtained in the acoustic space analysis step (S110) to generate a second output audio signal (S220) .
  • the audio signal processing apparatus according to the embodiment of FIGS. 17 to 22 may be an audio signal processing apparatus which is the same as or equivalent to the audio signal processing apparatus 10 of FIG. 17 to 23 are block diagrams according to an embodiment of the present disclosure. Blocks that are separately displayed are logically distinguishing elements of the audio signal processing apparatus according to their operations. Further, each unit may be a software component that is executed by a hardware configuration such as a processor. Thus, the operation of each block illustrated in FIGS. 17 through 23 may be performed through an integrated processor including at least one processor. For example, the operation of each block may be performed by the processor 12 of FIG. Accordingly, the same or corresponding portions as those of the embodiment of FIG. 2 in the embodiment of FIGS. 17 to 23 are not described.
  • the audio signal processing apparatus 160 may include a decoder 100, an object renderer 200, an ambienceic renderer 300, a channel renderer 400, and a mixer 500.
  • the audio signal processing apparatus 160 may receive an encoded bit stream from an input audio signal by an apparatus other than the audio signal processing apparatus 160.
  • the decoder 100 may decode the input bitstream.
  • the decoder 100 may decode the bit stream to obtain an input audio signal.
  • the decoder 100 may decode the bitstream using the MPEG-H 3DA standard codec.
  • the input audio signal may comprise a plurality of audio signals that are classified in at least one format.
  • the input audio signal may include at least one of an object signal, an ambsonic signal, or a channel signal.
  • the decoder 100 may classify a plurality of audio signals of different formats included in the input audio signal by format.
  • the decoder 100 may decode the bit stream to obtain side information corresponding to each of the audio signals classified according to the format.
  • the decoder 100 can acquire additional information corresponding to each of an object signal, an ambisonic signal, and a channel signal.
  • the decoder 100 may decode the bit stream to obtain non-sound object side information for a non-sound object that does not make a sound.
  • the virtual space in which the input audio signal is simulated may comprise a non-sound object.
  • the non-sound object may represent various objects involved in interaction between objects in a virtual space in which the input audio signal is simulated.
  • the non-sound object may be an object having no audio signal corresponding to the object.
  • the non-sound object may include at least one of a passive object, a non-audio object, a scene object, a visual object, an acoustic object, an acoustic element, an occluder, a reflector, or an absorber.
  • the non-sound object side information may be included in an acoustic element.
  • an acoustic element may represent a physical object that affects an audio element according to the position and head direction of the listener in a virtual space.
  • the audio element constitutes an audio scene and may be one or more audio signals described by the metadata.
  • the audio element may include at least one of the above-described object signal, ambience signal, or channel signal and additional information corresponding thereto.
  • the audio signal processing apparatus can receive the acoustic element together with the metadata included in the audio object.
  • the audio object may include an audio signal and metadata necessary for simulating a sound source corresponding to the audio signal.
  • the metadata required to simulate the sound source may include location information.
  • the audio object may be an audio object defined by the ISO / IEC 23008-3 standard.
  • the input audio signal includes an object signal, an ambsonic signal, and a channel signal is described as an example, but the present disclosure is not limited thereto.
  • the audio signal of each format classified by the decoder 100 can be rendered in a format-specific renderer.
  • the additional information corresponding to each of the audio signals classified according to the format includes real acoustical environments in which the input audio signal is recorded or 6-DOF (degrees of freedom) coordinates of the speaker layout reproducing the output audio signal .
  • the 6-DOF coordinates may include azimuth angle, elevation angle, distance, yaw, pitch and roll information.
  • the azimuth, elevation angle, and distance may be information indicating the position of the listener.
  • the yaw, pitch and roll may be information indicating the head direction of the listener.
  • the object side information corresponding to the object signal may include directional information such as a directivity pattern of the object.
  • the non-sound object side information may include information for handling the influence of the non-sound object on sound output from a sound source other than the non-sound object.
  • the non-sound object side information may include at least one of a sound absorption ratio, a reflectance, a transmittance, a diffraction rate, and a scattering rate for each frequency component of a material constituting the non-sound object.
  • the user interaction information may include the above-described listener information.
  • the user interaction information may include a listener's head direction and a listener's location. At this time, the head direction of the listener and the position of the listener can be controlled by user input.
  • the user interaction information may include UI (user interface) information such as a sound object moving (sound), playback / stop, and the like.
  • the sound object may be an object in which sound corresponding to the object exists, as opposed to a non-sound object.
  • the sound object may include at least one of an active object, an audio object, an audio element, or a sound source.
  • the renderer corresponding to the format-specific audio signal can generate the intermediate audio signal according to the format of the output audio signal.
  • the output audio signal may be a loud speaker audio signal consisting of a combination of 5.1, 7.1, 5.1.2, 10.2, 22.2 channels, and the like.
  • the output audio signal may be a 2-channel binaural signal output via the headphone / earphone.
  • the output audio signal may be a combination of a speaker output signal and a headphone / earphone output signal.
  • the output audio signal may be an audio signal corresponding to a virtual space simulated with the user wearing an earphone or headphone in a space where the loudspeaker layout is installed.
  • the mixer 500 mixes a plurality of intermediate audio signals generated through the object renderer 200, the ambienceic renderer 300, and the channel renderer 400 to generate an output audio signal.
  • a method of generating an intermediate audio signal in each of the renderers will be described in detail with reference to FIGS. 20 to 23. FIG. Hereinafter, additional information transmitted in various manners will be described.
  • the additional information may be obtained through a separate interface from the input audio signal, unlike the example of Fig. In the embodiment of Figs. 18 and 19, the same or corresponding parts as those of the embodiment of Fig. 17 are not described.
  • 18 is a block diagram showing in detail the configuration of an audio signal processing apparatus 170 according to an embodiment of the present disclosure.
  • the audio signal processing apparatus 170 may include a first parser 171 and a second parser 172.
  • the first parser 171 and the second parser 172 are represented as replacing the decoder 100 of FIG. 17, but each parser may include a decoder internally.
  • the audio signal processing apparatus 170 may include a separate decoder.
  • the audio signal processing apparatus can receive metadata transmitted separately from an input audio signal.
  • the audio signal processing apparatus can receive an input audio signal in the form of pulse-code modulation (PCM) audio.
  • the audio signal processing apparatus may receive the input audio signal through a separate audio codec (Codec) for processing the audio signal.
  • the additional information corresponding to the input audio signal may be parsed through the second parser 172 in addition to the first parser 171 that processes the input audio signal.
  • the first parser 171 can classify the input audio signal into an object signal, an ambience signal, and a channel signal.
  • the first parser 171 can classify the input audio signal according to the format by referring to the track index information on the input audio signal.
  • the second parser 172 may parse the additional information corresponding to the object signal, the ambience signal, and the channel signal, respectively.
  • the second parser 172 can parse the above-described non-sound object side information.
  • FIG. 19 is a block diagram showing in detail the configuration of an audio signal processing apparatus 180 according to an embodiment of the present disclosure.
  • there may be a second object signal received via a separate interface without a decoding process.
  • a voice input interface for example, a microphone or a headset. Examples are situations such as voice communication.
  • the audio signal of each of the plurality of users may be a second input audio signal other than the predetermined first input audio signal.
  • the audio signal processing apparatus can process the second object signal as a separate object signal through the object renderer 200.
  • the object renderer 200 may render the second object signal based on the second object side information.
  • the object renderer 200 may generate an object intermediate audio signal based on an object signal, object side information, non-sound object side information, and user interaction information.
  • the object renderer 200 may include a sound source directivity processing unit 210, an object-to-object (O2O) interaction processing unit 220, and a sound localization processing unit 230.
  • O2O object-to-object
  • the sound source directivity processing unit 210 may filter the object signal output from the object based on the direction information of the object.
  • the sound source directivity processing unit can model the directivity characteristic of the object signal. And the position and direction of the sound source are relatively different depending on the position of the listener and the head direction in the virtual space.
  • the O2O interaction processing unit 220 can process the above-described occlusion effect.
  • the O2O interaction processing unit 220 may perform the operations of the audio signal processing apparatus described with reference to FIGS.
  • the O2O interaction processing unit 220 may generate at least one of a transmitted audio signal, a diffracted audio signal, or a reflected audio signal based on additional information on at least one blocking object.
  • the additional information for the blocking object may include at least one of object side information corresponding to the sound object or non-sound object side information.
  • the sound phase normalization processing unit 230 can process the sound image of the object signal.
  • the sound localization processing unit 230 can filter the object signal based on the layout on which the output audio signal is output. For example, when the output audio signal is output through a loudspeaker layout, the sound image position processing unit 230 generates an object intermediate audio signal using 3D panning such as Vector-Base Amplitude Panning (VBAP) can do. Or the sound localization processing unit 230 may binaurally render the object signal to generate an object intermediate audio signal.
  • the object side information may include an azimuth and an elevation angle of the object corresponding to the object signal. At this time, the image-localization processing unit 230 can binarize the object signal using the HRTF determined based on the object side information.
  • FIG. 21 is a diagram showing an object renderer 201, which further includes a coordinate transformation processing unit 240 according to an embodiment of the present disclosure.
  • the coordinate transformation processing unit 240 can adjust the position information included in the object side information and non-sound object side information based on the user interaction information.
  • the user interaction information may include information indicating the position and head direction of the listener.
  • the coordinate transformation processing unit 240 may convert coordinates indicating the position of the sound object and the position of the non-sound object based on the position and the head direction of the listener.
  • the coordinate transformation processing unit 240 can calculate the relative coordinates indicating the position of the object on the basis of the coordinate indicating the position of the listener in the virtual space.
  • 22 is a block diagram specifically illustrating an ambsonic renderer 300 according to one embodiment of the present disclosure.
  • the ambisonic renderer 300 renders an ambisonic signal based on the ambisonic signal, the ambisonic supplemental information, the object supplemental information, the non-sound object supplemental information, and the user interaction information, Lt; / RTI >
  • the ambienceic renderer 300 includes an ambisonic-to-ambience (A2A) interpolation processing unit 310, an ambsonic-to-object (A2O) interaction processing unit 320, and a rotation processing unit 330 can do.
  • A2A ambisonic-to-ambience
  • A2O ambsonic-to-object
  • the A2A interpolation processing unit 310 may perform interpolation for reproducing acoustic space based on a plurality of ambisonic spatial samples. Each of the Ambisonic spatial samples can represent an ambisonic signal obtained at a plurality of locations.
  • the A2A interpolation processing unit 310 may generate an interpolation ambience signal corresponding to a point where the ambience sound signal is not acquired based on the ambience sound space sample. Specifically, the A2A interpolation processing unit 310 may interpolate a plurality of ambisonic space samples to generate an interpolation ambience signal.
  • the A2O interaction processing unit 320 can process the occlusion effect on the ambsonic signal. For example, the A2O interaction processing unit 320 may filter the ambsonic signal based on the additional information for at least one blocking object. For example, the A2O interaction processing unit 320 can determine a transmission attenuation gain for each direction component of the ambsonic signal based on the additional information about the blocking object. At this time, the direction component of the ambsonic signal can be specified on the basis of the ambsonic order indicating the highest order among the components of the ambsonic signal. In addition, the A2O interaction processing unit 320 can determine the transmission attenuation gain for each frequency component of the ambsonic signal based on the additional information about the blocking object. The rotation processing unit 330 may rotate the ambsonic signal based on the user interaction information to generate a binaural rendered amviconic intermediate audio signal.
  • the channel renderer 400 may generate a channel intermediate audio signal by rendering a channel signal based on a channel signal, channel additional information object additional information, non-sound object additional information, and user interaction information.
  • the channel renderer 400 may include a channel-to-channel (C2C) interpolation processing unit 410, a channel-to-object (A2O) interaction processing unit 420, and a rotation processing unit 430.
  • C2C channel-to-channel
  • A2O channel-to-object
  • the C2C interpolation processing unit 410 may perform interpolation for reproducing acoustic space based on a plurality of channel space samples.
  • Each of the channel space samples may be a channel signal obtained at a plurality of locations.
  • the channel space sample may be a pre-rendered channel signal based on a particular location.
  • the C2C interpolation processing unit 410 may generate an interpolation channel signal corresponding to a point where the channel signal is not acquired based on the channel space sample.
  • the C2C interpolation processing unit 410 may interpolate a plurality of channel space samples to generate an interpolation channel signal.
  • the C2O interaction processing unit 420 can process the culling effect on the channel signal. For example, the C2O interaction processing unit 420 may filter the channel signal based on the additional information for at least one blocking object. For example, the C2O interaction processing unit 420 may determine a panning gain for each channel of the channel signal based on the additional information about the blocking object. In addition, the C2O interaction processing unit 420 may filter the channel signal based on the channel-specific panning gain. The rotation processing unit 430 may rotate the channel signal based on the user interaction information to generate a binaural-rendered channel intermediate audio signal.
  • Computer readable media can be any available media that can be accessed by a computer, and can include both volatile and nonvolatile media, removable and non-removable media.
  • the computer-readable medium may also include computer storage media.
  • Computer storage media may include both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

An audio signal processing device comprises a processor for outputting an output audio signal generated on the basis of an input audio signal. The processor can acquire information related to an input audio signal and a virtual space in which the input audio signal is simulated, can determine whether a blocking object, which performs blocking between a sound source and a listener, exists among a plurality of objects, on the basis of the position of each of the plurality of objects included in the virtual space and the position of the sound source corresponding to the input audio signal, with respect to the listener in the virtual space, and can binaurally render the input audio signal on the basis of the determination result so as to generate an output audio signal.

Description

오디오 신호 처리 방법 및 장치Method and apparatus for processing audio signal
본 개시는 오디오 신호 처리 방법 및 장치에 관한 것으로서, 더욱 상세하게는 HMD(Head Mounted Display) 기기를 비롯한 휴대 기기를 위한 몰입형(immersive) 사운드를 제공하는 오디오 신호 처리 방법 및 장치에 관한 것이다. The present disclosure relates to an audio signal processing method and apparatus, and more particularly, to an audio signal processing method and apparatus for providing an immersive sound for a portable device including an HMD (Head Mounted Display) device.
3D 오디오 기술이란 3차원 공간상에서 임장감 있는 사운드를 제공하는 신호 처리, 전송, 부호화 및 렌더링 기술을 의미한다. 3D 오디오는 서라운드 오디오가 재현하는 수평면(2D) 상의 사운드 장면에 높이 방향이 추가된 사운드 장면을 재현할 수 있다. 특히, 3D 오디오를 제공하기 위해 오디오 장치는 종래보다 많은 개수의 스피커를 사용할 수 있다. 또는 종래에 비해 동일하거나 더 적은 개수의 스피커를 사용하는 경우, 오디오 장치는 스피커가 존재하지 않는 가상의 위치에서 음상이 맺히도록 하는 렌더링 기술이 요구된다. 특히 HMD기기 등을 이용하여 재현되는 가상 현실(Virtual Reality, VR) 혹은 증강 현실(Augmented Reality, AR) 공간에서는 임장감이 더욱 중요하기 때문에 3D 오디오 렌더링 기술의 필요성이 더욱 높다.3D audio technology refers to signal processing, transmission, encoding, and rendering technologies that provide sound in a three-dimensional space. 3D audio can reproduce a sound scene with a height direction added to a sound scene on a horizontal plane (2D) where surround audio is reproduced. Especially, in order to provide 3D audio, the audio device can use more number of speakers than the conventional one. Or when using the same or fewer number of speakers than in the prior art, the audio device is required to have a rendering technique that causes the sound image to be formed at a virtual position where no speaker is present. In particular, 3D audio rendering technology is more needed because the sense of presence is more important in a virtual reality (VR) or augmented reality (AR) space reproduced using an HMD device or the like.
3D 오디오 렌더링 기술에서 가장 대표적인 바이노럴 렌더링은 3D 오디오 신호를 사용자의 양쪽 귀에 전달되는 오디오 신호로 모델링하는 것이다. 사용자는 헤드폰이나 이어폰을 통해 바이노럴 렌더링 된 2채널 오디오 출력 신호를 통해서 입체감을 느낄 수 있다. 구체적으로, 사용자는 사용자의 양쪽 귀를 통해 들리는 사운드를 통해 사운드에 대응하는 음원의 위치와 방향을 인식할 수 있다. 오디오 신호 처리 장치는 3D 오디오 신호를 사용자의 양쪽 귀에 전달되는 2채널 오디오 신호 형태로 모델링하여 3D 오디오의 입체감을 재현할 수 있다. The most typical binaural rendering in 3D audio rendering technology is to model the 3D audio signal as an audio signal that is delivered to the user's ears. The user can feel the stereoscopic effect through the binaural rendered 2 channel audio output signal through the headphone or the earphone. Specifically, the user can recognize the position and direction of the sound source corresponding to the sound through the sound heard through both ears of the user. The audio signal processing apparatus can reproduce the 3D sense of 3D audio by modeling the 3D audio signal in the form of a two-channel audio signal transmitted to both ears of the user.
특히, 가상 현실 또는 게임 환경과 같이 복수의 오브젝트(object)와 사용자의 상호작용(Interaction)이 발생하는 환경을 현실감 있게 재현(simulation)하는 음향 공간은 사용자의 몰입감을 증가시키는 중요한 요소가 될 수 있다. 이때, 복수의 오브젝트 각각의 음향 특성이 복합적으로 반영되어야 할 수 있다. 하나의 오브젝트와 사용자 간의 상호작용은 음원의 상대적인 위치에 따라 특정 위치에서 들리게 하는 것으로 비교적 간단하게 정의할 수 있다. 그러나 다수의 오브젝트가 추가되면 사용자와 음원 사이에 오브젝트의 상대적인 위치, 크기에 따라 음향 공간이 달라질 수 있다. 오브젝트 사이의 상호 작용에 따라 다양한 음향 현상이 발생할 수 있기 때문이다. 예를 들어, 음원과 청취자 사이에 오브젝트가 위치하는 경우, 오브젝트에 의한 반사음이 추가되거나 또는 음원이 오브젝트에 의해 가로막힐 수 있다. 이에 따라 음원과 청취자 사이에 위치하는 오브젝트는 청취자에게 도달되는 소리의 크기를 감쇠시킬 수 있다. 이러한 오브젝트의 상호작용을 재현하기 위해, 소리를 발생시키는 사운드 오브젝트(sound object)(또는 active object, sound object, audio object, audio element) 뿐만 아니라 소리를 내지 않으면서 오브젝트 간의 상호작용에 관여하는 논-사운드 오브젝트(non-sound object)(또는 passive object, non-audio object, scene object, acoustic element)가 고려되어야 한다. 가상 현실 공간에서 사용자와 다양한 지형, 지물과의 상호 작용이 빈번하게 일어나기 때문이다.Particularly, an acoustic space that realistically simulates an environment in which a plurality of objects and a user interacts, such as a virtual reality or a game environment, can be an important factor for increasing a user's immersion feeling . At this time, the acoustic characteristics of each of the plurality of objects may be reflected in a complex manner. The interaction between an object and a user can be defined relatively simply by making it heard at a specific position according to the relative position of the sound source. However, when multiple objects are added, the acoustic space may vary depending on the relative position and size of the object between the user and the sound source. This is because various acoustic phenomena may occur depending on the interaction between the objects. For example, when an object is positioned between a sound source and a listener, reflections from the object may be added or the sound source may be intercepted by the object. Accordingly, the object positioned between the sound source and the listener can attenuate the size of the sound reached to the listener. In order to reproduce the interaction of these objects, a sound object (sound object) (or an active object, a sound object, an audio object, an audio element) Non-sound objects (or passive objects, non-audio objects, scene objects, acoustic elements) should be considered. This is because the user interacts with various terrain and objects frequently in virtual reality space.
오디오 신호 처리 장치는 음원과 사용자 간의 상호작용에 대해서는, 가상의 공간의 청취자를 기준으로 음원의 상대적인 위치를 사용하여 시뮬레이션할 수 있다. 그러나 음원과 청취자 사이에 음원 이외의 다른 음원 또는 논-사운드 오브젝트가 위치되는 경우, 해당 오브젝트의 위치와 크기에 따라 음향 공간이 달라질 수 있다. 예를 들어, 가상의 공간에서 청취자와 음원 사이에 벽과 같이 음향을 가로막는 오브젝트가 존재하는 경우, 음원에 대응하는 오디오 신호가 청취자에 도달할 때, 오브젝트가 존재하지 않을 때보다 오디오 신호의 크기가 감쇠될 수 있다. 또한, 음원에 대응하는 음향이 벽면에 의해 반사될 수 있다. 또한, 오브젝트가 음원과 사용자 사이의 경로를 가로막는 경우에도, 오브젝트의 크기에 따라, 음원에 대응하는 음향이 오브젝트의 특정 지점에서 회절될 수도 있다. 가상 현실 공간, 특히 그 중에서도 게임과 같은 분야에서는 사용자와 다양한 지형, 지물과의 상호 작용이 빈번하게 일어나기 때문에 전술한 음향 특성을 시뮬레이션하는 방법에 대한 기술이 요구된다.The audio signal processing apparatus can simulate the interaction between the sound source and the user by using the relative positions of the sound sources on the basis of the listeners in the virtual space. However, when a sound source or a non-sound object other than a sound source is located between the sound source and the listener, the sound space may vary depending on the position and size of the object. For example, when there is an object blocking the sound such as a wall between a listener and a sound source in a virtual space, when the audio signal corresponding to the sound source reaches the listener, the size of the audio signal is smaller than when the object is absent Can be attenuated. Also, the sound corresponding to the sound source can be reflected by the wall surface. Also, even if the object interferes with the path between the sound source and the user, the sound corresponding to the sound source may be diffracted at a specific point of the object, depending on the size of the object. Description of the Related Art [0002] A technique for simulating the above-described acoustic characteristics is required because a user often interacts with various terrains and objects in a virtual reality space, particularly, in a field such as a game.
본 개시의 일 실시예는 사용자에게 보다 현실감 있는 공간 음향을 재현하는 것을 목적으로 한다. 특히 본 개시는 음원과 청취자 사이를 가로막는 오브젝트에 의한 오클루션(Occlusion) 효과를 포함하는 공간 음향을 효율적으로 시뮬레이션하는 것을 목적으로 한다. One embodiment of the present disclosure aims to reproduce a more realistic spatial sound to the user. In particular, the present disclosure aims to efficiently simulate a spatial sound including an occlusion effect caused by an obstacle between a sound source and a listener.
또한, 본 개시의 일 실시예는 다양한 포맷의 오디오 신호가 공존하는 입력 오디오 신호에 대한 오클루션 효과를 시뮬레이션하는 것을 목적으로 한다. 또한, 본 개시의 일 실시예는 다양한 포맷의 오디오 신호와 소리를 내지 않는 논-사운드 오브젝트(non-sound object) 사이의 상호작용을 시뮬레이션하는 것을 목적으로 한다.In addition, one embodiment of the present disclosure aims to simulate the effect of the culling on an input audio signal in which various audio signals coexist. In addition, one embodiment of the present disclosure is directed to simulating the interaction between audio signals in various formats and non-sound objects that do not produce sound.
본 개시의 일 실시예에 따른 오디오 신호 처리 장치는 입력 오디오 신호를 기초로 생성된 출력 오디오 신호를 출력하는 프로세서를 포함할 수 있다. 상기 프로세서는, 입력 오디오 신호 및 상기 입력 오디오 신호가 시뮬레이션되는 가상의 공간에 관한 정보를 획득하고, 상기 가상의 공간의 청취자를 기준으로 하는, 상기 가상의 공간에 포함된 적어도 하나의 오브젝트 각각의 위치 및 상기 입력 오디오 신호에 대응하는 음원의 위치를 기초로, 상기 적어도 하나의 오브젝트 중에서 상기 음원과 상기 청취자 사이의 직접 음향 경로(direct acoustic path)를 가로막는(blocking) 블로킹 오브젝트(blocking object)가 존재하는지 판단하고, 상기 판단 결과를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다.An apparatus for processing an audio signal according to an embodiment of the present disclosure may include a processor for outputting an output audio signal generated based on an input audio signal. Wherein the processor is configured to obtain information about a virtual space in which the input audio signal and the input audio signal are simulated and determine a position of each of at least one object included in the virtual space based on the listener of the virtual space And determining whether there is a blocking object blocking the direct acoustic path between the sound source and the listener based on the position of the sound source corresponding to the input audio signal And binaurally rendering the input audio signal based on the determination result to generate an output audio signal.
상기 출력 오디오 신호는 상기 입력 오디오 신호에 대응하는 음향이 상기 블로킹 오브젝트를 통과하여 상기 청취자에게 전달되는 투과 오디오 신호를 포함할 수 있다. 이때, 상기 프로세서는, 상기 블로킹 오브젝트가 존재하는 경우, 상기 음원과 상기 청취자 사이의 직접 음향 경로가 상기 블로킹 오브젝트와 오버랩되는 구간의 길이 및 상기 블로킹 오브젝트의 음향 투과율을 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 투과 오디오 신호를 생성할 수 있다.The output audio signal may include a transmission audio signal through which the sound corresponding to the input audio signal is passed to the listener through the blocking object. At this time, if the blocking object is present, the processor determines whether or not the input audio signal is converted based on the length of a section in which the direct acoustic path between the sound source and the listener overlaps with the blocking object and the acoustic transmittance of the blocking object. And can generate the transparent audio signal.
또한, 상기 블로킹 오브젝트의 음향 투과율은 주파수 빈 별로 서로 다른 값을 가질 수 있다. In addition, the acoustic transmittance of the blocking object may have different values depending on the frequency bin.
상기 출력 오디오 신호는 상기 입력 오디오 신호에 대응하는 음향이 상기 블로킹 오브젝트에 의해 회절되어 상기 청취자에게 도달하는 음향을 시뮬레이션하는 회절 오디오 신호를 포함할 수 있다. 이때, 상기 프로세서는, 상기 블로킹 오브젝트의 형상을 기초로, 상기 블로킹 오브젝트의 표면에서 상기 입력 오디오 신호에 대응하는 음향이 회절되는 적어도 하나의 회절 지점을 결정하고, 상기 적어도 하나의 회절 지점의 위치를 기초로, 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 회절 오디오 신호를 생성할 수 있다.The output audio signal may include a diffracted audio signal that simulates sound that is diffracted by the blocking object to arrive at the listener. At this time, the processor determines, based on the shape of the blocking object, at least one diffraction spot at which the sound corresponding to the input audio signal is diffracted at the surface of the blocking object, Based on this, the input audio signal can be binaurally rendered to generate the diffracted audio signal.
상기 프로세서는, 상기 청취자의 머리 방향을 기준으로 상기 적어도 하나의 회절 지점에 대응하는 제1 머리 전달 함수(Head Related Transfer Function, HRTF)를 획득하고, 상기 제1 HRTF를 사용하여 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 회절 오디오 신호를 생성할 수 있다.Wherein the processor is configured to obtain a first HRTF corresponding to the at least one diffraction point based on the head direction of the listener and to generate the HRTF using the first HRTF, Binaural rendering to generate the diffracted audio signal.
상기 프로세서는, 상기 오브젝트의 표면상의 지점으로부터 상기 청취자까지 제1 경로 및 상기 지점으로부터 상기 음원까지 제2 경로 각각의 거리의 합이 가장 작은 지점을 상기 적어도 하나의 회절 지점으로 결정할 수 있다. 이때, 상기 제1 경로 및 상기 제2 경로는 상기 오브젝트를 가로지르지 않는 최단 경로일 수 있다.The processor may determine a point at which the sum of distances of the first path from the point on the surface of the object to the listener and the distance of each of the second path from the point to the source is the at least one diffraction point. In this case, the first path and the second path may be shortest paths that do not cross the object.
상기 프로세서는, 상기 적어도 하나의 회절 지점에 따른, 상기 제1 경로의 거리와 상기 제2 경로의 거리의 합을 나타내는 회절 거리 및 상기 제1 HRTF를 기초로, 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 회절 오디오 신호를 생성할 수 있다.Wherein the processor is further configured to perform a binaural rendering of the input audio signal based on the first HRTF and a diffraction distance representing a sum of a distance of the first path and a distance of the second path along the at least one diffraction point, Thereby generating the diffracted audio signal.
상기 회절 거리를 기초로 상기 회절 오디오 신호의 크기를 조정하는 감쇠 게인을 결정하고, 상기 제1 HRTF 및 상기 감쇠 게인을 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 회절 오디오 신호를 생성할 수 있다. 이때, 상기 감쇠 게인은 오디오 신호의 주파수 빈 별로 서로 다른 값을 가질 수 있다.Determine an attenuation gain that adjusts the magnitude of the diffracted audio signal based on the diffraction distance and binaurally render the input audio signal based on the first HRTF and the attenuation gain to generate the diffracted audio signal have. At this time, the attenuation gain may have different values according to the frequency bin of the audio signal.
상기 프로세서는, 상기 회절 오디오 신호 및 상기 투과 오디오 신호를 믹싱하여 상기 출력 오디오 신호를 생성하는, 오디오 신호 처리 장치.Wherein the processor mixes the diffracted audio signal and the transparent audio signal to generate the output audio signal.
상기 출력 오디오 신호는 상기 청취자의 양쪽 귀 각각에 대응하는 2-채널 출력 오디오 신호를 포함할 수 있다. 이때, 상기 프로세서는, 상기 청취자의 양쪽 귀 각각의 위치를 기초로, 상기 청취자의 우측 및 좌측 각각에 대해 상기 블로킹 오브젝트가 있는지 판단하고, 상기 판단 결과를 기초로, 상기 2-채널 출력 오디오 신호를 채널 별로 생성할 수 있다. The output audio signal may include a two-channel output audio signal corresponding to each of the two ears of the listener. At this time, the processor determines whether there is the blocking object for each of the right and left sides of the listener based on the position of each of the two ears of the listener, and based on the determination result, It can be generated for each channel.
상기 블로킹 오브젝트는 상기 청취자의 우측 및 좌측 중 어느 한쪽만 블로킹하는 제1 블로킹 오브젝트를 포함할 수 있다. 또한, 상기 2-채널 출력 오디오 신호는 상기 입력 오디오 신호에 대응하는 음향이 상기 블로킹 오브젝트에 반사되어 상기 청취자에게 전달되는 음향을 시뮬레이션하는 반사 오디오 신호를 포함할 수 있다. 이때, 상기 프로세서는, 상기 청취자의 양쪽 귀 중에서 다른 한쪽에 대응하는 귀의 위치 및 상기 제1 블로킹 오브젝트의 형상을 기초로 상기 제1 블로킹 오브젝트의 표면에서 상기 입력 오디오 신호에 대응하는 음향이 반사되는 반사 지점을 결정하고, 상기 반사 지점의 위치를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 제1 블로킹 오브젝트에 대응하는 제1 반사 오디오 신호를 생성할 수 있다.The blocking object may include a first blocking object that only blocks either the right or left of the listener. The 2-channel output audio signal may also include a reflected audio signal that simulates sound that is reflected by the blocking object to the listener and that corresponds to the input audio signal. At this time, the processor may be configured to detect, based on the position of the ear corresponding to the other one of the listeners of the listener and the shape of the first blocking object, the reflection of the sound corresponding to the input audio signal at the surface of the first blocking object And binaurally rendering the input audio signal based on the position of the reflection point to generate a first reflected audio signal corresponding to the first blocking object.
상기 프로세서는, 상기 청취자의 머리 방향을 기준으로 상기 반사 지점에 대응하는 제2 HRTF를 획득하고, 상기 제2 HRTF를 사용하여 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 제1 반사 오디오 신호를 생성할 수 있다.Wherein the processor is further configured to: obtain a second HRTF corresponding to the reflection point with respect to the head direction of the listener, binaurally render the input audio signal using the second HRTF to generate the first reflected audio signal can do.
상기 프로세서는, 상기 제1 블로킹 오브젝트의 위치를 기초로, 상기 2-채널 출력 오디오 신호 중에서 상기 제1 반사 오디오 신호를 포함하는 채널을 결정하고, 상기 결정을 기초로 상기 2-채널 출력 오디오 신호를 생성할 수 있다. 이때, 상기 2-채널 출력 오디오 신호 중에서, 상기 다른 한쪽에 대응하는 채널 오디오 신호는 상기 제1 반사 오디오 신호를 포함하고, 상기 어느 한쪽에 대응하는 채널 오디오 신호는 상기 제1 반사 오디오 신호를 포함하지 않을 수 있다.Wherein the processor is further configured to determine a channel comprising the first reflected audio signal from the two-channel output audio signal based on the position of the first blocking object, Can be generated. Here, among the two-channel output audio signals, the channel audio signal corresponding to the other one includes the first reflected audio signal, and the channel audio signal corresponding to either one of the two includes a first reflected audio signal .
상기 프로세서는, 상기 청취자의 머리 크기를 기초로 상기 청취자의 양쪽 귀 각각의 위치를 결정할 수 있다.The processor may determine a position of each of the ears of the listener based on the head size of the listener.
상기 프로세서는, 상기 청취자의 위치를 기준으로 고도각 및 앙각에 따른 복수의 HRTF를 포함하는 HRTF 세트가 측정된 기준 거리, 상기 청취자의 양쪽 귀 각각의 위치 및 상기 음원의 위치를 기초로 상기 청취자의 동측 및 대측 각각에 대응하는 동측 HRTF 및 대측 HRTF를 획득하고, 상기 동측 HRTF 및 상기 대측 HRTF를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 상기 동측 HRTF 및 상기 대측 HRTF는 상기 복수의 HRTF 중에서 서로 다른 위치에 대응하는 HRTF일 수 있다.Wherein the processor is further configured to determine, based on the position of the listener, a set of HRTFs comprising a plurality of HRTFs along an elevation angle and an elevation angle of the listener based on the measured reference distance, the location of each ear of the listener, The east side HRTF and the large side HRTF corresponding to the east side and the large side, respectively, and binaurally render the input audio signal based on the east side HRTF and the large side HRTF. At this time, the east side HRTF and the large side HRTF may be HRTF corresponding to different positions among the plurality of HRTFs.
상기 가상의 공간은, 잔향(reverberation) 필터가 서로 다른 복수의 분할 공간을 포함할 수 있다. 이때, 상기 프로세서는, 상기 청취자의 양쪽 귀 각각의 위치가 각각 서로 다른 분할 공간에 위치하는 경우, 상기 청취자의 우측 및 좌측 각각에 대해 서로 다른 잔향 필터를 기초로 상기 입력 오디오 신호를 필터링하여 상기 청취자의 우측 및 좌측 각각에 대응하는 잔향 오디오 신호를 생성할 수 있다.The virtual space may include a plurality of subdivisions in which the reverberation filter is different. The processor may filter the input audio signal based on different reverberation filters for the right and left sides of the listener, respectively, when the positions of the respective ears of the listener are located in different divided spaces, It is possible to generate the reverberant audio signals corresponding to the right and left sides of the reverberant audio signal.
상기 블로킹 오브젝트는, 상기 가상의 공간에서 상기 블로킹 오브젝트로부터 출력되는 음향이 없는 논-사운드 오브젝트일 수 있다.The blocking object may be a non-sound object having no sound output from the blocking object in the virtual space.
또한, 상기 프로세서는, 상기 가상의 공간이 포함하는 논-사운드 오브젝트에 대한 정보를 나타내는 메타데이터를 상기 입력 오디오 신호와 함께 수신할 수 있다.In addition, the processor may receive metadata indicating information about a non-sound object included in the virtual space together with the input audio signal.
본 개시의 다른 측면에 따른 입력 오디오 신호를 렌더링하는 오디오 신호 처리 장치의 동작 방법은, 입력 오디오 신호 및 상기 입력 오디오 신호가 시뮬레이션되는 가상의 공간에 관한 정보를 획득하는 단계, 상기 가상의 공간의 청취자를 기준으로 하는, 상기 가상의 공간에 포함된 적어도 하나의 오브젝트 각각의 위치 및 상기 입력 오디오 신호에 대응하는 음원의 위치를 기초로, 상기 적어도 하나의 오브젝트 중에서 상기 음원과 상기 청취자 사이를 가로막는 블로킹 오브젝트가 존재하는지 판단하는 단계, 상기 판단 결과를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는 단계 및 상기 출력 오디오 신호를 출력하는 단계를 포함할 수 있다.An operation method of an audio signal processing apparatus for rendering an input audio signal according to another aspect of the present disclosure includes the steps of obtaining information about an input audio signal and a virtual space in which the input audio signal is simulated, Based on the position of each of the at least one object included in the virtual space and the position of the sound source corresponding to the input audio signal based on the position of the sound source and the position of the sound source corresponding to the input audio signal, Generating binaural rendering of the input audio signal based on the determination result to generate an output audio signal, and outputting the output audio signal.
본 개시의 실시예에 따른 오디오 신호 처리 장치는 몰입감이 높은(immersive) 3차원 오디오 신호를 제공할 수 있다. 또한, 본 개시의 실시예에 따른 오디오 신호 처리 장치는 음원과 청취자 사이를 가로막는 오브젝트에 의한 오클루션(Occlusion) 효과를 포함하는 공간 음향을 효율적으로 시뮬레이션할 수 있다. The audio signal processing apparatus according to the embodiment of the present disclosure can provide an immersive three-dimensional audio signal. In addition, the audio signal processing apparatus according to the embodiment of the present disclosure can efficiently simulate a spatial sound including an occlusion effect caused by an obstacle between a sound source and a listener.
또한, 본 개시의 실시예에 따른 오디오 신호 처리 장치는 다양한 포맷의 오디오 신호가 공존하는 입력 오디오 신호에 대한 오클루션 효과를 시뮬레이션할 수 있다. 또한, 본 개시의 실시예에 따른 오디오 신호 처리 장치는 다양한 포맷의 오디오 신호와 소리를 내지 않는 논-사운드 오브젝트(non-sound object) 사이의 상호작용을 시뮬레이션할 수 있다.In addition, the audio signal processing apparatus according to the embodiment of the present disclosure can simulate the effect of the arcade on an input audio signal in which audio signals of various formats coexist. Further, the audio signal processing apparatus according to the embodiment of the present disclosure can simulate an interaction between audio signals in various formats and a non-sound object that does not produce sound.
도 1은 본 개시의 일 실시예에 따른 음향 오클루션 효과에 의해 오디오 신호의 특성이 달라지는 것을 나타내는 도면이다. FIG. 1 is a diagram showing that characteristics of an audio signal are changed by an acoustic acicular effect according to an embodiment of the present disclosure.
도 2는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 구성을 나타내는 블록도이다.2 is a block diagram showing a configuration of an audio signal processing apparatus according to an embodiment of the present disclosure.
도 3은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 입력 오디오 신호를 기초로 투과 오디오 신호를 생성하는 방법을 나타내는 도면이다.3 is a diagram illustrating a method by which an audio signal processing apparatus according to an embodiment of the present disclosure generates a transmission audio signal based on an input audio signal.
도 4 및 도 5는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 입력 오디오 신호를 기초로 회절 오디오 신호를 생성하는 방법을 나타내는 도면이다. FIGS. 4 and 5 are diagrams illustrating a method by which an audio signal processing apparatus according to an embodiment of the present disclosure generates a diffracted audio signal based on an input audio signal.
도 6은 청취자의 머리 중심을 기준으로 청취자의 머리 방향 및 음원의 위치를 기초로 결정된 HRTF를 나타내는 도면이다.6 is a diagram showing HRTFs determined based on the listener's head direction and sound source position with respect to the head center of the listener.
도 7 및 도 8은 청취자로부터 음원까지의 거리가 HRTF 세트가 생성된 기준 거리보다 가깝거나 더 멀리 위치하는 경우, 획득되는 HRTF 페어를 나타내는 도면이다.Figs. 7 and 8 are diagrams showing HRTF pairs obtained when the distance from the listener to the sound source is located closer or farther than the reference distance at which the HRTF set is generated.
도 9는 청취자의 양쪽 귀 각각과 음원 사이의 음향 경로 각각에 오브젝트의 존재 여부가 서로 다른 경우, 오디오 신호 처리 장치의 동작을 나타내는 도면이다.9 is a diagram showing the operation of the audio signal processing apparatus when the presence or absence of an object is different in each acoustic path between each of the ears of the listener and the sound source.
도 10은 본 개시의 일 실시예에 따른 출력 오디오 신호가 청취자의 양쪽 귀 별로 서로 다르게 구성되는 예시를 나타내는 도면이다.10 is a diagram illustrating an example in which an output audio signal according to an embodiment of the present disclosure is configured differently for each ear of the listener.
도 11은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 반사 오디오 신호를 생성하는 방법을 나타내는 도면이다.11 is a diagram illustrating a method by which an audio signal processing apparatus according to an embodiment of the present disclosure generates a reflected audio signal.
도 12는 청취자의 양쪽 귀 각각에 대응하는 잔향 오디오 신호를 생성하는 방법을 나타내는 도면이다.12 is a diagram showing a method of generating a reverberation audio signal corresponding to each of the two ears of the listener.
도 13은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 입력 오디오 신호를 처리하는 과정을 나타내는 블록도이다.13 is a block diagram illustrating a process of processing an input audio signal by an audio signal processing apparatus according to an embodiment of the present disclosure.
도 14는 오디오 신호 처리 장치의 전처리 동작을 더욱 상세하게 나타내는 블록도이다.14 is a block diagram showing the preprocessing operation of the audio signal processing apparatus in more detail.
도 15는 오디오 신호 처리 장치의 오디오 신호 전처리 동작을 더욱 상세하게 나타내는 블록도이다.15 is a block diagram showing the audio signal preprocessing operation of the audio signal processing apparatus in more detail.
도 16은 도 13에서 설명된 바이노럴 렌더링 과정을 더욱 구체적으로 나타내는 도면이다.FIG. 16 is a view showing the binaural rendering process described in FIG. 13 in more detail.
도 17은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 구성을 상세하게 나타내는 블록도이다.17 is a block diagram showing in detail the configuration of an audio signal processing apparatus according to an embodiment of the present disclosure.
도 18은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 구성을 상세하게 나타내는 블록도이다.18 is a block diagram showing the configuration of an audio signal processing apparatus according to an embodiment of the present disclosure in detail.
도 19는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 구성을 상세하게 나타내는 블록도이다.19 is a block diagram showing in detail the configuration of an audio signal processing apparatus according to an embodiment of the present disclosure.
도 20은 본 개시의 일 실시예에 따른 오브젝트 렌더러를 구체적으로 나타내는 블록도이다.20 is a block diagram specifically illustrating an object renderer according to an embodiment of the present disclosure;
도 21은 본 개시의 일 실시예에 따라 좌표 변환 처리부를 더 포함하는 오브젝트 렌더러를 나타내는 도면이다.21 is a diagram showing an object renderer further including a coordinate transformation processing unit according to an embodiment of the present disclosure;
도 22는 본 개시의 일 실시예에 따른 앰비소닉 렌더러를 구체적으로 나타내는 블록도이다.22 is a block diagram specifically illustrating an ambsonic renderer according to an embodiment of the present disclosure;
도 23은 본 개시의 일 실시예에 따른 채널 렌더러를 구체적으로 나타내는 블록도이다.23 is a block diagram specifically illustrating a channel renderer according to an embodiment of the present disclosure;
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. Also, when an element is referred to as " comprising ", it means that it can include other elements as well, without departing from the other elements unless specifically stated otherwise.
오디오 신호가 시뮬레이션 되는 가상의 공간에서 음원과 청취자 사이를 가로막는 오브젝트가 존재할 수 있다. 이 경우, 오디오 신호 처리 장치는 가상의 공간 상의 음원과 청취자 사이의 직접 음향 경로(direct acoustic path)를 가로 막는(block) 오브젝트(들)에 의한 음향 오클루션 효과를 시뮬레이션할 수 있다. 이를 통해, 오디오 신호 처리 장치는 사용자에게 임장감 있는 출력 오디오 신호를 제공할 수 있다. 본 개시에서, 직접 음향 경로 또는 음향 경로는 음원과 청취자 사이의 직접음(direct sound)의 음향 경로를 나타내는 의미로 사용될 수 있다. 본 개시는, 가상의 공간이 포함하는 오브젝트와 관련된 오브젝트 관련 정보를 기초로 입력 오디오 신호를 바이노럴 렌더링하여, 음향 오클루션 효과를 시뮬레이션하는 오디오 신호 처리 장치에 관한 것이다. 본 개시에서, 음원과 청취자 사이를 가로막는 오브젝트는 블로킹 오브젝트(blocking object(s))로 지칭될 수 있다. 또한, 본 개시에서 청취자는 특별한 기재가 없는 한 가상의 공간 상의 청취자를 나타낼 수 있다.There may be an object blocking the sound source and the listener in a virtual space in which the audio signal is simulated. In this case, the audio signal processing device can simulate acoustic acrobation effects by the object (s) blocking the direct acoustic path between the sound source and the listener in the virtual space. In this way, the audio signal processing device can provide the user with a lively output audio signal. In the present disclosure, a direct acoustic path or acoustic path can be used to denote an acoustic path of a direct sound between a sound source and a listener. The present disclosure relates to an audio signal processing apparatus for binaurally rendering an input audio signal based on object-related information related to an object included in a virtual space, and simulating an acoustic acrobation effect. In the present disclosure, an object blocking between a sound source and a listener may be referred to as a blocking object (s). Also, in this disclosure, a listener may represent a listener in a virtual space unless otherwise noted.
도 1은 본 개시의 일 실시예에 따른 음향 오클루션 효과에 의해 오디오 신호의 특성이 달라지는 것을 나타내는 도면이다. 도 1에서, 음원(O)으로부터 출력된 음향이 청취자에게 직접적으로 전달되는 직접음의 음향 경로는, 음원(O)으로부터 청취자(A)의 머리 중심을 연결하는 최단 경로로 모델링될 수 있다. 이때, 음원(O)과 청취자(A) 사이의 직접 음향 경로 상에 오브젝트(W)가 위치된 경우, 음원(O)에 대응하는 오디오 신호의 특성이 달라질 수 있다. 예를 들어, 음향이 오브젝트(W)를 통과하는 정도를 나타내는 음향 투과율에 따라 음원(O)에서 출력된 직접음은 감쇠될 수 있다. 오디오 신호 처리 장치는 음원(O)에 대응하는 오디오 신호를 감쇠시켜 오브젝트에 의해 감쇠된 직접음을 시뮬레이션할 수 있다. 이때, 오디오 신호 처리 장치는 오디오 신호가 감쇠되는 정도를 주파수 성분 별로 다르게 설정할 수 있다. 오디오 신호 처리 장치가 오브젝트에 의해 감쇠된 직접음을 시뮬레이션하는 방법에 대해서는 도 3을 통해 상세히 설명한다. 또한, 음원(O)에서 출력된 음향은 오브젝트(W)의 표면 상의 특정 지점(예를 들어, 도 1에서 'a')에서 회절되어 청취자(A)에게 전달될 수 있다. 오디오 신호 처리 장치가 오브젝트(W)의 표면에서 회절되어 청취자(A)에게 전달되는 회절음을 시뮬레이션하는 방법에 대해서는 도 4를 통해 상세히 설명한다. FIG. 1 is a diagram showing that characteristics of an audio signal are changed by an acoustic acicular effect according to an embodiment of the present disclosure. In Fig. 1, the acoustic path of the direct sound, from which the sound output from the sound source O is directly transmitted to the listener, can be modeled as a shortest path connecting the head center of the listener A from the sound source O. [ At this time, when the object W is positioned on the direct acoustic path between the sound source O and the listener A, the characteristics of the audio signal corresponding to the sound source O may be changed. For example, the direct sound output from the sound source O may be attenuated depending on the acoustic transmittance that indicates the degree to which the sound passes through the object W. The audio signal processing apparatus can simulate a direct sound attenuated by the object by attenuating the audio signal corresponding to the sound source O. [ At this time, the audio signal processing apparatus can set the degree of attenuation of the audio signal differently for each frequency component. A method for simulating a direct sound attenuated by an object by an audio signal processing apparatus will be described in detail with reference to FIG. Further, the sound output from the sound source O may be diffracted at a specific point (for example, 'a' in FIG. 1) on the surface of the object W and transmitted to the listener A. A method of simulating a diffracted sound diffracted by the audio signal processing device on the surface of the object W and transmitted to the listener A will be described in detail with reference to FIG.
한편, 바이노럴 오디오 신호의 경우, 음향 경로는 청취자(A)의 양쪽 귀 각각을 기준으로 하는 제1 음향 경로 및 제2 음향 경로를 포함할 수 있다. 이때, 제1 음향 경로 및 제2 음향 경로는 서로 다를 수 있다. 제1 음향 경로 및 제2 음향 경로는 음원(O)으로부터 청취자(A)의 양쪽 귀 각각을 연결하는 최단 경로로 모델링될 수 있다. 이에 따라, 오디오 신호 처리 장치는 청취자(A)의 머리 중심을 기준으로 하는 하나의 음향 경로가 아닌, 제1 음향 경로 및 제2 음향 경로 각각에 대한 음향 오클루션 효과를 시뮬레이션할 수 있다. 블로킹 오브젝트에 의한 오클루션 효과는 제1 음향 경로 및 제2 음향 경로 각각에 대해 서로 다를 수 있기 때문이다. 구체적으로, 제1 음향 경로 및 제2 음향 경로 중 어느 하나에만 블로킹 오브젝트가 존재할 수 있다. 또는 제1 음향 경로 상의 오브젝트와 제2 음향 경로 상의 오브젝트가 서로 다를 수 있다. 오디오 신호 처리 장치가 제1 음향 경로 및 제2 음향 경로를 구분하여 음향 오클루션 효과를 시뮬레이션하는 방법에 대해서는 도 6 내지 도 16을 통해 상세하게 설명하도록 한다.On the other hand, in the case of a binaural audio signal, the acoustic path may include a first acoustic path and a second acoustic path with respect to each of the ears of the listener A, respectively. At this time, the first acoustic path and the second acoustic path may be different from each other. The first acoustic path and the second acoustic path may be modeled as a shortest path connecting each of the ears of the listener A from the sound source O. [ Accordingly, the audio signal processing apparatus can simulate acoustic acrobatic effects for each of the first acoustic path and the second acoustic path, rather than one acoustic path based on the head center of the listener A. [ Since the occlusion effect by the blocking object may be different for each of the first acoustic path and the second acoustic path. Specifically, a blocking object may exist only in either the first acoustic path or the second acoustic path. Or the object on the first acoustic path and the object on the second acoustic path may be different. A method for the audio signal processing apparatus to classify the first acoustic path and the second acoustic path to simulate the acoustic eclipse effect will be described in detail with reference to FIG. 6 through FIG.
이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 구성에 대해 도 2을 참조하여 설명한다. 도 2는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(10)의 구성을 나타내는 블록도이다. 도 2에 도시된 구성 요소의 일부는 생략될 수 있으며, 오디오 신호 처리 장치(10)는 도 2에 도시되지 않은 구성 요소를 추가로 포함할 수 있다. 또한, 오디오 신호 처리 장치(10)는 적어도 둘 이상의 서로 다른 구성요소를 일체로서 구비할 수도 있다. 오디오 신호 처리 장치(10)는 각각 하나의 반도체 칩(chip)으로 구현될 수도 있다. 예를 들어, 각각의 구성 요소는 별도의 회로와 같은 하드웨어 구성(hardware component)을 통해 구현될 수도 있다Hereinafter, a configuration of an audio signal processing apparatus according to an embodiment of the present disclosure will be described with reference to FIG. 2 is a block diagram showing a configuration of an audio signal processing apparatus 10 according to an embodiment of the present disclosure. Some of the components shown in Fig. 2 may be omitted, and the audio signal processing apparatus 10 may further include components not shown in Fig. In addition, the audio signal processing apparatus 10 may include at least two or more different components as one unit. The audio signal processing apparatus 10 may be implemented as one semiconductor chip. For example, each component may be implemented through a hardware component, such as a separate circuit
도 2를 참조하면, 오디오 신호 처리 장치(10)는 수신부(11), 프로세서(12) 및 출력부(13)를 포함할 수 있다. 수신부(11)는 오디오 신호 처리 장치(10)로 입력되는 입력 오디오 신호를 수신할 수 있다. 수신부(11)는 프로세서(12)에 의한 오디오 신호 처리의 대상이 되는 입력 오디오 신호를 수신할 수 있다. 또한, 출력부(13)는 프로세서(12)에서 생성된 출력 오디오 신호를 전송할 수 있다. 여기에서, 입력 오디오 신호는 오브젝트 신호, 앰비소닉 신호 및 채널 신호 중 적어도 하나를 포함할 수 있다. 또한, 출력 오디오 신호는 입력 오디오 신호로부터 렌더링된 오디오 신호일 수 있다.2, the audio signal processing apparatus 10 may include a receiving unit 11, a processor 12, and an output unit 13. The receiving unit 11 may receive an input audio signal input to the audio signal processing apparatus 10. [ The receiving unit 11 can receive an input audio signal to be processed by the processor 12 for audio signal processing. The output unit 13 may also transmit the output audio signal generated by the processor 12. [ Here, the input audio signal may include at least one of an object signal, an ambsonic signal, and a channel signal. Also, the output audio signal may be an audio signal rendered from the input audio signal.
수신부(11)는 오디오 신호 처리 장치(10)로 입력되는 입력 오디오 신호를 수신할 수 있다. 수신부(11)는 프로세서(12)에 의한 오디오 신호 처리의 대상이 되는 입력 오디오 신호를 수신할 수 있다. 일 실시예에 따라, 수신부(11)는 오디오 신호를 수신하기 위한 수신 수단을 구비할 수 있다. 예를 들어, 수신부(11)는 유선으로 전송되는 오디오 신호를 수신하는 오디오 신호 입출력 단자를 포함할 수 있다. 수신부(11)는 무선으로 전송되는 오디오 신호를 송수신하는 무선 오디오 수신 모듈을 포함할 수 있다. 이 경우, 수신부(11)는 블루투스(bluetooth) 또는 와이파이(Wi-Fi) 통신 방법을 이용하여 무선으로 전송되는 오디오 신호를 수신할 수 있다. 일 실시예에 따라, 오디오 신호 처리 장치(10)가 별도의 디코더(decoder)를 포함하는 경우, 수신부(11)는 입력 오디오 신호로부터 인코딩(encoding)된 비트스트림(bitstream)을 수신할 수도 있다. 이때, 디코더는 후술할 프로세서(12)를 통해 구현될 수도 있다. 또한, 수신부(11)는 입력 오디오 신호와 함께 입력 오디오 신호와 관련된 정보를 수신할 수도 있다. 이때, 전술한 비트스트림은 입력 오디오 신호 외에 입력 오디오 신호와 관련된 정보를 추가적으로 포함할 수도 있다. 이와 관련하여서는, 도 17 내지 도 19를 통해 구체적으로 설명하도록 한다. 수신부(11)는 오디오 신호 처리 장치(10) 외부의 다른 장치와 통신하는 하나 이상의 구성요소를 포함할 수 있다. 또한, 수신부(11)는 비트스트림을 수신하는 적어도 하나의 안테나를 포함할 수 있다. 또한, 수신부(11)는 비트스트림을 수신하는 유선 통신용 하드웨어를 포함할 수 있다.The receiving unit 11 may receive an input audio signal input to the audio signal processing apparatus 10. [ The receiving unit 11 can receive an input audio signal to be processed by the processor 12 for audio signal processing. According to one embodiment, the receiving unit 11 may include receiving means for receiving an audio signal. For example, the receiving unit 11 may include an audio signal input / output terminal for receiving an audio signal transmitted through a wire. The receiving unit 11 may include a wireless audio receiving module for transmitting and receiving an audio signal transmitted wirelessly. In this case, the receiving unit 11 can receive an audio signal wirelessly transmitted using a Bluetooth or Wi-Fi communication method. According to an embodiment, when the audio signal processing apparatus 10 includes a separate decoder, the receiving unit 11 may receive a bitstream encoded from the input audio signal. At this time, the decoder may be implemented through the processor 12, which will be described later. The receiving unit 11 may receive information related to the input audio signal together with the input audio signal. In this case, the bitstream may additionally include information related to the input audio signal in addition to the input audio signal. This will be described in detail with reference to FIG. 17 through FIG. The receiving unit 11 may include one or more components communicating with other devices outside the audio signal processing apparatus 10. [ Also, the receiving unit 11 may include at least one antenna for receiving the bit stream. Also, the receiving unit 11 may include hardware for wired communication for receiving the bit stream.
프로세서(12)는 오디오 신호 처리 장치(10)의 전반적인 동작을 제어할 수 있다. 프로세서(12)는 오디오 신호 처리 장치(10)의 각 구성 요소를 제어할 수 있다. 프로세서(12)는 각종 데이터와 신호의 연산 및 처리를 수행할 수 있다. 프로세서(12)는 반도체 칩 또는 전자 회로 형태의 하드웨어로 구현되거나 하드웨어를 제어하는 소프트웨어로 구현될 수 있다. 프로세서(12)는 하드웨어와 상기 소프트웨어가 결합된 형태로 구현될 수도 있다. 예를 들어, 프로세서(12)는 소프트웨어가 포함하는 적어도 하나의 프로그램을 실행함으로써, 수신부(11) 및 출력부(13)의 동작을 제어할 수 있다. 또한, 프로세서(12)는 적어도 하나의 프로그램을 실행하여 후술할 도 3 내지 도 23에서 설명되는 오디오 신호 처리 장치(10)의 동작을 수행할 수 있다.The processor 12 can control the overall operation of the audio signal processing apparatus 10. [ The processor 12 can control each component of the audio signal processing apparatus 10. The processor 12 may perform arithmetic processing and processing of various data and signals. The processor 12 may be implemented in hardware in the form of a semiconductor chip or an electronic circuit, or may be implemented in software that controls hardware. The processor 12 may be implemented as a combination of hardware and software. For example, the processor 12 can control the operations of the receiving unit 11 and the output unit 13 by executing at least one program included in the software. In addition, the processor 12 may execute at least one program to perform operations of the audio signal processing apparatus 10 described in Figs. 3 to 23, which will be described later.
프로세서(12)는 공간 정보 및 청취자 정보를 기초로 입력 오디오 신호를 렌더링하여 출력 오디오 신호를 생성할 수 있다. 프로세서(12)가 출력 오디오 신호를 생성하는 방법에 대해서는 도 3 내지 도 23을 통해 후술한다. 이때, 공간 정보는 입력 오디오 신호가 시뮬레이션되는 가상의 공간에 포함된 복수의 오브젝트에 관한 정보를 포함할 수 있다. 또한, 복수의 오브젝트에 관한 정보는 복수의 오브젝트 각각의 위치, 구조적인 특성 또는 물리적인 특성 중 적어도 하나를 포함할 수 있다. 오브젝트의 구조적인 특성은 오브젝트의 크기 또는 형상 중 적어도 하나를 포함할 수 있다. 오브젝트의 물리적인 특성은 오브젝트의 재질을 나타내는 정보 또는 오브젝트의 투과율 중 적어도 하나를 포함할 수 있다. The processor 12 may render the input audio signal based on the spatial information and the listener information to generate an output audio signal. A method by which the processor 12 generates the output audio signal will be described later with reference to FIG. 3 to FIG. At this time, the spatial information may include information about a plurality of objects included in a virtual space in which the input audio signal is simulated. Further, the information on the plurality of objects may include at least one of the position, the structural characteristic, or the physical characteristic of each of the plurality of objects. The structural characteristics of the object may include at least one of the size or the shape of the object. The physical property of the object may include at least one of information indicating the material of the object or the transmittance of the object.
또한, 청취자 정보는 가상의 공간 상의 청취자와 관련된 정보를 포함할 수 있다. 구체적으로, 청취자 정보는 가상의 공간에서 청취자의 위치를 나타내는 청취자 위치 정보를 포함할 수 있다. 또한, 청취자 정보는 청취자의 머리 움직임에 따른 청취자의 머리 방향을 나타내는 머리 방향 정보를 포함할 수 있다. 머리 방향 정보는 헤드 마운트 디스플레이와 하드웨어에 부착된 센서를 통해 실시간으로 획득될 수 있다. 또한, 청취자의 위치 및 머리 방향 정보는 사용자의 입력을 기초로 획득될 수도 있다. 이때, 사용자는 PC, 모바일과 같은 기기에서 제공되는 게임 환경에서 청취자의 동작을 제어하는 사용자일 수 있다. 청취자 정보는 청취자의 머리 크기(head size)를 나타내는 머리 크기 정보를 포함할 수 있다. 프로세서(12)는 청취자의 위치 정보 및 청취자의 머리 크기 정보를 기초로 청취자의 양쪽 귀의 위치를 추정할 수 있다. 또는 프로세서(12)는 청취자의 양쪽 귀의 위치에 대한 정보를 포함하는 청취자 정보를 통해 청취자의 양쪽 귀의 위치를 획득할 수도 있다. 예를 들어, 프로세서(12)는 전술한 수신부(11)를 통해 공간 정보 또는 청취자 정보 중 적어도 하나를 수신할 수 있다. 프로세서(12)는 수신부(11)를 통해 입력 오디오 신호와 함께 입력 오디오 신호에 대응하는 공간 정보를 수신할 수 있다. 프로세서(12)가 공간 정보를 수신하는 방법에 관해서는 도 17 내지 도 19를 통해 후술한다. 또한, 프로세서(12)는 출력 오디오 신호에 대한 후처리를 추가로 수행할 수 있다. 후처리는 크로스톡 제거, DRC(Dynamic Range Control), 음량 정규화, 피크 제한 중 적어도 하나를 포함할 수 있다. 오디오 신호 처리 장치(10)는 후처리를 수행하는 별도의 후처리부를 포함할 수 있으며, 다른 실시예에 따라 후처리부는 프로세서(12)에 포함될 수도 있다.The listener information may also include information associated with the listener in the virtual space. Specifically, the listener information may include listener position information indicating the position of the listener in the virtual space. In addition, the listener information may include head direction information indicating the head direction of the listener according to the head movement of the listener. Head direction information can be acquired in real time via the head-mounted display and sensors attached to the hardware. Also, the listener's location and heading direction information may be obtained based on the user's input. At this time, the user may be a user who controls the operation of the listener in a game environment provided by a device such as a PC or a mobile. The listener information may include head size information indicating the head size of the listener. The processor 12 may estimate the position of both ears of the listener based on the listener's location information and the listener's head size information. Or the processor 12 may obtain the position of both ears of the listener via the listener information including information about the position of both ears of the listener. For example, the processor 12 may receive at least one of spatial information or listener information through the receiving unit 11 described above. The processor 12 may receive the spatial information corresponding to the input audio signal together with the input audio signal through the receiving unit 11. [ The way in which the processor 12 receives the spatial information will be described later with reference to Figs. 17 to 19. Fig. In addition, the processor 12 may further perform post-processing on the output audio signal. Post processing may include at least one of crosstalk removal, dynamic range control (DRC), volume normalization, and peak limiting. The audio signal processing apparatus 10 may include a separate post-processing unit for performing post-processing, and the post-processing unit may be included in the processor 12 according to another embodiment.
출력부(13)는 출력 오디오 신호를 출력할 수 있다. 예를 들어, 출력부(13)는 프로세서(12)에 의해 생성된 출력 오디오 신호를 출력할 수 있다. 출력부(13)는 적어도 하나의 출력 채널을 포함할 수 있다. 여기에서, 출력 오디오 신호는 청취자의 양이에 각각 대응하는 2-채널 출력 오디오 신호일 수 있다. 또한, 출력 오디오 신호는 바이노럴 2-채널 출력 오디오 신호일 수 있다. 출력부(13)는 프로세서(12)에 의해 생성된 3D 오디오 헤드폰 신호를 출력할 수 있다. The output unit 13 can output the output audio signal. For example, the output unit 13 may output the output audio signal generated by the processor 12. [ The output unit 13 may include at least one output channel. Here, the output audio signal may be a two-channel output audio signal corresponding to the amount of the listener, respectively. Also, the output audio signal may be a binaural 2-channel output audio signal. The output unit 13 can output the 3D audio headphone signal generated by the processor 12.
일 실시예에 따라, 출력부(13)는 출력 오디오 신호를 출력하는 출력 수단을 구비할 수 있다. 예를 들어, 출력부(13)는 출력 오디오 신호를 외부로 출력하는 출력 단자를 포함할 수 있다. 이때, 오디오 신호 처리 장치(10)는 출력 단자에 연결된 외부 장치로 출력 오디오 신호를 출력할 수 있다. 또는 출력부(13)는 출력 오디오 신호를 외부로 출력하는 무선 오디오 송신 모듈을 포함할 수 있다. 이 경우, 출력부(13)는 블루투스 또는 와이파이와 같은 무선 통신 방법을 이용하여 외부 장치로 출력 오디오 신호를 출력할 수 있다. 또는 출력부(13)는 스피커를 포함할 수 있다. 이때, 오디오 신호 처리 장치(10)는 스피커를 통해 출력 오디오 신호를 출력할 수 있다. 구체적으로, 출력부(13)는 기 설정된 채널 레이아웃에 따라 배치된 복수의 스피커를 포함할 수 있다. 또한, 출력부(13)는 디지털 오디오 신호를 아날로그 오디오 신호로 변환하는 컨버터(예를 들어, digital-to-analog converter, DAC)를 추가적으로 포함할 수 있다.According to one embodiment, the output unit 13 may comprise output means for outputting an output audio signal. For example, the output unit 13 may include an output terminal for outputting the output audio signal to the outside. At this time, the audio signal processing apparatus 10 can output an output audio signal to an external device connected to the output terminal. Or the output unit 13 may include a wireless audio transmission module for outputting an output audio signal to the outside. In this case, the output unit 13 can output an output audio signal to an external device using a wireless communication method such as Bluetooth or Wi-Fi. Or the output unit 13 may include a speaker. At this time, the audio signal processing apparatus 10 can output the output audio signal through the speaker. Specifically, the output unit 13 may include a plurality of speakers arranged according to a predetermined channel layout. The output unit 13 may further include a converter (e.g., a digital-to-analog converter (DAC)) for converting the digital audio signal into an analog audio signal.
본 개시의 일 실시예에 따른 오디오 신호 처리 장치는 가상의 공간에 관한 정보를 기초로 음원과 청취자의 사이를 가로막는(blocking) 오브젝트가 존재하는지 판단할 수 있다. 이때, 가상의 공간에 관한 정보는 청취자를 기준으로 하는 음원의 위치 및 가상의 공간에 포함된 복수의 오브젝트 각각의 위치를 나타내는 위치 정보를 포함할 수 있다. 다음으로, 오디오 신호 처리 장치는 판단 결과를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 예를 들어, 블로킹 오브젝트가 존재하지 않는 경우, 오디오 신호 처리 장치는 입력 오디오 신호를 필터링하는데 있어 블로킹 오브젝트와 관련된 정보를 이용하지 않을 수 있다. 반면, 블로킹 오브젝트가 존재하는 경우, 오디오 신호 처리 장치는 블로킹 오브젝트와 관련된 정보를 기초로 입력 오디오 신호를 필터링할 수 있다. 또한, 이 경우, 오디오 신호 처리 장치는 음원에 대응하는 머리 전달 함수(Head Related Transfer Function, HRTF) 외에 추가적인 위치에 대응하는 HRTF를 사용하여 입력 오디오 신호를 바이노럴 렌더링할 수 있다.The apparatus for processing an audio signal according to an embodiment of the present disclosure can determine whether there is an object blocking between a sound source and a listener based on information about a virtual space. At this time, the information about the virtual space may include position information indicating the position of the sound source based on the listener and the position of each of the plurality of objects included in the virtual space. Next, the audio signal processing apparatus can binaurally render the input audio signal based on the determination result to generate an output audio signal. For example, if there is no blocking object, then the audio signal processing device may not use the information associated with the blocking object in filtering the input audio signal. On the other hand, if there is a blocking object, the audio signal processing device can filter the input audio signal based on the information associated with the blocking object. In this case, the audio signal processing apparatus can binaurally render the input audio signal using the HRTF corresponding to the additional position in addition to the head related transfer function (HRTF) corresponding to the sound source.
본 개시의 일 실시예에 따라, 입력 오디오 신호가 시뮬레이션되는 가상의 공간에서, 음원과 청취자 사이의 음향 경로에 오브젝트(W)가 존재할 수 있다. 오브젝트(W)는 청취자 및 음원을 제외한 오브젝트일 수 있다. 예를 들어, 오디오 신호 처리 장치의 처리 대상이 되는 입력 오디오 신호의 음원은 청취자(A) 입장에서 오브젝트(W)에 의해 가로막힌(Occluded) 음원(O)일 수 있다. 이 경우, 오디오 신호 처리 장치는 오브젝트(W)에 의한 오클루션 효과를 시뮬레이션할 수 있다. 이때, 오브젝트(W)에 의한 오클루션 효과는 오브젝트(W)를 통과하여 감쇠된 직접음을 나타내는 투과음, 회절음 및 반사음으로 모델링될 수 있다. 오디오 신호 처리 장치는 입력 오디오 신호를 기초로 투과음, 회절음 및 반사음 각각에 대응하는 투과 오디오 신호, 회절 오디오 신호 및 반사 오디오 신호를 생성할 수 있다. 또한, 본 개시에서 설명되는 출력 오디오 신호는 투과 오디오 신호, 회절 오디오 신호 또는 반사 오디오 신호 중 적어도 하나를 포함할 수 있다. 이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 입력 오디오 신호를 기초로 투과 오디오 신호를 생성하는 방법에 대해 도 3을 참조하여 설명한다.According to one embodiment of the present disclosure, in an imaginary space in which an input audio signal is simulated, there may be an object W in the acoustic path between the sound source and the listener. The object W may be an object other than a listener and a sound source. For example, the sound source of the input audio signal to be processed by the audio signal processing apparatus may be a sound source O occluded by the object W in the listener A position. In this case, the audio signal processing apparatus can simulate the effect of the archery by the object W. At this time, the effect of the occlusion by the object W can be modeled as a transmission sound, a diffraction sound, and a reflection sound representing a direct sound attenuated through the object W. The audio signal processing apparatus can generate a transmission audio signal, a diffraction audio signal, and a reflection audio signal corresponding to the transmission sound, the diffraction sound, and the reflection sound, respectively, based on the input audio signal. In addition, the output audio signal described in this disclosure may include at least one of a transmitted audio signal, a diffracted audio signal, or a reflected audio signal. Hereinafter, a method by which an audio signal processing apparatus according to an embodiment of the present disclosure generates a transmission audio signal based on an input audio signal will be described with reference to FIG.
도 3은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 입력 오디오 신호를 기초로 투과 오디오 신호를 생성하는 방법을 나타내는 도면이다. 일 실시예에 따라, 오브젝트(W)의 투과율이 기준 투과율 이상 인 경우, 오디오 신호 처리 장치는 투과 감쇠 게인을 기초로 투과 오디오 신호를 생성할 수 있다. 오브젝트의 투과율이 기준 투과율 미만인 경우, 오디오 신호 처리 장치는 투과 오디오 신호를 생성하지 않을 수 있다. 오브젝트의 투과율이 기준 투과율 미만인 경우, 오브젝트를 통과하여 청취자에게 전달되는 투과음이 없는 경우와 유사할 수 있기 때문이다. 3 is a diagram illustrating a method by which an audio signal processing apparatus according to an embodiment of the present disclosure generates a transmission audio signal based on an input audio signal. According to one embodiment, when the transmittance of the object W is equal to or greater than the reference transmittance, the audio signal processing apparatus can generate a transparent audio signal based on the transmission attenuation gain. If the transmittance of the object is less than the reference transmittance, the audio signal processing apparatus may not generate the transparent audio signal. If the transmittance of the object is less than the reference transmittance, it may be similar to the case where there is no transmitted sound passing through the object to the listener.
일 실시예에 따라, 오디오 신호 처리 장치는 투과 감쇠 게인을 기초로 입력 오디오 신호를 바이노럴 렌더링하여 투과 오디오 신호를 생성할 수 있다. 오디오 신호 처리 장치는 투과 감쇠 게인으로 입력 오디오 신호의 크기를 조정하여 투과 오디오 신호를 생성할 수 있다. 이때, 투과 감쇠 게인은 입력 오디오 신호 대비 투과 오디오 신호의 크기의 비율을 나타낼 수 있다. 투과 감쇠 게인은 음향이 오브젝트(W)를 통과하면서 손실된 음향의 비율을 모델링한 필터 계수일 수 있다. 예를 들어, 오디오 신호 처리 장치는 입력 오디오 신호에 투과 감쇠 게인을 곱하여 투과 오디오 신호를 생성할 수 있다.According to one embodiment, an audio signal processing apparatus may binaurally render an input audio signal based on a transmission attenuation gain to produce a transmitted audio signal. The audio signal processing apparatus can generate the transparent audio signal by adjusting the size of the input audio signal with the transmission attenuation gain. At this time, the transmission attenuation gain may indicate a ratio of the size of the transmission audio signal to the size of the input audio signal. The transmission attenuation gain may be a filter coefficient that models the ratio of the lost sound as it passes through the object W. For example, the audio signal processing apparatus may multiply an input audio signal by a transmission attenuation gain to generate a transmission audio signal.
일 실시예에 따라, 오디오 신호 처리 장치는 직접 음향 경로가 오브젝트(W)와 오버랩(overlap)되는 구간의 길이(x)를 기초로 음원(O)에 대응하는 입력 오디오 신호를 필터링할 수 있다. 구체적으로, 오디오 신호 처리 장치는 길이(x)를 기초로 감쇠 게인을 결정할 수 있다. 이때, 감쇠 게인은 음향 경로가 오브젝트(W)와 오버랩되는 구간의 길이(x)가 길수록 작아질 수 있다. 음원으로부터 출력된 원음이 오브젝트를 통과하는 구간의 길이(x)가 길수록 청취자에게 전달되는 투과음이 감쇠되는 정도가 커질 수 있기 때문이다. 구체적으로, 감쇠 게인은 길이(x)에 반비례할 수 있다. 오디오 신호 처리 장치는 청취자를 기준으로 하는 음원의 위치 및 오브젝트(W)의 위치를 기초로 길이(x)를 산출할 수 있다. 또한, 오디오 신호 처리 장치는 오브젝트(W)의 형상을 기초로 길이(x)를 산출할 수 있다.According to one embodiment, the audio signal processing apparatus may filter the input audio signal corresponding to the sound source O based on the length x of the section in which the direct acoustic path overlaps with the object W. [ Specifically, the audio signal processing apparatus can determine the attenuation gain based on the length (x). At this time, the attenuation gain may become smaller as the length (x) of the section in which the acoustic path overlaps with the object W is longer. This is because the longer the length (x) of the section through which the original sound output from the sound source passes through the object, the greater the degree of attenuation of the transmitted sound transmitted to the listener. Specifically, the attenuation gain may be inversely proportional to the length (x). The audio signal processing apparatus can calculate the length x based on the position of the sound source and the position of the object W with respect to the listener. Further, the audio signal processing apparatus can calculate the length (x) based on the shape of the object (W).
또한, 오디오 신호 처리 장치는 오브젝트(W)의 음향 투과율을 기초로 입력 오디오 신호를 필터링할 수 있다. 구체적으로, 오디오 신호 처리 장치는 오브젝트(W)의 음향 투과율을 기초로 투과 감쇠 게인을 결정할 수 있다. 여기에서, 음향 투과율은 오브젝트(W)가 음향을 통과시키는 정도를 나타낼 수 있다. 구체적으로, 오브젝트(W)의 음향 투과율은 오브젝트(W)를 구성하는 물질에 따라 달라질 수 있다. 또한, 음향 투과율은 오디오 신호의 주파수 성분 별로 달라질 수 있다. 본 개시에서, 주파수 성분은 기 설정된 크기의 주파수 빈(bin)을 나타낼 수 있다. 오디오 신호 처리 장치는 오브젝트(W)를 구성하는 물질에 관한 정보를 기초로 음향 투과율을 결정할 수 있다. Further, the audio signal processing apparatus can filter the input audio signal based on the acoustic transmittance of the object W. Specifically, the audio signal processing apparatus can determine the transmission attenuation gain based on the acoustic transmittance of the object W. Here, the acoustic transmittance may indicate the degree to which the object W passes the sound. Specifically, the acoustic transmittance of the object W may vary depending on the material constituting the object W. In addition, the acoustical transmittance may vary according to the frequency component of the audio signal. In the present disclosure, a frequency component may represent a frequency bin of a predetermined magnitude. The audio signal processing apparatus can determine the acoustic transmittance based on the information about the material constituting the object W. [
구체적으로, 제1 물질은 제2 물질에 비해 오디오 신호를 상대적으로 많이 투과 시킬 수 있다. 오브젝트(W)를 구성하는 물질이 제1 물질인 경우, 오브젝트(W)의 음향 투과율은 제2 물질로 구성된 다른 오브젝트에 비해 높을 수 있다. 또한, 제3 물질의 주파수 성분 별 투과율과 제4 물질의 주파수 성분 별 투과율이 다를 수 있다. 구체적으로, 제3 물질은 제1 주파수 성분을 제2 주파수 성분에 비해 상대적으로 많이 투과시킬 수 있다. 오브젝트(W)를 구성하는 물질이 제3 물질인 경우, 오브젝트(W)의 음향 투과율은 제2 주파수 성분에 비해 제1 주파수 성분에서 상대적으로 높을 수 있다. 또한, 제1 주파수 성분 및 제2 주파수 성분은 전체 주파수 구간에서 기 설정된 주파수를 기준으로 구별되는 주파수 대역일 수 있다. 제1 주파수 성분은 기 설정된 주파수 보다 낮은 주파수 대역일수 있다. 제2 주파수 성분은 기 설정된 주파수 보다 높은 주파수 대역일수 있다. Specifically, the first material may transmit an audio signal relatively more than the second material. When the material constituting the object W is the first material, the acoustic transmittance of the object W may be higher than other objects constituted of the second material. In addition, the transmittance of the third material may be different from that of the fourth material. Specifically, the third material may transmit the first frequency component relatively more than the second frequency component. When the material constituting the object W is a third material, the acoustic transmittance of the object W may be relatively high in the first frequency component as compared to the second frequency component. Also, the first frequency component and the second frequency component may be frequency bands differentiated based on a predetermined frequency in the entire frequency domain. The first frequency component may be a frequency band lower than a predetermined frequency. The second frequency component may be a frequency band higher than a predetermined frequency.
다음으로, 오디오 신호 처리 장치는 음원에 대응하는 HRTF 및 감쇠 게인을 기초로 입력 오디오 신호를 바이노럴 렌더링하여 투과 오디오 신호를 생성할 수 있다. 오디오 신호 처리 장치는 청취자의 머리 방향 및 음원의 위치를 기초로 음원에 대응하는 HRTF를 획득할 수 있다. 이때, HRTF는 동측 HRTF 및 대측 HRTF 페어(pair)를 포함할 수 있다. 또한, 본 개시에서 전달 함수는 HRTF(Head Related Transfer Function), ITF(Interaural Transfer Function), MITF(Modified ITF), BRTF(Binaural Room Transfer Function), RIR(Room Impulse Response), BRIR(Binaural Room Impulse Response), HRIR(Head Related Impulse Response) 및 이의 변형 및 편집된 데이터 중 적어도 하나를 포함할 수 있으며, 본 개시는 이에 한정되지 않는다. 오디오 신호 처리 장치는 별도의 데이터베이스로부터 전달 함수를 획득할 수 있다. 본 개시에서 전달함수는 IR(Impulse Response)을 고속 푸리에 변환(Fast Fourier Transform)한 것으로 전제하나, 변환의 방법이 이에 한정되는 것은 아니다. 예를 들어, 변환 방법은 QMF(Quadratic Mirror Filterbank), 이산 코사인 변환(Discrete Cosine Transform, DCT), 이산 사인 변환(Discrete Sine Transform, DST) 또는 웨이브렛(Wavelet) 중 적어도 하나를 포함할 수 있다. 도 3에서, 오디오 신호 처리 장치는 음원에 대응하는 HRTF인 H0를 획득할 수 있다. 또한, 오디오 신호 처리 장치는 H0 및 전술한 감쇠 게인을 기초로 투과 오디오 신호를 생성할 수 있다.Next, the audio signal processing apparatus can binaurally render the input audio signal based on the HRTF and the attenuation gain corresponding to the sound source to generate a transmission audio signal. The audio signal processing apparatus can obtain the HRTF corresponding to the sound source based on the head direction of the listener and the position of the sound source. At this time, the HRTF may include the east side HRTF and the large side HRTF pair. In the present disclosure, the transfer functions include a Head Related Transfer Function (HRTF), an Interaural Transfer Function (ITF), a Modified ITF (MITF), a Binaural Room Transfer Function (BRTF), a Room Impulse Response (RIR), a Binaural Room Impulse Response ), Head Related Impulse Response (HRIR), and modified and edited data thereof, and the present disclosure is not limited thereto. The audio signal processing apparatus can acquire the transfer function from a separate database. In the present disclosure, it is assumed that the transfer function is a Fast Fourier Transform (IR) of an impulse response, but the method of conversion is not limited thereto. For example, the transform method may include at least one of a Quadratic Mirror Filterbank (QMF), a Discrete Cosine Transform (DCT), a Discrete Sine Transform (DST), or a wavelet. In Fig. 3, the audio signal processing apparatus can obtain H0 which is the HRTF corresponding to the sound source. Further, the audio signal processing apparatus can generate a transparent audio signal based on H0 and the above-described attenuation gain.
이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 입력 오디오 신호를 기초로 회절 오디오 신호를 생성하는 방법에 대해 도 4 및 도 5를 참조하여 설명한다. 음원과 청취자 사이에 블로킹 오브젝트가 존재하는 경우, 음원으로부터 출력되는 음향은 블로킹 오브젝트의 표면에서 회절되어 청취자에게 전달될 수 있다. 음향이 회절되는 경우, 청취자에게 도달되는 음향의 크기는 원음의 크기로부터 감쇠될 수 있다. 이때, 음향의 주파수 성분 별로 음향의 크기가 감쇠되는 정도가 달라질 수 있다. 도 4 및 도 5는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 입력 오디오 신호를 기초로 회절 오디오 신호를 생성하는 방법을 나타내는 도면이다. Hereinafter, a method by which an audio signal processing apparatus according to an embodiment of the present disclosure generates a diffracted audio signal based on an input audio signal will be described with reference to Figs. 4 and 5. Fig. If there is a blocking object between the sound source and the listener, the sound output from the sound source can be diffracted at the surface of the blocking object and delivered to the listener. When the sound is diffracted, the magnitude of the sound reaching the listener may be attenuated from the size of the original sound. At this time, the extent of the attenuation of the sound may vary depending on the frequency component of the sound. FIGS. 4 and 5 are diagrams illustrating a method by which an audio signal processing apparatus according to an embodiment of the present disclosure generates a diffracted audio signal based on an input audio signal.
일 실시예에 따라, 오디오 신호 처리 장치는 블로킹 오브젝트의 표면에서 입력 오디오 신호에 대응하는 음향이 회절되는 회절 지점을 결정할 수 있다. 음원으로부터 출력된 음향은 블로킹 오브젝트의 표면 상의 회절 지점에서 회절되어 청취자에게 도달할 수 있다. 예를 들어, 오디오 신호 처리 장치는 블로킹 오브젝트의 형상을 기초로 적어도 하나의 회절 지점을 결정할 수 있다. 오디오 신호 처리 장치는 블로킹 오브젝트의 표면에서 회절 거리를 기초로 적어도 하나의 회절 지점을 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치는 블로킹 오브젝트의 표면 상의 지점 중에서 회절 거리가 가장 작은 지점을 회절 지점으로 결정할 수 있다. 여기에서, 회절 거리는 음원으로부터 블로킹 오브젝트 표면 상의 제1 지점까지의 제1 경로 및 제1 지점으로부터 청취자까지의 제2 경로 각각의 거리의 합을 나타낼 수 있다. 이때, 제1 경로 및 제2 경로는 블로킹 오브젝트를 가로지르지 않는 최단 경로일 수 있다. 음향이 회절되는 거리가 길수록, 청취자에게 도달하는 음향의 크기가 작아져 오디오 신호의 특성을 상대적으로 적게 변형할 수 있기 때문이다. 회절 거리가 길수록 감쇠되는 정도가 커져 추가적으로 필요한 연산량 대비 오클루션 효과 재현이 비효율적일 수 있다. 오디오 신호 처리 장치는 회절 거리에 기초하여 회절음을 효율적으로 모델링할 수 있다.According to one embodiment, the audio signal processing device may determine a diffraction point at which the acoustic corresponding to the input audio signal is diffracted at the surface of the blocking object. The sound output from the sound source can be diffracted at the diffraction point on the surface of the blocking object to reach the listener. For example, the audio signal processing apparatus can determine at least one diffraction point based on the shape of the blocking object. The audio signal processing apparatus can determine at least one diffraction point based on the diffraction distance at the surface of the blocking object. For example, the audio signal processing apparatus can determine a point at which the diffraction distance is the smallest among the points on the surface of the blocking object as the diffraction point. Here, the diffraction distance may represent the sum of the first path from the source to the first point on the blocking object surface and the distance of each of the second path from the first point to the listener. At this time, the first path and the second path may be shortest paths that do not cross the blocking object. The longer the distance the sound is diffracted, the smaller the size of the sound reaching the listener and the less the characteristics of the audio signal can be transformed. The longer the diffraction distance, the greater the degree of attenuation, which may be ineffective to reproduce the effect of the occlusion relative to the required computational complexity. The audio signal processing apparatus can efficiently model the diffracted sound based on the diffracted distance.
한편, 제1 경로 및 제2 경로에서, 블로킹 오브젝트를 가로지르지 않는 최단 경로가 블로킹 오브젝트의 표면상의 복수의 지점을 지날 수 있다. 이 경우, 오디오 신호 처리 장치는 음원으로부터 출력된 음향의 회절 경로가 블로킹 오브젝트와 만나는 마지막 지점을 회절 지점으로 결정할 수 있다. 이때, 회절 경로는 제1 경로 및 제2 경로 전체를 나타낸다. 오디오 신호 처리 장치는 회절되는 음향의 음향 경로가 블로킹 오브젝트와 맞닿는 마지막 지점을 기초로 입력 오디오 신호를 바이노럴 렌더링하여 회절 오디오 신호를 생성할 수 있다.On the other hand, in the first path and the second path, the shortest path that does not intersect the blocking object may pass through a plurality of points on the surface of the blocking object. In this case, the audio signal processing apparatus can determine the last point where the diffraction path of the sound output from the sound source meets the blocking object as the diffraction point. Here, the diffraction path represents the entire first path and the second path. The audio signal processing device can binaurally render the input audio signal based on the last point at which the acoustic path of the acoustic to be diffracted abuts the blocking object to produce a diffracted audio signal.
도 4를 참조하면, 블로킹 오브젝트(W)의 표면 상의 지점(a)을 기준으로 회절 거리는 음원의 위치 O로부터 지점(a)까지의 제1 거리 및 지점(a)로부터 청취자(A)까지의 제2 거리의 합일 수 있다. 오디오 신호 처리 장치는 회절 거리가 가장 작은 지점(a)을 회절 지점으로 결정할 수 있다. 지점(a)은 블로킹 오브젝트의 표면 상의 복수의 지점 중에서 회절 거리가 가장 짧은 하나의 지점일 수 있다. 도 4에서는, 회절 지점이 하나인 경우를 예로 들고 있으나, 오디오 신호 처리 장치는 복수의 회절 지점을 기초로 회절 오디오 신호를 생성할 수도 있다.4, the diffraction distance with respect to the point a on the surface of the blocking object W is determined by the first distance from the position O of the sound source to the point a and the distance from the point a to the listener A It can be the sum of two distances. The audio signal processing apparatus can determine the point (a) having the smallest diffraction distance as the diffraction point. Point (a) may be one point with the shortest diffraction distance among the plurality of points on the surface of the blocking object. In Fig. 4, although the case of one diffraction point is taken as an example, the audio signal processing apparatus may generate a diffraction audio signal based on a plurality of diffraction points.
또한, 일 실시예에 따라, 오디오 신호 처리 장치는 블로킹 오브젝트를 복수의 영역으로 분할하여 영역 별 회절 지점을 결정할 수 있다. 오디오 신호 처리 장치는 분할된 영역 별로 가장 짧은 회절 거리에 대응하는 지점을 영역 별 회절 지점으로 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치는 오브젝트의 크기 및 형상 중 적어도 하나를 기초로 블로킹 오브젝트를 분할할 수 있다. 구체적으로, 오디오 신호 처리 장치는 가상의 공간의 블로킹 오브젝트를 나타내는 좌표 축을 참조하여 블로킹 오브젝트를 복수의 영역으로 분할할 수 있다. 이때, 블로킹 오브젝트는 2-차원 또는 3-차원 오브젝트일 수 있다. Further, according to one embodiment, the audio signal processing apparatus can divide the blocking object into a plurality of regions to determine a diffraction point for each region. The audio signal processing apparatus can determine a point corresponding to the shortest diffraction distance for each divided region as a diffraction point for each region. For example, the audio signal processing apparatus can divide the blocking object based on at least one of the size and the shape of the object. Specifically, the audio signal processing apparatus can divide the blocking object into a plurality of regions by referring to a coordinate axis representing a blocking object in a virtual space. At this time, the blocking object may be a two-dimensional or a three-dimensional object.
도 5를 참조하면, 오디오 신호 처리 장치는 지점 a와 지점 c를 포함하는 변을 기준으로, 블로킹 오브젝트를 지점 a를 포함하는 제1 영역과 지점 b 및 c를 포함하는 제2 영역으로 분할될 수 있다. 다음으로, 오디오 신호 처리 장치는 제1 영역에서 회절 거리가 가장 짧은 지점 a를 제1 영역의 회절 지점으로 결정할 수 있다. 또한, 오디오 신호 처리 장치는 제2 영역에서 회절 거리가 가장 짧은 지점 c를 제2 영역의 회절 지점으로 결정할 수 있다. 이때, 지점 c에 대응하는 회절 거리는 음원(O)로부터 지점 b까지의 거리, 지점 b로부터 지점 c까지의 거리 및 지점 c로부터 청취자까지의 거리일 수 있다. 도 5와 같이, 제2 영역에서 회절음의 회절 경로는 블로킹 오브젝트의 표면상의 복수의 지점을 지날 수 있다. 이 경우, 전술한 바와 같이, 오디오 신호 처리 장치는 음원으로부터 출력된 음향의 회절 경로가 블로킹 오브젝트와 만나는 마지막 지점인 지점 c를 회절 지점으로 결정할 수 있다. 또한, 오디오 신호 처리 장치는 지점 c를 기초로 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 이와 관련하여서는 후술하도록 한다.Referring to Fig. 5, the audio signal processing apparatus can divide a blocking object into a first area including a point a and a second area including a points b and c, based on a side including a point a and a point c have. Next, the audio signal processing apparatus can determine the point a having the shortest diffraction distance in the first region as the diffraction point in the first region. Further, the audio signal processing apparatus can determine the point c having the shortest diffraction distance in the second region as the diffraction point in the second region. Here, the diffraction distance corresponding to the point c may be the distance from the sound source O to the point b, the distance from the point b to the point c, and the distance from the point c to the listener. As in Fig. 5, the diffraction path of the diffracted sound in the second region can cross a plurality of points on the surface of the blocking object. In this case, as described above, the audio signal processing apparatus can determine the point c, which is the last point where the diffraction path of the sound output from the sound source meets the blocking object, as the diffraction point. Further, the audio signal processing apparatus can binaurally render the input audio signal based on the point c. This will be described later.
또한, 일 실시예에 따라, 오디오 신호 처리 장치는 회절 지점의 개수를 제한할 수 있다. 예를 들어, 오디오 신호 처리 장치는 회절 지점의 최대 개수를 결정할 수 있다. 또한, 오디오 신호 처리 장치는 회절 지점 최대 개수 이하인 개수의 회절 지점을 기초로 회절 오디오 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치는 영역 별 회절 지점 중에서, 최대 개수 이하의 회절 지점을 기초로 각각의 회절 지점에 대응하는 회절 오디오 신호를 생성할 수 있다. 이때, 오디오 신호 처리 장치는 회절 거리를 기준으로 회절 거리가 가장 짧은 회절 지점부터 회절 거리가 짧은 순서대로 최대 개수 이하에 해당하는 회절 지점을 결정할 수 있다. 예를 들어, 회절 지점의 최대 개수가 2개이고 블로킹 오브젝트가 3개의 영역으로 분할된 경우, 오디오 신호 처리 장치는 가장 짧은 회절 거리에 대응하는 제1 회절 지점을 기초로 제1 회절 오디오 신호를 생성할 수 있다. 이때, 가장 짧은 회절 거리에 대응하는 지점이 하나인 경우, 오디오 신호 처리 장치는 두번째로 짧은 회절 거리에 대응하는 제2 회절 지점을 기초로 제2 회절 오디오 신호를 생성할 수 있다. Further, according to one embodiment, the audio signal processing apparatus can limit the number of diffraction points. For example, the audio signal processing apparatus can determine the maximum number of diffraction points. In addition, the audio signal processing apparatus can generate a diffracted audio signal based on the number of diffraction points that is equal to or less than the maximum number of diffraction points. For example, the audio signal processing apparatus can generate a diffracted audio signal corresponding to each diffraction point based on a maximum number of diffraction points, among the diffraction points for each region. At this time, the audio signal processing apparatus can determine the diffraction points corresponding to the maximum number or less from the diffraction point having the shortest diffraction distance to the shortest diffraction distance, based on the diffraction distance. For example, when the maximum number of diffraction points is two and the blocking object is divided into three regions, the audio signal processing apparatus generates a first diffraction audio signal based on the first diffraction point corresponding to the shortest diffraction distance . At this time, if there is one point corresponding to the shortest diffraction distance, the audio signal processing apparatus can generate the second diffraction audio signal based on the second diffraction point corresponding to the second shortest diffraction distance.
한편, 회절 오디오 신호를 생성하는 기준이 되는 회절지점으로 선택되지 않은 회절 지점 중에서, 동일한 회절 거리에 대응하는 서로 다른 회절 지점의 개수가 남아있는(remaining) 회절 지점 최대 개수보다 많을 수 있다. 이 경우, 오디오 신호 처리 장치는 동일한 회절 거리에 대응하는 서로 다른 지점 중에서, 남아있는 회절 지점 최대 개수에 해당하는 임의의 지점을 선택할 수 있다. 이때, 오디오 신호 처리 장치는 선택된 회절 지점 사이의 거리가 최대가 되도록 회절 지점을 설정할 수 있다. 또한, 일 실시예에 따라, 오디오 신호 처리 장치는 오디오 신호 처리 장치의 프로세싱 성능을 기초로 회절 지점 최대 개수를 결정할 수 있다. 이때, 프로세싱 성능은 오디오 신호 처리 장치가 포함하는 프로세서의 처리 속도를 포함할 수 있다. 회절 오디오 신호 생성을 위한 연산에 할당 가능한 자원은 프로세서의 처리 속도에 따라 제한될 수 있기 때문이다. 또한, 오디오 신호 처리 장치의 프로세싱 성능은 오디오 신호 처리 장치가 포함하는 메모리 또는 GPU의 연산 능력을 포함할 수도 있다.On the other hand, among the diffraction points that are not selected as the reference diffraction points for generating the diffracted audio signal, the number of different diffraction points corresponding to the same diffraction distance may be larger than the remaining number of diffraction points. In this case, the audio signal processing apparatus can select any point corresponding to the maximum number of diffraction points remaining among the different points corresponding to the same diffraction distance. At this time, the audio signal processing apparatus can set the diffraction point so that the distance between the selected diffraction points becomes maximum. Further, according to one embodiment, the audio signal processing apparatus can determine the maximum number of diffraction points based on the processing performance of the audio signal processing apparatus. At this time, the processing performance may include the processing speed of the processor included in the audio signal processing apparatus. Since the resources that can be allocated to the operation for generating the diffracted audio signal can be limited depending on the processing speed of the processor. In addition, the processing capabilities of the audio signal processing apparatus may include the computing power of the memory or GPU included in the audio signal processing apparatus.
또한, 일 실시예에 따라, 오디오 신호 처리 장치는 블로킹 오브젝트의 표면 상의 각각의 지점에 따른 회절 거리가 기 설정된 거리 보다 짧은 지점을 회절 지점으로 결정할 수도 있다. 회절 거리가 길수록 감쇠되는 정도가 커져 추가적으로 필요한 연산량 대비 오클루션 효과 재현이 비효율적일 수 있기 때문이다. 도 4의 실시예에서, 지점 a를 기준으로 하는 회절 거리가 기 설정된 거리 보다 긴 경우, 오디오 신호 처리 장치는 회절 오디오 신호를 생성하지 않을 수 있다. 한편, 도 5의 실시예에서, 지점 c를 기준으로 하는 회절 거리는 기 설정된 길이보다 길고, 지점 a를 기준으로 하는 회절 거리가 기 설정된 거리 보다 짧을 수 있다. 이 경우, 오디오 신호 처리 장치는 지점 a 만을 회절 지점으로 결정할 수도 있다. 기 설정된 거리 보다 짧은 회절 거리를 가지는 지점이 없는 경우, 오디오 신호 처리 장치는 회절 지점을 결정할 수 없기 때문이다. 반면, 기 설정된 거리 보다 짧은 회절 거리를 가지는 지점이 복수인 경우, 오디오 신호 처리 장치는 복수의 지점 중에서 일부를 선택할 수 있다. 일 실시예에 따라, 기 설정된 거리는 음원으로부터 청취자까지의 거리를 기초로 설정된 값일 수 있다. 예를 들어, 기 설정된 거리는 음원으로부터 청취자까지의 거리가 멀수록 큰 값으로 설정될 수 있다. 음원으로부터 청취자까지의 거리가 멀수록 회절 거리도 길어질 수 있기 때문이다. 즉, 오디오 신호 처리 장치는 블로킹 오브젝트의 표면 상의 복수의 지점 중에서, 기 설정된 거리 보다 짧은 거리로 음원과 청취자를 연결하는 지점을 적어도 하나의 회절 지점으로 결정할 수 있다.Further, according to one embodiment, the audio signal processing apparatus may determine a point at which the diffraction distance along each point on the surface of the blocking object is shorter than a predetermined distance as the diffraction point. The longer the diffraction distance becomes, the greater the degree of attenuation becomes, and the reproduction of the effect of the arcucation relative to the required computation amount may be ineffective. In the embodiment of Fig. 4, when the diffraction distance based on the point a is longer than the predetermined distance, the audio signal processing apparatus may not generate the diffraction audio signal. On the other hand, in the embodiment of Fig. 5, the diffraction distance based on the point c is longer than the predetermined length, and the diffraction distance based on the point a may be shorter than the predetermined distance. In this case, the audio signal processing apparatus may determine only the point a as the diffraction point. If there is no point having a diffraction distance shorter than the predetermined distance, the audio signal processing apparatus can not determine the diffraction point. On the other hand, when there are a plurality of points having a diffraction distance shorter than a predetermined distance, the audio signal processing apparatus can select some of the plurality of points. According to one embodiment, the predetermined distance may be a value set based on the distance from the sound source to the listener. For example, the predetermined distance may be set to a larger value as the distance from the sound source to the listener becomes longer. The longer the distance from the source to the listener, the longer the diffraction distance. That is, the audio signal processing apparatus may determine at least one diffraction point as a point connecting the sound source and the listener at a distance shorter than a predetermined distance among a plurality of points on the surface of the blocking object.
다음으로, 오디오 신호 처리 장치는 청취자의 머리 방향 및 회절 지점을 기초로 회절 지점에 대응하는 HRTF를 획득할 수 있다. 이때, HRTF는 투과 오디오 신호를 생성하는데 사용된 HRTF와 서로 다른 위치에 대응하는 HRTF일 수 있다. 구체적으로, 오디오 신호 처리 장치는 청취자의 머리 방향을 기준으로 회절 지점에 대응하는 HRTF를 획득할 수 있다. 도 4에서, 오디오 신호 처리 장치는 음원의 위치에 대응하는 HRTF인 H0와 다른 H1를 획득할 수 있다. 이때, H1은 청취자의 머리 방향을 기준으로 회절 지점(a)에 대응하는 HRTF일 수 있다. 회절 지점이 복수인 경우, 오디오 신호 처리 장치는 청취자의 위치를 기준으로 복수의 회절 지점 각각에 대응하는 HRTF를 획득할 수 있다. 또한, 오디오 신호 처리 장치는 회절 지점에 대응하는 HRTF를 사용하여 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 오디오 신호 처리 장치는 입력 오디오 신호를 회절 지점에 대응하는 HRTF를 사용하여 바이노럴 렌더링하여 회절 오디오 신호를 생성할 수 있다. 전술한 바와 같이, 회절 경로가 블로킹 오브젝트의 표면상의 복수의 지점을 지날 수 있다. 이 경우, 오디오 신호 처리 장치는 음원으로부터 출력된 음향의 회절 경로가 블로킹 오브젝트와 만나는 마지막 지점에 대응하는 HRTF를 기초로, 입력 오디오 신호를 바이노럴 렌더링하여 회절 오디오 신호를 생성할 수 있다.Next, the audio signal processing apparatus can obtain the HRTF corresponding to the diffraction point based on the head direction and the diffraction point of the listener. At this time, the HRTF may be an HRTF corresponding to a different location from the HRTF used to generate the transmitted audio signal. Specifically, the audio signal processing apparatus can obtain the HRTF corresponding to the diffraction point with respect to the head direction of the listener. In Fig. 4, the audio signal processing apparatus can obtain H1 different from H0 which is the HRTF corresponding to the position of the sound source. At this time, H1 may be the HRTF corresponding to the diffraction point (a) with respect to the head direction of the listener. When there are a plurality of diffraction points, the audio signal processing apparatus can obtain the HRTF corresponding to each of the plurality of diffraction points based on the position of the listener. Further, the audio signal processing apparatus can binaurally render the input audio signal using the HRTF corresponding to the diffraction point. The audio signal processing apparatus may binaurally render the input audio signal using the HRTF corresponding to the diffraction point to generate a diffracted audio signal. As described above, the diffraction path can cross a plurality of points on the surface of the blocking object. In this case, the audio signal processing apparatus can binaurally render the input audio signal to generate a diffracted audio signal based on the HRTF corresponding to the last point where the diffraction path of the sound output from the sound source meets the blocking object.
또한, 오디오 신호 처리 장치는 회절 거리를 기초로 회절 오디오 신호를 생성할 수 있다. 오디오 신호 처리 장치는 회절 지점에 대응하는 회절 거리를 기초로 입력 오디오 신호를 감쇠시켜 회절 오디오 신호를 생성할 수 있다. 회절 거리에 따라 음원으로부터 출력된 음향의 크기가 감쇠되기 때문이다. 구체적으로, 오디오 신호 처리 장치는 회절 지점에 따른 회절 거리를 기초로 회절에 의한 회절 감쇠 게인을 결정할 수 있다. 오디오 신호 처리 장치는 입력 오디오 신호에 회절 감쇠 게인을 곱할 수 있다. 이때, 오디오 신호 처리 장치는 주파수 성분 별로 회절 감쇠 게인을 서로 다르게 결정할 수 있다. 회절음의 경우, 주파수가 낮을수록 원음으로부터 회절되어 청취자에게 전달되는 비율이 높기 때문이다. 이에 따라, 오디오 신호 처리 장치는 주파수가 낮을수록 감쇠 정도가 작아지도록 감쇠 게인을 설정할 수 있다. 또한, 회절음은 직접음에 비해 지연될 수 있다. 음원으로부터 출력된 음향이 청취자에게 전달되는 경로가 길어지기 때문이다. 이에 따라, 오디오 신호 처리 장치는 회절 거리를 기초로 입력 오디오 신호를 지연시켜 회절 오디오 신호를 생성할 수 있다. 다음으로, 오디오 신호 처리 장치는 도 3을 통해 설명한 방법으로 생성된 투과 오디오 신호, 및 회절 오디오 신호를 믹싱하여 출력 오디오 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치는 청취자의 양쪽 귀 별로, 바이노럴 렌더링된 투과 오디오 신호, 및 회절 오디오 신호를 믹싱할 수 있다.Further, the audio signal processing apparatus can generate the diffracted audio signal based on the diffraction distance. The audio signal processing apparatus can generate the diffracted audio signal by attenuating the input audio signal based on the diffraction distance corresponding to the diffraction point. The size of the sound output from the sound source is attenuated according to the diffraction distance. Specifically, the audio signal processing apparatus can determine the diffraction attenuation gain by diffraction based on the diffraction distance along the diffraction point. The audio signal processing device may multiply the input audio signal by a diffraction attenuation gain. At this time, the audio signal processing apparatus can determine the diffraction damping gain differently for each frequency component. In the case of diffracted sounds, the lower the frequency is, the higher the ratio of diffraction from the original sound to the listener is high. Accordingly, the audio signal processing apparatus can set the attenuation gain so that the degree of attenuation becomes smaller as the frequency becomes lower. Also, the diffracted sound can be delayed compared to the direct sound. This is because the path through which the sound output from the sound source is transmitted to the listener becomes longer. Accordingly, the audio signal processing apparatus can generate the diffracted audio signal by delaying the input audio signal based on the diffraction distance. Next, the audio signal processing apparatus may mix the transmission audio signal and the diffraction audio signal generated by the method described with reference to FIG. 3 to generate an output audio signal. For example, the audio signal processing device may mix the binaurally rendered transmitted audio signal and the diffracted audio signal for each ear of the listener.
한편, 전술한 바와 같이 음원으로부터 청취자의 머리 중심까지의 음향 경로와 음원으로부터 청취자의 양쪽 귀까지의 음향 경로 각각은 서로 다를 수 있다. 이에 따라, 음원으로부터 청취자의 양쪽 귀까지의 음향 경로 각각에 미치는 오브젝트(W)의 영향이 달라질 수 있다. 예를 들어, 음원으로부터 청취자의 좌측 귀까지의 제1 음향 경로 상에 오브젝트(W)가 위치하지 않으면서, 음원으로부터 청취자의 우측 귀까지의 제2 음향 경로 상에 오브젝트(W)가 위치할 수 있다. 또는 제1 음향 경로와 제2 음향 경로 각각에 서로 다른 오브젝트가 위치될 수도 있다. 오디오 신호 처리 장치는 제1 음향 경로 및 제2 음향 경로 각각에 대해 서로 다른 전달 함수를 모델링할 수 있다. On the other hand, as described above, the acoustic path from the sound source to the head center of the listener and the acoustic path from the sound source to both ears of the listener may be different from each other. Accordingly, the influence of the object W on each acoustic path from the sound source to both ears of the listener can be changed. For example, the object W may be located on the second acoustic path from the sound source to the listener's right ear, while the object W is not located on the first acoustic path from the sound source to the listener's left ear. have. Or different objects may be located in each of the first acoustic path and the second acoustic path. The audio signal processing apparatus may model different transfer functions for the first acoustic path and the second acoustic path, respectively.
도 6은 청취자의 머리 중심을 기준으로 청취자의 머리 방향 및 음원의 위치를 기초로 결정된 HRTF를 나타내는 도면이다. 예를 들어, 오디오 신호 처리 장치는 가상의 공간에서 청취자의 머리 중심으로부터 음원의 위치 O에 대응하는 방위각(Azimuth Angle) 및 앙각(Elevation Angle)를 결정할 수 있다. 다음으로, 오디오 신호 처리 장치는 결정된 방위각 및 앙각에 대응하는 전달함수 H0를 사용하여 음원에 대응하는 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 여기에서, 기준 거리는 청취자를 기준으로 HRTF를 포함하는 HRTF 세트가 측정된 거리를 나타낼 수 있다. 이때, 전달함수 H0는 기준 거리 R을 기초로 측정된 HRTF 세트(set) 중 일부일 수 있다. 예를 들어, HRTF 세트는 청취자의 머리 중심을 중심으로 하고, 기준 거리 R을 반지름으로 하는 구면 상의 지점에서 측정된 특성을 나타내는 전달함수 세트일 수 있다. 6 is a diagram showing HRTFs determined based on the listener's head direction and sound source position with respect to the head center of the listener. For example, the audio signal processing apparatus can determine an azimuth angle and an elevation angle corresponding to a position O of a sound source from a center of a listener's head in a virtual space. Next, the audio signal processing apparatus can binaurally render the input audio signal corresponding to the sound source using the transfer function H0 corresponding to the determined azimuth and elevation angles. Here, the reference distance may represent the measured distance of the HRTF set including the HRTF based on the listener. At this time, the transfer function H0 may be part of the HRTF set (set) measured based on the reference distance R. [ For example, the set of HRTFs may be a set of transfer functions centered at the listener ' s head center and representing properties measured at points on the sphere with the reference distance R as a radius.
청취자의 머리 중심으로부터 음원의 위치 O까지의 거리가 HRTF 생성의 기준이 되는 기준 거리 R과 동일하거나 유사한 경우, 오디오 신호 처리 장치는 전술한 방법으로 획득한 전달함수 H0를 사용할 수 있다. 그러나 청취자의 머리 크기(또는, 양 귀 사이의 거리)가 HRTF 측정 거리 R을 기준으로 설정된 임계 거리 이상이고, 오디오 신호 처리 장치가 전달함수 H0를 사용하여 바이노럴 렌더링하는 경우, 바이노럴 렌더링 성능이 저하될 수 있다. 도 7 및 도 8에서와 같이, 청취자의 양쪽 귀 각각의 위치를 기준으로 획득된 HRTF와 청취자의 머리 중심의 위치를 기준으로 획득된 HRTF가 달라지기 때문이다. 그러나 바이노럴 렌더링의 성능 개선을 위해 다양한 기준 거리를 가지는 HRTF 세트를 구성하는 경우, HRTF 세트를 생성하는 장치가 측정해야 할 지점의 개수가 증가할 수 있다. 또한, HRTF 세트를 저장하는 데이터 베이스의 저장 용량에 제한이 있는 경우, 데이터 베이스는 다양한 기준 거리에서 측정된 HRTF 세트를 전부 저장하기 어려울 수 있다. When the distance from the center of the listener's head to the position O of the sound source is equal to or similar to the reference distance R that is the basis of HRTF generation, the audio signal processing apparatus can use the transfer function H0 obtained by the above-described method. However, if the head size of the listener (or the distance between the ears) is greater than or equal to a threshold distance set with respect to the HRTF measurement distance R, and the audio signal processing device is binaurally rendering using the transfer function H0, Performance may be degraded. As shown in FIGS. 7 and 8, the HRTF obtained based on the position of each ear of the listener and the HRTF obtained based on the position of the head center of the listener are different. However, when the HRTF set having various reference distances is configured to improve the performance of the binaural rendering, the number of points to be measured by the apparatus for generating the HRTF set may increase. Also, if there is a limit on the storage capacity of the database storing the HRTF sets, the database may be difficult to store all of the HRTF sets measured at various reference distances.
도 7 및 도 8은 청취자로부터 음원까지의 거리가 HRTF 세트가 생성된 기준 거리보다 가깝거나 더 멀리 위치하는 경우, 획득되는 HRTF 페어를 나타내는 도면이다. 도 7에서, 청취자의 머리 방향을 기준으로 청취자의 좌측 귀로부터 음원까지의 각도는 theta_c이다. 또한, 청취자의 머리 방향을 기준으로 청취자의 우측 귀로부터 음원까지의 각도는 theta_i이다. 이때, theta_c 및 theta_i는 서로 다를 수 있다. 또한, theta_c 및 theta_i는 청취자의 머리 방향을 기준으로 청취자의 머리 중심으로부터 음원까지의 각도 theta_O와 차이가 있다. 이로 인해, 음원으로부터 청취자의 양쪽 귀까지의 각각의 음향 경로는 음원으로부터 청취자의 머리 중심까지의 음향 경로와 다를 수 있다. 또한, HRTF 세트가 측정된 기준 거리 R을 반지름으로 하는 구면 상에 전사되는 전달함수 참조 위치인 Hi 및 Hc는 청취자의 머리 중심을 기초로 획득된 전달함수인 H0와 다를 수 있다. 오디오 신호 처리 장치는 HRTF 세트가 생성된 기준 거리, 음원과 청취자 사이의 거리를 기초로 청취자의 양쪽 귀 각각에 대해 서로 다른 위치에 대응하는 HRTF를 획득할 수 있다. 구체적으로, 오디오 신호 처리 장치는 기준 거리, 청취자 양쪽 귀 각각의 위치 및 음원의 위치를 기초로 청취자의 동측 및 대측 각각에 대응하는 동측 HRTF 및 대측 HRTF를 획득할 수 있다. 도 7 및 도 8에서, 동측(좌측) HRTF는 Hc의 위치에 대응하는 전달함수 페어 중에서 청취자의 좌측 귀에 대응하는 HRTF일 수 있다. 또한, 도 7 및 도 8에서, 대측(우측) HRTF는 Hi의 위치에 대응하는 전달함수 페어 중에서 청취자의 우측 귀에 대응하는 HRTF일 수 있다. 다음으로, 오디오 신호 처리 장치는 획득된 동측 HRTF 및 대측 HRTF를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. Figs. 7 and 8 are diagrams showing HRTF pairs obtained when the distance from the listener to the sound source is located closer or farther than the reference distance at which the HRTF set is generated. In Fig. 7, the angle from the left ear to the sound source of the listener with respect to the head direction of the listener is theta_c. Also, the angle from the right ear to the sound source of the listener based on the head direction of the listener is theta_i. At this time, theta_c and theta_i may be different from each other. Also, theta_c and theta_i are different from the angle theta_O from the center of the listener's head to the sound source with respect to the listener's head direction. As such, the acoustic path from the source to both ears of the listener may be different from the acoustic path from the source to the listener's head center. Also, the transfer function reference positions Hi and Hc transferred on the spherical surface having the measured reference distance R as the radius of the HRTF set may be different from the transfer function H0 obtained on the basis of the head center of the listener. The audio signal processing apparatus can obtain the HRTF corresponding to different positions for each of the listeners' ears based on the reference distance at which the HRTF set is generated and the distance between the sound source and the listener. Specifically, the audio signal processing apparatus can obtain the east side HRTF and the large side HRTF corresponding to the east side and the large side of the listener, respectively, based on the reference distance, the position of each of the listener's ears, and the position of the source. 7 and 8, the east side (left) HRTF may be the HRTF corresponding to the left ear of the listener in the transfer function pair corresponding to the position of Hc. 7 and 8, the opposite (right) HRTF may be the HRTF corresponding to the right ear of the listener in the transfer function pair corresponding to the position of Hi. Next, the audio signal processing apparatus can binaurally render the input audio signal based on the obtained east side HRTF and the opposite side HRTF to generate an output audio signal.
이하에서는, 오디오 신호 처리 장치가 청취자의 동측 및 대측 각각에 대응하는 오클루션 효과를 시뮬레이션하는 방법에 대해 도 9 내지 도 12를 통해 설명하도록 한다. 본 개시의 일 실시예에 따라, 오디오 신호 처리 장치는 청취자의 양쪽 귀의 위치를 기초로 음원으로부터 청취자의 동측 및 대측 각각에 대해 독립적으로, 블로킹 오브젝트의 존재 여부를 판단할 수 있다. 청취자의 양쪽 귀의 위치와 입력 오디오 신호에 대응하는 음원의 위치 관계에 따라, 오브젝트의 영향이 달라질 수 있기 때문이다. 구체적으로, 오디오 신호 처리 장치는 가상의 공간에 관한 정보를 기초로 입력 오디오 신호에 대응하는 음원과 청취자의 동측 사이를 가로막는 오브젝트가 존재하는지 판단할 수 있다. 또한, 오디오 신호 처리 장치는 가상의 공간에 관한 정보를 기초로 입력 오디오 신호에 대응하는 음원과 청취자의 대측 사이를 가로막는 오브젝트가 존재하는지 판단할 수 있다. Hereinafter, a method of simulating the effect of the audio signal processing apparatus corresponding to each of the east side and the large side of the listener will be described with reference to FIG. 9 through FIG. According to one embodiment of the present disclosure, the audio signal processing apparatus can determine the presence or absence of a blocking object independently of each of the east side and the large side of the listener from the sound source based on the positions of the ears of the listener. This is because the influence of the object can be changed according to the position of both ears of the listener and the positional relationship of the sound source corresponding to the input audio signal. Specifically, the audio signal processing apparatus can determine whether there is an obstacle between the sound source corresponding to the input audio signal and the east side of the listener based on the information about the virtual space. Further, the audio signal processing apparatus can determine whether there is an obstacle between the sound source corresponding to the input audio signal and the opposite side of the listener, based on the information about the virtual space.
도 9는 청취자의 양쪽 귀 각각과 음원 사이의 음향 경로 각각에 오브젝트의 존재 여부가 서로 다른 경우, 오디오 신호 처리 장치의 동작을 나타내는 도면이다. 도 9에서, 오디오 신호 처리 장치는 도 7 및 도 8에서와 같이 청취자의 양쪽 귀 각각에 대응하는 동측 및 대측 각각에 대해 서로 다른 위치에서 획득된 HRTF를 사용하여 출력 오디오 신호를 생성할 수 있다. 이때, 출력 오디오 신호는 동측 출력 오디오 신호 및 대측 출력 오디오 신호를 포함할 수 있다. 도 9에서, 음원과 청취자의 좌측 귀(L) 사이의 제1 음향 경로에는 블로킹 오브젝트가 위치되지 않을 수 있다. 이 경우, 오디오 신호 처리 장치는 청취자의 좌측 귀(L)를 위한 좌측 출력 오디오 신호에 오브젝트(W)에 의한 효과를 적용하지 않을 수 있다. 청취자의 좌측 귀(L)를 위한 출력 오디오 신호는 오브젝트(W)에 의한 오클루션 효과를 적용하지 않는 것이 실제 음향과 더 가까울 수 있기 때문이다. 반면, 오디오 신호 처리 장치는 청취자의 우측 귀(R)를 위한 우측 출력 오디오 신호에는 오브젝트(W)에 의한 효과를 적용할 수 있다. 구체적으로, 오디오 신호 처리 장치는 좌측 전달함수 Hi를 기초로 좌측 출력 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 우측 전달함수 Hc 및 블로킹 오브젝트에 관한 정보를 기초로 투과 오디오 신호와 회절 오디오 신호가 믹싱된, 우측 출력 오디오 신호를 생성할 수 있다. 9 is a diagram showing the operation of the audio signal processing apparatus when the presence or absence of an object is different in each acoustic path between each of the ears of the listener and the sound source. In Fig. 9, the audio signal processing apparatus can generate an output audio signal using the HRTF obtained at different positions for each of the east side and the large side corresponding to each of the ears of the listener, as in Figs. 7 and 8. At this time, the output audio signal may include an east-side output audio signal and a large-side output audio signal. In Fig. 9, no blocking object may be located in the first acoustic path between the sound source and the left ear L of the listener. In this case, the audio signal processing apparatus may not apply the effect of the object W to the left output audio signal for the left ear (L) of the listener. The output audio signal for the left ear (L) of the listener may be closer to the actual sound than not to apply the archiving effect by the object W. On the other hand, the audio signal processing apparatus can apply the effect of the object W to the right output audio signal for the right ear (R) of the listener. Specifically, the audio signal processing apparatus can generate the left output audio signal based on the left transfer function Hi. Further, the audio signal processing apparatus can generate a right output audio signal in which the transmission audio signal and the diffraction audio signal are mixed based on the information on the right transfer function Hc and the blocking object.
한편, 본 개시의 일 실시예에 따라, 오디오 신호 처리 장치는 도 4 및 도 5를 통해 전술한 방법으로 결정된 회절 지점에서 회절된 음향이, 회절 지점을 포함하는 블로킹 오브젝트의 표면 상의 다른 지점에서 회절되어 청취자에게 전달되는 간접 회절 오디오 신호를 생성할 수 있다. 예를 들어, 블로킹 오브젝트가 청취자의 양쪽 귀 각각에 대응하는 음향 경로 중 어느 한쪽만을 가릴 수 있다. 이 경우, 다른 한쪽에 대응하는 출력 오디오 신호는 회절 오디오 신호를 포함하지 않을 수 있다. 그러나 다른 한쪽에 대해서도 어느 한쪽을 가로막는 블로킹 오브젝트에 의한 간접적인 영향이 있을 수 있다. 간접 회절 오디오 신호를 통해, 오디오 신호 처리 장치는 사용자에게 현실감 있는 오디오 신호를 제공할 수 있다.On the other hand, according to one embodiment of the present disclosure, an audio signal processing apparatus is characterized in that the sound diffracted at the diffraction point determined by the method described above with reference to Figs. 4 and 5 is diffracted at another point on the surface of the blocking object including the diffraction point Thereby generating an indirectly diffracted audio signal that is delivered to the listener. For example, the blocking object may mask only one of the acoustic paths corresponding to each of the ears of the listener. In this case, the output audio signal corresponding to the other one may not include the diffracted audio signal. However, there may be an indirect effect on the other side by the blocking object blocking one side. Through the indirectly diffracted audio signal, the audio signal processing device can provide a realistic audio signal to the user.
본 개시에서, 간접 회절 지점은 회절 지점을 가상의 음원으로 하여 결정된 회절 지점을 나타낼 수 있다. 또한, 간접 회절 오디오 신호는 간접 회절음을 시뮬레이션하는 오디오 신호일 수 있다. 간접 회절음은 음원으로부터 출력되어 블로킹 오브젝트의 표면에서 회절된 회절음이 동일한 블로킹 오브젝트 표면의 다른 지점에서 회절되어 청취자에게 전달되는 음향일 수 있다. 또한, 본 실시예에서는, 설명의 편의를 위해 간접 회절 지점이 아닌 회절 지점을 직접 회절 지점으로 지칭한다.In the present disclosure, the indirect diffraction spot may represent a diffraction spot determined with the diffraction spot as a virtual sound source. Further, the indirectly diffracted audio signal may be an audio signal simulating an indirect diffraction sound. The indirect diffraction sound may be sound output from the source and diffracted at the surface of the blocking object diffracted at other points of the same blocking object surface and delivered to the listener. In the present embodiment, for convenience of explanation, the diffraction spot rather than the indirect diffraction spot is referred to as a direct diffraction spot.
구체적으로, 간접 회절 지점은 직접 회절 지점을 가상의 음원으로 하여 결정된 회절 지점일 수 있다. 오디오 신호 처리 장치는 음원으로부터 직접 회절 지점까지의 제1 경로, 직접 회절 지점으로부터 간접 회절 지점까지의 제3 경로 및 간접 회절 지점으로부터 청취자까지의 제4 경로의 거리의 합이 최소인 지점을 간접 회절 지점으로 결정할 수 있다. 이때, 각각의 경로는 도 4에서 설명된 제1 경로 및 제2 경로와 마찬가지로, 블로킹 오브젝트를 가로지르지 않는 최단 경로일 수 있다. Specifically, the indirect diffraction point may be a diffraction point determined by using the direct diffraction point as a virtual sound source. The audio signal processing apparatus includes a first path from a sound source to a direct diffraction point, a third path from the direct diffraction point to the indirect diffraction point, and a point where the sum of the distances of the fourth path from the indirect diffraction point to the listener is minimum, Can be determined as a point. At this time, each path may be a shortest path that does not traverse the blocking object, like the first path and the second path described in Fig.
도 10은 본 개시의 일 실시예에 따른 출력 오디오 신호가 청취자의 양쪽 귀 별로 서로 다르게 구성되는 예시를 나타내는 도면이다. 도 10에서, 음원과 청취자의 좌측 귀(L) 사이의 제1 음향 경로에는 블로킹 오브젝트가 위치되지 않고, 음원과 청취자의 우측 귀(R) 사이의 제2 음향 경로에는 블로킹 오브젝트가 위치될 수 있다. 도 10에서, 제1 음향 경로에 대한 회절 지점은 D1 및 D3이 될 수 있다. 이에 따라, 오디오 신호 처리 장치는 블로킹 오브젝트의 표면 상의 회절 지점인 D1 및 D3을 기초로 우측 회절 오디오 신호를 생성할 수 있다. 구체적으로, 오디오 신호 처리 장치는 회절 지점 D1에 대응하는 전달함수 HD1을 기초로 입력 오디오 신호를 바이노럴 렌더링하여 제1 우측 회절 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 회절 지점 D3에 대응하는 전달함수 HD3을 기초로 입력 오디오 신호를 바이노럴 렌더링하여 제2 우측 회절 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 우측 전달함수 Hi 기초로 입력 오디오 신호를 바이노럴 렌더링하여 투과 오디오 신호를 생성할 수 있다. 다음으로, 오디오 신호 처리 장치는 투과 오디오 신호, 제1 우측 회절 오디오 신호 및 제2 우측 회절 오디오 신호를 믹싱하여 우측 출력 오디오 신호를 생성할 수 있다.10 is a diagram illustrating an example in which an output audio signal according to an embodiment of the present disclosure is configured differently for each ear of the listener. 10, no blocking object is located in the first acoustic path between the sound source and the left ear (L) of the listener, and the blocking object may be located in the second acoustic path between the sound source and the listener's right ear (R) . In Fig. 10, the diffraction points for the first acoustic path may be D1 and D3. Accordingly, the audio signal processing apparatus can generate the right diffracted audio signal based on the diffraction points D1 and D3 on the surface of the blocking object. Specifically, the audio signal processing apparatus can binaurally render the input audio signal based on the transfer function HD1 corresponding to the diffraction point D1 to generate a first right diffracted audio signal. Further, the audio signal processing apparatus can binaurally render the input audio signal on the basis of the transfer function HD3 corresponding to the diffraction point D3 to generate the second right-hand diffraction audio signal. In addition, the audio signal processing apparatus can binaurally render the input audio signal on the basis of the right transfer function Hi to generate a transparent audio signal. Next, the audio signal processing apparatus may mix the transmission audio signal, the first right-hand diffraction audio signal, and the second right-hand diffraction audio signal to generate a right output audio signal.
도 10에서, 제2 음향 경로에 대응하는 좌측 출력 오디오 신호는 회절 오디오 신호를 포함하지 않을 수 있다. 제2 음향 경로의 경우, 블로킹 오브젝트와 오버랩되지 않기 때문이다. 그러나 오디오 신호 처리 장치는 간접 회절 오디오 신호를 포함하는 좌측 출력 오디오 신호를 생성할 수 있다. 도 10을 참조하면, 오디오 신호 처리 장치는 제1 음향 경로에 대한 회절 지점 D1 및 D3를 가상의 음원으로 하여 간접 회절 오디오 신호를 생성할 수 있다. 먼저, D1의 경우, D1으로부터 청취자의 좌측 귀(L)까지의 최단 경로는 블로킹 오브젝트의 다른 지점을 지나지 않기 때문에 간접 회절음이 존재하지 않을 수 있다. 다음으로, D3의 경우, D3으로부터 청취자의 좌측 귀(L)까지의 제3 음향 경로는 지점 D2를 지날 수 있다. 이때, 오디오 신호 처리 장치는 지점 D2를 간접 회절 지점으로 결정할 수 있다. 또한, 오디오 신호 처리 장치는 간접 회절 지점 D2를 기초로 입력 오디오 신호를 렌더링할 수 있다. 예를 들어, 오디오 신호 처리 장치는 회절 지점 D2에 대응하는 전달함수 HD2을 기초로 입력 오디오 신호를 바이노럴 렌더링하여 간접 회절 오디오 신호를 생성할 수 있다. In Fig. 10, the left output audio signal corresponding to the second acoustic path may not include the diffracted audio signal. In the case of the second acoustic path, it does not overlap with the blocking object. However, the audio signal processing apparatus may generate a left output audio signal including an indirectly diffracted audio signal. Referring to FIG. 10, the audio signal processing apparatus may generate the indirectly diffracted audio signal by using the diffraction points D1 and D3 for the first acoustic path as virtual sound sources. First, in the case of D1, the shortest path from D1 to the left ear (L) of the listener may not pass through the other point of the blocking object, so that an indirect diffraction sound may not exist. Next, in the case of D3, the third acoustic path from D3 to the left ear (L) of the listener may go past point D2. At this time, the audio signal processing apparatus can determine the point D2 as the indirect diffraction point. Further, the audio signal processing apparatus can render the input audio signal based on the indirect diffraction point D2. For example, the audio signal processing apparatus can binaurally render the input audio signal based on the transfer function HD2 corresponding to the diffraction point D2 to generate an indirectly diffracted audio signal.
전술한 직접 회절 지점을 결정하는 방법 및 회절 오디오 신호를 생성하는 방법은 간접 회절 지점을 결정하는 방법 및 간접 회절 오디오 신호를 생성하는 방법 각각에 동일 또는 상응하는 방법으로 적용될 수 있다. 예를 들어, 오디오 신호 처리 장치는 음원으로부터 출력된 음향이 직접 회절 지점 및 간접 회절 지점을 지나 청취자까지 도달하는 간접 회절 거리를 기초로 입력 오디오 신호를 감쇠시킬 수 있다. 또한, 오디오 신호 처리 장치는 간접 회절 거리를 기초로 입력 오디오 신호를 지연시켜 간접 회절 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 좌측 전달함수 Hc를 기초로 직접 오디오 신호를 생성할 수 있다. 최종적으로, 오디오 신호 처리 장치는 직접 오디오 신호 및 좌측 회절 오디오 신호를 믹싱하여 좌측 출력 오디오 신호를 생성할 수 있다.The method for determining the direct diffraction point described above and the method for generating the diffracted audio signal can be applied in the same or corresponding manner to each of the method for determining the indirect diffraction spot and the method for generating the indirect diffraction audio signal. For example, the audio signal processing apparatus may attenuate an input audio signal based on an indirect diffraction distance at which the sound output from the sound source reaches the listener through the direct diffraction point and the indirect diffraction point. Further, the audio signal processing apparatus can generate an indirectly diffracted audio signal by delaying the input audio signal based on the indirect diffraction distance. Further, the audio signal processing apparatus can directly generate an audio signal based on the left transfer function Hc. Finally, the audio signal processing apparatus can mix the direct audio signal and the left diffracted audio signal to generate a left output audio signal.
한편, 오디오 신호 처리 장치는 블로킹 오브젝트의 크기를 기초로 간접 회절 오디오 신호의 생성 여부를 결정할 수 있다. 예를 들어, 블로킹 오브젝트의 크기가 청취자의 머리 크기에 비해 작은 경우, 오디오 신호 처리 장치는 간접 회절 오디오 신호를 생성할 수 있다. 이 경우, 오디오 신호 처리 장치가 간접 회절 음향을 모델링하는 것이 사용자에 현실감을 제공하는 것에 도움이 될 수 있기 때문이다. 반면, 블로킹 오브젝트의 크기가 청취자의 머리크기에 비해 큰 경우, 오디오 신호 처리 장치는 간접 회절 오디오 신호를 생성하지 않을 수 있다. 또한, 오디오 신호 처리 장치는 블로킹 오브젝트의 위치 및 형상 중 적어도 하나를 기초로 간접 회절 오디오 신호의 생성 여부를 판단할 수 있다.On the other hand, the audio signal processing apparatus can determine whether to generate an indirectly diffracted audio signal based on the size of the blocking object. For example, if the size of the blocking object is smaller than the head size of the listener, the audio signal processing apparatus can generate an indirectly diffracted audio signal. In this case, modeling the indirect diffraction sound by the audio signal processing apparatus can help provide a sense of reality to the user. On the other hand, when the size of the blocking object is larger than the head size of the listener, the audio signal processing apparatus may not generate the indirectly diffracted audio signal. Further, the audio signal processing apparatus can determine whether to generate the indirectly diffracted audio signal based on at least one of the position and the shape of the blocking object.
한편, 청취자의 양쪽 귀 각각에 대응하는 음향 경로 중에서 어느 하나의 음향 경로에는 블로킹 오브젝트가 존재하지 않는 경우, 블로킹 오브젝트에 의해 오클루션되지 않은 쪽에는 반사음이 발생할 수 있다. 오디오 신호 처리 장치는 어느 한쪽을 가로막는 블로킹 오브젝트를 기초로 반사 오디오 신호를 생성할 수 있다. 도 11은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 반사 오디오 신호를 생성하는 방법을 나타내는 도면이다. 도 11에서, 음원과 청취자의 좌측 귀(L) 사이의 제1 음향 경로에는 블로킹 오브젝트가 위치되지 않고, 음원과 청취자의 우측 귀(R) 사이의 제2 음향 경로에는 블로킹 오브젝트가 위치될 수 있다. On the other hand, if there is no blocking object in any one of the acoustic paths corresponding to the two ears of the listener, a reflected sound may be generated in the non-occluded by the blocking object. The audio signal processing apparatus can generate a reflected audio signal based on the blocking object blocking one of them. 11 is a diagram illustrating a method by which an audio signal processing apparatus according to an embodiment of the present disclosure generates a reflected audio signal. 11, no blocking object is located in the first acoustic path between the sound source and the left ear (L) of the listener, and the blocking object may be located in the second acoustic path between the sound source and the listener's right ear (R) .
일 실시예에 따라, 오디오 신호 처리 장치는 블로킹 오브젝트의 표면에서 입력 오디오 신호에 대응하는 음향이 반사되는 반사 지점을 결정할 수 있다. 구체적으로, 오디오 신호 처리 장치는 블로킹 오브젝트의 위치, 크기 및 형상을 기초로 반사 지점을 결정할 수 있다. 오디오 신호 처리 장치는 음원의 위치 및 청취자의 위치를 기준으로 블로킹 오브젝트의 표면 상에서 반사각과 입사각이 동일해 지는 지점을 반사 지점으로 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치는 블로킹 오브젝트의 표면에서 음원으로부터의 입사각과 청취자까지의 반사각이 동일해지는 지점을 반사 지점으로 결정할 수 있다.According to one embodiment, the audio signal processing device can determine the reflection point at which the sound corresponding to the input audio signal is reflected at the surface of the blocking object. Specifically, the audio signal processing apparatus can determine the reflection point based on the position, size, and shape of the blocking object. The audio signal processing apparatus can determine, as a reflection point, a point where the reflection angle and the incident angle on the surface of the blocking object become equal to each other based on the position of the sound source and the position of the listener. For example, the audio signal processing apparatus can determine, as the reflection point, a point at which the angle of incidence from the sound source at the surface of the blocking object becomes equal to the reflection angle from the listener to the listener.
다음으로, 오디오 신호 처리 장치는 청취자의 머리 방향 및 반사 지점의 위치를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 반사 오디오 신호를 생성할 수 있다. 오디오 신호 처리 장치는 청취자의 머리 방향 및 반사 지점의 위치를 기초로 반사 지점에 대응하는 HRTF를 획득할 수 있다. 도 11에서, 오디오 신호 처리 장치는 반사 지점 R'에 대응하는 전달함수 HR을 획득할 수 있다. 또한, 오디오 신호 처리 장치는 전달함수 HR을 기초로 입력 오디오 신호를 바이노럴 렌더링 하여 반사 오디오 신호를 생성할 수 있다. Next, the audio signal processing apparatus can binaurally render the input audio signal based on the position of the listener's head direction and the reflection point to generate a reflected audio signal. The audio signal processing apparatus can obtain the HRTF corresponding to the reflection point based on the position of the listener's head direction and the reflection point. In Fig. 11, the audio signal processing apparatus can obtain the transfer function HR corresponding to the reflection point R '. In addition, the audio signal processing apparatus can binaurally render the input audio signal based on the transfer function HR to generate a reflected audio signal.
또한, 오디오 신호 처리 장치는 블로킹 오브젝트에 관한 정보를 기초로 반사 오디오 신호를 생성할 수 있다. 이때, 블로킹 오브젝트에 관한 정보는 오브젝트의 음향 반사율을 포함할 수 있다. 음향 반사율은 반사되기 전 음향 대비 오브젝트에 의해 반사된 음향의 크기 비율을 나타낼 수 있다. 구체적으로, 오디오 신호 처리 장치는 블로킹 오브젝트를 구성하는 물질을 나타내는 정보 또는 블로킹 오브젝트의 반사율 중 적어도 하나를 기초로 반사 감쇠 게인을 결정할 수 있다. 블로킹 오브젝트를 구성하는 물질에 따라 반사 감쇠 게인이 달라질 수 있기 때문이다. Further, the audio signal processing apparatus can generate the reflected audio signal based on the information about the blocking object. At this time, the information about the blocking object may include the acoustic reflectance of the object. Acoustic reflectance can indicate the magnitude ratio of the sound reflected by the object to the acoustic contrast before being reflected. Specifically, the audio signal processing apparatus can determine the reflection attenuation gain based on at least one of the information indicating the material constituting the blocking object or the reflectance of the blocking object. This is because the reflection attenuation gain may vary depending on the material constituting the blocking object.
또한, 오디오 신호 처리 장치는 반사 경로의 길이를 나타내는 반사 거리를 기초로 반사 오디오 신호를 생성할 수 있다. 구체적으로, 오디오 신호 처리 장치는 반사 지점에 대응하는 반사 거리를 기초로 입력 오디오 신호를 감쇠시켜 반사 오디오 신호를 생성할 수 있다. 반사 거리에 따라 음원으로부터 출력된 음향에 비해 청취자에게 전달되는 반사음의 크기가 감쇠되기 때문이다. 구체적으로, 오디오 신호 처리 장치는 반사 지점에 따른 반사 거리를 기초로 반사에 의한 반사 감쇠 게인을 결정할 수 있다. 또한, 반사음은 직접음에 비해 지연될 수 있다. 음원으로부터 출력된 음향이 전달되는 경로가 길어지기 때문이다. 이에 따라, 오디오 신호 처리 장치는 반사 거리를 기초로 입력 오디오 신호를 지연시켜 회절 오디오 신호를 생성할 수 있다. 다음으로, 오디오 신호 처리 장치는 전술한 방법으로 생성된 직접 오디오 신호, 간접 회절 오디오 신호 및 반사 오디오 신호를 믹싱하여 좌측 출력 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 전술한 방법으로 생성된 투과 오디오 신호 및 회절 오디오 신호 믹싱하여 우측 출력 오디오 신호를 생성할 수 있다.Further, the audio signal processing apparatus can generate the reflected audio signal based on the reflection distance indicating the length of the reflection path. Specifically, the audio signal processing device can generate a reflected audio signal by attenuating the input audio signal based on the reflection distance corresponding to the reflection point. The size of the reflected sound transmitted to the listener is attenuated compared to the sound output from the sound source according to the reflection distance. Specifically, the audio signal processing apparatus can determine the reflection attenuation gain due to reflection based on the reflection distance along the reflection point. Also, the reflected sound can be delayed compared to the direct sound. This is because the path through which the sound output from the sound source is transmitted becomes longer. Accordingly, the audio signal processing apparatus can generate the diffracted audio signal by delaying the input audio signal based on the reflection distance. Next, the audio signal processing apparatus may mix the direct audio signal, the indirectly diffracted audio signal, and the reflected audio signal generated by the above-described method to generate a left output audio signal. Further, the audio signal processing apparatus can mix the transmission audio signal and the diffraction audio signal generated by the above-described method to generate a right output audio signal.
한편, 본 개시의 다른 일 실시예에 따라, 오디오 신호 처리 장치는 음원으로부터 출력된 음향의 가상의 공간에 의한 잔향(Room Reverberation)에 대응하는 잔향 오디오 신호를 생성할 수 있다. 이때, 잔향은 전술한 프로세서(12)에 의한 후처리 과정에서 수행될 수 있다. 도 12는 청취자의 양쪽 귀 각각에 대응하는 잔향 오디오 신호를 생성하는 방법을 나타내는 도면이다. 일 실시예에 따라, 가상의 공간에서 청취자는 도 12와 같이 서로 다른 잔향 특성을 가지도록 분할된 공간의 경계에 위치할 수 있다. 이 경우, 청취자의 양쪽 귀는 각각 서로 다른 잔향 특성을 가지는 공간을 통해 음향을 취득할 수 있다. 이에 따라, 오디오 신호 처리 장치는 청취자의 양쪽 귀 각각이 위치하는 분할된 공간에 대응하는 잔향 필터를 기초로, 청취자의 양쪽 귀 각각을 위한 잔향 오디오 신호를 생성할 수 있다.Meanwhile, according to another embodiment of the present disclosure, an audio signal processing apparatus can generate a reverberant audio signal corresponding to a room reverberation due to a virtual space of sound output from a sound source. At this time, the reverberation may be performed in the post-processing process by the processor 12 described above. 12 is a diagram showing a method of generating a reverberation audio signal corresponding to each of the two ears of the listener. According to one embodiment, the listener in the virtual space may be located at the boundary of the divided space to have different reverberation characteristics as shown in FIG. In this case, both ears of the listener can acquire sound through spaces having different reverberation characteristics. Thus, the audio signal processing apparatus can generate a reverberant audio signal for each of the listeners 'ears, based on the reverberation filter corresponding to the divided space where each of the listeners' ears is located.
예를 들어, 청취자의 양쪽 귀 각각의 위치가 각각 서로 다른 분할 공간에 위치하는 경우, 오디오 신호 처리 장치는 청취자의 우측 및 좌측 각각에 대해 서로 다른 잔향 필터를 기초로 입력 오디오 신호를 필터링할 수 있다. 구체적으로, 오디오 신호 처리 장치는 청취자의 양쪽 귀 각각의 위치를 기초로, 청취자의 우측 및 좌측 각각에 대응하는 우측 잔향 필터 및 좌측 잔향 필터를 결정할 수 있다. 다음으로, 오디오 신호 처리 장치는 우측 잔향 필터 및 좌측 잔향 필터를 기초로 입력 오디오 신호를 바이노럴 렌더링하여, 청취자의 우측 및 좌측 각각에 대응하는 잔향 오디오 신호를 생성할 수 있다. For example, if the position of each of the listeners' ears is located in a different subdivision space, the audio signal processing apparatus may filter the input audio signal based on different reverberation filters for each of the right and left of the listener . Specifically, the audio signal processing apparatus can determine the right reverberation filter and the left reverberation filter corresponding to the right and left sides of the listener, respectively, based on the position of each of the listeners' ears. Next, the audio signal processing apparatus binaurally renders an input audio signal on the basis of the right reverberation filter and the left reverberation filter, thereby generating a reverberant audio signal corresponding to each of the right and left sides of the listener.
도 12에서, 오디오 신호 처리 장치는 공간 R_A의 특성을 기초로 생성된 제1 잔향 필터를 기초로 좌측 귀를 위한 잔향 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 공간 R_B의 특성을 기초로 생성된 제2 잔향 필터를 기초로 우측 귀를 위한 잔향 오디오 신호를 생성할 수 있다. 이때, 제1 잔향 필터와 제2 잔향 필터는 적어도 하나의 필터 계수의 값이 서로 다른 필터일 수 있다. 다른 일 실시예에 따라, 오디오 신호 처리 장치는 제1 잔향 필터 및 제2 잔향 필터를 가중합하여 하나의 대표 잔향 필터를 생성할 수도 있다. 오디오 신호 처리 장치는 대표 잔향 필터를 사용하여 좌측 및 우측에 대한 잔향 오디오 신호를 생성할 수도 있다.In Fig. 12, the audio signal processing apparatus can generate a reverberant audio signal for the left ear based on the first reverberation filter generated based on the characteristics of the space R_A. In addition, the audio signal processing apparatus can generate a reverberant audio signal for the right ear based on the second reverberation filter generated based on the characteristics of the space R_B. In this case, the first and second reverberation filters may be filters having different values of at least one filter coefficient. According to another embodiment, the audio signal processing device may combine the first and second reverberation filters to generate one representative reverberation filter. The audio signal processing apparatus may generate reverberant audio signals for left and right using the representative reverberation filter.
이하에서는, 오디오 신호 처리 장치가 전술한 출력 오디오 신호를 생성하기 위해 입력 오디오 신호를 처리하는 과정에 대해 설명한다. 이하에서 설명될 처리 과정은 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다. 예를 들어, 도 2를 통해 전술한 프로세서(12)는 도 13 내지 도 16에서 설명되는 처리 과정을 수행할 수 있다.Hereinafter, a process in which the audio signal processing apparatus processes the input audio signal to generate the above-described output audio signal will be described. The process described below may be a software component that is executed by a hardware configuration such as a processor. For example, the processor 12 described above with reference to FIG. 2 may perform the processing described in FIGS.
도 13은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(10)가 입력 오디오 신호를 처리하는 과정을 나타내는 블록도이다. 일 실시예에 따라, 오디오 신호 처리 장치는 공간 정보 및 청취자 정보를 기초로 입력 오디오 신호를 전처리할 수 있다(S100). 입력 오디오 신호는 복수의 오브젝트 신호를 포함할 수 있다. 또한, 입력 오디오 신호는 오브젝트 신호, 앰비소닉 신호 또는 채널 신호 중 적어도 하나를 포함할 수 있다. 오디오 신호 처리 장치는 가상의 공간이 포함하는 복수의 오브젝트에 의한 음향 오클루션 효과가 시뮬레이션된 중간 오디오 신호를 생성할 수 있다. 이때, 중간 오디오 신호는 1개의 오브젝트 신호 또는 모노(Monaural) 신호일 수 있다. 또는 중간 오디오 신호를 다중 채널(Multi-Channel) 신호일 수도 있다. 또한, 오디오 신호 처리 장치는 공간 정보 및 청취자 정보를 기초로 바이노럴 렌더링에 사용되는 HRTF를 획득할 수 있다. 이때, HRTF는 동측 HRTF 및 대측 HRTF 페어(pair)를 포함할 수 있다. 13 is a block diagram illustrating a process of processing an input audio signal by the audio signal processing apparatus 10 according to an embodiment of the present disclosure. According to an embodiment, the audio signal processing apparatus may preprocess the input audio signal based on the spatial information and the listener information (S100). The input audio signal may include a plurality of object signals. Further, the input audio signal may include at least one of an object signal, an ambsonic signal, and a channel signal. The audio signal processing apparatus can generate the intermediate audio signal in which the acoustic acicular effect by the plurality of objects included in the virtual space is simulated. At this time, the intermediate audio signal may be one object signal or a monaural signal. Or an intermediate audio signal may be a multi-channel signal. Further, the audio signal processing apparatus can acquire the HRTF used for binaural rendering based on the spatial information and the listener information. At this time, the HRTF may include the east side HRTF and the large side HRTF pair.
또한, 오디오 신호 처리 장치는 전처리된 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다(S200). 출력 오디오 신호는 바이노럴 신호일 수 있다. 예를 들어, 출력 오디오 신호는 3D 오디오 헤드폰 신호(즉, 3D 오디오 2-채널 신호)일 수 있다. 오디오 신호 처리 장치는 전처리 과정(S100)에서 획득한 HRTF 페어를 사용하여 중간 오디오 신호를 바이노럴 렌더링할 수 있다. 바이노럴 렌더링은 시간 영역 또는 주파수 영역 상에서 수행될 수 있다. 일 실시예 따라, 중간 오디오 신호는 청취자의 양쪽 귀 각각을 위한 2-채널 오디오 신호일 수 있다. 또한, 오디오 신호 처리 장치는 추가적으로 출력 오디오 신호에 대한 후처리(Post-Processing)를 수행될 수 있다. 후처리에는 크로스톡 제거(Cross-Talk Cancellationi), DRC(Dynamic Range Control), 음량 정규화, 피크 제한(Peak Limiter), 잔향 생성(Reverberator)이 포함될 수 있다. 또한, 후처리 과정은 바이노럴 렌더링과 마찬가지로 시간 영역 또는 주파수 영역 상에서 수행될 수 있다. 이에 따라, 후처리 과정에서 오디오 신호 처리 장치는 출력 오디오 신호를 주파수/시간 영역 변환할 수도 있다. 오디오 신호 처리 장치는 후처리를 수행하는 별도의 후처리(Post-Processing Block) 프로세서를 포함할 수 있다. 또는 후처리 과정은 도 2의 프로세서(12)를 통해 수행될 수도 있다. In addition, the audio signal processing apparatus may binaurally render the preprocessed audio signal to generate an output audio signal (S200). The output audio signal may be a binaural signal. For example, the output audio signal may be a 3D audio headphone signal (i.e., a 3D audio 2-channel signal). The audio signal processing apparatus can binaurally render the intermediate audio signal using the HRTF pair obtained in the preprocessing step (S100). The binaural rendering may be performed in the time domain or the frequency domain. According to one embodiment, the intermediate audio signal may be a two-channel audio signal for each of the listeners' ears. Further, the audio signal processing apparatus may be further subjected to Post-Processing on the output audio signal. Post-processing may include Cross-Talk Cancellation, Dynamic Range Control (DRC), Volume Normalization, Peak Limiter, and Reverberator. In addition, the post-processing can be performed in the time domain or the frequency domain as well as the binaural rendering. Accordingly, the audio signal processing apparatus may perform frequency / time domain conversion of the output audio signal in the post-processing process. The audio signal processing apparatus may include a post-processing block processor for performing post-processing. Or post-processing may be performed through the processor 12 of FIG.
도 14는 오디오 신호 처리 장치의 전처리(S100) 동작을 더욱 상세하게 나타내는 블록도이다. 도 1을 참조하면, 오디오 신호 처리 장치는 음향 공간을 분석할 수 있다(S110). 오디오 신호 처리 장치는 청취자의 위치 기준으로, 음원로부터 청취자의 양쪽 귀까지의 음향 경로를 분석할 수 있다. 오디오 신호 처리 장치는 음향 경로를 기준으로 청취자와 음원 사이에 블로킹 오브젝트가 존재하는지 결정할 수 있다. 오디오 신호 처리 장치는 음원의 위치, 청취자의 위치 및 가상의 공간이 포함하는 복수의 오브젝트 각각의 위치를 기초로 블로킹 오브젝트가 존재하는지 판단할 수 있다. 블로킹 오브젝트가 존재하는 경우, 오디오 신호 처리 장치는 복수의 오브젝트 중에서 적어도 하나의 블로킹 오브젝트를 결정할 수 있다. 오디오 신호 처리 장치는 결정된 블로킹 오브젝트 각각의 오브젝트 관련 정보를 기초로 모델링 정보를 생성할 수 있다. 이때, 오브젝트 관련 정보는 입력 오디오 신호에 대한 메타데이터 형태일 수 있다. 오브젝트 관련 정보는 오브젝트의 위치 정보를 포함할 수 있다. 또한, 오브젝트 관련 정보는 오브젝트가 사운드 오브젝트(sound object)인지 논-사운드 오브젝트(non-sound object)인지를 나타내는 속성 정보를 포함할 수 있다. 일 실시예에 따라, 블로킹 오브젝트는 논-사운드 오브젝트일 수 있다. 또한, 블로킹 오브젝트는 패시브 오브젝트(passive object), 논-오디오 오브젝트(non-audio object), 씬 오브젝트(scene object), 비주얼 오브젝트(visual object), 어쿠스틱 오브젝트(acoustic object), 어쿠스틱 엘리먼트(acoustic element), 오클루더(occluder), 반사체(reflector) 또는 흡수체(absorber)중 적어도 하나를 포함할 수 있다.14 is a block diagram showing in more detail the operation of the pre-processing (S100) of the audio signal processing apparatus. Referring to FIG. 1, an audio signal processing apparatus may analyze an acoustic space (S110). The audio signal processing apparatus can analyze the acoustic path from the sound source to both ears of the listener based on the position of the listener. The audio signal processing apparatus can determine whether there is a blocking object between the listener and the sound source based on the acoustic path. The audio signal processing apparatus can determine whether a blocking object exists based on the position of the sound source, the position of the listener, and the position of each of a plurality of objects included in the virtual space. When a blocking object exists, the audio signal processing apparatus can determine at least one blocking object from among a plurality of objects. The audio signal processing apparatus can generate the modeling information based on the object-related information of each of the determined blocking objects. At this time, the object related information may be in the form of metadata for the input audio signal. The object-related information may include positional information of the object. In addition, the object-related information may include attribute information indicating whether the object is a sound object or a non-sound object. According to one embodiment, the blocking object may be a non-sound object. The blocking object may also be a passive object, a non-audio object, a scene object, a visual object, an acoustic object, an acoustic element, , An occluder, a reflector, or an absorber.
또한, 오브젝트 관련 정보는 오브젝트를 구성하는 물질에 관한 정보를 포함할 수 있다. 이때, 물질에 관한 정보는 오브젝트를 구성하는 물질의 주파수 성분 별 흡음률, 반사율, 투과율, 회절율 또는 산란율 중 적어도 하나를 포함할 수 있다. 또는 오브젝트 관련 정보는 오브젝트를 구성하는 물질에 관한 정보가 반영된 주파수 응답 특성을 포함할 수도 있다. 오디오 신호 처리 장치는 오브젝트 각각의 오브젝트 관련 정보를 기초로 바이노럴 렌더링이 수행되는 오디오 신호를 선택적으로 전달할 수 있다. 구체적으로, 오디오 신호 처리 장치는 제1 블로킹 오브젝트의 투과율이 기준 투과율 미만인 경우, 제1 블로킹 오브젝트에 의해 가로막힌 적어도 하나의 음원 각각에 대응하는 제1 오디오 신호를 선택하지 않을 수 있다. 이 경우, 오디오 신호 처리 장치는 제1 오디오 신호를 제외한 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다.In addition, the object-related information may include information on the material constituting the object. At this time, the information about the material may include at least one of sound absorption rate, reflectance, transmittance, diffraction rate, and scattering rate for each frequency component of the material constituting the object. Alternatively, the object-related information may include a frequency response characteristic in which information about a material constituting the object is reflected. The audio signal processing apparatus may selectively transmit an audio signal on which binaural rendering is performed based on object-related information of each object. Specifically, the audio signal processing apparatus may not select the first audio signal corresponding to each of the at least one sound source blocked by the first blocking object, when the transmittance of the first blocking object is less than the reference transmittance. In this case, the audio signal processing apparatus may binaurally render an input audio signal except for the first audio signal to generate an output audio signal.
또한, 오디오 신호 처리 장치는 중간 오디오 신호를 바이노럴 렌더링 하는데 필요한 바이노럴 정보를 생성할 수 있다. 여기에서, 바이노럴 정보는 오디오 신호를 바이노럴 렌더링하는 바이노럴 필터를 포함할 수 있다. 또는 바이노럴 정보는 청취자를 기준으로 하는 특정 지점의 수평각 및 고도각 정보를 포함할 수도 있다. 오디오 신호 처리 장치는 청취자 위치 정보 및 청취자 머리 방향 정보를 기초로 바이노럴 정보를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치는 청취자를 기준으로 음원의 위치에 대응하는 수평각 및 고도각을 획득할 수 있다. 또한, 오디오 신호 처리 장치는 청취자를 기준으로 음원의 위치에 대응하는 HRTF를 획득할 수도 있다. 또한, 오디오 신호 처리 장치는 오브젝트의 위치, 크기 및 형상을 기초로 바이노럴 필터를 생성할 수 있다. 이를 통해, 오디오 신호 처리 장치는 회절음 또는 반사음을 모델링할 수 있다. 예를 들어, 오디오 신호 처리 장치는 오브젝트의 표면 상의 특정 지점을 나타내는 수평각 및 고도각을 획득할 수 있다. 오디오 신호 처리 장치는 오브젝트의 표면 상의 특정 지점을 나타내는 수평각 및 고도각을 기초로 출력 오디오 신호의 생성에 사용되는 바이노럴 필터를 획득할 수도 있다. In addition, the audio signal processing apparatus can generate binaural information necessary for binaural rendering of the intermediate audio signal. Herein, the binaural information may include a binaural filter that binaurally renders an audio signal. Or binaural information may include horizontal angle and elevation angle information of a specific point relative to the listener. The audio signal processing apparatus can generate binaural information based on the listener position information and the listener's head direction information. For example, the audio signal processing apparatus can obtain the horizontal angle and the altitude angle corresponding to the position of the sound source on the basis of the listener. Further, the audio signal processing apparatus may acquire the HRTF corresponding to the position of the sound source on the basis of the listener. Further, the audio signal processing apparatus can generate a binaural filter based on the position, size, and shape of the object. Thereby, the audio signal processing apparatus can model the diffracted sound or the reflected sound. For example, the audio signal processing device may obtain a horizontal angle and an elevation angle representing a specific point on the surface of the object. The audio signal processing device may obtain a binaural filter that is used to generate the output audio signal based on the horizontal angle and the altitude angle representing a specific point on the surface of the object.
구체적으로, 바이노럴 정보는 동측(Ipsilateral) 바이노럴 정보 및 대측(Contralateral) 바이노럴 정보를 포함할 수 있다. 후술할 도 16에서, 제1 바이노럴 정보 및 제2 바이노럴 정보는 각각 동측 바이노럴 정보 및 대측 바이노럴 정보를 나타낼 수 있다. 또한, 동측 바이노럴 정보는 동측 음향을 모델링하기 위한 적어도 하나의 바이노럴 필터를 포함할 수 있다. 대측 바이노럴 정보는 대측 음향을 모델링하기 위한 적어도 하나의 바이노럴 필터를 포함할 수 있다. 또한, 본 개시의 일 실시예에 따라, 오디오 신호 처리 장치는 바이노럴 정보를 사용하여 블로킹 오브젝트에 의한 음향 오클루션 효과를 시뮬레이션할 수 있다. 이 경우, 오디오 신호 처리 장치는 전술한 음향 공간 분석(S110)을 통해 복수의 바이노럴 필터 페어를 포함하는 바이노럴 정보를 획득할 수 있다. 또는 오디오 신호 처리 장치는 복수의 수평각 및 고도각 세트를 포함하는 바이노럴 정보를 획득할 수도 있다. Specifically, the binaural information may include Ipsilateral binaural information and contralateral binaural information. In FIG. 16 to be described later, the first binaural information and the second binaural information may represent the east side binaural information and the large side binaural information, respectively. The east side binaural information may also include at least one binaural filter for modeling the east side sound. The lateral binaural information may include at least one binaural filter for modeling the major acoustic. Further, in accordance with one embodiment of the present disclosure, an audio signal processing device may use binaural information to simulate acoustic acrobation effects by blocking objects. In this case, the audio signal processing apparatus can acquire binaural information including a plurality of binaural filter pairs through the above-described acoustic space analysis (S110). Or the audio signal processing apparatus may obtain binaural information including a plurality of sets of horizontal angle and altitude angles.
다음으로, 오디오 신호 처리 장치는 바이노럴 정보를 사용하여 중간 오디오 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치는 복수의 바이노럴 필터 페어를 기초로 하나의 대표 바이노럴 필터 페어를 생성할 수도 있다. 이때, 오디오 신호 처리 장치는 복수의 바이노럴 필터 페어를 기초로 동측 및 대측 별로 복수의 중간 오디오 신호를 생성할 수 있다. 모델링하는 음향의 종류(예를 들어, 투과음, 회절음, 반사음)에 따라 사용되는 바이노럴 필터 페어가 다를 수 있기 때문이다. 또한, 청취자와 하나의 음원 사이에 위치된 블로킹 오브젝트가 복수인 경우, 바이노럴 필터 페어는 블로킹 오브젝트에 따라 달라질 수 있다. 또한, 오디오 신호 처리 장치는 복수의 중간 오디오 신호를 믹싱하여 최종 중간 오디오 신호를 생성할 수 있다. 또는 오디오 신호 처리 장치는 복수의 바이노럴 필터 페어를 평균, 가중합 또는 합성하는 방법을 통해 대표 바이노럴 필터 페어를 생성할 수도 있다. 이 경우, 오디오 신호 처리 장치는 생성된 대표 바이노럴 필터 페어를 기초로 중간 오디오 신호를 바이노럴 렌더링할 수 있다.Next, the audio signal processing apparatus can generate the intermediate audio signal using the binaural information. For example, an audio signal processing apparatus may generate one representative binaural filter pair based on a plurality of binaural filter pairs. At this time, the audio signal processing apparatus can generate a plurality of intermediate audio signals for each of the east side and the large side based on a plurality of binaural filter pairs. This is because the binaural filter pairs used may vary depending on the type of sound being modeled (for example, transmitted sound, diffracted sound, and reflected sound). Further, when there are a plurality of blocking objects located between the listener and one sound source, the binaural filter pair may vary depending on the blocking object. Further, the audio signal processing apparatus may mix a plurality of intermediate audio signals to generate a final intermediate audio signal. Alternatively, the audio signal processing apparatus may generate a representative binaural filter pair through a method of averaging, weighting, or compositing a plurality of binaural filter pairs. In this case, the audio signal processing apparatus can binaurally render the intermediate audio signal based on the generated representative binaural filter pair.
또한, 오디오 신호 처리 장치는 음향 공간 분석 과정(S110)에서 획득한 모델링 정보를 기초로 중간 오디오 신호를 생성할 수 있다(S120). 오디오 신호 처리 장치는 모델링 정보를 기초로 입력 오디오 신호를 필터링하여 중간 오디오 신호를 생성할 수 있다. 이때, 중간 오디오 신호는 입력 오디오 신호로부터 다른 방식으로 처리된 복수의 오디오 신호를 포함할 수 있다. 예를 들어, 중간 오디오 신호는 블로킹 오브젝트를 통과하는 투과음을 모델링하는 오디오 신호를 포함할 수 있다. 또한, 중간 오디오 신호는 블로킹 오브젝트의 표면에서 회절되는 회절음 및 블로킹 오브젝트의 표면에서 반사되는 반사음을 모델링하는 오디오 신호를 포함할 수 있다. 이하에서는, 오디오 신호 처리 장치가 중간 오디오 신호를 생성하는 방법에 대해 도 15를 통해 구체적으로 설명한다.In addition, the audio signal processing apparatus may generate the intermediate audio signal based on the modeling information obtained in the acoustic space analysis step (S110) (S120). The audio signal processing apparatus can generate an intermediate audio signal by filtering the input audio signal based on the modeling information. At this time, the intermediate audio signal may include a plurality of audio signals processed in a different manner from the input audio signal. For example, the intermediate audio signal may include an audio signal that models the transmitted sound through the blocking object. The intermediate audio signal may also include an audio signal that models the diffracted sound diffracted at the surface of the blocking object and the reflected sound reflected at the surface of the blocking object. Hereinafter, a method of generating an intermediate audio signal by the audio signal processing apparatus will be described in detail with reference to FIG.
도 15는 오디오 신호 처리 장치의 오디오 신호 전처리 동작(S120)을 더욱 상세하게 나타내는 블록도이다. 도 15를 참조하면, 오디오 신호 처리 장치는 입력 오디오 신호를 전처리하여 투과음을 모델링할 수 있다(S121). 예를 들어, 오디오 신호 처리 장치는 블로킹 오브젝트의 투과율을 기초로 입력 오디오 신호를 필터링하여 투과 오디오 신호를 생성할 수 있다. 이때, 투과율은 입력 오디오 신호의 주파수 빈 별로 다른 값일 적용될 수 있다. 15 is a block diagram showing the audio signal preprocessing operation (S120) of the audio signal processing apparatus in more detail. Referring to FIG. 15, the audio signal processing apparatus may model the transmitted sound by preprocessing the input audio signal (S121). For example, the audio signal processing apparatus can filter the input audio signal based on the transmittance of the blocking object to generate a transparent audio signal. At this time, the transmittance may be applied to different values depending on the frequency bin of the input audio signal.
또한, 오디오 신호 처리 장치는 입력 오디오 신호를 전처리하여 회절음 또는 반사음중 적어도 하나를 모델링할 수 있다(S122). 오디오 신호 처리 장치는 음향 경로가 변형되어 발생하는 시간 지연(Time Delay) 및 감쇠율을 기초로 회절음 및 반사음을 모델링할 수 있다. 예를 들어, 오디오 신호 처리 장치는 블로킹 오브젝트의 표면 상의 회절 지점을 기초로 입력 오디오 신호를 필터링하여 회절 오디오 신호를 생성할 수 있다. 오디오 신호 처리 장치가 회절 오디오 신호를 생성하는 방법에는 도 4를 통해 설명한 방법이 적용될 수 있다. 또한, 오디오 신호 처리 장치는 블로킹 오브젝트의 표면 상의 반사 지점을 기초로 입력 오디오 신호를 반사 오디오 신호를 생성할 수 있다. 오디오 신호 처리 장치가 반사 오디오 신호를 생성하는 방법에 대해서는 도 11을 통해 설명한 방법이 적용될 수 있다. In addition, the audio signal processing apparatus can pre-process the input audio signal to model at least one of the diffracted sound or the reflected sound (S122). The audio signal processing apparatus can model the diffracted sound and the reflected sound based on the time delay and the decay rate generated by the distortion of the acoustic path. For example, the audio signal processing apparatus may filter the input audio signal based on the diffraction point on the surface of the blocking object to generate a diffracted audio signal. The method described in FIG. 4 can be applied to the method by which the audio signal processing apparatus generates the diffracted audio signal. In addition, the audio signal processing apparatus can generate a reflected audio signal from the input audio signal based on the reflection point on the surface of the blocking object. The method described in FIG. 11 can be applied to a method by which an audio signal processing apparatus generates a reflected audio signal.
다음으로, 오디오 신호 처리 장치는 모델링이 바이패스(bypass)된 입력 오디오 신호, 투과 오디오 신호, 회절 오디오 신호 및 반사 오디오 신호를 믹싱하여 중간 오디오 신호 중 적어도 하나를 생성할 수 있다(S123). 오디오 신호 처리 장치는 모델링 정보를 기초로 입력 오디오 신호, 투과 오디오 신호, 회절 오디오 신호 및 반사 오디오 신호를 믹싱하는 비율을 결정할 수 있다. 또한, 오디오 신호 처리 장치는 결정된 믹싱 비율을 기초로 입력 오디오 신호, 투과 오디오 신호, 회절 오디오 신호 및 반사 오디오 신호를 믹싱할 수 있다. 예를 들어, 블로킹 오브젝트가 존재하는 경우, 오디오 신호 처리 장치는 모델링이 바이패스된 입력 오디오 신호를 포함하지 않을 수 있다. 한편, 블로킹 오브젝트가 존재하지 않는 경우, 투과 오디오 신호, 회절 오디오 신호 및 반사 오디오 신호가 존재하지 않을 수 있다. 또한, 블로킹 오브젝트가 존재하는 경우에도, 투과 오디오 신호, 회절 오디오 신호 또는 반사 오디오 신호 중 적어도 하나가 존재하지 않을 수 있다. 이 경우, 오디오 신호 처리 장치는 음향 공간 분석(S110) 과정에서 획득한 모델링 정보를 기초로 일부 처리 과정을 생략할 수 있다. Next, the audio signal processing apparatus may generate at least one of the intermediate audio signals by mixing the input audio signal, the transparent audio signal, the diffracted audio signal, and the reflected audio signal, the modeling of which is bypassed (S123). The audio signal processing apparatus can determine the mixing ratio of the input audio signal, the transparent audio signal, the diffracted audio signal, and the reflected audio signal based on the modeling information. Further, the audio signal processing apparatus can mix the input audio signal, the transmission audio signal, the diffraction audio signal, and the reflection audio signal based on the determined mixing ratio. For example, if a blocking object is present, the audio signal processing apparatus may not include the input audio signal to which the modeling is bypassed. On the other hand, when there is no blocking object, there may be no transmitted audio signal, diffracted audio signal, and reflected audio signal. Also, even if a blocking object exists, at least one of a transmitted audio signal, a diffracted audio signal, or a reflected audio signal may not exist. In this case, the audio signal processing apparatus may omit some processing steps based on the modeling information obtained in the acoustic space analysis (S110).
또한, 동측 및 대측에 대응하는 음향 경로 별로 블로킹 오브젝트의 존재 여부가 다른 경우, 오디오 신호 처리 장치는 동측 및 대측 각각에 대해 모델링이 필요한 오디오 신호를 믹싱할 수 있다. 구체적으로, 동측에 대응하는 음향 경로에만 블로킹 오브젝트가 존재하는 경우, 오디오 신호 처리 장치는 투과 오디오 신호 및 회절 오디오 신호를 믹싱하여 동측 중간 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 모델링이 바이패스된 입력 오디오 신호 및 반사 오디오 신호를 믹싱하여 대측 오디오 신호를 생성할 수 있다. 이를 통해, 오디오 신호 처리 장치는 사용자에게 더욱 현실감 있는 공간 음향을 제공할 수 있다.In addition, when the presence or absence of a blocking object is different depending on the acoustic paths corresponding to the east side and the large side, the audio signal processing apparatus can mix the audio signals required for modeling on both the east side and the large side. Specifically, when there is a blocking object only in the acoustic path corresponding to the east side, the audio signal processing apparatus can mix the transmitted audio signal and the diffracted audio signal to generate the east side intermediate audio signal. Further, the audio signal processing apparatus can mix the input audio signal and the reflection audio signal, which modeling is bypassed, to generate a large-side audio signal. Thus, the audio signal processing apparatus can provide more realistic spatial sound to the user.
도 15와 같이, 중간 오디오 신호는 청취자의 양쪽 귀 각각에 대응하는 2-채널 오디오 신호일 수 있다. 예를 들어, 중간 오디오 신호는 제1 중간 오디오 신호 및 제2 중간 오디오 신호를 포함할 수 있다. 구체적으로, 오디오 신호 처리 장치는 청취자의 양쪽 귀에 따른 좌/우(또는 동측 및 대측) 음향 경로로 구분하여 음향 공간을 분석할 수 있다. 이 경우, 오디오 신호 처리 장치는 구분된 음향 경로 별로 오디오 신호를 처리할 수 있다. 예를 들어, 음향 공간 분석 과정(S110)에서, 오디오 신호 처리 장치는 동측 및 대측 바이노럴 필터를 각각 생성할 수 있다. 또한, 오디오 신호 전처리 과정(S120)에서, 오디오 신호 처리 장치는 동측 중간 오디오 신호 및 대측 중간 오디오 신호를 생성할 수 있다. 이 경우, 오디오 신호 처리 장치는 제1 중간 오디오 신호 및 제2 중간 오디오 신호를 독립적으로 처리할 수 있다. 15, the intermediate audio signal may be a two-channel audio signal corresponding to each of the two ears of the listener. For example, the intermediate audio signal may comprise a first intermediate audio signal and a second intermediate audio signal. Specifically, the audio signal processing apparatus can analyze the acoustic space by dividing the sound path into left and right (or east side and large side) acoustic paths along both ears of the listener. In this case, the audio signal processing apparatus can process the audio signal according to the divided acoustic paths. For example, in the acoustic spatial analysis process (S110), the audio signal processing apparatus can generate the east side and the large side binaural filters, respectively. Further, in the audio signal preprocessing step (S120), the audio signal processing apparatus can generate the east side intermediate audio signal and the large side intermediate audio signal. In this case, the audio signal processing apparatus can independently process the first intermediate audio signal and the second intermediate audio signal.
도 16은 도 13에서 설명된 바이노럴 렌더링(S200) 과정을 더욱 구체적으로 나타내는 도면이다. 일 실시예에 따라, 오디오 신호 처리 장치는 동측 및 대측 각각에 대응하는 출력 오디오 신호를 독립적으로 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치는 음향 공간 분석 과정(S110)에서 획득된 제1 바이노럴 정보를 기초로 제1 중간 오디오 신호를 바이노럴 렌더링하여 제1 출력 오디오 신호를 생성할 수 있다(S210). 또한, 오디오 신호 처리 장치는 음향 공간 분석 과정(S110)에서 획득된 제2 바이노럴 정보를 기초로 제2 중간 오디오 신호를 바이노럴 렌더링하여 제2 출력 오디오 신호를 생성할 수 있다(S220). FIG. 16 is a diagram specifically illustrating the binaural rendering process (S200) illustrated in FIG. According to one embodiment, the audio signal processing apparatus can independently generate an output audio signal corresponding to each of the east side and the large side. For example, the audio signal processing apparatus may binaurally render the first intermediate audio signal based on the first binaural information obtained in the acoustic space analysis step (S110) to generate a first output audio signal S210). In addition, the audio signal processor may binaurally render the second intermediate audio signal based on the second binaural information obtained in the acoustic space analysis step (S110) to generate a second output audio signal (S220) .
이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 구성에 대해 도 17 내지 도 23을 참조하여 설명한다. 도 17 내지 도22의 실시예에 따른 오디오 신호 처리 장치는 도 2의 오디오 신호 처리 장치(10)와 동일 또는 상응하는 오디오 신호 처리 장치일 수 있다. 또한, 도 17 내지 도 23은 본 개시의 일 실시예에 따른 블록도로서, 분리하여 표시한 블록들은 오디오 신호 처리 장치의 엘리먼트들을 동작에 따라 논리적으로 구별하여 도시한 것이다. 또한, 각각의 유닛은 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다. 따라서 도 17 내지 도 23에서 설명되는 각각의 블록의 동작은 적어도 하나의 프로세서를 포함하는 통합 프로세서를 통해 수행될 수 있다. 예를 들어, 각각의 블록의 동작은 도 2의 프로세서(12)에 의해 수행될 수 있다. 이에 따라, 도 17 내지 도 23의 실시예에서 도 2의 실시예와 동일하거나 상응하는 부분은 중복적인 설명을 생략하도록 한다.Hereinafter, a configuration of an audio signal processing apparatus according to an embodiment of the present disclosure will be described with reference to Figs. 17 to 23. Fig. The audio signal processing apparatus according to the embodiment of FIGS. 17 to 22 may be an audio signal processing apparatus which is the same as or equivalent to the audio signal processing apparatus 10 of FIG. 17 to 23 are block diagrams according to an embodiment of the present disclosure. Blocks that are separately displayed are logically distinguishing elements of the audio signal processing apparatus according to their operations. Further, each unit may be a software component that is executed by a hardware configuration such as a processor. Thus, the operation of each block illustrated in FIGS. 17 through 23 may be performed through an integrated processor including at least one processor. For example, the operation of each block may be performed by the processor 12 of FIG. Accordingly, the same or corresponding portions as those of the embodiment of FIG. 2 in the embodiment of FIGS. 17 to 23 are not described.
도 17은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(160)의 구성을 상세하게 나타내는 블록도이다. 도 17에서, 오디오 신호 처리 장치(160)는 디코더(100), 오브젝트 렌더러(200), 앰비소닉 렌더러(300), 채널 렌더러(400), 및 믹서(500)를 포함할 수 있다. 일 실시예에 따라, 오디오 신호 처리 장치(160)는 오디오 신호 처리 장치(160) 외의 다른 장치에 의해, 입력 오디오 신호로부터 인코딩된 비트스트림을 수신할 수 있다. 디코더(100)는 입력된 비트스트림을 디코딩(decoding)할 수 있다. 디코더(100)는 비트스트림을 디코딩하여 입력 오디오 신호를 획득할 수 있다. 구체적으로, 디코더(100)는 MPEG-H 3DA 표준 코덱을 사용하여 비트스트림을 디코딩할 수 있다. 일 실시예에 따라, 입력 오디오 신호는 적어도 하나의 포맷으로 분류되는 복수의 오디오 신호를 포함할 수 있다. 예를 들어, 입력 오디오 신호는 오브젝트 신호, 앰비소닉 신호 또는 채널 신호 중 적어도 하나를 포함할 수 있다. 이 경우, 디코더(100)는 입력 오디오 신호가 포함하는 서로 다른 포맷의 복수의 오디오 신호를 포맷 별로 분류할 수 있다. 또한, 디코더(100)는 비트스트림을 디코딩하여 포맷 별로 분류된 오디오 신호 각각에 대응하는 부가 정보(side information)를 획득할 수 있다. 도 17에서, 디코더(100)는 오브젝트 신호, 앰비소닉 신호 및 채널 신호 각각에 대응하는 부가 정보를 획득할 수 있다. 또한, 디코더(100)는 비트스트림을 디코딩하여 소리를 내지 않는 논-사운드 오브젝트에 대한 논-사운드 오브젝트 부가 정보를 획득할 수 있다.  17 is a block diagram showing in detail the configuration of an audio signal processing apparatus 160 according to an embodiment of the present disclosure. 17, the audio signal processing apparatus 160 may include a decoder 100, an object renderer 200, an ambienceic renderer 300, a channel renderer 400, and a mixer 500. According to one embodiment, the audio signal processing apparatus 160 may receive an encoded bit stream from an input audio signal by an apparatus other than the audio signal processing apparatus 160. [ The decoder 100 may decode the input bitstream. The decoder 100 may decode the bit stream to obtain an input audio signal. Specifically, the decoder 100 may decode the bitstream using the MPEG-H 3DA standard codec. According to one embodiment, the input audio signal may comprise a plurality of audio signals that are classified in at least one format. For example, the input audio signal may include at least one of an object signal, an ambsonic signal, or a channel signal. In this case, the decoder 100 may classify a plurality of audio signals of different formats included in the input audio signal by format. In addition, the decoder 100 may decode the bit stream to obtain side information corresponding to each of the audio signals classified according to the format. In Fig. 17, the decoder 100 can acquire additional information corresponding to each of an object signal, an ambisonic signal, and a channel signal. In addition, the decoder 100 may decode the bit stream to obtain non-sound object side information for a non-sound object that does not make a sound.
일 실시예에 따라, 입력 오디오 신호가 시뮬레이션되는 가상의 공간은 논-사운드 오브젝트를 포함할 수 있다. 논-사운드 오브젝트는 입력 오디오 신호가 시뮬레이션되는 가상의 공간에서 오브젝트 사이의 상호 작용에 관여하는 다양한 오브젝트를 나타낼 수 있다. 논-사운드 오브젝트는 오브젝트에 대응하는 오디오 신호가 존재하지 않는 오브젝트일 수 있다. 예를 들어, 논-사운드 오브젝트는 패시브 오브젝트, 논-오디오 오브젝트, 씬 오브젝트, 비주얼 오브젝트, 어쿠스틱 오브젝트, 어쿠스틱 엘리먼트, 오클루더, 반사체 또는 흡수체중 적어도 하나를 포함할 수 있다. According to one embodiment, the virtual space in which the input audio signal is simulated may comprise a non-sound object. The non-sound object may represent various objects involved in interaction between objects in a virtual space in which the input audio signal is simulated. The non-sound object may be an object having no audio signal corresponding to the object. For example, the non-sound object may include at least one of a passive object, a non-audio object, a scene object, a visual object, an acoustic object, an acoustic element, an occluder, a reflector, or an absorber.
또한, 논-사운드 오브젝트 부가 정보는 어쿠스틱 엘리먼트(acoustic element)에 포함될 수 있다. 여기에서, 어쿠스틱 엘리먼트는 가상의 공간에서 청취자의 위치 및 머리 방향에 따라 오디오 엘리먼트(audio element)에 영향을 미치는 물리적인 오브젝트를 나타낼 수 있다. 여기에서, 오디오 엘리먼트는 오디오 씬(audio scene)을 구성하고, 메타데이터에 의해 설명되는 하나 이상의 오디오 신호일 수 있다. 예를 들어, 오디오 엘리먼트는 전술한 오브젝트 신호, 앰비소닉 신호 또는 채널 신호 중 적어도 하나와 이에 대응하는 부가 정보를 포함할 수 있다. 또한, 오디오 신호 처리 장치는 어쿠스틱 엘리먼트를 오디오 오브젝트(audio object)가 포함하는 메타데이터와 함께 수신할 수 있다. 오디오 오브젝트는 오디오 신호 및 오디오 신호에 대응하는 음원을 시뮬레이션하기 위해 필요한 메타데이터를 포함할 수 있다. 음원을 시뮬레이션하기 위해 필요한 메타데이터는 위치 정보를 포함할 수 있다. 또한, 오디오 오브젝트는 ISO/IEC 23008-3 표준에 의해 정의되는 오디오 오브젝트일 수 있다. 본 개시에서는 입력 오디오 신호가 오브젝트 신호, 앰비소닉 신호 및 채널 신호를 포함하는 경우를 예로 들어 설명하지만, 본 개시가 이에 제한되는 것은 아니다.In addition, the non-sound object side information may be included in an acoustic element. Here, an acoustic element may represent a physical object that affects an audio element according to the position and head direction of the listener in a virtual space. Here, the audio element constitutes an audio scene and may be one or more audio signals described by the metadata. For example, the audio element may include at least one of the above-described object signal, ambience signal, or channel signal and additional information corresponding thereto. Further, the audio signal processing apparatus can receive the acoustic element together with the metadata included in the audio object. The audio object may include an audio signal and metadata necessary for simulating a sound source corresponding to the audio signal. The metadata required to simulate the sound source may include location information. In addition, the audio object may be an audio object defined by the ISO / IEC 23008-3 standard. In this disclosure, the case where the input audio signal includes an object signal, an ambsonic signal, and a channel signal is described as an example, but the present disclosure is not limited thereto.
도 17에서, 디코더(100)에서 분류된 포맷 별 오디오 신호는 포맷 별 렌더러에서 렌더링될 수 있다. 포맷 별로 분류된 오디오 신호 각각에 대응하는 부가 정보는 입력 오디오 신호가 녹음된 실제 음향 공간(real acoustical environments), 또는 출력 오디오 신호를 재생하는 스피커 레이아웃의 6-DOF(degrees of freedom) 좌표를 포함할 수 있다. 이때, 6-DOF 좌표는 방위각, 앙각, 거리, 요(Yaw), 피치(Pitch) 및 롤(Roll) 정보를 포함할 수 있다. 이때, 방위각, 앙각 및 거리는 청취자의 위치를 나타내는 정보일 수 있다. 또한, 요, 피치 및 롤은 청취자의 머리 방향을 나타내는 정보일 수 있다. 구체적으로, 오브젝트 신호에 대응하는 오브젝트 부가 정보는 오브젝트의 지향성 패턴(directivity pattern)과 같은 지향성 정보를 포함할 수 있다. 또한, 논-사운드 오브젝트 부가 정보는 논-사운드 오브젝트가 논-사운드 오브젝트 이외의 다른 음원으로부터 출력되는 음향에 미치는 영향을 처리하기 위한 정보를 포함할 수 있다. 예를 들어, 논-사운드 오브젝트 부가정보는 논-사운드 오브젝트를 구성하는 물질의 주파수 성분 별 흡음률, 반사율, 투과율, 회절율 또는 산란율 중 적어도 하나를 포함할 수 있다.In FIG. 17, the audio signal of each format classified by the decoder 100 can be rendered in a format-specific renderer. The additional information corresponding to each of the audio signals classified according to the format includes real acoustical environments in which the input audio signal is recorded or 6-DOF (degrees of freedom) coordinates of the speaker layout reproducing the output audio signal . At this time, the 6-DOF coordinates may include azimuth angle, elevation angle, distance, yaw, pitch and roll information. At this time, the azimuth, elevation angle, and distance may be information indicating the position of the listener. Further, the yaw, pitch and roll may be information indicating the head direction of the listener. Specifically, the object side information corresponding to the object signal may include directional information such as a directivity pattern of the object. In addition, the non-sound object side information may include information for handling the influence of the non-sound object on sound output from a sound source other than the non-sound object. For example, the non-sound object side information may include at least one of a sound absorption ratio, a reflectance, a transmittance, a diffraction rate, and a scattering rate for each frequency component of a material constituting the non-sound object.
도 17에서, 사용자 인터랙션 정보는 전술한 청취자 정보를 포함할 수 있다. 예를 들어, 사용자 인터랙션 정보는 청취자의 머리 방향 및 청취자의 위치를 포함할 수 있다. 이때, 청취자의 머리 방향 및 청취자의 위치는 사용자 입력에 의해 제어될 수 있다. 또한, 사용자 인터랙션 정보는 소리를 내는 사운드 오브젝트(sound object)의 움직임, 재생/정지와 같은 UI(user interface) 정보를 포함할 수 있다. 이때, 사운드 오브젝트는 논-사운드 오브젝트와 달리 오브젝트에 대응하는 음향이 존재하는 오브젝트일 수 있다. 예를 들어, 사운드 오브젝트는 액티브 오브젝트(active object), 오디오 오브젝트(audio object), 오디오 엘리먼트(audio element) 또는 음원(sound source) 중 적어도 하나를 포함할 수 있다.In Fig. 17, the user interaction information may include the above-described listener information. For example, the user interaction information may include a listener's head direction and a listener's location. At this time, the head direction of the listener and the position of the listener can be controlled by user input. Also, the user interaction information may include UI (user interface) information such as a sound object moving (sound), playback / stop, and the like. In this case, the sound object may be an object in which sound corresponding to the object exists, as opposed to a non-sound object. For example, the sound object may include at least one of an active object, an audio object, an audio element, or a sound source.
또한, 도 17에서, 포맷 별 오디오 신호에 대응하는 렌더러는 출력 오디오 신호의 형태에 따른 중간 오디오 신호를 생성할 수 있다. 예를 들어, 출력 오디오 신호는 5.1, 7.1, 5.1.2, 10.2, 22.2채널 등의 조합으로 구성된 라우드 스피커(loud speaker) 오디오 신호일 수 있다. 또는 출력 오디오 신호는 헤드폰/이어폰을 통해 출력되는 2-채널 바이노럴 신호일 수도 있다. 또는 출력 오디오 신호는 스피커 출력 신호와 헤드폰/이어폰 출력 신호의 조합일 수도 있다. 예를 들어, 출력 오디오 신호는 라우드 스피커 레이아웃이 설치된 공간에서 사용자가 이어폰 또는 헤드폰을 착용한 상태로 시뮬레이션되는 가상의 공간에 대응하는 오디오 신호일 수 있다. 다음으로, 믹서(500)는 오브젝트 렌더러(200), 앰비소닉 렌더러(300) 및 채널 렌더러(400)를 통해 생성된 복수의 중간 오디오 신호를 믹싱하여 출력 오디오 신호를 생성할 수 있다. 각각의 렌더러에서 중간 오디오 신호를 생성하는 방법에 대해서는 도 20 내지 도 23을 통해 상세하게 설명하도록 한다. 이하에서는 다양한 방식으로 전송되는 부가 정보에 대해 설명한다.In addition, in FIG. 17, the renderer corresponding to the format-specific audio signal can generate the intermediate audio signal according to the format of the output audio signal. For example, the output audio signal may be a loud speaker audio signal consisting of a combination of 5.1, 7.1, 5.1.2, 10.2, 22.2 channels, and the like. Alternatively, the output audio signal may be a 2-channel binaural signal output via the headphone / earphone. Or the output audio signal may be a combination of a speaker output signal and a headphone / earphone output signal. For example, the output audio signal may be an audio signal corresponding to a virtual space simulated with the user wearing an earphone or headphone in a space where the loudspeaker layout is installed. Next, the mixer 500 mixes a plurality of intermediate audio signals generated through the object renderer 200, the ambienceic renderer 300, and the channel renderer 400 to generate an output audio signal. A method of generating an intermediate audio signal in each of the renderers will be described in detail with reference to FIGS. 20 to 23. FIG. Hereinafter, additional information transmitted in various manners will be described.
한편, 본 개시의 다른 일 실시예에 따라, 부가 정보는 도 17의 예시와 다르게, 입력 오디오 신호와 별도의 인터페이스를 통해 획득될 수도 있다. 도 18 및 도 19의 실시예에서 도 17의 실시예와 동일하거나 상응하는 부분은 중복적인 설명을 생략하도록 한다. 도 18은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(170)의 구성을 상세하게 나타내는 블록도이다. 도 18에서, 오디오 신호 처리 장치(170)는 제1 파서(171) 및 제2 파서(172)를 포함할 수 있다. 도 18에서, 제1 파서(171) 및 제2 파서(172)는 도 17의 디코더(100)를 대체하는 것으로 표현되나, 각각의 파서 내부적으로 디코더를 포함할 수 있다. 또는 오디오 신호 처리 장치(170)는 별도의 디코더가 포함할 수도 있다. On the other hand, according to another embodiment of the present disclosure, the additional information may be obtained through a separate interface from the input audio signal, unlike the example of Fig. In the embodiment of Figs. 18 and 19, the same or corresponding parts as those of the embodiment of Fig. 17 are not described. 18 is a block diagram showing in detail the configuration of an audio signal processing apparatus 170 according to an embodiment of the present disclosure. In FIG. 18, the audio signal processing apparatus 170 may include a first parser 171 and a second parser 172. In FIG. 18, the first parser 171 and the second parser 172 are represented as replacing the decoder 100 of FIG. 17, but each parser may include a decoder internally. Or the audio signal processing apparatus 170 may include a separate decoder.
일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호와 분리되어 전송되는 메타데이터를 수신할 수 있다. 예를 들어, 오디오 신호 처리 장치는 PCM(pulse-code modulation) 오디오 형태의 입력 오디오 신호를 수신할 수 있다. 또는 오디오 신호 처리 장치는 오디오 신호를 처리하기 위한 별도의 오디오 코덱(Codec)을 통해 입력 오디오 신호를 수신할 수 있다. 이 경우, 입력 오디오 신호에 대응하는 부가 정보는 입력 오디오 신호를 처리 하는 제1 파서(171) 외에 제2 파서(172)를 통해 파싱(parsing)될 수 있다. 도 18에서, 제1 파서(171)는 입력 오디오 신호를 오브젝트 신호, 앰비소닉 신호, 및 채널 신호로 분류할 수 있다. 제1 파서(171)는 입력 오디오 신호에 관한 트랙 인덱스(track index) 정보를 참조하여 입력 오디오 신호를 포맷 별로 분류할 수 있다. 제2 파서(172)는 오브젝트 신호, 앰비소닉 신호, 및 채널 신호 각각에 대응하는 부가 정보를 파싱할 수 있다. 또한, 제2 파서(172)는 전술한 논-사운드 오브젝트 부가 정보를 파싱할 수 있다. According to an embodiment, the audio signal processing apparatus can receive metadata transmitted separately from an input audio signal. For example, the audio signal processing apparatus can receive an input audio signal in the form of pulse-code modulation (PCM) audio. Or the audio signal processing apparatus may receive the input audio signal through a separate audio codec (Codec) for processing the audio signal. In this case, the additional information corresponding to the input audio signal may be parsed through the second parser 172 in addition to the first parser 171 that processes the input audio signal. 18, the first parser 171 can classify the input audio signal into an object signal, an ambience signal, and a channel signal. The first parser 171 can classify the input audio signal according to the format by referring to the track index information on the input audio signal. The second parser 172 may parse the additional information corresponding to the object signal, the ambience signal, and the channel signal, respectively. Also, the second parser 172 can parse the above-described non-sound object side information.
도 19는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(180)의 구성을 상세하게 나타내는 블록도이다. 일 실시예에 따라, 디코딩 과정을 거치지않고 별도의 인터페이스를 통해 수신되는 제2 오브젝트 신호가 존재할 수 있다. 복수의 사용자(multi-user)가 하나의 가상의 공간에 공존하는 경우, 복수의 사용자 각각이 음성 입력 인터페이스(예를 들어, 마이크 또는 헤드셋)를 통해 음성 신호를 입력할 수 있기 때문이다. 음성 대화(voice communication)와 같은 상황을 예로 들 수 있다. 이 경우, 복수의 사용자 각각의 음성 신호는 미리 정해진 제1 입력 오디오 신호 이외의 제2 입력 오디오 신호가 될 수 있다. 오디오 신호 처리 장치는 제2 오브젝트 신호를 오브젝트 렌더러(200)를 통해서 별도의 오브젝트 신호로 처리할 수 있다. 복수의 사용자 각각의 음성 신호와 같은 제2 오브젝트 신호의 경우, 디코더(100)를 통해 재분류하는 것에 비해 별도로 처리하는 것이 지연시간(latency)을 낮출 수 있기 때문이다. 또한, 오브젝트 렌더러(200)는 제2 오브젝트 부가 정보를 기초로 제2 오브젝트 신호를 렌더링할 수 있다. 19 is a block diagram showing in detail the configuration of an audio signal processing apparatus 180 according to an embodiment of the present disclosure. According to one embodiment, there may be a second object signal received via a separate interface without a decoding process. When a plurality of users (multi-users) coexist in one virtual space, each of a plurality of users can input a voice signal through a voice input interface (for example, a microphone or a headset). Examples are situations such as voice communication. In this case, the audio signal of each of the plurality of users may be a second input audio signal other than the predetermined first input audio signal. The audio signal processing apparatus can process the second object signal as a separate object signal through the object renderer 200. [ This is because, in the case of a second object signal such as a voice signal of each of a plurality of users, it is possible to reduce the latency by separately processing the second object signal as compared with reclassification through the decoder 100. Also, the object renderer 200 may render the second object signal based on the second object side information.
도 20은 본 개시의 일 실시예에 따른 오브젝트 렌더러(200)를 구체적으로 나타내는 블록도이다. 도 20을 참조하면, 오브젝트 렌더러(200)는 오브젝트 신호, 오브젝트 부가 정보, 논-사운드 오브젝트 부가 정보 및 사용자 인터랙션 정보를 기초로 오브젝트 중간 오디오 신호를 생성할 수 있다. 또한, 오브젝트 렌더러(200)는 음원 지향성 처리부(210), 오브젝트-to-오브젝트(O2O) 인터랙션 처리부(220) 및 음상 정위(localization) 처리부(230)를 포함할 수 있다. 20 is a block diagram specifically illustrating an object renderer 200 according to an embodiment of the present disclosure. Referring to FIG. 20, the object renderer 200 may generate an object intermediate audio signal based on an object signal, object side information, non-sound object side information, and user interaction information. The object renderer 200 may include a sound source directivity processing unit 210, an object-to-object (O2O) interaction processing unit 220, and a sound localization processing unit 230.
음원 지향성 처리부(210)는 오브젝트의 방향 정보를 기초로 오브젝트로부터 출력되는 오브젝트 신호를 필터링할 수 있다. 음원 지향성 처리부는 오브젝트 신호의 지향 특성을 모델링할 수 있다. 가상의 공간에서 청취자의 위치 및 머리 방향에 따라 음원의 위치와 방향도 상대적으로 달라지기 때문이다. The sound source directivity processing unit 210 may filter the object signal output from the object based on the direction information of the object. The sound source directivity processing unit can model the directivity characteristic of the object signal. And the position and direction of the sound source are relatively different depending on the position of the listener and the head direction in the virtual space.
O2O 인터랙션 처리부(220)는 전술한 오클루션 효과를 처리할 수 있다. 예를 들어, O2O 인터랙션 처리부(220)는 도 13 내지 도 15에서 설명된 오디오 신호 처리 장치의 동작을 수행할 수 있다. 구체적으로, O2O 인터랙션 처리부(220)는 적어도 하나의 블로킹 오브젝트에 대한 부가 정보를 기초로, 투과 오디오 신호, 회절 오디오 신호 또는 반사 오디오 신호 중 적어도 하나를 생성할 수 있다. 이때, 블로킹 오브젝트에 대한 부가 정보는 사운드 오브젝트에 대응하는 오브젝트 부가 정보 또는 논-사운드 오브젝트 부가 정보 중 적어도 하나를 포함할 수 있다.The O2O interaction processing unit 220 can process the above-described occlusion effect. For example, the O2O interaction processing unit 220 may perform the operations of the audio signal processing apparatus described with reference to FIGS. Specifically, the O2O interaction processing unit 220 may generate at least one of a transmitted audio signal, a diffracted audio signal, or a reflected audio signal based on additional information on at least one blocking object. At this time, the additional information for the blocking object may include at least one of object side information corresponding to the sound object or non-sound object side information.
음상 정위 처리부(230)는 오브젝트 신호의 음상을 처리할 수 있다. 음상 정위 처리부(230)는 출력 오디오 신호가 출력되는 레이아웃을 기초로 오브젝트 신호를 필터링할 수 있다. 예를 들어, 출력 오디오 신호가 라우드 스피커 레이아웃을 통해 출력되는 경우, 음상 정위 처리부(230)는 VBAP(Vector-Base Amplitude Panning)과 같은 3차원 패닝(3D panning)을 사용하여 오브젝트 중간 오디오 신호를 생성할 수 있다. 또는 음상 정위 처리부(230)는 오브젝트 신호를 바이노럴 렌더링하여 오브젝트 중간 오디오 신호를 생성할 수 있다. 일 실시예에 따라, 오브젝트 부가 정보는 오브젝트 신호에 대응하는 오브젝트의 방위각 및 앙각을 포함할 수 있다. 이때, 음상 정위 처리부(230)는 오브젝트 부가 정보를 기초로 결정된 HRTF를 사용하여 오브젝트 신호를 바이노럴 렌더링할 수 있다. The sound phase normalization processing unit 230 can process the sound image of the object signal. The sound localization processing unit 230 can filter the object signal based on the layout on which the output audio signal is output. For example, when the output audio signal is output through a loudspeaker layout, the sound image position processing unit 230 generates an object intermediate audio signal using 3D panning such as Vector-Base Amplitude Panning (VBAP) can do. Or the sound localization processing unit 230 may binaurally render the object signal to generate an object intermediate audio signal. According to one embodiment, the object side information may include an azimuth and an elevation angle of the object corresponding to the object signal. At this time, the image-localization processing unit 230 can binarize the object signal using the HRTF determined based on the object side information.
이때, HRTF는 청취자의 위치 및 머리 방향을 기준으로 결정될 수 있다. 도 21은 본 개시의 일 실시예에 따라 좌표 변환 처리부(240)를 더 포함하는 오브젝트 렌더러(201)를 나타내는 도면이다. 도 21에서, 좌표 변환 처리부(240)는 사용자 인터랙션 정보를 기초로 오브젝트 부가 정보 및 논-사운드 오브젝트 부가 정보가 포함하는 위치 정보를 조정할 수 있다. 또한, 사용자 인터랙션 정보는 청취자의 위치 및 머리 방향을 나타내는 정보를 포함할 수 있다. 예를 들어, 좌표 변환 처리부(240)는 청취자의 위치 및 머리 방향을 기준으로 사운드 오브젝트의 위치 및 논-사운드 오브젝트의 위치를 나타내는 좌표를 변환할 수 있다. 구체적으로, 좌표 변환 처리부(240)는 가상의 공간의 청취자의 위치를 나타내는 좌표를 기준으로 오브젝트의 위치를 나타내는 상대적인 좌표를 산출할 수 있다. At this time, the HRTF can be determined based on the position and head direction of the listener. FIG. 21 is a diagram showing an object renderer 201, which further includes a coordinate transformation processing unit 240 according to an embodiment of the present disclosure. In FIG. 21, the coordinate transformation processing unit 240 can adjust the position information included in the object side information and non-sound object side information based on the user interaction information. In addition, the user interaction information may include information indicating the position and head direction of the listener. For example, the coordinate transformation processing unit 240 may convert coordinates indicating the position of the sound object and the position of the non-sound object based on the position and the head direction of the listener. Specifically, the coordinate transformation processing unit 240 can calculate the relative coordinates indicating the position of the object on the basis of the coordinate indicating the position of the listener in the virtual space.
도 22는 본 개시의 일 실시예에 따른 앰비소닉 렌더러(300)를 구체적으로 나타내는 블록도이다. 도 22를 참조하면, 앰비소닉 렌더러(300)는 앰비소닉 신호, 앰비소닉 부가 정보, 오브젝트 부가 정보, 논-사운드 오브젝트 부가 정보 및 사용자 인터랙션 정보를 기초로 앰비소닉 신호를 렌더링하여 앰비소닉 중간 오디오 신호를 생성할 수 있다. 또한, 앰비소닉 렌더러(300)는 앰비소닉-to-앰비소닉(A2A) 인터폴레이션(interpolation) 처리부(310), 앰비소닉-to-오브젝트(A2O) 인터랙션 처리부(320) 및 로테이션 처리부(330)를 포함할 수 있다. 22 is a block diagram specifically illustrating an ambsonic renderer 300 according to one embodiment of the present disclosure. 22, the ambisonic renderer 300 renders an ambisonic signal based on the ambisonic signal, the ambisonic supplemental information, the object supplemental information, the non-sound object supplemental information, and the user interaction information, Lt; / RTI > The ambienceic renderer 300 includes an ambisonic-to-ambience (A2A) interpolation processing unit 310, an ambsonic-to-object (A2O) interaction processing unit 320, and a rotation processing unit 330 can do.
A2A 인터폴레이션 처리부(310)는 복수의 앰비소닉 공간 샘플(spatial sample)을 기초로 음향 공간 재현을 위한 인터폴레이션을 수행할 수 있다. 앰비소닉 공간 샘플 각각은 복수의 위치에서 획득된 앰비소닉 신호를 나타낼 수 있다. A2A 인터폴레이션 처리부(310)는 앰비소닉 공간 샘플을 기초로 앰비소닉 신호가 획득되지 않은 지점에 대응하는 인터폴레이션 앰비소닉 신호를 생성할 수 있다. 구체적으로, A2A 인터폴레이션 처리부(310)는 복수의 앰비소닉 공간 샘플을 인터폴레이션하여 인터폴레이션 앰비소닉 신호를 생성할 수 있다.The A2A interpolation processing unit 310 may perform interpolation for reproducing acoustic space based on a plurality of ambisonic spatial samples. Each of the Ambisonic spatial samples can represent an ambisonic signal obtained at a plurality of locations. The A2A interpolation processing unit 310 may generate an interpolation ambience signal corresponding to a point where the ambience sound signal is not acquired based on the ambience sound space sample. Specifically, the A2A interpolation processing unit 310 may interpolate a plurality of ambisonic space samples to generate an interpolation ambience signal.
A2O 인터랙션 처리부(320)는 앰비소닉 신호에 대한 오클루션 효과를 처리할 수 있다. 예를 들어, A2O 인터랙션 처리부(320)는 적어도 하나의 블로킹 오브젝트에 대한 부가 정보를 기초로, 앰비소닉 신호를 필터링할 수 있다. 예를 들어, A2O 인터랙션 처리부(320)는 블로킹 오브젝트에 대한 부가 정보를 기초로 앰비소닉 신호의 방향 성분 별 투과 감쇠 게인을 결정할 수 있다. 이때, 앰비소닉 신호의 방향 성분은 앰비소닉 신호의 성분 중에서 가장 높은 차수를 나타내는 앰비소닉 차수를 기초로 특정될 수 있다. 또한, A2O 인터랙션 처리부(320)는 블로킹 오브젝트에 대한 부가 정보를 기초로 앰비소닉 신호의 주파수 성분 별 투과 감쇠 게인을 결정할 수 있다. 로테이션 처리부(330)는 사용자 인터랙션 정보를 기초로 앰비소닉 신호를 로테이션하여 바이노럴 렌더링된 앰비소닉 중간 오디오 신호를 생성할 수 있다. The A2O interaction processing unit 320 can process the occlusion effect on the ambsonic signal. For example, the A2O interaction processing unit 320 may filter the ambsonic signal based on the additional information for at least one blocking object. For example, the A2O interaction processing unit 320 can determine a transmission attenuation gain for each direction component of the ambsonic signal based on the additional information about the blocking object. At this time, the direction component of the ambsonic signal can be specified on the basis of the ambsonic order indicating the highest order among the components of the ambsonic signal. In addition, the A2O interaction processing unit 320 can determine the transmission attenuation gain for each frequency component of the ambsonic signal based on the additional information about the blocking object. The rotation processing unit 330 may rotate the ambsonic signal based on the user interaction information to generate a binaural rendered amviconic intermediate audio signal.
도 23은 본 개시의 일 실시예에 따른 채널 렌더러(400)를 구체적으로 나타내는 블록도이다. 도 23을 참조하면, 채널 렌더러(400)는 채널 신호, 채널 부가 정보 오브젝트 부가 정보, 논-사운드 오브젝트 부가 정보 및 사용자 인터랙션 정보를 기초로 채널 신호를 렌더링하여 채널 중간 오디오 신호를 생성할 수 있다. 또한, 채널 렌더러(400)는 채널-to-채널(C2C) 인터폴레이션 처리부(410), 채널-to-오브젝트(A2O) 인터랙션 처리부(420) 및 로테이션 처리부(430)를 포함할 수 있다.  23 is a block diagram specifically illustrating a channel renderer 400 according to one embodiment of the present disclosure. Referring to FIG. 23, the channel renderer 400 may generate a channel intermediate audio signal by rendering a channel signal based on a channel signal, channel additional information object additional information, non-sound object additional information, and user interaction information. The channel renderer 400 may include a channel-to-channel (C2C) interpolation processing unit 410, a channel-to-object (A2O) interaction processing unit 420, and a rotation processing unit 430.
C2C 인터폴레이션 처리부(410)는 복수의 채널 공간 샘플을 기초로 음향 공간 재현을 위한 인터폴레이션을 수행할 수 있다. 채널 공간 샘플 각각은 복수 위치에서 획득된 채널 신호일 수 있다. 또는 채널 공간 샘플은 특정 위치를 기준으로 사전 렌더링된 채널 신호일 수도 있다. C2C 인터폴레이션 처리부(410)는 채널 공간 샘플을 기초로 채널 신호가 획득되지 않은 지점에 대응하는 인터폴레이션 채널 신호를 생성할 수 있다. 구체적으로, C2C 인터폴레이션 처리부(410)는 복수의 채널 공간 샘플을 인터폴레이션하여 인터폴레이션 채널 신호를 생성할 수 있다. The C2C interpolation processing unit 410 may perform interpolation for reproducing acoustic space based on a plurality of channel space samples. Each of the channel space samples may be a channel signal obtained at a plurality of locations. Alternatively, the channel space sample may be a pre-rendered channel signal based on a particular location. The C2C interpolation processing unit 410 may generate an interpolation channel signal corresponding to a point where the channel signal is not acquired based on the channel space sample. Specifically, the C2C interpolation processing unit 410 may interpolate a plurality of channel space samples to generate an interpolation channel signal.
C2O 인터랙션 처리부(420)는 채널 신호에 대한 오클루션 효과를 처리할 수 있다. 예를 들어, C2O 인터랙션 처리부(420)는 적어도 하나의 블로킹 오브젝트에 대한 부가 정보를 기초로, 채널 신호를 필터링할 수 있다. 예를 들어, C2O 인터랙션 처리부(420)는 블로킹 오브젝트에 대한 부가 정보를 기초로 채널 신호의 채널 별 패닝 게인(panning gain)을 결정할 수 있다. 또한, C2O 인터랙션 처리부(420)는 채널 별 패닝 게인을 기초로 채널 신호를 필터링할 수 있다. 로테이션 처리부(430)는 사용자 인터랙션 정보를 기초로 채널 신호를 로테이션하여 바이노럴 렌더링된 채널 중간 오디오 신호를 생성할 수 있다.The C2O interaction processing unit 420 can process the culling effect on the channel signal. For example, the C2O interaction processing unit 420 may filter the channel signal based on the additional information for at least one blocking object. For example, the C2O interaction processing unit 420 may determine a panning gain for each channel of the channel signal based on the additional information about the blocking object. In addition, the C2O interaction processing unit 420 may filter the channel signal based on the channel-specific panning gain. The rotation processing unit 430 may rotate the channel signal based on the user interaction information to generate a binaural-rendered channel intermediate audio signal.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다.Some embodiments may also be implemented in the form of a recording medium including instructions executable by a computer, such as program modules, being executed by a computer. Computer readable media can be any available media that can be accessed by a computer, and can include both volatile and nonvolatile media, removable and non-removable media. The computer-readable medium may also include computer storage media. Computer storage media may include both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
이상에서는 본 개시를 구체적인 실시예를 통하여 설명하였으나, 본 개시가 속하는 기술분야의 통상의 지식을 가진 당업자라면 본 개시의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 개시는 오디오 신호에 대한 바이노럴 렌더링의 실시예에 대하여 설명하였지만, 본 개시는 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 개시의 상세한 설명 및 실시예로부터 본 개시가 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 개시의 권리범위에 속하는 것으로 해석된다.While the present disclosure has been described with reference to specific embodiments, those skilled in the art will appreciate that various modifications, additions and substitutions are possible, without departing from the scope and spirit of the present invention. That is, while the present disclosure has been described with respect to embodiments of binaural rendering of audio signals, the present disclosure is equally applicable and extendable to various multimedia signals including video signals as well as audio signals. Therefore, it is to be understood that within the scope of the present disclosure, those skilled in the art to which the present disclosure belongs may easily construe the description and the embodiments of the present disclosure.

Claims (20)

  1. 오디오 신호 처리 장치에 있어서,An audio signal processing apparatus comprising:
    입력 오디오 신호를 기초로 생성된 출력 오디오 신호를 출력하는 프로세서를 포함하고,And a processor for outputting an output audio signal generated based on the input audio signal,
    상기 프로세서는,The processor comprising:
    입력 오디오 신호 및 상기 입력 오디오 신호가 시뮬레이션되는 가상의 공간에 관한 정보를 획득하고,Obtaining information about an input audio signal and a virtual space in which the input audio signal is simulated,
    상기 가상의 공간의 청취자를 기준으로 하는, 상기 가상의 공간에 포함된 적어도 하나의 오브젝트 각각의 위치 및 상기 입력 오디오 신호에 대응하는 음원의 위치를 기초로, 상기 적어도 하나의 오브젝트 중에서 상기 음원과 상기 청취자 사이의 직접 음향 경로(direct acoustic path)를 가로막는(blocking) 블로킹 오브젝트(blocking object)가 존재하는지 판단하고, The sound source and the sound source of the at least one object based on the position of each of the at least one object included in the virtual space and the position of the sound source corresponding to the input audio signal based on the listener of the virtual space, It is determined whether there is a blocking object blocking a direct acoustic path between the listeners,
    상기 판단 결과를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는, 오디오 신호 처리 장치.And binaurally rendering the input audio signal based on the determination result to generate an output audio signal.
  2. 제 1 항에 있어서,The method according to claim 1,
    상기 출력 오디오 신호는 상기 입력 오디오 신호에 대응하는 음향이 상기 블로킹 오브젝트를 통과하여 상기 청취자에게 전달되는 투과 오디오 신호를 포함하고,Wherein the output audio signal includes a transmission audio signal through which the sound corresponding to the input audio signal passes through the blocking object and is delivered to the listener,
    상기 프로세서는,The processor comprising:
    상기 블로킹 오브젝트가 존재하는 경우, If the blocking object exists,
    상기 음원과 상기 청취자 사이의 직접 음향 경로가 상기 블로킹 오브젝트와 오버랩되는 구간의 길이 및 상기 블로킹 오브젝트의 음향 투과율을 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 투과 오디오 신호를 생성하는, 오디오 신호 처리 장치.Wherein the audio signal is binaurally rendered on the basis of a length of a section in which a direct acoustic path between the sound source and the listener overlaps the blocking object and an acoustic transmittance of the blocking object, Processing device.
  3. 제2 항에 있어서,3. The method of claim 2,
    상기 블로킹 오브젝트의 음향 투과율은 주파수 빈 별로 서로 다른 값을 가지는, 오디오 신호 처리 장치.Wherein an acoustic transmittance of the blocking object has a different value for each frequency bin.
  4. 제2 항에 있어서,3. The method of claim 2,
    상기 출력 오디오 신호는 상기 입력 오디오 신호에 대응하는 음향이 상기 블로킹 오브젝트에 의해 회절되어 상기 청취자에게 도달하는 음향을 시뮬레이션하는 회절 오디오 신호를 포함하고,Wherein the output audio signal comprises a diffracted audio signal simulating an acoustic sound corresponding to the input audio signal being diffracted by the blocking object to reach the listener,
    상기 프로세서는,The processor comprising:
    상기 블로킹 오브젝트의 형상을 기초로, 상기 블로킹 오브젝트의 표면에서 상기 입력 오디오 신호에 대응하는 음향이 회절되는 적어도 하나의 회절 지점을 결정하고,Determining at least one diffraction point at which the sound corresponding to the input audio signal is diffracted at the surface of the blocking object, based on the shape of the blocking object,
    상기 적어도 하나의 회절 지점의 위치를 기초로, 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 회절 오디오 신호를 생성하는, 오디오 신호 처리 장치.And binarally rendering the input audio signal based on the position of the at least one diffraction point to generate the diffracted audio signal.
  5. 제4 항에 있어서,5. The method of claim 4,
    상기 프로세서는, The processor comprising:
    상기 청취자의 머리 방향을 기준으로 상기 적어도 하나의 회절 지점에 대응하는 제1 머리 전달 함수(Head Related Transfer Function, HRTF)를 획득하고,Acquiring a first head related transfer function (HRTF) corresponding to the at least one diffraction point with respect to the head direction of the listener,
    상기 제1 HRTF를 사용하여 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 회절 오디오 신호를 생성하는, 오디오 신호 처리 장치.And binaurally rendering the input audio signal using the first HRTF to generate the diffracted audio signal.
  6. 제5 항에 있어서,6. The method of claim 5,
    상기 프로세서는, The processor comprising:
    상기 오브젝트의 표면상의 지점으로부터 상기 청취자까지 제1 경로 및 상기 지점으로부터 상기 음원까지 제2 경로 각각의 거리의 합이 가장 작은 지점을 상기 적어도 하나의 회절 지점으로 결정하고, Determining a point at which the sum of distances of the first path from the point on the surface of the object to the listener and the distance of each of the second path from the point to the sound source is the at least one diffraction point,
    상기 제1 경로 및 상기 제2 경로는 상기 오브젝트를 가로지르지 않는 최단 경로인, 오디오 신호 처리 장치.Wherein the first path and the second path are shortest paths that do not traverse the object.
  7. 제6 항에 있어서,The method according to claim 6,
    상기 프로세서는,The processor comprising:
    상기 적어도 하나의 회절 지점에 따른, 상기 제1 경로의 거리와 상기 제2 경로의 거리의 합을 나타내는 회절 거리 및 상기 제1 HRTF를 기초로, 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 회절 오디오 신호를 생성하는, 오디오 신호 처리 장치.And binarally rendering the input audio signal based on the first HRTF and a diffraction distance representing a sum of a distance of the first path and a distance of the second path along the at least one diffraction point, And generates a signal.
  8. 제7 항에 있어서,8. The method of claim 7,
    상기 프로세서는,The processor comprising:
    상기 회절 거리를 기초로 상기 회절 오디오 신호의 크기를 조정하는 감쇠 게인을 결정하고,Determines an attenuation gain for adjusting the size of the diffracted audio signal based on the diffraction distance,
    상기 제1 HRTF 및 상기 감쇠 게인을 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 회절 오디오 신호를 생성하고,Binarally rendering the input audio signal based on the first HRTF and the attenuation gain to generate the diffracted audio signal,
    상기 감쇠 게인은 오디오 신호의 주파수 빈 별로 서로 다른 값을 가지는, 오디오 신호 처리 장치.Wherein the attenuation gain has a different value for each frequency bin of the audio signal.
  9. 제6 항에 있어서,The method according to claim 6,
    상기 프로세서는,The processor comprising:
    상기 회절 오디오 신호 및 상기 투과 오디오 신호를 믹싱하여 상기 출력 오디오 신호를 생성하는, 오디오 신호 처리 장치.And mixes the diffracted audio signal and the transparent audio signal to generate the output audio signal.
  10. 제2 항에 있어서,3. The method of claim 2,
    상기 출력 오디오 신호는 상기 청취자의 양쪽 귀 각각에 대응하는 2-채널 출력 오디오 신호를 포함하고,Wherein the output audio signal comprises a two-channel output audio signal corresponding to each of the two ears of the listener,
    상기 프로세서는,The processor comprising:
    상기 청취자의 양쪽 귀 각각의 위치를 기초로, 상기 청취자의 우측 및 좌측 각각에 대해 상기 블로킹 오브젝트가 있는지 판단하고,Determining whether the blocking object is present for each of the right and left sides of the listener based on the position of each of the ears of the listener,
    상기 판단 결과를 기초로, 상기 2-채널 출력 오디오 신호를 채널 별로 생성하는, 오디오 신호 처리 장치.And generates the 2-channel output audio signal for each channel based on the determination result.
  11. 제10 항에 있어서,11. The method of claim 10,
    상기 블로킹 오브젝트는 상기 청취자의 우측 및 좌측 중 어느 한쪽만 블로킹하는 제1 블로킹 오브젝트를 포함하고,Wherein the blocking object includes a first blocking object that only blocks either the right or left side of the listener,
    상기 2-채널 출력 오디오 신호는 상기 입력 오디오 신호에 대응하는 음향이 상기 블로킹 오브젝트에 반사되어 상기 청취자에게 전달되는 음향을 시뮬레이션하는 반사 오디오 신호를 포함하고,Wherein the 2-channel output audio signal comprises a reflected audio signal that simulates an acoustic sound corresponding to the input audio signal reflected by the blocking object and delivered to the listener,
    상기 프로세서는,The processor comprising:
    상기 청취자의 양쪽 귀 중에서 다른 한쪽에 대응하는 귀의 위치 및 상기 제1 블로킹 오브젝트의 형상을 기초로 상기 제1 블로킹 오브젝트의 표면에서 상기 입력 오디오 신호에 대응하는 음향이 반사되는 반사 지점을 결정하고,Determining a reflection point at which sound corresponding to the input audio signal is reflected at the surface of the first blocking object based on the position of the ear corresponding to the other of the listener's ears and the shape of the first blocking object,
    상기 반사 지점의 위치를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 제1 블로킹 오브젝트에 대응하는 제1 반사 오디오 신호를 생성하는, 오디오 신호 처리 장치.And binaurally rendering the input audio signal based on the position of the reflection point to generate a first reflected audio signal corresponding to the first blocking object.
  12. 제11 항에 있어서The method of claim 11, wherein
    상기 프로세서는, The processor comprising:
    상기 청취자의 머리 방향을 기준으로 상기 반사 지점에 대응하는 제2 HRTF를 획득하고,Acquiring a second HRTF corresponding to the reflection point with respect to the head direction of the listener,
    상기 제2 HRTF를 사용하여 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 제1 반사 오디오 신호를 생성하는, 오디오 신호 처리 장치.And binaurally rendering the input audio signal using the second HRTF to generate the first reflected audio signal.
  13. 제11 항에 있어서The method of claim 11, wherein
    상기 프로세서는,The processor comprising:
    상기 제1 블로킹 오브젝트의 위치를 기초로, 상기 2-채널 출력 오디오 신호 중에서 상기 제1 반사 오디오 신호를 포함하는 채널을 결정하고,Determining a channel including the first reflected audio signal from the 2-channel output audio signal based on the position of the first blocking object,
    상기 결정을 기초로 상기 2-채널 출력 오디오 신호를 생성하는, 오디오 신호 처리 장치.And generates the 2-channel output audio signal based on the determination.
  14. 제13 항에 있어서,14. The method of claim 13,
    상기 2-채널 출력 오디오 신호 중에서, 상기 다른 한쪽에 대응하는 채널 오디오 신호는 상기 제1 반사 오디오 신호를 포함하고,Wherein the channel audio signal corresponding to the other one of the two-channel output audio signals includes the first reflected audio signal,
    상기 어느 한쪽에 대응하는 채널 오디오 신호는 상기 제1 반사 오디오 신호를 포함하지 않는, 오디오 신호 처리 장치.And the channel audio signal corresponding to either one of the channels does not include the first reflected audio signal.
  15. 제10 항에 있어서,11. The method of claim 10,
    상기 프로세서는,The processor comprising:
    상기 청취자의 머리 크기를 기초로 상기 청취자의 양쪽 귀 각각의 위치를 결정하는, 오디오 신호 처리 장치.And determines the position of each of the ears of the listener based on the head size of the listener.
  16. 제10 항에 있어서,11. The method of claim 10,
    상기 프로세서는, The processor comprising:
    상기 청취자의 위치를 기준으로 고도각 및 앙각에 따른 복수의 HRTF를 포함하는 HRTF 세트가 측정된 기준 거리, 상기 청취자의 양쪽 귀 각각의 위치 및 상기 음원의 위치를 기초로 상기 청취자의 동측 및 대측 각각에 대응하는 동측 HRTF 및 대측 HRTF를 획득하고,An HRTF set including a plurality of HRTFs according to elevation angles and elevation angles based on the position of the listener is measured on the basis of the measured reference distance, the position of each ear of the listener, and the position of the sound source, Gt; HRTF < / RTI > corresponding to < RTI ID = 0.0 &
    상기 동측 HRTF 및 상기 대측 HRTF를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하고,Binaurally rendering the input audio signal based on the east side HRTF and the large side HRTF,
    상기 동측 HRTF 및 상기 대측 HRTF는 상기 복수의 HRTF 중에서 서로 다른 위치에 대응하는 HRTF인, 오디오 신호 처리 장치.Wherein the east side HRTF and the large side HRTF are HRTFs corresponding to different positions among the plurality of HRTFs.
  17. 제10 항에 있어서,11. The method of claim 10,
    상기 가상의 공간은, 잔향(reverberation) 필터가 서로 다른 복수의 분할 공간을 포함하고,Wherein the virtual space includes a plurality of divided spaces in which a reverberation filter is different from each other,
    상기 프로세서는,The processor comprising:
    상기 청취자의 양쪽 귀 각각의 위치가 각각 서로 다른 분할 공간에 위치하는 경우, 상기 청취자의 우측 및 좌측 각각에 대해 서로 다른 잔향 필터를 기초로 상기 입력 오디오 신호를 필터링하여 상기 청취자의 우측 및 좌측 각각에 대응하는 잔향 오디오 신호를 생성하는, 오디오 신호 처리 장치.If the position of each of the ears of the listener is located in a different divided space, the input audio signal is filtered based on a different reverberation filter for each of the right and left sides of the listener, And generates a corresponding reverberant audio signal.
  18. 제1 항에 있어서,The method according to claim 1,
    상기 블로킹 오브젝트는, 상기 가상의 공간에서 상기 블로킹 오브젝트로부터 출력되는 음향이 없는 논-사운드 오브젝트인, 오디오 신호 처리 장치.Wherein the blocking object is a non-sound object having no sound output from the blocking object in the virtual space.
  19. 제18 항에 있어서,19. The method of claim 18,
    상기 프로세서는,The processor comprising:
    상기 가상의 공간이 포함하는 논-사운드 오브젝트에 대한 정보를 나타내는 메타데이터를 상기 입력 오디오 신호와 함께 수신하는, 오디오 신호 처리 장치.And receives, together with the input audio signal, metadata representing information about a non-sound object included in the virtual space.
  20. 입력 오디오 신호를 렌더링하는 오디오 신호 처리 장치의 동작 방법에 있어서,A method of operating an audio signal processing apparatus for rendering an input audio signal,
    입력 오디오 신호 및 상기 입력 오디오 신호가 시뮬레이션되는 가상의 공간에 관한 정보를 획득하는 단계;Obtaining information about an input audio signal and a virtual space in which the input audio signal is simulated;
    상기 가상의 공간의 청취자를 기준으로 하는, 상기 가상의 공간에 포함된 적어도 하나의 오브젝트 각각의 위치 및 상기 입력 오디오 신호에 대응하는 음원의 위치를 기초로, 상기 적어도 하나의 오브젝트 중에서 상기 음원과 상기 청취자 사이를 가로막는 블로킹 오브젝트가 존재하는지 판단하는 단계;The sound source and the sound source of the at least one object based on the position of each of the at least one object included in the virtual space and the position of the sound source corresponding to the input audio signal based on the listener of the virtual space, Determining whether there is a blocking object blocking the listener;
    상기 판단 결과를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는 단계; 및Binaurally rendering the input audio signal based on the determination result to generate an output audio signal; And
    상기 출력 오디오 신호를 출력하는 단계를 포함하는, 오디오 신호 처리 방법.And outputting the output audio signal.
PCT/KR2018/010926 2017-09-28 2018-09-17 Audio signal processing method and device WO2019066348A1 (en)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR20170126273 2017-09-28
KR10-2017-0126273 2017-09-28
KR20170135488 2017-10-18
KR10-2017-0135488 2017-10-18
KR10-2018-0082709 2018-07-17
KR20180082709 2018-07-17

Publications (1)

Publication Number Publication Date
WO2019066348A1 true WO2019066348A1 (en) 2019-04-04

Family

ID=65902035

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/010926 WO2019066348A1 (en) 2017-09-28 2018-09-17 Audio signal processing method and device

Country Status (1)

Country Link
WO (1) WO2019066348A1 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112770227A (en) * 2020-12-30 2021-05-07 中国电影科学技术研究所 Audio processing method, device, earphone and storage medium
WO2022218986A1 (en) * 2021-04-14 2022-10-20 Telefonaktiebolaget Lm Ericsson (Publ) Rendering of occluded audio elements
US20230224661A1 (en) * 2022-01-07 2023-07-13 Electronics And Telecommunications Research Institute Method and apparatus for rendering object-based audio signal considering obstacle
WO2023246327A1 (en) * 2022-06-22 2023-12-28 腾讯科技(深圳)有限公司 Audio signal processing method and apparatus, and computer device
WO2024098221A1 (en) * 2022-11-07 2024-05-16 北京小米移动软件有限公司 Audio signal rendering method, apparatus, device, and storage medium
EP4325887A4 (en) * 2021-04-12 2024-09-25 Panasonic Intellectual Property Corporation of America SOUND REPRODUCTION METHOD, SOUND REPRODUCTION DEVICE AND PROGRAM

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090109425A (en) * 2008-04-15 2009-10-20 엘지전자 주식회사 Apparatus and method for implementing virtual stereo sound
KR20130010893A (en) * 2010-03-26 2013-01-29 방 앤드 오루프센 에이/에스 Multichannel sound reproduction method and device
KR20130080819A (en) * 2012-01-05 2013-07-15 삼성전자주식회사 Apparatus and method for localizing multichannel sound signal
US20130236040A1 (en) * 2012-03-08 2013-09-12 Disney Enterprises, Inc. Augmented reality (ar) audio with position and action triggered virtual sound effects
KR20160121778A (en) * 2015-04-10 2016-10-20 세종대학교산학협력단 Computer-executable sound tracing method, apparatus performing the same and storage media storing the same

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090109425A (en) * 2008-04-15 2009-10-20 엘지전자 주식회사 Apparatus and method for implementing virtual stereo sound
KR20130010893A (en) * 2010-03-26 2013-01-29 방 앤드 오루프센 에이/에스 Multichannel sound reproduction method and device
KR20130080819A (en) * 2012-01-05 2013-07-15 삼성전자주식회사 Apparatus and method for localizing multichannel sound signal
US20130236040A1 (en) * 2012-03-08 2013-09-12 Disney Enterprises, Inc. Augmented reality (ar) audio with position and action triggered virtual sound effects
KR20160121778A (en) * 2015-04-10 2016-10-20 세종대학교산학협력단 Computer-executable sound tracing method, apparatus performing the same and storage media storing the same

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112770227A (en) * 2020-12-30 2021-05-07 中国电影科学技术研究所 Audio processing method, device, earphone and storage medium
EP4325887A4 (en) * 2021-04-12 2024-09-25 Panasonic Intellectual Property Corporation of America SOUND REPRODUCTION METHOD, SOUND REPRODUCTION DEVICE AND PROGRAM
WO2022218986A1 (en) * 2021-04-14 2022-10-20 Telefonaktiebolaget Lm Ericsson (Publ) Rendering of occluded audio elements
AU2022256751B2 (en) * 2021-04-14 2025-03-13 Telefonaktiebolaget Lm Ericsson (Publ) Rendering of occluded audio elements
US20230224661A1 (en) * 2022-01-07 2023-07-13 Electronics And Telecommunications Research Institute Method and apparatus for rendering object-based audio signal considering obstacle
KR20230106986A (en) * 2022-01-07 2023-07-14 한국전자통신연구원 Rendering method and apparatus for object-based audio signal considering obstacles
KR102610263B1 (en) * 2022-01-07 2023-12-06 한국전자통신연구원 Rendering method and apparatus for object-based audio signal considering obstacles
US12133062B2 (en) * 2022-01-07 2024-10-29 Electronics And Telecommunications Research Institute Method and apparatus for rendering object-based audio signal considering obstacle
WO2023246327A1 (en) * 2022-06-22 2023-12-28 腾讯科技(深圳)有限公司 Audio signal processing method and apparatus, and computer device
WO2024098221A1 (en) * 2022-11-07 2024-05-16 北京小米移动软件有限公司 Audio signal rendering method, apparatus, device, and storage medium

Similar Documents

Publication Publication Date Title
WO2019066348A1 (en) Audio signal processing method and device
US10674262B2 (en) Merging audio signals with spatial metadata
KR102483042B1 (en) Distance panning using near/far rendering
CN112262585B (en) Ambient stereo depth extraction
Davis et al. High order spatial audio capture and its binaural head-tracked playback over headphones with HRTF cues
EP3311593B1 (en) Binaural audio reproduction
WO2018182274A1 (en) Audio signal processing method and device
US8374365B2 (en) Spatial audio analysis and synthesis for binaural reproduction and format conversion
KR102561608B1 (en) Signal processing device and method, and program
US11089425B2 (en) Audio playback method and audio playback apparatus in six degrees of freedom environment
Hacihabiboglu et al. Perceptual spatial audio recording, simulation, and rendering: An overview of spatial-audio techniques based on psychoacoustics
WO2018147701A1 (en) Method and apparatus for processing audio signal
KR101004393B1 (en) How to improve spatial awareness in virtual surround
WO2016089180A1 (en) Audio signal processing apparatus and method for binaural rendering
KR20050056241A (en) Dynamic binaural sound capture and reproduction
CN113170271B (en) Method and apparatus for processing stereo signals
KR20170106063A (en) A method and an apparatus for processing an audio signal
EP2119306A2 (en) Audio spatialization and environment simulation
KR20050083928A (en) Method for processing audio data and sound acquisition device therefor
CN117242796A (en) Render reverb
US20190246230A1 (en) Virtual localization of sound
KR20210007122A (en) A method and an apparatus for processing an audio signal
KR102758360B1 (en) Audio rendering method and device
KR102559015B1 (en) Actual Feeling sound processing system to improve immersion in performances and videos
US11758348B1 (en) Auditory origin synthesis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18863694

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18863694

Country of ref document: EP

Kind code of ref document: A1

点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载