RU2847190C2 - Methods, devices and systems for encoding and decoding directional sound sources - Google Patents
Methods, devices and systems for encoding and decoding directional sound sourcesInfo
- Publication number
- RU2847190C2 RU2847190C2 RU2022112239A RU2022112239A RU2847190C2 RU 2847190 C2 RU2847190 C2 RU 2847190C2 RU 2022112239 A RU2022112239 A RU 2022112239A RU 2022112239 A RU2022112239 A RU 2022112239A RU 2847190 C2 RU2847190 C2 RU 2847190C2
- Authority
- RU
- Russia
- Prior art keywords
- metadata
- audio
- data
- encoded
- radiation pattern
- Prior art date
Links
Abstract
Description
[0001] Настоящее изобретение испрашивает приоритет заявки на патент США № 62/658067, поданной 16 апреля 2018 г.; заявки на патент США № 62/681429, поданной 6 июня 2018 г., и заявки на патент США № 62/741419, поданной 4 октября 2018 г., которые включены в настоящий документ посредством ссылки во всей полноте. [0001] The present invention claims priority to U.S. Patent Application No. 62/658,067, filed April 16, 2018; U.S. Patent Application No. 62/681,429, filed June 6, 2018; and U.S. Patent Application No. 62/741,419, filed October 4, 2018, which are incorporated herein by reference in their entireties.
ОБЛАСТЬ ТЕХНИКИAREA OF TECHNOLOGY
[0002] Настоящее изобретение относится к кодированию и декодированию направленных источников звука и слуховых сцен на основе множества динамических и/или движущихся направленных источников. [0002] The present invention relates to encoding and decoding directional sound sources and auditory scenes based on a plurality of dynamic and/or moving directional sources.
ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION
[0003] Источники звука реального мира, являются ли они естественными или созданными человеком (громкоговорители, музыкальные инструменты, голос, механические устройства), испускают звук анизотропным способом. Характеризация схем излучения (или «направленности») источников звука может быть важной для должного рендеринга, в частности в контексте интерактивных сред, таких как видеоигры и приложения виртуальной/дополненной реальности (VR/AR). В этих средах пользователи, как правило, взаимодействуют с направленными звуковыми объектами посредством хождения по ним, таким образом изменяя свою акустическую перспективу относительно сгенерированного звука (также известно как рендеринг с 6 степенями свободы (DoF)). Пользователь также может захватывать и динамически вращать виртуальные объекты, что опять же требует рендеринга разных направлений в схеме излучения соответствующего источника (источников) звука. В дополнение к более реалистичному рендерингу прямых эффектов распространения из источника к слушателю, характеристики излучения также будут играть важную роль в акустической связи более высокого порядка между источником и его средой (например, виртуальная среда в игре), тем самым воздействуя на реверберированный звук (то есть звуковые волны, перемещающиеся вперед и назад, как при эхо). В результате, такая реверберация может влиять на другие пространственные метки, такие как воспринимаемое расстояние. [0003] Real-world sound sources, whether natural or man-made (loudspeakers, musical instruments, voices, mechanical devices), emit sound anisotropically. Characterizing the radiation patterns (or "directivity") of sound sources can be important for proper rendering, particularly in the context of interactive environments such as video games and virtual/augmented reality (VR/AR) applications. In these environments, users typically interact with directional sound objects by walking over them, thereby changing their acoustic perspective relative to the generated sound (also known as 6 degrees of freedom (DoF) rendering). The user can also grab and dynamically rotate virtual objects, which again requires rendering different directions in the radiation pattern of the corresponding sound source(s). In addition to more realistically rendering the direct propagation effects from the source to the listener, radiation characteristics will also play a significant role in the higher-order acoustic coupling between the source and its environment (e.g., the virtual environment in a game), thereby affecting the reverberant sound (i.e., sound waves traveling back and forth, like an echo). As a result, such reverberation can influence other spatial cues, such as perceived distance.
[0004] Большинство звуковых игровых движков обеспечивает некоторый способ представления и рендеринга направленных источников звука, но, как правило, ограничено простым индексом направленности, полагаясь на определение простых косинусных функций 1-го порядка или «звуковых конусов» (например, косинусные функции в степени) и простые высокочастотные фильтры с плавным спадом. Этих представлений недостаточно для представления схем излучения в реальном мире, и они также являются не очень подходящими для упрощенного/комбинированного представления множества направленных источников звука. [0004] Most audio game engines provide some way to represent and render directional sound sources, but are typically limited to a simple directivity index, relying on the definition of simple first-order cosine functions or "sound cones" (e.g., cosine functions raised to a power) and simple high-pass filters with a smooth rolloff. These representations are insufficient for representing real-world radiation patterns, and they are also not very suitable for a simplified/combined representation of multiple directional sound sources.
КРАТКОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯBRIEF DESCRIPTION OF THE INVENTION
[0005] В настоящем документе раскрыты различные способы обработки звука. Некоторые такие способы могут включать кодирование направленных звуковых данных. Например, некоторые способы могут включать прием монофонического звукового сигнала, соответствующего звуковому объекту, и представление схемы излучения, соответствующей звуковому объекту. Схема излучения может, например, содержать уровни звука, соответствующие нескольким периодам дискретизации, нескольким полосам частот и нескольким направлениям. Некоторые способы могут включать кодирование монофонического звукового сигнала и кодирование схемы излучения источника для определения метаданных схемы излучения. Кодирование схемы излучения может включать определение преобразования сферических гармоник представления схемы излучения и сжатие преобразования сферических гармоник для получения метаданных кодированной схемы излучения. [0005] Various methods for processing audio are disclosed herein. Some such methods may include encoding directional audio data. For example, some methods may include receiving a monophonic audio signal corresponding to an audio object and representing a radiation pattern corresponding to the audio object. The radiation pattern may, for example, contain audio levels corresponding to multiple sampling periods, multiple frequency bands, and multiple directions. Some methods may include encoding the monophonic audio signal and encoding the radiation pattern of a source to determine metadata of the radiation pattern. Encoding the radiation pattern may include determining a spherical harmonic transform of the radiation pattern representation and compressing the spherical harmonic transform to obtain metadata of the encoded radiation pattern.
[0006] Некоторые такие способы могут включать кодирование нескольких направленных звуковых объектов на основании кластера звуковых объектов. Схема излучения может представлять центроид, который отражает среднее значение уровня звука для каждой полосы частот. В некоторых подобных реализациях несколько направленных звуковых объектов закодированы в качестве одного направленного звукового объекта, направленность которого соответствует изменяющемуся во времени энергетически взвешенному среднему коэффициентов сферических гармоник каждого звукового объекта. Метаданные кодированной схемы излучения могут указывать на положение кластера звуковых объектов, то есть среднее положения каждого звукового объекта. [0006] Some such methods may include encoding multiple directional sound objects based on a cluster of sound objects. The radiation pattern may represent a centroid that reflects the average sound level for each frequency band. In some such implementations, multiple directional sound objects are encoded as a single directional sound object, the directivity of which corresponds to a time-varying energy-weighted average of the spherical harmonic coefficients of each sound object. Metadata of the encoded radiation pattern may indicate the position of the cluster of sound objects, i.e., the average position of each sound object.
[0007] Некоторые способы могут включать кодирование метаданных группы, относящихся к схеме излучения группы направленных звуковых объектов. В некоторых примерах масштаб схемы излучения источника может быть изменен до амплитуды схемы входного излучения в направлении по частоте для определения схемы нормализованного излучения. Согласно некоторым реализациям сжатие преобразования сферических гармоник может включать способ разложения по сингулярным числам, анализ основных компонентов, дискретные косинусные преобразования, не зависящие от данных базисы и/или устранение коэффициентов сферических гармоник преобразования сферических гармоник, которые выше порогового порядка коэффициентов сферических гармоник. [0007] Some methods may include encoding group metadata related to the radiation pattern of a group of directional sound objects. In some examples, the source radiation pattern may be scaled to the amplitude of the input radiation pattern in the frequency direction to determine the normalized radiation pattern. According to some implementations, spherical harmonic transform compression may include a singular value decomposition method, principal component analysis, discrete cosine transforms, data-independent bases, and/or removal of spherical harmonic transform coefficients that are above a threshold order of spherical harmonic coefficients.
[0008] Некоторые альтернативные способы могут включать декодирование звуковых данных. Например, некоторые такие способы могут включать прием кодированного базового звукового сигнала, метаданных кодированной схемы излучения и метаданных кодированного звукового объект и декодирование кодированного базового звукового сигнала для определения базового звукового сигнала. Некоторые такие способы могут включать декодирование метаданных кодированной схемы излучения для определения декодированной схемы излучения, декодирование метаданных схемы излучения и рендеринга базового звукового сигнала на основании метаданных звукового объекта и декодированной схемы излучения. [0008] Some alternative methods may include decoding audio data. For example, some such methods may include receiving an encoded base audio signal, encoded emission scheme metadata, and encoded audio object metadata, and decoding the encoded base audio signal to determine the base audio signal. Some such methods may include decoding the encoded emission scheme metadata to determine the decoded emission scheme, decoding the emission scheme metadata, and rendering the base audio signal based on the audio object metadata and the decoded emission scheme.
[0009] В некоторых случаях метаданные звукового объекта могут содержать по меньшей мере одно из изменяющейся во времени информации об ориентации источника 3 степеней свободы (3DoF) или 6 степеней свободы (6DoF). Базовый звуковой сигнал может содержать несколько направленных объектов на основании кластера объектов. Декодированная схема излучения может представлять центроид, который отражает среднее значение для каждой полосы частот. В некоторых примерах рендеринг может быть основан на применении коэффициентов усиления поддиапазона, основанных по меньшей мере частично на декодированных данных излучения, к декодированному базовому звуковому сигналу. Метаданные кодированной схемы излучения могут соответствовать переменному во времени и по частоте набору коэффициентов сферических гармоник. [0009] In some cases, the audio object metadata may comprise at least one of time-varying 3-degree-of-freedom (3DoF) or 6-degree-of-freedom (6DoF) source orientation information. The base audio signal may comprise multiple directional objects based on a cluster of objects. The decoded radiation pattern may represent a centroid that reflects an average value for each frequency band. In some examples, rendering may be based on applying subband gains based at least in part on the decoded radiation data to the decoded base audio signal. The encoded radiation pattern metadata may correspond to a time- and frequency-varying set of spherical harmonic coefficients.
[0010] Согласно некоторым реализациям метаданные кодированной схемы излучения могут включать метаданные типов звукового объекта. Метаданные типов звукового объекта могут, например, указывать на параметрические данные схемы направленности. Параметрические данные схемы направленности могут содержать косинусную функцию, синусную функцию и/или кардиоидную функцию. В некоторых примерах метаданные типов звукового объекта могут указывать на данные схемы направленности базы данных. Декодирование метаданных кодированной схемы излучения для определения декодированной схемы излучения может включать запрашивание структуры данных направленности, которая содержит типы звуковых объектов и соответствующие данные схемы направленности. В некоторых примерах метаданные типов звукового объекта могут указывать на динамические данные схемы направленности. Динамические данные схемы направленности могут соответствовать переменному во времени и по частоте набору коэффициентов сферических гармоник. Некоторые способы могут включать прием динамических данных схемы направленности до приема кодированного базового звукового сигнала. [0010] According to some implementations, the encoded radiation pattern metadata may include audio object type metadata. The audio object type metadata may, for example, point to parametric data of a radiation pattern. The parametric data of a radiation pattern may comprise a cosine function, a sine function, and/or a cardioid function. In some examples, the audio object type metadata may point to data of a radiation pattern of a database. Decoding the encoded radiation pattern metadata to determine a decoded radiation pattern may include querying a directionality data structure that contains audio object types and corresponding data of a radiation pattern. In some examples, the audio object type metadata may point to dynamic data of a radiation pattern. The dynamic data of a radiation pattern may correspond to a time- and frequency-varying set of spherical harmonic coefficients. Some methods may include receiving the dynamic data of a radiation pattern before receiving the encoded base audio signal.
[0011] Некоторые или все способы, описанные в настоящем документе, могут быть выполнены посредством одного или более устройств в соответствии с командами (например, программным обеспечением), хранящимися в одном или более постоянных носителях данных. Такие постоянные носители данных могут содержать запоминающие устройства, такие как те, что описаны в настоящем документе, включая, но без ограничения, оперативные запоминающие устройства (RAM), постоянные запоминающие устройства (ROM) и т. д. Соответственно, различные изобретательские особенности объекта, описанные в настоящем изобретении, могут быть реализованы в одном или более постоянных носителях данных, имеющих программное обеспечение, хранящееся в них. Программное обеспечение может, например, содержать команды для управления по меньшей мере одним устройством для обработки звуковых данных. Программное обеспечение может, например, быть выполнено с возможностью исполнения посредством одного или более компонентов системы управления, таких как те, что описаны в настоящем документе. Программное обеспечение может, например, содержать команды для выполнения одного или более способов, раскрытых в настоящем документе. [0011] Some or all of the methods described herein may be performed by one or more devices in accordance with instructions (e.g., software) stored in one or more persistent storage media. Such persistent storage media may comprise storage devices such as those described herein, including, but not limited to, random access memory (RAM), read-only memory (ROM), etc. Accordingly, various inventive features of the subject matter described in the present invention may be implemented in one or more persistent storage media having software stored therein. The software may, for example, comprise instructions for controlling at least one device for processing audio data. The software may, for example, be configured to be executed by one or more components of a control system such as those described herein. The software may, for example, comprise instructions for performing one or more of the methods disclosed herein.
[0012] По меньшей мере некоторые аспекты настоящего изобретения могут быть реализованы посредством аппарата. Например, одно или более устройств могут быть приспособлены для выполнения, по меньшей мере частично, способов, раскрытых в настоящем документе. В некоторых реализациях аппарат может содержать интерфейсную систему и систему управления. Интерфейсная система может содержать один или более сетевых интерфейсов, один или более интерфейсов между системой управления и системой памяти, один или более интерфейсов между системой управления и другим устройством и/или один или более интерфейсов для внешних устройств. Система управления может содержать по меньшей мере одно из одно- или многокристального процессора общего назначения, процессора цифровой обработки сигналов (DSP), интегральной схемы специального назначения (ASIC), программируемой пользователем вентильной матрицы (FPGA) или другого программируемого логического устройства, схемы на дискретных компонентах или транзисторной логической схемы, или компонентов дискретного аппаратного обеспечения. Соответственно, в некоторых реализациях система управления может содержать один или более процессоров и один или более постоянных носителей данных, функционально соединенных с одним или более процессорами. [0012] At least some aspects of the present invention may be implemented by means of an apparatus. For example, one or more devices may be adapted to perform, at least in part, the methods disclosed herein. In some implementations, the apparatus may comprise an interface system and a control system. The interface system may comprise one or more network interfaces, one or more interfaces between the control system and a memory system, one or more interfaces between the control system and another device, and/or one or more interfaces for external devices. The control system may comprise at least one of a general-purpose single- or multi-chip processor, a digital signal processor (DSP), an application-specific integrated circuit (ASIC), a field-programmable gate array (FPGA) or other programmable logic device, a circuit on discrete components or a transistor logic circuit, or discrete hardware components. Accordingly, in some implementations, the control system may comprise one or more processors and one or more non-transitory storage media operatively connected to the one or more processors.
[0013] Согласно некоторым таким примерам система управления может быть выполнена с возможностью приема посредством интерфейсной системы звуковых данных, соответствующих по меньшей мере одному звуковому объекту. В некоторых примерах звуковые данные могут содержать монофонический звуковой сигнал, метаданные положения звукового объекта, метаданные размера звукового объекта и параметр рендеринга. Некоторые такие способы могут включать определение, указывает ли параметр рендеринга на режим положения или режим направленности, и при определении, что параметр рендеринга указывает на режим направленности, рендеринг звуковых данных для воспроизведения посредством по меньшей мере одного громкоговорителя в соответствии со схемой направленности, указанной метаданными положения и/или метаданными размера. [0013] According to some such examples, the control system may be configured to receive, via an interface system, audio data corresponding to at least one audio object. In some examples, the audio data may comprise a monophonic audio signal, audio object position metadata, audio object size metadata, and a rendering parameter. Some such methods may include determining whether the rendering parameter indicates a position mode or a directional mode, and upon determining that the rendering parameter indicates a directional mode, rendering the audio data for playback through at least one loudspeaker in accordance with the directional pattern indicated by the position metadata and/or the size metadata.
[0014] В некоторых примерах рендеринг звуковых данных может включать интерпретацию метаданных положения звукового объекта в качестве метаданных ориентации звукового объекта. Метаданные положения звукового объекта могут, например, включать данные координат x,y,z, данные сферических координат и/или данные цилиндрических координат. В некоторых случаях метаданные ориентации звукового объекта могут включать данные рыскания, тангажа и крена. [0014] In some examples, rendering audio data may include interpreting audio object position metadata as audio object orientation metadata. Audio object position metadata may, for example, include x,y,z coordinate data, spherical coordinate data, and/or cylindrical coordinate data. In some cases, audio object orientation metadata may include yaw, pitch, and roll data.
[0015] Согласно некоторым примерам рендеринг звуковых данных может включать интерпретацию метаданных размера звукового объекта в качестве метаданных направленности, которые соответствуют схеме направленности. В некоторых реализациях рендеринг звуковых данных может включать запрашивание структуры данных, которая содержат несколько схем направленности, и соотнесение метаданных положения и/или метаданных размера с одной или более схемами направленности. В некоторых случаях система управления может быть выполнена с возможностью приема структуры данных посредством интерфейсной системы. В некоторых примерах структура данных может быть принята перед звуковыми данными. При этом в некоторых реализациях звуковые данные могут быть приняты в формате Dolby Atmos. Метаданные положения звукового объекта могут, например, соответствовать мировым координатам или модельным координатам. [0015] According to some examples, rendering audio data may include interpreting audio object size metadata as directionality metadata that corresponds to a directionality pattern. In some implementations, rendering audio data may include requesting a data structure that contains multiple directionality patterns and correlating position metadata and/or size metadata with one or more directionality patterns. In some cases, the control system may be configured to receive the data structure via an interface system. In some examples, the data structure may be received before the audio data. In some implementations, the audio data may be received in Dolby Atmos format. The audio object position metadata may, for example, correspond to world coordinates or model coordinates.
[0016] Подробности одной или более реализаций объекта изобретения, описываемого в данном описании, изложены в сопроводительных графических материалах и в приведенном ниже описании. Другие признаки, аспекты и преимущества будут очевидны из описания, графических материалов и формулы изобретения. Следует отметить, что относительные размеры на нижеследующих фигурах могут быть приведены не в масштабе. Подобные ссылочные позиции и обозначения в разных графических материалах, как правило, указывают подобные элементы. [0016] The details of one or more embodiments of the subject matter described in this specification are set forth in the accompanying drawings and the description below. Other features, aspects, and advantages will be apparent from the description, drawings, and claims. It should be noted that relative dimensions in the following figures may not be to scale. Like reference numerals and designations in different drawings generally indicate like elements.
КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВBRIEF DESCRIPTION OF GRAPHIC MATERIALS
[0017] На фиг. 1A приведена блок-схема, на которой показаны блоки способа кодирования звука согласно одному примеру. [0017] Fig. 1A is a block diagram illustrating blocks of a method for encoding audio according to one example.
[0018] На фиг. 1B показаны блоки процесса, который может быть реализован посредством системы кодирования для динамического кодирования информации покадровой направленности для направленного звукового объекта согласно одному примеру. [0018] Fig. 1B shows blocks of a process that may be implemented by a coding system for dynamically coding frame-by-frame directionality information for a directional audio object according to one example.
[0019] На фиг. 1C показаны блоки процесса, который может быть реализован посредством системы декодирования согласно одному примеру. [0019] Fig. 1C shows blocks of a process that may be implemented by a decoding system according to one example.
[0020] На фиг. 2A и 2B показаны схемы излучения звукового объекта в двух разных полосах частот. [0020] Fig. 2A and 2B show the radiation patterns of a sound object in two different frequency bands.
[0021] На фиг. 2C представлен график, на котором показаны примеры схем нормализованного и ненормализованного излучения согласно одному примеру. [0021] Fig. 2C is a graph showing examples of normalized and non-normalized radiation patterns according to one example.
[0022] На фиг. 3 показан пример иерархии, в которую включены звуковые данные и различные типы метаданных. [0022] Fig. 3 shows an example of a hierarchy that includes audio data and various types of metadata.
[0023] На фиг. 4 приведена блок-схема, на которой показаны блоки способа декодирования звука согласно одному примеру. [0023] Fig. 4 is a block diagram showing blocks of a method for decoding audio according to one example.
[0024] На фиг. 5A показана тарелка ударной установки. [0024] Fig. 5A shows a drum cymbal.
[0025] На фиг. 5B показан пример системы динамиков. [0025] Fig. 5B shows an example of a speaker system.
[0026] На фиг. 6 приведена блок-схема, на которой показаны блоки способа декодирования звука согласно одному примеру. [0026] Fig. 6 is a block diagram showing blocks of a method for decoding audio according to one example.
[0027] На фиг. 7 показан один пример кодирования множества звуковых объектов. [0027] Fig. 7 shows one example of encoding a plurality of audio objects.
[0028] На фиг. 8 приведена блок-схема, на которой показаны примеры компонентов аппарата, которые могут быть приспособлены для выполнения по меньшей мере некоторых способов, описанных в настоящем документе. [0028] Fig. 8 is a block diagram showing examples of components of an apparatus that may be adapted to perform at least some of the methods described herein.
[0029] Подобные ссылочные позиции и обозначения в разных графических материалах указывают подобные элементы. [0029] Similar reference numerals and designations in different drawings indicate similar elements.
ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION
[0030] Аспект настоящего изобретения относится к представлению сложных схем излучения и их эффективному кодированию. Некоторые такие реализации могут включать одно или более из следующего: [0030] An aspect of the present invention relates to the representation of complex radiation patterns and their efficient coding. Some such implementations may include one or more of the following:
1. Представление общих схем излучения звука в качестве зависящих от времени и от частоты коэффициентов N-го порядка разложения по действительнозначным сферическим гармоникам (SPH) (N>=1). Это представление также может быть расширено таким образом, чтобы зависеть от уровня сигнала воспроизведения звука. В отличие от случая, при котором сам сигнал направленного источника представляет собой подобное HOA представление PCM, монофонический сигнал объекта может быть закодирован отдельно от его информации о направленности, причем он представлен как набор зависящих от времени скалярных коэффициентов SPH в поддиапазонах.1. Representation of general sound radiation patterns as time- and frequency-dependent N-th-order coefficients of a real-valued spherical harmonic (SPH) expansion (N>=1). This representation can also be extended to depend on the level of the sound reproduction signal. Unlike the case in which the directional source signal itself is represented as an HOA-like PCM representation, the monophonic object signal can be encoded separately from its directivity information, and it is represented as a set of time-dependent scalar SPH coefficients in subbands.
2. Схема эффективного кодирования для уменьшения битовой скорости, необходимой для представления этой информации. 2. An efficient coding scheme to reduce the bit rate required to represent this information.
3. Решение, заключающееся в динамическом объединении схем излучения, чтобы сцена, созданная за счет нескольких источников излучения звука, могла быть представлена посредством эквивалентного уменьшенного количества источников, в то же время сохраняя качество восприятия во время рендеринга.3. A solution that dynamically combines emitter patterns so that a scene created by multiple sound emitters can be represented by an equivalently reduced number of emitters, while maintaining perceptual quality during rendering.
[0031] Аспект настоящего изобретения относится к представлению общих схем излучения, чтобы дополнить метаданные для каждого монофонического звукового объекта посредством набора зависящих от времени/частоты коэффициентов, представляющих направленность монофонического звукового объекта, спроецированную на базис сферических гармоник N-го порядка (N>=1). [0031] An aspect of the present invention relates to the representation of common radiation patterns to supplement metadata for each monophonic audio object with a set of time/frequency dependent coefficients representing the directivity of the monophonic audio object projected onto a basis of N-th order (N>=1) spherical harmonics.
[0032] Схемы излучения первого порядка могут быть представлены набором из 4 скалярных коэффициентов усиления для заданного набора полос частот (например, 1/3-октавных). Набор полос частот также может называться интервалом или подполосой. Интервалы или подполосы могут быть определены на основе оконного преобразования Фурье (STFT) или перцепционного банка фильтров для одного кадра данных (например, 512 отсчетов как в Dolby Atmos). Полученная в результате схема может быть подвергнута рендерингу посредством оценки разложения по сферическим гармоникам в требуемых направлениях вокруг объекта. [0032] First-order radiation patterns can be represented by a set of 4 scalar gains for a given set of frequency bands (e.g., 1/3-octave). A set of frequency bands can also be referred to as an interval or subband. The intervals or subbands can be defined based on a windowed Fourier transform (STFT) or a perceptual filter bank for a single frame of data (e.g., 512 samples as in Dolby Atmos). The resulting pattern can be rendered by evaluating the spherical harmonic decomposition in the desired directions around the object.
[0033] В целом, эта схема излучения представляет собой характеристику источника и может оставаться постоянной с течением времени. Однако для представления динамической сцены, в которой объекты вращаются или изменяются, или для обеспечения того, что доступ данным может быть получен случайным образом, может быть выгодным обновлять этот набор коэффициентов через регулярные промежутки времени. В контексте динамических слуховых сцен с движущимися объектами результат поворота объекта может быть непосредственно закодирован в переменных во времени коэффициентах без необходимости явного отдельного кодирования ориентации объекта. [0033] In general, this radiation pattern represents a characteristic of the source and may remain constant over time. However, to represent a dynamic scene in which objects rotate or change, or to ensure that data can be accessed randomly, it may be advantageous to update this set of coefficients at regular intervals. In the context of dynamic auditory scenes with moving objects, the result of object rotation can be directly encoded in time-varying coefficients without the need for explicit separate encoding of the object's orientation.
[0034] Каждый тип источника звука имеет характерную схему излучения/испускания, которая, как правило, отличается полосой частот. Например, скрипка может иметь схему излучения, очень отличную от схемы излучения трубы, барабана или колокола. Более того, источник звука, такой как музыкальный инструмент, может создавать разные излучения на уровнях исполнения, таких как очень тихо (pianissimo) и очень громко (fortissimo). В результате, схема излучения также может представлять собой функцию не только направления вокруг объекта звучания, но и уровня давления звукового сигнала, который он излучает, при этом уровень давления также может быть переменным во времени. [0034] Each type of sound source has a characteristic radiation/emission pattern, which typically differs in frequency band. For example, a violin may have a radiation pattern very different from that of a trumpet, drum, or bell. Moreover, a sound source, such as a musical instrument, may produce different emissions at performance levels, such as very quiet (pianissimo) and very loud (fortissimo) . As a result, the radiation pattern may also be a function not only of the direction around the sounding object, but also of the pressure level of the sound signal it emits, with the pressure level also being variable over time.
[0035] Соответственно, вместо простого представления звукового поля в точке в пространстве в некоторых реализациях применяют кодирование звуковых данных, которые соответствуют схемам излучения звуковых объектов, таким образом их рендеринг может быть осуществлен с другой выгодной точки. В некоторых случаях схемы излучения могут представлять собой переменные во времени и по частоте схемы излучения. Ввод звуковых данных в процесс кодирования может, в некоторых случаях, включать несколько каналов (например, 4, 6, 8, 20 или более каналов) звуковых данных из направленных микрофонов. Каждый канал может соответствовать данным из микрофона в конкретном положении в пространстве вокруг источника звука, из которого может быть получена схема излучения. Предполагая, что относительное положение от каждого микрофона до источника известно, этого можно достичь путем численного подбора набора коэффициентов сферических гармоник, таким образом полученная сферическая функция лучше всего соответствует обнаруженным уровням энергии в разных поддиапазонах каждого входного сигнала микрофона. Например, см. способы и системы, описанные в связи с заявкой на патент № PCT/US2017/053946 «Method, Systems and Apparatus for Determining Audio Representations» авторов Nicolas Tsingos и Pradeep Kumar Govindaraju, которая включена в настоящий документ посредством ссылки. В других примерах схема излучения звукового объекта может быть определена посредством численного моделирования. [0035] Accordingly, instead of simply representing the sound field at a point in space, some implementations employ encoding of audio data that correspond to the radiation patterns of audio objects so that they can be rendered from a different vantage point. In some cases, the radiation patterns may represent time- and frequency-varying radiation patterns. The audio input to the encoding process may, in some cases, include multiple channels (e.g., 4, 6, 8, 20, or more channels) of audio data from directional microphones. Each channel may correspond to data from a microphone at a specific location in space around the sound source, from which the radiation pattern can be derived. Assuming that the relative position from each microphone to the source is known, this can be achieved by numerically fitting a set of spherical harmonic coefficients such that the resulting spherical function best matches the detected energy levels in different subranges of each microphone input signal. For example, see the methods and systems described in connection with patent application No. PCT/US2017/053946, "Method, Systems, and Apparatus for Determining Audio Representations," by Nicolas Tsingos and Pradeep Kumar Govindaraju, which is incorporated herein by reference. In other examples, the radiation pattern of an audio object can be determined through numerical simulation.
[0036] Вместо простого кодирования звуковых данных с направленных микрофонов на уровне отсчетов некоторые реализации включают кодирование монофонических сигналов звуковых объектов посредством соответствующих метаданных схемы излучения, которые представляют схемы излучения для по меньшей мере некоторых из кодированных звуковых объектов. В некоторых реализациях метаданные схемы излучения могут быть представлены в качестве данных сферических гармоник. Некоторые такие реализации могут включать процесс сглаживания и/или процесс сжатия/сокращения объема данных. [0036] Instead of simply encoding audio data from directional microphones at the sample level, some implementations include encoding monophonic signals of audio objects via corresponding radiation pattern metadata that represents radiation patterns for at least some of the encoded audio objects. In some implementations, the radiation pattern metadata may be represented as spherical harmonic data. Some such implementations may include a smoothing process and/or a data compression/reduction process.
[0037] На фиг. 1A приведена блок-схема, на которой показаны блоки способа кодирования звука согласно одному примеру. Способ 1 может, например, быть реализован посредством системы управления (такой как система 815 управления, которая описана ниже со ссылкой на фиг. 8), которая содержит один или более процессоров и одно или более постоянных запоминающих устройств. Как и для других описанных способов, не все блоки способа 1 обязательно выполняют в порядке, показанном на фиг. 1A. Кроме того, альтернативные способы могут включать большее или меньшее количество блоков. [0037] Fig. 1A is a block diagram showing blocks of a method for encoding audio according to one example. Method 1 may, for example, be implemented by a control system (such as control system 815, which is described below with reference to Fig. 8) that includes one or more processors and one or more read-only memories. As with other described methods, not all blocks of method 1 are necessarily performed in the order shown in Fig. 1A. Furthermore, alternative methods may include more or fewer blocks.
[0038] В этом примере блок 5 включает прием монофонического звукового сигнала, соответствующего звуковому объекту, и также прием представления схемы излучения, соответствующей звуковому объекту. Согласно настоящей реализации схема излучения содержит уровни звука, соответствующие нескольким периодам дискретизации, нескольким полосам частот и нескольким направлениям. Согласно настоящему примеру блок 10 включает кодирование монофонического звукового сигнала. [0038] In this example, block 5 includes receiving a monophonic audio signal corresponding to an audio object, and also receiving a representation of an emission pattern corresponding to the audio object. According to the present implementation, the emission pattern comprises audio levels corresponding to multiple sampling periods, multiple frequency bands, and multiple directions. According to the present example, block 10 includes encoding the monophonic audio signal.
[0039] В примере, показанном на фиг. 1A, блок 15 включает кодирование схемы излучения источника для определения метаданных схемы излучения. Согласно настоящей реализации кодирование представления схемы излучения включает определение преобразования сферических гармоник представления схемы излучения и сжатие преобразования сферических гармоник для получения метаданных кодированной схемы излучения. В некоторых реализациях масштаб представления схемы излучения может быть изменен до амплитуды схемы входного излучения в направлении по частоте для определения схемы нормализованного излучения. [0039] In the example shown in Fig. 1A, block 15 includes encoding a source radiation pattern to determine radiation pattern metadata. According to the present implementation, encoding a representation of the radiation pattern includes determining a spherical harmonic transform of the representation of the radiation pattern and compressing the spherical harmonic transform to obtain encoded radiation pattern metadata. In some implementations, the representation of the radiation pattern may be scaled to the amplitude of the input radiation pattern in the frequency direction to determine a normalized radiation pattern.
[0040] В некоторых случаях сжатие преобразования сферических гармоник может включать отбрасывание некоторых коэффициентов сферических гармоник более высокого порядка. Некоторые такие примеры могут включать исключение коэффициентов сферических гармоник преобразования сферических гармоник, которые находятся выше порогового порядка коэффициентов сферических гармоник, например, выше 3-го порядка, выше 4-го порядка, выше 5-го порядка и т. д. [0040] In some cases, spherical harmonic transform compression may involve discarding some higher-order spherical harmonic coefficients. Some such examples may include discarding spherical harmonic transform coefficients that are above a threshold order of spherical harmonic coefficients, such as above the 3rd order, above the 4th order, above the 5th order, etc.
[0041] Однако некоторые реализации могут включать альтернативные и/или дополнительные способы сжатия. Согласно некоторым таким реализациям сжатие преобразования сферических гармоник может включать способ разложения по сингулярным числам, анализ основных компонентов, дискретные косинусные преобразования, не зависящие от данных базисы и/или другие способы. [0041] However, some implementations may include alternative and/or additional compression methods. According to some such implementations, spherical harmonic transform compression may include a singular value decomposition method, principal component analysis, discrete cosine transforms, data-independent bases, and/or other methods.
[0042] Согласно некоторым примерам способ 1 также может включать кодирование нескольких направленных звуковых объектов в качестве группы или «кластера» звуковых объектов. Некоторые реализации могут включать кодирование метаданных группы, относящихся к схеме излучения группы направленных звуковых объектов. В некоторых случаях несколько направленных звуковых объектов могут быть закодированы в качестве одного направленного звукового объекта, направленность которого соответствует изменяющемуся во времени энергетически взвешенному среднему коэффициентов сферических гармоник каждого звукового объекта. В некоторых таких примерах метаданные кодированной схемы излучения могут представлять центроид, который соответствует среднему значению уровня звука для каждой полосы частот. Например, метаданные кодированной схемы излучения (или связанные метаданные) могут указывать на положение кластера звуковых объектов, то есть среднее положения каждого направленного звукового объекта в кластере. [0042] According to some examples, method 1 may also include encoding multiple directional sound objects as a group or "cluster" of sound objects. Some implementations may include encoding group metadata related to the radiation pattern of the group of directional sound objects. In some cases, multiple directional sound objects may be encoded as a single directional sound object, the directivity of which corresponds to a time-varying energy-weighted average of the spherical harmonic coefficients of each sound object. In some such examples, the encoded radiation pattern metadata may represent a centroid that corresponds to the average sound level for each frequency band. For example, the encoded radiation pattern metadata (or associated metadata) may indicate the position of a cluster of sound objects, that is, the average position of each directional sound object in the cluster.
[0043] На фиг. 1B показаны блоки процесса, который может быть реализован посредством системы 100 кодирования для динамического кодирования информации покадровой направленности для направленного звукового объекта согласно одному примеру. Процесс может, например, быть реализован посредством системы управления, такой как система 815 управления, которая описана ниже со ссылкой на фиг. 8. Система 100 кодирования может принимать монофонический звуковой сигнал 101, который может соответствовать монофоническому сигналу объекта, как описано выше. Монофонический звуковой сигнал 101 может быть закодирован в блоке 111 и предоставлен в блок 112 сериализации. [0043] Fig. 1B shows blocks of a process that may be implemented by a coding system 100 for dynamically coding frame-by-frame directionality information for a directional audio object according to one example. The process may, for example, be implemented by a control system, such as a control system 815, which is described below with reference to Fig. 8. The coding system 100 may receive a monophonic audio signal 101, which may correspond to a monophonic object signal, as described above. The monophonic audio signal 101 may be encoded in block 111 and provided to a serialization block 112.
[0044] В блоке 102 могут обрабатывать статические или изменяющиеся во времени направленные энергетические отсчеты на разных уровнях звука в наборе полос частот относительно эталонной системы координат. Эталонная система координат может быть определена в конкретной пространственной системе координат, такой как модельная пространственная система координат или мировая пространственная система координат. [0044] Block 102 may process static or time-varying directional energy samples at different sound levels in a set of frequency bands relative to a reference coordinate system. The reference coordinate system may be defined in a specific spatial coordinate system, such as a model spatial coordinate system or a world spatial coordinate system.
[0045] В блоке 105 могут выполнять зависящее от частоты изменение масштаба изменяющихся во времени направленных энергетических отсчетов из блока 102. В одном примере зависящее от частоты изменение масштаба могут выполнять в соответствии с примером, проиллюстрированным на фиг. 2A–2C, как описано ниже. Нормализация может быть основана на изменении масштаба амплитуды, например, направления высокой частоты относительно низкой частоты. [0045] In block 105, frequency-dependent rescaling of the time-varying directional energy samples from block 102 may be performed. In one example, frequency-dependent rescaling may be performed in accordance with the example illustrated in Figs. 2A-2C, as described below. The normalization may be based on rescaling of amplitude, such as the direction of a high frequency relative to a low frequency.
[0046] Зависящее от частоты изменение масштаба может быть повторно нормализовано на основе предполагаемого направления захвата базового сигнала. Такое предполагаемое направление захвата базового сигнала может представлять направление слушания относительно источника звука. Например, это направление слушания могут называть направлением просмотра, причем направление просмотра может находиться в конкретном направлении относительно системы координат (например, направлении вперед или направлении назад). [0046] The frequency-dependent rescaling may be re-normalized based on the assumed direction of acquisition of the base signal. Such assumed direction of acquisition of the base signal may represent the listening direction relative to the sound source. For example, this listening direction may be referred to as the viewing direction, where the viewing direction may be in a specific direction relative to the coordinate system (e.g., the forward direction or the rearward direction).
[0047] В блоке 106 выходные данные перемасштабированной направленности из блока 105 могут спроецировать на базис сферических гармоник, в результате чего получают коэффициенты сферических гармоник. [0047] In block 106, the rescaled directivity output from block 105 may be projected onto a spherical harmonic basis, resulting in spherical harmonic coefficients.
[0048] В блоке 108 сферические коэффициенты из блока 106 обрабатывают на основании мгновенного значения уровня 107 звука и/или информации от блока 109 поворота. Мгновенное значение уровня 107 звука может быть измерено в конкретное время в конкретном направлении. Информация от блока 109 поворота может указывать на (необязательный) поворот изменяющейся во времени ориентации 103 источника. Например, в блоке 109 сферические коэффициенты могут быть отрегулированы, чтобы учитывать зависящую от времени модификацию ориентации источника относительно первоначально записанных входных данных. [0048] In block 108, the spherical coefficients from block 106 are processed based on the instantaneous value of the sound level 107 and/or information from the rotation block 109. The instantaneous value of the sound level 107 may be measured at a specific time in a specific direction. The information from the rotation block 109 may indicate an (optional) rotation of the time-varying orientation 103 of the source. For example, in block 109, the spherical coefficients may be adjusted to take into account a time-dependent modification of the orientation of the source relative to the originally recorded input data.
[0049] В блоке 108 могут дополнительно выполнять определение целевого уровня на основе выравнивания, которое определяют относительно направления для предполагаемого направления захвата базового звукового сигнала. Блок 108 может выводить набор повернутых сферических коэффициентов, которые выровнены на основе определения целевого уровня. [0049] Block 108 may further perform a target level determination based on an alignment that is determined relative to the direction of the intended capture direction of the base audio signal. Block 108 may output a set of rotated spherical coefficients that are aligned based on the target level determination.
[0050] В блоке 110 кодирование схемы излучения может быть основано на проецировании на меньшее подпространство сферических коэффициентов относительно схемы излучения источника, что обеспечивает метаданные кодированной схемы излучения. Как показано на фиг. 1A, в блоке 110 алгоритм разложения SVD и сжатия могут выполнять для выходных данных сферических коэффициентов посредством блока 108. В одном примере алгоритм разложения SVD и сжатия из блока 110 могут выполнять в соответствии с принципами, описанными в связи с уравнениями 11–13, которые описаны ниже. [0050] In block 110, encoding of the radiation scheme may be based on projection onto a smaller subspace of spherical coefficients relative to the radiation scheme of the source, which provides metadata of the encoded radiation scheme. As shown in Fig. 1A, in block 110, an SVD decomposition and compression algorithm may be performed on the output data of the spherical coefficients by block 108. In one example, the SVD decomposition and compression algorithm of block 110 may be performed in accordance with the principles described in connection with equations 11-13, which are described below.
[0051] Альтернативно блок 110 может включать возможность использования других способов, таких как анализ основных компонентов (PCA) и/или не зависящие от данных базисы, такие как 2D дискретное косинусное преобразование (DCT), для проецирования представления сферических гармоник в пространство, что приводит к сжатию с потерями. Выходные данные из блока 110 могут представлять собой матрицу T, которая представляет проекцию данных в меньшее подпространство входных данных, т. е. кодированную схему излучения T. Кодированная схема излучения T, кодированный монофонический базовый звуковой сигнал 111 и любые другие метаданные 104 объекта (например x,y,z, необязательная ориентация источника и т. д.) могут быть сериализованы в блоке 112 сериализации для вывода кодированного битового потока. В некоторых примерах структура излучения может быть представлена посредством следующей структуры синтаксиса битового потока в каждом кодированном аудиокадре: [0051] Alternatively, block 110 may include the option of using other methods, such as principal component analysis (PCA) and/or data-independent bases, such as 2D discrete cosine transform (DCT), to project the spherical harmonic representation. into space, resulting in lossy compression. The output data from block 110 may be a matrix T that represents a projection of the data into a smaller subspace of the input data, i.e., an encoded emission scheme T. The encoded emission scheme T, the encoded monophonic base audio signal 111, and any other object metadata 104 (e.g., x, y, z, optional source orientation, etc.) may be serialized in serialization block 112 to output an encoded bitstream. In some examples, the emission scheme may be represented by the following bitstream syntax structure in each encoded audio frame:
Байт Byte freqBandModePresetfreqBandModePreset (например широкополосный, октавный, широкополосный, 1/3-октавный, обычный).(e.g. broadband, octave, wideband, 1/3-octave, normal).
Он определяет количество N и значения средней частоты поддиапазонов)It determines the number N and the values of the average frequency of the sub-ranges)
Байт Byte orderorder (порядок N сферических гармоник)(order N spherical harmonics)
Int * Int * coefficients coefficients ( (N+1) *(N+1) * значения K)((N+1) *(N+1) * K values)
[0052] Такой синтаксис может охватывать разные наборы коэффициентов для разных уровней давления/интенсивности источника звука. Альтернативно, если информация о направленности доступна на разных уровнях сигнала и если уровень источника не может быть больше определен во время воспроизведения, может быть динамически сгенерирован единственный набор коэффициентов. Например, такие коэффициенты могут быть сгенерированы посредством интерполяции между коэффициентами низкого уровня и коэффициентами высокого уровня на основании изменяющегося во времени уровня звукового сигнала объекта во время кодирования. [0052] Such syntax may encompass different sets of coefficients for different sound source pressure/intensity levels. Alternatively, if directivity information is available at different signal levels and if the source level can no longer be determined during playback, a single set of coefficients may be dynamically generated. For example, such coefficients may be generated by interpolating between low-level coefficients and high-level coefficients based on the time-varying sound signal level of the object during encoding.
[0053] Схема входного излучения относительно монофонического сигнала звукового объекта также может быть «нормализована» по заданному направлению, такому как основная ось отклика (которая может представлять собой направление, от которого ее записывают, или среднее нескольких записей) и кодированной направленности, и может потребоваться согласование окончательного рендеринга с этой «нормализацией». В одном примере эта нормализация может быть указана как метаданные. Как правило, является желательным кодирование базового звукового сигнала, за счет чего передают хорошее представление тембра объекта, если не применяют информацию о направленности. [0053] The input radiation pattern relative to the monophonic signal of an audio object may also be "normalized" with respect to a given direction, such as the primary response axis (which may be the direction from which it is recorded or the average of several recordings) and an encoded directivity, and the final rendering may need to match this "normalization." In one example, this normalization may be specified as metadata. Typically, encoding the underlying audio signal is desirable, which conveys a good representation of the timbre of the object if no directivity information is used.
Кодирование направленностиDirectional coding
[0054] Аспект настоящего изобретения относится к реализации эффективных схем кодирования для информации о направленности, поскольку количество коэффициентов квадратично растет с порядком разложения. Схемы эффективного кодирования для информации о направленности могут быть реализованы для окончательной доставки испускания слуховой сцены, например по сети с ограниченной шириной полосы, в конечное устройство рендеринга. [0054] An aspect of the present invention relates to the implementation of efficient coding schemes for directionality information, since the number of coefficients grows quadratically with the decomposition order. Efficient coding schemes for directionality information can be implemented for the final delivery of an auditory scene emission, for example over a network with limited bandwidth, to a final rendering device.
[0055] Предполагая, что 16 бит используют для представления каждого коэффициента, представление сферических гармоник 4-го порядка в 1/3-октавных полосах потребует 25*31 ~= 12 кбит на кадр. Обновление этой информации при 30 Гц потребует скорости передачи информации, составляющей по меньшей мере 400 кбит/с, больше, чем текущим основанным на объекте аудиокодекам в настоящий момент требуется для передачи как звуковых метаданных, так и метаданных объекта. В одном примере схема излучения может быть представлена следующим образом: [0055] Assuming 16 bits are used to represent each coefficient, representing 4th-order spherical harmonics in 1/3-octave bands would require 25*31 ~= 12 kbits per frame. Updating this information at 30 Hz would require an information rate of at least 400 kbits/s, more than current object-based audio codecs currently require to transmit both audio and object metadata. In one example, the emission scheme could be represented as follows:
уравнение № (1) equation no. (1)
[0056] В уравнении № (1) представляет дискретный меридиональный угол и азимутальный угол относительно звукового источника, представляет общее количество дискретных углов и представляет спектральную частоту. На фиг. 2A и 2B показаны схемы излучения звукового объекта в двух разных полосах частот. На фиг. 2A можно, например, увидеть схему излучения звукового объекта в полосе частот от 100 до 300 Гц, тогда как на фиг. 2B можно, например, увидеть схему излучения того же звукового объекта в полосе частот от 1 кГц до 2 кГц. Низкие частоты, как правило, являются относительно в большей степени всенаправленными, таким образом схема излучения, показанная на фиг. 2A, является относительно более круглой, чем схема излучения, показанная на фиг. 2B. На фиг. 2A представляет схему излучения в направлении основной оси 200 отклика, тогда как представляет схему излучения в произвольном направлении 205. [0056] In equation No. (1) represents a discrete meridional angle and azimuth angle relative to the sound source, represents the total number of discrete angles and represents the spectral frequency. Figs. 2A and 2B show the radiation patterns of a sound object in two different frequency bands. In Fig. 2A, one can see, for example, the radiation pattern of a sound object in the frequency band from 100 to 300 Hz, while in Fig. 2B, one can see, for example, the radiation pattern of the same sound object in the frequency band from 1 kHz to 2 kHz. Low frequencies, as a rule, are relatively more omnidirectional, so the radiation pattern shown in Fig. 2A is relatively more circular than the radiation pattern shown in Fig. 2B. In Fig. 2A represents the radiation pattern in the direction of the main axis 200 of the response, whereas represents a radiation pattern in an arbitrary direction 205.
[0057] В некоторых примерах схема излучения может быть захвачена и определена посредством множества микрофонов, физически расположенных вокруг источника звука, соответствующего звуковому объекту, тогда как в других примерах схема излучения может быть определена посредством численного моделирования. В примере с множеством микрофонов схема излучения может быть изменяющейся во времени, отражая, например, живую запись. Схема излучения может быть захвачена на различных частотах, включая низкие (например, <100 Гц), средние (100 Гц< и >1 кГц) и высокие (>10 КГц) частоты. Схему излучения также могут называть пространственным представлением. [0057] In some examples, the radiation pattern may be captured and determined by a plurality of microphones physically located around a sound source corresponding to a sound object, while in other examples, the radiation pattern may be determined by numerical modeling. In the example with a plurality of microphones, the radiation pattern may be time-varying, reflecting, for example, a live recording. The radiation pattern may be captured at various frequencies, including low (e.g., <100 Hz), mid (100 Hz < and >1 kHz), and high (>10 kHz) frequencies. The radiation pattern may also be referred to as a spatial representation.
[0058] В другом примере схема излучения может отражать нормализацию на основании захваченной схемы излучения на конкретной частоте в конкретном направлении , как например: [0058] In another example, the radiation pattern may reflect a normalization based on a captured radiation pattern at a particular frequency in a particular direction , such as:
уравнение № (2) equation no. (2)
[0059] В уравнении № (2) представляет схему излучения в направлении основной оси отклика. Снова обратимся к фиг. 2B, в одном примере можно увидеть схему излучения и схему нормализованного излучения . На фиг. 2C представлен график, на котором показаны примеры схем нормализованного и ненормализованного излучения согласно одному примеру. В этом примере схема нормализованного излучения в направлении основной оси отклика, которая представлена как на фиг. 2C, имеет по существу одинаковую амплитуду в пределах проиллюстрированных полос частот. В этом примере схема нормализованного излучения в направлении 205 (показано на фиг. 2A), которая представлена как на фиг. 2C, имеет относительно более высокие амплитуды с более высокими частотами, чем схема ненормализованного излучения, которая представлена как на фиг. 2C. Для данной полосы частот, можно предположить, что схема излучения может быть постоянной для удобства обозначений, но на практике она может изменяться со временем, например, для разных техник владения смычком, применяемых на струнных инструментах. [0059] In equation No. (2) represents the radiation pattern in the direction of the main response axis. Referring again to Fig. 2B, in one example one can see the radiation pattern and a normalized radiation scheme Fig. 2C is a graph showing examples of normalized and unnormalized radiation patterns according to one example. In this example, the normalized radiation pattern in the direction of the main response axis, which is represented as in Fig. 2C, has essentially the same amplitude within the illustrated frequency bands. In this example, the normalized radiation pattern in the 205 direction (shown in Fig. 2A), which is represented as in Fig. 2C, has relatively higher amplitudes with higher frequencies than the unnormalized radiation pattern, which is represented as in Fig. 2C. For a given frequency band, it can be assumed that the radiation pattern may be constant for convenience of notation, but in practice it may change over time, for example, for different bowing techniques used on stringed instruments.
[0060] Может быть передана схема излучения, или ее параметрическое представление. Предварительную обработку схемы излучения могут выполнить до ее передачи. В одном примере схему излучения или параметрическое представление могут предварительно обработать посредством вычислительного алгоритма, примеры которого показаны на фиг. 1A. После предварительной обработки схему излучения могут разложить на ортогональный сферический базис на основании, например, следующего: [0060] A radiation pattern, or a parametric representation thereof, may be transmitted. The radiation pattern may be pre-processed prior to transmission. In one example, the radiation pattern or parametric representation may be pre-processed using a computational algorithm, examples of which are shown in Fig. 1A. After pre-processing, the radiation pattern may be decomposed into an orthogonal spherical basis based on, for example, the following:
уравнение № (3) equation no. (3)
[0061] В уравнении № (3) представляет пространственное представление и представляет представление сферических гармоник, которое имеет меньшее количество элементов, чем пространственное представление. Преобразование между и может быть основано на использовании, например, реальных полностью нормализованных сферических гармоник: [0061] In equation No. (3) represents spatial representation and represents a spherical harmonic representation that has fewer elements than the spatial representation. The conversion between And can be based on the use of, for example, real fully normalized spherical harmonics:
уравнение № (4) equation no. (4)
[0062] В уравнении № (4) представляет связанные многочлены Лежандра, порядок , степень и [0062] In equation No. (4) represents the associated Legendre polynomials, order , degree And
уравнение № (5) equation no. (5)
[0063] Также могут быть использованы другие сферические базисы. Может быть использован любой подход для выполнения преобразования сферических гармоник дискретных данных. В одном примере может быть использован метод наименьших квадратов посредством первоначально определения матрицы преобразования : [0063] Other spherical bases may also be used. Any approach to performing the spherical harmonic transform of discrete data may be used. In one example, the least squares method may be used by first defining the transform matrix :
уравнение № (6) equation no. (6)
тем самым выполняя соотношение представления сферических гармоник и пространственного представления как thereby fulfilling the relationship between the representation of spherical harmonics and the spatial representation as
, уравнение № (7) , equation No. (7)
[0064] В уравнении № (7) . Представления сферических гармоник и/или пространственные представления могут быть сохранены для дальнейшей обработки. [0064] In equation No. (7) Spherical harmonic representations and/or spatial representations can be stored for further processing.
[0065] Псевдоинверсия может представлять собой метод решения с использованием взвешенных наименьших квадратов в форме: [0065] Pseudo-inversion may be a weighted least squares solution method of the form:
уравнение № (8) equation no. (8)
[0066] Упорядоченные решения также могут применять в случаях, где распределение сферических отсчетов включает большие количества потерянных данных. Потерянные данные могут соответствовать областям или направлениям, для которых отсутствуют доступные отсчеты направленности (например вследствие неравномерного покрытия микрофонами). Во многих случаях распределение пространственных отсчетов является достаточно равномерным, вследствие чего матрица тождественности весовых коэффициентов дает приемлемые результаты. Также часто предполагают, что , таким образом представление сферических гармоник содержит меньшее количество элементов, чем пространственное представление , за счет чего обеспечивают первый этап сжатия с потерями, в рамках которого сглаживают данные схемы излучения. [0066]Ordered solutions can also be used in cases where the distribution of spherical samples includes large amounts of missing data. Missing data may correspond to areas or directions for which no available directional samples are available (for example, due to uneven microphone coverage). In many cases, the distribution of spatial samples is fairly uniform, so the identity matrix of weighting coefficients gives acceptable results. It is also often assumed that, thus the representation of spherical harmonicscontains fewer elements than the spatial representation, which provides the first stage of lossy compression, within which the radiation patterns are smoothed.
[0067] Далее будут рассмотрены дискретные полосы частот . Матрица может быть уложена в столбец, таким образом каждая полоса частот представлена столбцом матрицы [0067] Discrete frequency bands will be discussed next. Matrix can be arranged in a column, so that each frequency band is represented by a column of the matrix
. уравнение № (9) . equation No. (9)
[0068] То есть пространственное представление может быть определено на основании интервалов/полос/наборов частот. Следовательно, представление сферических гармоник может быть основано на следующем: [0068] That is, a spatial representation can be defined based on intervals/bands/sets of frequencies. Therefore, the representation of spherical harmonics can be based on the following:
уравнение № (10) equation no. (10)
[0069] В уравнении № (10) представляет схему излучения для всех дискретных частот в области сферических гармоник. Ожидается, что соседние столбцы являются высоко коррелированными, что приводит к избыточности представления. Некоторые реализации включают дальнейшее разложение посредством факторизации матрицы в виде [0069] In equation No. (10) represents the radiation pattern for all discrete frequencies in the spherical harmonic region. It is expected that the adjacent columns are highly correlated, leading to redundancy in the representation. Some implementations include further decomposition by factorizing the matrix in the form
уравнение № (11) equation No. (11)
[0070] Некоторые варианты осуществления могут включать выполнение разложения по сингулярным числам (SVD), где и представляют левую и правую сингулярные матрицы и представляет матрицу сингулярных чисел, уменьшающихся по их диагонали. Могут принимать или хранить информацию о матрице V. Альтернативно анализ основных компонентов (PCA) и не зависящие от данных базисы, такие как 2D DCT, могут быть использованы для проецирования в пространство, что приводит к сжатию с потерями. [0070]Some embodiments may include performing a singular value decomposition (SVD), where And represent the left and right singular matrices andrepresents a matrix of singular values decreasing along their diagonal. They can accept or store information about the matrix V. Alternatively, principal component analysis (PCA) and data-independent bases such as 2D DCT can be used for projectioninto space, resulting in lossy compression.
[0071] Допустим . В некоторых примерах для достижения сжатия кодер может отбрасывать компоненты, соответствующие меньшим сингулярным числам, посредством вычисления результата на основании следующего: [0071] Let's say In some examples, to achieve compression, the encoder may discard components corresponding to smaller singular values by computing the result based on the following:
уравнение № (12) equation no. (12)
[0072] В уравнении № (12) представляет усеченную копию . Матрица T может представлять проекцию данных в меньшее подпространство входных данных. T представляет данные кодированной схемы излучения, которые затем передают для дальнейшей обработки. На стороне кодирования, приема, в некоторых примерах матрица T может быть принята и низкоранговая аппроксимация для может быть воссоздана на основании: [0072] In equation No. (12) represents a truncated copy The matrix T can represent a projection of the data into a smaller subspace of the input data. T represents the data of the encoded transmission scheme, which is then transmitted for further processing. On the encoding and reception side, in some examples, the matrix T can also be adopted as a low-rank approximation for can be recreated on the basis of:
уравнение № (13) equation No. (13)
В уравнении № (13) представляет усеченную копию . Матрицу V могут хранить на стороне декодера или передавать на нее. In equation No. (13) represents a truncated copy The V matrix can be stored on the decoder side or transmitted to it.
[0073] Далее представлены три примера передачи усеченного разложения и усеченных правосторонних сингулярных векторов: [0073] Three examples of transmitting truncated decomposition and truncated right singular vectors are given below:
1. Передатчик может передавать кодированное излучение и усеченные правосторонние сингулярные векторы для каждого объекта независимо. 1. The transmitter can transmit coded radiation and truncated right-hand singular vectors for each object independently.
2. Объекты могут быть сгруппированы, например, по степени сходства, и и могут быть вычислены в качестве репрезентативных базисов для множества объектов. Кодированное излучение , следовательно, может быть передано для каждого объекта, и и могут быть переданы для группы объектов. 2. Objects can be grouped, for example, by degree of similarity, and And can be calculated as representative bases for a set of objects. Coded radiation , therefore, can be passed for each object, and And can be transferred to a group of objects.
3. Левая и правая сингулярные матрицы и могут быть предварительно вычислены посредством большой базы репрезентативных данных (например, данных для обучения), и информация, относящаяся к , может храниться на стороне приемника. В некоторых таких примерах на каждый объект может быть передано только кодированное излучение. DCT представляет собой другой пример базиса, который может храниться на стороне приемника. 3. Left and right singular matrices And can be pre-computed using a large database of representative data (e.g. training data), and information related to , can be stored on the receiver side. In some such examples, only coded radiation can be transmitted to each object. The DCT is another example of a basis that can be stored at the receiver end.
Пространственное кодирование направленных объектовSpatial coding of directional objects
[0074] Когда сложную слуховую сцену, содержащую множество объектов, кодируют и передают, можно применить методы пространственного кодирования, где отдельные объекты заменяют меньшим количеством репрезентативных кластеров таким образом, за счет которого наилучшим образом сохраняется слуховое восприятие сцены. В целом замена группы источников звука посредством репрезентативного «центроида» требует вычисления совокупного/среднего значения для каждого поля метаданных. Например, положение кластера источников звука может представлять собой среднее положения каждого источника. За счет представления схемы излучения каждого источника с использованием разложения по сферическим гармоникам, как описано выше (например, со ссылкой на уравнения №1–12), существует возможность линейно комбинировать набор коэффициентов в каждом поддиапазоне для каждого источника с целью построения схемы среднего излучения для кластера источников. За счет вычисления громкости или энергетически взвешенного среднего коэффициентов сферических гармоник в течение некоторого времени существует возможность построить изменяющееся во времени представление с оптимизированным восприятием, с помощью которого лучше сохраняется оригинальная сцена. [0074] When a complex auditory scene containing many objects is encoded and transmitted, spatial coding techniques can be applied where individual objects are replaced by a smaller number of representative clusters in a way that best preserves the auditory perception of the scene. In general, replacing a group of sound sources with a representative "centroid" requires computing an aggregate/average value for each metadata field. For example, the position of a cluster of sound sources may be the average position of each source. By representing the radiation pattern of each source using a spherical harmonic decomposition as described above (e.g., with reference to Equations #1-12), it is possible to linearly combine a set of coefficients in each subband for each source to construct an average radiation pattern for the cluster of sources. By computing the loudness or energy-weighted average of the spherical harmonic coefficients over time, it is possible to construct a perceptually optimized, time-varying representation that better preserves the original scene.
[0075] На фиг. 1C показаны блоки процесса, который может быть реализован посредством системы декодирования согласно одному примеру. Блоки, показанные на фиг. 1C, могут, например, быть реализованы посредством системы управления декодирующего устройства (такой как система 815 управления, которая описана ниже со ссылкой на фиг. 8), которая содержит один или более процессоров и одно или более постоянных запоминающих устройств. В блоке 150 метаданные и кодированный монофонический базовый звуковой сигнал могут быть приняты и десериализированы. Десериализованная информация может содержать метаданные 151 объекта, кодированный базовый звуковой сигнал и кодированные сферические коэффициенты. В блоке 152 кодированный базовый звуковой сигнал может быть декодирован. В блоке 153 кодированные сферические коэффициенты могут быть декодированы. Информация о кодированной схеме излучения может содержать кодированную схему T излучения и/или матрицу V. Матрица V будет зависеть от способа, используемого для проецирования в пространстве. Если в блоке 110 на фиг. 1B используют алгоритм SVD, матрица V может быть принята или сохранена посредством системы декодирования. [0075] Fig. 1C shows blocks of a process that may be implemented by a decoding system according to one example. The blocks shown in Fig. 1C may, for example, be implemented by a control system of a decoding device (such as control system 815, which is described below with reference to Fig. 8), which includes one or more processors and one or more read-only memories. In block 150, metadata and an encoded monophonic base audio signal may be received and deserialized. The deserialized information may comprise object metadata 151, an encoded base audio signal, and encoded spherical coefficients. In block 152, the encoded base audio signal may be decoded. In block 153, the encoded spherical coefficients may be decoded. The information about the encoded radiation scheme may comprise an encoded radiation scheme T and/or a matrix V . The matrix V will depend on the method used for projection in space. If the SVD algorithm is used in block 110 in Fig. 1B, the matrix V may be received or stored by the decoding system.
[0076] Метаданные 151 объекта могут содержать информацию об относительном направлении от источника к слушателю. В одном примере метаданные 151 могут содержать информацию о расстоянии и направлении слушателя и расстоянии и направлении одного или более объектов относительно пространства 6DoF. Например, метаданные 151 могут содержать информацию, относящуюся к относительному повороту, расстоянию и направлению источника в пространстве 6DoF. В примере с множеством объектов в кластерах поле метаданных может отображать информацию, относящуюся к репрезентативному «центроиду», которая отражает совокупное/среднее значение кластера объектов. [0076] The object metadata 151 may contain information about the relative direction from the source to the listener. In one example, the metadata 151 may contain information about the distance and direction of the listener and the distance and direction of one or more objects relative to the 6DoF space. For example, the metadata 151 may contain information related to the relative rotation, distance, and direction of the source in the 6DoF space. In an example with multiple objects in clusters, the metadata field may display information related to a representative "centroid" that reflects the aggregate/average value of the cluster of objects.
[0077] Затем модуль 154 рендеринга может осуществлять рендеринг декодированного базового звукового сигнала и декодированных коэффициентов сферических гармоник. В одном примере модуль 154 рендеринга может осуществлять рендеринг декодированного базового звукового сигнала и декодированных коэффициентов сферических гармоник на основании метаданных 151 объекта. Модуль 154 рендеринга может определять усиления поддиапазонов для сферических коэффициентов схемы излучения на основании информации из метаданных 151, например, относительных направлений от источника к слушателю. Модуль 154 рендеринга затем может осуществлять рендеринг базовых сигналов звукового объекта на основании определенных коэффициентов усиления поддиапазона соответствующей декодированной схемы (схем) излучения, информации 155 о позиции источника и/или слушателя (например, x, y, z, рыскание, тангаж, крен). Информация о позиции слушателя может соответствовать положению пользователя и направлению обзора в пространстве 6DoF. Информация о позиции слушателя может быть принята от источника, находящегося вблизи системы воспроизведения VR, такой как, например, аппарат оптического отслеживания. Информация о позиции слушателя соответствует положению объекта звучания и ориентации в пространстве. Она также может быть выведена из локальной системы отслеживания, например, если отслеживают руки пользователя и интерактивно управляют виртуальным объектом звучания или если используют отслеживаемые физическое свойство/промежуточный объект. [0077] Rendering module 154 may then render the decoded base audio signal and the decoded spherical harmonic coefficients. In one example, rendering module 154 may render the decoded base audio signal and the decoded spherical harmonic coefficients based on object metadata 151. Rendering module 154 may determine subband gains for the spherical coefficients of the radiation pattern based on information from metadata 151, such as relative directions from the source to the listener. Rendering module 154 may then render the base signals of the audio object based on the determined subband gains of the corresponding decoded radiation pattern(s), information 155 about the position of the source and/or listener (e.g., x, y, z, yaw, pitch, roll). The information about the position of the listener may correspond to the user's position and viewing direction in 6DoF space. Listener position information can be received from a source located near the VR playback system, such as an optical tracking device. This information corresponds to the position of the sound object and its spatial orientation. It can also be derived from a local tracking system, for example, if the user's hands are tracked and the virtual sound object is interactively manipulated, or if a tracked physical property/intermediate object is used.
[0078] На фиг. 3 показан пример иерархии, в которую включены звуковые данные и различные типы метаданных. Как и на других фигурах, представленных в настоящем документе, ссылочные позиции и типы звуковых данных и метаданных, показанные на фиг. 3, представлены лишь в качестве примера. Некоторые кодеры могут обеспечивать полный набор звуковых данных и метаданных, показанных на фиг. 3 (набор 345 данных), тогда как другие кодеры могут предоставлять только положение метаданных, показанных на фиг. 3, например, только набор 315 данных, только набор 325 данных или только набор 335 данных. [0078] Fig. 3 shows an example of a hierarchy in which audio data and various types of metadata are included. As in other figures presented herein, the reference numbers and types of audio data and metadata shown in Fig. 3 are presented only as an example. Some encoders may provide the full set of audio data and metadata shown in Fig. 3 (data set 345), while other encoders may provide only the location of the metadata shown in Fig. 3, for example, only data set 315, only data set 325, or only data set 335.
[0079] В этом примере звуковые данные содержат монофонический звуковой сигнал 301. Монофонический звуковой сигнал 301 представляет собой один пример того, что иногда в настоящем документе называют «базовым звуковым сигналом». Однако в некоторых примерах базовый звуковой сигнал может содержать звуковые сигналы, соответствующие нескольким звуковым объектам, которые включены в кластер. [0079] In this example, the audio data comprises a monophonic audio signal 301. The monophonic audio signal 301 represents one example of what is sometimes referred to herein as a "base audio signal." However, in some examples, the base audio signal may comprise audio signals corresponding to multiple audio objects that are included in the cluster.
[0080] В этом примере метаданные 305 положения звукового объекта выражены в качестве декартовых координат. Однако в некоторых альтернативных примерах метаданные 305 положения звукового объекта могут быть выражены посредством координат других типов, таких как сферические или полярные координаты. Соответственно, метаданные 305 положения звукового объекта могут включать информацию о положении трех степеней свободы (3 DoF). Согласно этому примеру метаданные звукового объекта содержат метаданные 310 размера звукового объекта. В альтернативных примерах метаданные звукового объекта могут содержать метаданные звукового объекта одного или более других типов. [0080] In this example, the audio object position metadata 305 is expressed as Cartesian coordinates. However, in some alternative examples, the audio object position metadata 305 may be expressed using coordinates of other types, such as spherical or polar coordinates. Accordingly, the audio object position metadata 305 may include three degrees of freedom (3 DoF) position information. According to this example, the audio object metadata comprises audio object size metadata 310. In alternative examples, the audio object metadata may comprise audio object metadata of one or more other types.
[0081] В этой реализации набор 315 данных включает монофонический звуковой сигнал 301, метаданные 305 положения звукового объекта и метаданные 310 размера звукового объекта. Набор 315 данных может, например, быть предоставлен в формате звуковых данных Dolby Atmos™. [0081] In this implementation, the data set 315 includes a monophonic audio signal 301, audio object position metadata 305, and audio object size metadata 310. The data set 315 may, for example, be provided in the Dolby Atmos™ audio data format.
[0082] В этом примере набор 315 данных также включает необязательный параметр R рендеринга. Согласно некоторым раскрытым реализациям необязательный параметр R рендеринга может указывать, должны ли по меньшей мере некоторые метаданные звукового объекта из набора 315 данных быть интерпретированы в своем «нормальном» смысле (например, метаданные положения или размера) или в качестве метаданных направленности. В некоторых раскрытых реализациях «нормальный» режим могут называть в настоящем документе «режимом положения», а альтернативный режим могут называть в настоящем документе «режимом направленности». Некоторые примеры описаны ниже со ссылкой на фиг. 5A–6. [0082] In this example, the data set 315 also includes an optional rendering parameter R. According to some disclosed implementations, the optional rendering parameter R may indicate whether at least some metadata of the audio object from the data set 315 should be interpreted in its "normal" sense (e.g., position or size metadata) or as directionality metadata. In some disclosed implementations, the "normal" mode may be referred to herein as a "position mode," and the alternative mode may be referred to herein as a "directivity mode." Some examples are described below with reference to FIGS. 5A-6.
[0083] Согласно этому примеру метаданные 320 ориентации содержат информацию об угловых координатах для выражения рыскания, тангажа и крена звукового объекта. В этом примере метаданные 320 ориентации обозначают рыскание, тангаж и крен как ф, ϴ и ψ. Набор 325 данных содержит достаточную информацию для ориентации звукового объекта для применений с шестью степенями свободы (6 DoF). [0083] According to this example, orientation metadata 320 contains angular coordinate information for expressing the yaw, pitch, and roll of the audio object. In this example, orientation metadata 320 denotes yaw, pitch, and roll as φ, ϴ, and ψ. Data set 325 contains sufficient information for the orientation of the audio object for six degrees of freedom (6 DoF) applications.
[0084] В этом примере набор 335 данных содержит метаданные 330 типа звукового объекта. В некоторых реализациях метаданные 330 типа звукового объекта могут использовать для указания на соответствующие метаданные схемы излучения. Метаданные кодированной схемы излучения могут быть использованы (например, посредством декодера или устройства, которое принимает звуковые данные от декодера) для определения декодированной схемы излучения. В некоторых примерах метаданные 330 типа звукового объекта могут указывать, по существу, на следующее: «Я труба», «Я скрипка» и т. п. В некоторых примерах декодирующее устройство может получать доступ к базе данных типов звукового объекта и соответствующих схем направленности. Согласно некоторым примерам база данных может быть предоставлена вместе с кодированными звуковыми данными или до передачи звуковых данных. Такие метаданные 330 типа звукового объекта могут быть названы в настоящем документе «данные схемы направленности базы данных». [0084] In this example, the data set 335 contains audio object type metadata 330. In some implementations, the audio object type metadata 330 may be used to indicate corresponding emission pattern metadata. The encoded emission pattern metadata may be used (e.g., by a decoder or a device that receives audio data from the decoder) to determine the decoded emission pattern. In some examples, the audio object type metadata 330 may indicate, essentially, the following: "I am a trumpet,""I am a violin," and the like. In some examples, the decoding device may access a database of audio object types and corresponding beam patterns. According to some examples, the database may be provided together with the encoded audio data or before the audio data is transmitted. Such audio object type metadata 330 may be referred to herein as "database beam pattern data."
[0085] Согласно некоторым примерам метаданные типов звукового объекта могут указывать на параметрические данные схемы направленности. В некоторых примерах метаданные 330 типов звукового объекта могут указывать на схему направленности, соответствующую косинусной функции указанной степени, могут указывать на кардиоидную функцию и т. д. [0085] According to some examples, the audio object type metadata may indicate parametric data of a polar pattern. In some examples, the audio object type metadata 330 may indicate a polar pattern corresponding to a cosine function of a specified degree, may indicate a cardioid function, etc.
[0086] В некоторых примерах метаданные 330 типов звукового объекта могут указывать, что схема излучения соответствует набору коэффициентов сферических гармоник. Например, метаданные 330 типов звукового объекта могут указывать, что коэффициенты 340 сферических гармоник предоставлены в наборе 345 данных. В некоторых таких примерах коэффициенты 340 сферических гармоник могут представлять собой переменный во времени и/или по частоте набор коэффициентов сферических гармоник, например, как описано выше. Такая информация может требовать наибольшего количества данных по сравнению с остальной частью иерархии метаданных, показанной на фиг. 3. Следовательно, в некоторых таких примерах коэффициенты 340 сферических гармоник могут быть предоставлены отдельно от монофонического звукового сигнала 301 и соответствующих метаданных звукового объекта. Например, коэффициенты 340 сферических гармоник могут быть предоставлены в начале передачи звуковых данных до инициации операций в реальном времени (например, операции рендеринга в реальном времени для игры, фильма, музыкального исполнения и т. п.). [0086] In some examples, the audio object type metadata 330 may indicate that the radiation pattern corresponds to a set of spherical harmonic coefficients. For example, the audio object type metadata 330 may indicate that the spherical harmonic coefficients 340 are provided in the data set 345. In some such examples, the spherical harmonic coefficients 340 may represent a time- and/or frequency-varying set of spherical harmonic coefficients, such as described above. Such information may require the largest amount of data compared to the rest of the metadata hierarchy shown in Fig. 3. Therefore, in some such examples, the spherical harmonic coefficients 340 may be provided separately from the monophonic audio signal 301 and the corresponding audio object metadata. For example, 340 spherical harmonic coefficients may be provided at the beginning of the audio data transfer before initiating real-time operations (e.g., real-time rendering operations for a game, movie, musical performance, etc.).
[0087] Согласно некоторым реализациям устройство на стороне декодера, такое как устройство, которое предоставляет звук на систему воспроизведения, может определять возможности системы воспроизведения и предоставлять информацию о направленности в соответствии с этими возможностями. Например, даже если весь набор 345 данных предоставлен на декодер, в некоторых таких реализациях только используемая часть информации о направленности может быть предоставлена в систему воспроизведения. В некоторых примерах декодирующее устройство может определять, какой тип (типы) информации о направленности использовать в соответствии с возможностями декодирующего устройства. [0087] According to some implementations, a device on the decoder side, such as a device that provides audio to a playback system, may determine the capabilities of the playback system and provide directionality information in accordance with these capabilities. For example, even if the entire data set 345 is provided to the decoder, in some such implementations, only the usable portion of the directionality information may be provided to the playback system. In some examples, the decoding device may determine which type(s) of directionality information to use in accordance with the capabilities of the decoding device.
[0088] На фиг. 4 приведена блок-схема, на которой показаны блоки способа декодирования звука согласно одному примеру. Способ 400 может, например, быть реализован посредством системы управления декодирующего устройства (такой как система 815 управления, которая описана ниже со ссылкой на фиг. 8), которая содержит один или более процессоров и одно или более постоянных запоминающих устройств. Как и для других описанных способов, не все блоки способа 400 обязательно выполняют в порядке, показанном на фиг. 4. Кроме того, альтернативные способы могут включать большее или меньшее количество блоков. [0088] Fig. 4 is a block diagram showing blocks of a method for decoding audio according to one example. The method 400 may, for example, be implemented by a control system of a decoding device (such as the control system 815, which is described below with reference to Fig. 8), which includes one or more processors and one or more read-only memories. As with other described methods, not all blocks of the method 400 are necessarily performed in the order shown in Fig. 4. Moreover, alternative methods may include more or fewer blocks.
[0089] В этом примере блок 405 включает прием кодированного базового звукового сигнала, метаданных кодированной схемы излучения и метаданных кодированного звукового объекта. Метаданные кодированной схемы излучения могут включать метаданные типов звукового объекта. Кодированный базовый звуковой сигнал может, например, включать монофонический звуковой сигнал. В некоторых примерах метаданные звукового объекта могут включать информацию о положении 3DoF, информацию о положении 6DoF и ориентации источника, метаданные размера звукового объекта и т. д. Метаданные звукового объекта в некоторых случаях могут быть изменяющимися во времени. [0089] In this example, block 405 includes receiving an encoded base audio signal, encoded emission scheme metadata, and encoded audio object metadata. The encoded emission scheme metadata may include metadata of audio object types. The encoded base audio signal may, for example, include a monophonic audio signal. In some examples, the audio object metadata may include 3DoF position information, 6DoF position information and source orientation information, audio object size metadata, etc. The audio object metadata may, in some cases, be time-varying.
[0090] В этом примере блок 410 включает декодирование кодированного базового звукового сигнала для определения базового звукового сигнала. В данном документе блок 415 включает декодирование метаданных кодированной схемы излучения для определения декодированной схемы излучения. В этом примере блок 420 включает декодирование по меньшей мере некоторых из других метаданных кодированного звукового объекта. В настоящем документе блок 430 включает рендеринг базового звукового сигнала на основании метаданных звукового объекта (например, метаданных положения, ориентации и/или размера звукового объекта) и декодированной схемы излучения. [0090] In this example, block 410 includes decoding the encoded base audio signal to determine the base audio signal. In this document, block 415 includes decoding the encoded emission scheme metadata to determine the decoded emission scheme. In this example, block 420 includes decoding at least some of the other metadata of the encoded audio object. In this document, block 430 includes rendering the base audio signal based on the audio object metadata (e.g., position, orientation, and/or size metadata of the audio object) and the decoded emission scheme.
[0091] Блок 415 может включать операции различных типов в зависимости от конкретной реализации. В некоторых случаях метаданные типа звукового объекта могут указывать на данные схемы направленности базы данных. Декодирование метаданных кодированной схемы излучения для определения декодированной схемы излучения может включать запрашивание структуры данных направленности, которая содержит типы звуковых объектов и соответствующие данные схемы направленности. В некоторых примерах метаданные типа звукового объекта могут указывать на параметрические данные схемы направленности, такие как данные схемы направленности, соответствующие косинусной функции, синусной функции или кардиоидной функции. [0091] Block 415 may include various types of operations depending on the particular implementation. In some cases, the audio object type metadata may point to the data of a database radiation pattern. Decoding the encoded radiation pattern metadata to determine the decoded radiation pattern may include querying a directionality data structure that contains audio object types and corresponding radiation pattern data. In some examples, the audio object type metadata may point to parametric radiation pattern data, such as radiation pattern data corresponding to a cosine function, a sine function, or a cardioid function.
[0092] Согласно некоторым реализациям метаданные типа звукового объекта могут указывать на динамические данные схемы направленности, такие как переменный во времени и/или по частоте набор коэффициентов сферических гармоник. Некоторые такие реализации могут включать прием динамических данных схемы направленности до приема кодированного базового звукового сигнала. [0092] According to some implementations, the audio object type metadata may indicate dynamic beamforming data, such as a time- and/or frequency-varying set of spherical harmonic coefficients. Some such implementations may include receiving the dynamic beamforming data prior to receiving the encoded base audio signal.
[0093] В некоторых случаях базовый звуковой сигнал, принятый в блоке 405, может содержать звуковые сигналы, соответствующие нескольким звуковым объектам, которые содержатся в кластере. Согласно некоторым таким примерам базовый звуковой сигнал может быть основан на кластере звуковых объектов, который может содержать несколько направленных звуковых объектов. Декодированная схема излучения, определенная в блоке 415, может соответствовать центроиду кластера и может представлять среднее значение для каждой полосы частот каждого из нескольких направленных звуковых объектов. Процесс рендеринга блока 430 может включать применение коэффициентов усиления поддиапазона, по меньшей мере частично основанных на декодированных данных излучения, к декодированному базовому звуковому сигналу. В некоторых примерах после декодирования и применения обработки направленности к базовому звуковому сигналу сигнал может быть дополнительно виртуализирован к его назначенному положению относительно положения слушателя с использованием метаданных положения звукового объекта и известных процессов рендеринга, таких как бинауральный рендеринг через наушники, рендеринг с использованием динамиков среды воспроизведения и т. д. [0093] In some cases, the base audio signal received in block 405 may contain audio signals corresponding to multiple audio objects contained in a cluster. According to some such examples, the base audio signal may be based on a cluster of audio objects, which may contain multiple directional audio objects. The decoded radiation scheme determined in block 415 may correspond to the centroid of the cluster and may represent an average value for each frequency band of each of the multiple directional audio objects. The rendering process of block 430 may include applying subband gains, at least partially based on the decoded radiation data, to the decoded base audio signal. In some examples, after decoding and applying directionality processing to the base audio signal, the signal may be further virtualized to its intended position relative to the listener's position using audio object position metadata and known rendering processes such as binaural rendering via headphones, rendering using the playback environment's speakers, etc.
[0094] Как обсуждалось выше со ссылкой на фиг. 3, в некоторых реализациях звуковые данные могут сопровождаться параметром рендеринга (показан как R на фиг. 3). Параметр рендеринга может указывать, должны ли по меньшей мере некоторые данные звукового объекта, такие как метаданные Dolby Atmos, быть интерпретированы обычным образом (например, в качестве метаданных положения или размера) или как метаданные направленности. Нормальный режим могут называть «режимом положения», а альтернативный режим могут называть в настоящем документе «режимом направленности». Соответственно, в некоторых примерах параметр рендеринга может указывать, интерпретировать ли по меньшей мере некоторые метаданные звукового объекта в качестве метаданных направленности относительно динамика, или положения относительно комнаты или другой среды воспроизведения. Такие реализации могут быть особенно полезными для рендеринга направленности с использованием интеллектуальных динамиков с множеством драйверов, например, как описано ниже. [0094] As discussed above with reference to Fig. 3, in some implementations, the audio data may be accompanied by a rendering parameter (shown as R in Fig. 3). The rendering parameter may indicate whether at least some audio object data, such as Dolby Atmos metadata, should be interpreted in the normal manner (e.g., as position or size metadata) or as directionality metadata. The normal mode may be referred to as a "position mode," and the alternative mode may be referred to herein as a "directivity mode." Accordingly, in some examples, the rendering parameter may indicate whether at least some audio object metadata is interpreted as directionality metadata relative to the speaker, or as a position relative to a room or other playback environment. Such implementations may be particularly useful for rendering directionality using intelligent speakers with multiple drivers, such as described below.
[0095] На фиг. 5A показана тарелка ударной установки. В этом примере показано, что тарелка 505 ударной установки испускает звук со схемой 510 направленности, которая имеет по существу вертикальную основную ось 515 отклика. Сама схема 510 направленности также является преимущественно вертикальной с некоторой степенью распространения относительно основной оси 515 отклика. [0095] Fig. 5A shows a drum cymbal. In this example, the drum cymbal 505 is shown to emit sound with a directional pattern 510 that has a substantially vertical primary response axis 515. The directional pattern 510 itself is also predominantly vertical with some degree of spread relative to the primary response axis 515.
[0096] На фиг. 5B показан пример системы динамиков. В этом примере система 525 динамиков содержит несколько динамиков/преобразователей, выполненных с возможностью испускания звука в различных направлениях, включая направление вверх. Динамик, расположенный в самом верху, может, например, быть использован обычным для Dolby Atmos образом («режим положения») для рендеринга положения, например для обеспечения отражения звука от потолка для имитации верхних/потолочных динамиков (z=1). В некоторых подобных случаях соответствующий рендеринг Dolby Atmos может включать дополнительную виртуализационную обработку, посредством которой улучшают восприятие звукового объекта, имеющего определенное положение. [0096] Fig. 5B shows an example of a speaker system. In this example, the speaker system 525 comprises multiple speakers/transducers configured to emit sound in various directions, including an upward direction. The speaker located at the very top may, for example, be used in a conventional Dolby Atmos manner ("position mode") for position rendering, such as to provide sound reflection from the ceiling to simulate overhead/ceiling speakers (z=1). In some such cases, the corresponding Dolby Atmos rendering may include additional virtualization processing that enhances the perception of a sound object having a certain position.
[0097] В других случаях использования один и тот же направленный вверх динамик (динамики) может работать в «режиме направленности», например для имитации схемы направленности, например, барабана, символов или другого звукового объекта, имеющего схему направленности, подобную схеме 510 направленности, показанной на фиг. 5A. Некоторые системы 525 динамиков могут быть способны к лучеформированию, что может способствовать построению требуемой схемы направленности. В некоторых примерах виртуализационную обработку не выполняют, чтобы снизить восприятие звукового объекта, имеющего определенное положение. [0097] In other use cases, the same upward-firing speaker(s) may be operated in a "directional mode," such as to simulate the directional pattern of a drum, symbols, or other audio object having a directional pattern similar to the directional pattern 510 shown in Fig. 5A. Some speaker systems 525 may be capable of beamforming, which may assist in constructing the desired directional pattern. In some examples, virtualization processing is not performed to reduce the perception of an audio object having a particular position.
[0098] На фиг. 6 приведена блок-схема, на которой показаны блоки способа декодирования звука согласно одному примеру. Способ 600 может, например, быть реализован посредством системы управления декодирующего устройства (такой как система 815 управления, которая описана ниже со ссылкой на фиг. 8), которая содержит один или более процессоров и одно или более постоянных запоминающих устройств. Как и для других описанных способов, не все блоки способа 600 обязательно выполняют в порядке, показанном на фиг. 6. Кроме того, альтернативные способы могут включать большее или меньшее количество блоков. [0098] Fig. 6 is a block diagram illustrating blocks of a method for decoding audio according to one example. Method 600 may, for example, be implemented by a control system of a decoding device (such as control system 815, which is described below with reference to Fig. 8), which includes one or more processors and one or more read-only memories. As with other methods described, not all blocks of method 600 are necessarily performed in the order shown in Fig. 6. Furthermore, alternative methods may include more or fewer blocks.
[0099] В этом примере блок 605 включает прием звуковых данных, соответствующих по меньшей мере одному звуковому объекту, при этом звуковые данные включают монофонический звуковой сигнал, метаданные положения звукового объекта, метаданные размера звукового объекта и параметр рендеринга. В данной реализации блок 605 включает прием этих данных посредством интерфейсной системы декодирующего устройства (такой как интерфейсная система 810 по фиг. 8). В некоторых случаях звуковые данные могут быть приняты в формате Dolby Atmos™. Метаданные положения звукового объекта могут соответствовать мировым координатам или модельным координатам в зависимости от конкретной реализации. [0099] In this example, block 605 includes receiving audio data corresponding to at least one audio object, wherein the audio data includes a monophonic audio signal, audio object position metadata, audio object size metadata, and a rendering parameter. In this implementation, block 605 includes receiving this data via an interface system of the decoding device (such as the interface system 810 of Fig. 8). In some cases, the audio data may be received in Dolby Atmos™ format. The audio object position metadata may correspond to world coordinates or model coordinates, depending on the specific implementation.
[00100] В этом примере блок 610 включает определение того, указывает параметр рендеринга на режим положения или режим направленности. В примере, показанном на фиг. 6, если определяют, что параметр рендеринга указывает на режим направленности, в блоке 615 выполняют рендеринг звуковых данных для воспроизведения (например, посредством по меньшей мере одного громкоговорителя, посредством наушников и т. д.) согласно схеме направленности, указанной посредством по меньшей мере одного из метаданных положения или метаданных размера. Например, схема направленности может быть подобна схеме, показанной на фиг. 5A. [00100] In this example, block 610 includes determining whether the rendering parameter indicates a position mode or a directional mode. In the example shown in Fig. 6, if it is determined that the rendering parameter indicates a directional mode, in block 615, the audio data is rendered for playback (e.g., via at least one loudspeaker, via headphones, etc.) according to the directional pattern indicated by at least one of the position metadata or the size metadata. For example, the directional pattern may be similar to the pattern shown in Fig. 5A.
[00101] В некоторых примерах рендеринг звуковых данных может включать интерпретацию метаданных положения звукового объекта в качестве метаданных ориентации звукового объекта. Метаданные положения звукового объекта могут включать данные декартовых координат/координат x,y,z, данные сферических координат или данные цилиндрических координат. Метаданные ориентации звукового объекта могут представлять собой метаданные рыскания, тангажа и крена. [00101] In some examples, rendering audio data may include interpreting audio object position metadata as audio object orientation metadata. The audio object position metadata may include Cartesian coordinate/x,y,z coordinate data, spherical coordinate data, or cylindrical coordinate data. The audio object orientation metadata may be yaw, pitch, and roll metadata.
[00102] Согласно некоторым реализациям рендеринг звуковых данных может включать интерпретацию метаданных размера звукового объекта в качестве метаданных направленности, которые соответствуют схеме направленности. В некоторых таких примерах рендеринг звуковых данных может включать запрашивание структуры данных, которая содержит несколько схем направленности, и соотнесение по меньшей мере одного из метаданных положения или метаданных размера с одной или более схемами направленности. Некоторые такие реализации могут включать прием структуры данных посредством интерфейсной системы. Согласно некоторым таким реализациям структура данных может быть принята перед звуковыми данными. [00102] According to some implementations, rendering audio data may include interpreting size metadata of an audio object as directional metadata that corresponds to a directional pattern. In some such examples, rendering audio data may include requesting a data structure that contains multiple directional patterns and associating at least one of the position metadata or the size metadata with one or more directional patterns. Some such implementations may include receiving the data structure through an interface system. According to some such implementations, the data structure may be received before the audio data.
[00103] На фиг. 7 показан один пример кодирования множества звуковых объектов. В одном примере может быть закодирована информация 701, 702, 703 об объекте 1-n и т. д. В одном примере репрезентативный кластер для звуковых объектов 701–703 может быть определен в блоке 710. В одном примере группа источников звука может быть собрана и представлена посредством репрезентативного «центроида», который включает вычисление совокупного/среднего значения для поля метаданных. Например, положение кластера источников звука может представлять собой среднее положения каждого источника. В блоке 720 может быть закодирована схема излучения репрезентативного кластера. В некоторых примерах схема излучения для кластера может быть закодирована в соответствии с принципами, описанными выше со ссылкой на фиг. 1A или фиг. 1B. [00103] Fig. 7 shows one example of encoding a plurality of audio objects. In one example, information 701, 702, 703 about object 1-n, etc. may be encoded. In one example, a representative cluster for audio objects 701-703 may be determined in block 710. In one example, a group of audio sources may be collected and represented by a representative "centroid" that includes calculating an aggregate/average value for a metadata field. For example, the position of a cluster of audio sources may be the average position of each source. In block 720, an emission pattern of a representative cluster may be encoded. In some examples, the emission pattern for a cluster may be encoded in accordance with the principles described above with reference to Fig. 1A or Fig. 1B.
[00104] На фиг. 8 приведена блок-схема, на которой показаны примеры компонентов аппарата, которые могут быть приспособлены для выполнения по меньшей мере некоторых способов, описанных в настоящем документе. Например, аппарат 805 может быть приспособлен для выполнения одного или более способов, описанных выше со ссылкой на фиг. 1A–1C, фиг. 4, фиг. 6 и/или фиг. 7. В некоторых примерах аппарат 805 может представлять собой, или может включать в себя, персональный компьютер, настольный компьютер или другое локальное устройство, выполненное с возможностью обеспечения обработки звука. В некоторых примерах аппарат 805 может представлять собой, или может включать в себя, сервер. Согласно некоторым примерам аппарат 805 может представлять собой клиентское устройство, которое выполнено с возможностью связи с сервером посредством сетевого интерфейса. Компоненты аппарата 805 могут быть реализованы с помощью аппаратного обеспечения, программного обеспечения, хранящегося на постоянном носителе данных, программно-аппаратного обеспечения и/или их комбинаций. Типы и количество компонентов, показанных на фиг. 8, а также на других фигурах, раскрытых в настоящем документе, представлены лишь в качестве примера. Альтернативные реализации могут включать большее и/или меньшее количество компонентов и/или другие компоненты. [00104] Fig. 8 is a block diagram showing examples of components of an apparatus that may be adapted to perform at least some of the methods described herein. For example, apparatus 805 may be adapted to perform one or more of the methods described above with reference to Figs. 1A-1C, Fig. 4, Fig. 6, and/or Fig. 7. In some examples, apparatus 805 may be, or may include, a personal computer, a desktop computer, or another local device configured to provide audio processing. In some examples, apparatus 805 may be, or may include, a server. According to some examples, apparatus 805 may be a client device that is configured to communicate with a server via a network interface. Components of apparatus 805 may be implemented using hardware, software stored on a persistent storage medium, firmware, and/or combinations thereof. The types and numbers of components shown in Fig. 8, as well as in other figures disclosed herein, are provided for exemplary purposes only. Alternative implementations may include more and/or fewer components and/or different components.
[00105] В этом примере аппарат 805 содержит интерфейсную систему 810 и систему 815 управления. Интерфейсная система 810 может содержать один или более сетевых интерфейсов, один или более интерфейсов между системой 815 управления и системой памяти и/или один или более интерфейсов для внешних устройств (таких как один или более интерфейсов универсальной последовательной шины (USB)). В некоторых реализациях интерфейсная система 810 может содержать систему пользовательского интерфейса. Система пользовательского интерфейса может быть выполнена с возможностью приема ввода от пользователя. В некоторых реализациях система пользовательского интерфейса может быть выполнена с возможностью предоставления обратной связи пользователю. Например, система пользовательского интерфейса может содержать одно или более устройств отображения с соответствующими системами обнаружения касания и/или жестов. В некоторых примерах система пользовательского интерфейса может содержать один или более микрофонов и/или динамиков. Согласно некоторым примерам система пользовательского интерфейса может содержать аппарат для обеспечения тактильной обратной связи, такой как двигатель, вибратор и т. д. Система 815 управления может, например, содержать одно- или многокристальный процессор общего назначения, процессор цифровой обработки сигналов (DSP), интегральную схему специального назначения (ASIC), программируемую пользователем вентильную матрицу (FPGA) или другое программируемое логическое устройство, схему на дискретных компонентах или транзисторную логическую схему, и/или компоненты дискретного аппаратного обеспечения. [00105] In this example, the apparatus 805 comprises an interface system 810 and a control system 815. The interface system 810 may comprise one or more network interfaces, one or more interfaces between the control system 815 and the memory system, and/or one or more interfaces for external devices (such as one or more universal serial bus (USB) interfaces). In some implementations, the interface system 810 may comprise a user interface system. The user interface system may be configured to receive input from a user. In some implementations, the user interface system may be configured to provide feedback to the user. For example, the user interface system may comprise one or more display devices with corresponding touch and/or gesture detection systems. In some examples, the user interface system may comprise one or more microphones and/or speakers. According to some examples, the user interface system may include a device for providing haptic feedback, such as a motor, a vibrator, etc. The control system 815 may, for example, include a general-purpose single- or multi-chip processor, a digital signal processor (DSP), an application-specific integrated circuit (ASIC), a field-programmable gate array (FPGA) or other programmable logic device, a discrete component circuit or a transistor logic circuit, and/or discrete hardware components.
[00106] В некоторых примерах аппарат 805 может быть реализован как одно устройство. Однако в некоторых реализациях аппарат 805 может быть реализован как более, чем одно устройство. В некоторых таких реализациях функциональные возможности системы 815 управления могут быть внедрены в более, чем одно устройство. В некоторых примерах аппарат 805 может представлять собой компонент другого устройства. [00106] In some examples, the apparatus 805 may be implemented as a single device. However, in some implementations, the apparatus 805 may be implemented as more than one device. In some such implementations, the functionality of the control system 815 may be implemented in more than one device. In some examples, the apparatus 805 may be a component of another device.
[00107] Различные примерные варианты осуществления настоящего изобретения могут быть реализованы посредством аппаратного обеспечения или схем специального назначения, программного обеспечения, логического устройства или любой другой их комбинации. Некоторые аспекты могут быть реализованы посредством аппаратного обеспечения, тогда как другие аспекты могут быть реализованы посредством аппаратно-программного обеспечения или программного обеспечения, которые могут исполняться посредством контроллера, микропроцессора или другого вычислительного устройства. В общем, следует понимать, что настоящее изобретение также охватывает аппарат, подходящий для выполнения способов, раскрытых выше, например аппарат (пространственный модуль рендеринга), имеющий запоминающее устройство и процессор, подсоединенный к запоминающему устройству, причем процессор приспособлен для исполнения команд и выполнения способов согласно вариантам осуществления настоящего изобретения. [00107] Various exemplary embodiments of the present invention may be implemented by hardware or special-purpose circuits, software, a logic device, or any other combination thereof. Some aspects may be implemented by hardware, while other aspects may be implemented by firmware or software that may be executed by a controller, microprocessor, or other computing device. In general, it should be understood that the present invention also encompasses an apparatus suitable for performing the methods disclosed above, such as an apparatus (spatial rendering module) having a memory device and a processor connected to the memory device, wherein the processor is adapted to execute instructions and perform the methods according to embodiments of the present invention.
[00108] Тогда как различные аспекты примерных вариантов осуществления настоящего изобретения проиллюстрированы и описаны в виде структурных диаграмм, блок-схем или с использованием некоторых других графических представлений, следует понимать, что блоки, аппараты, системы, методы и способы, описанные в настоящем документе, могут быть реализованы, в качестве неограниченных примеров, посредством аппаратного обеспечения, программного обеспечения, аппаратно-программного обеспечения, схем специального назначения или логического устройства, аппаратного обеспечения или контроллера общего назначения или других вычислительных устройств или некоторой их комбинации. [00108] While various aspects of exemplary embodiments of the present invention are illustrated and described in block diagrams, flow charts, or using some other graphical representation, it should be understood that the blocks, apparatuses, systems, methods, and techniques described herein may be implemented, as non-limiting examples, by hardware, software, firmware, special-purpose circuitry or logic device, general-purpose hardware or controller, or other computing devices, or some combination thereof.
[00109] Дополнительно различные блоки, показанные в блок-схемах, можно рассматривать как этапы способа, и/или как операции, которые являются результатами работы компьютерного программного кода, и/или как несколько связанных элементов логической схемы, сконструированных для осуществления связанной функции (функций). Например, варианты осуществления настоящего изобретения включают компьютерный программный продукт, содержащий компьютерную программу, материально воплощенную на машиночитаемом носителе, в котором компьютерная программа, содержащая программные коды, выполнена с возможностью осуществления способов, как описаны выше. [00109] Additionally, the various blocks shown in the flow charts may be considered as method steps, and/or as operations that are results of the operation of computer program code, and/or as several related logic circuit elements designed to perform related function(s). For example, embodiments of the present invention include a computer program product comprising a computer program tangibly embodied on a computer-readable medium, in which the computer program comprising program codes is configured to perform the methods as described above.
[00110] В контексте настоящего изобретения машиночитаемый носитель может представлять собой любой материальный носитель, который может содержать, или хранить, программу для использования посредством или в связи с системой, аппаратом или устройством для исполнения команд. Машиночитаемый носитель может представлять собой машиночитаемый носитель сигналов или машиночитаемый носитель данных. Машиночитаемый носитель может включать в себя, но без ограничения, электронную, магнитную, оптическую, электромагнитную, инфракрасную или полупроводниковую систему, аппарат или устройство или любую подходящую комбинацию вышепредставленного. Более конкретные примеры машиночитаемого носителя данных будут включать электрическое соединение посредством одного или более проводов, портативный компьютерный гибкий диск, жесткий диск, оперативное запоминающее устройство (RAM), постоянное запоминающее устройство (ROM), стираемое программируемое постоянное запоминающее устройство (EPROM или флеш-память), оптическое волокно, портативный компактный диск с однократной записью данных (CD-ROM), оптическое устройство для хранения данных, магнитное устройство для хранения информации или любая подходящая комбинация вышепредставленного. [00110] In the context of the present invention, a computer-readable medium may be any tangible medium that can contain or store a program for use by or in connection with a system, apparatus, or device for executing instructions. A computer-readable medium may be a computer-readable signal medium or a computer-readable data medium. A computer-readable medium may include, but is not limited to, an electronic, magnetic, optical, electromagnetic, infrared, or semiconductor system, apparatus, or device, or any suitable combination of the above. More specific examples of a computer-readable storage medium would include an electrical connection via one or more wires, a portable computer floppy disk, a hard disk, a random access memory (RAM), a read-only memory (ROM), an erasable programmable read-only memory (EPROM or flash memory), an optical fiber, a portable compact disc with write-once data (CD-ROM), an optical data storage device, a magnetic data storage device, or any suitable combination of the foregoing.
[00111] Компьютерный программный код для осуществления способов настоящего изобретения может быть написан на любой комбинации одного или более языков программирования. Эти компьютерные программные коды могут быть предоставлены на процессор компьютера общего назначения, компьютера специального назначения или другого программируемого аппарата обработки данных, таким образом программные коды при исполнении процессором компьютера или другого программируемого аппарата обработки данных обеспечивают реализацию функций/операций, указанных на блок-схемах и/или структурных диаграммах. Программный код может быть исполнен полностью на компьютере, частично на компьютере в качестве автономного пакета программного обеспечения, частично на компьютере и частично на удаленном компьютере или полностью на удаленном компьютере или сервере. [00111] The computer program code for implementing the methods of the present invention may be written in any combination of one or more programming languages. These computer program codes may be provided to the processor of a general-purpose computer, a special-purpose computer, or another programmable data processing apparatus, such that the program codes, when executed by the processor of the computer or another programmable data processing apparatus, provide for the implementation of the functions/operations indicated in the block diagrams and/or structural diagrams. The program code may be executed entirely on the computer, partially on the computer as a stand-alone software package, partially on the computer and partially on a remote computer, or entirely on a remote computer or server.
[00112] Кроме того, несмотря на то, что операции изображены в определенном порядке, это не следует истолковывать как требование того, чтобы для достижения желаемых результатов эти операции выполнялись в определенном показанном порядке или в последовательном порядке, или чтобы выполнялись все проиллюстрированные операции. В некоторых обстоятельствах может оказаться предпочтительной многозадачность или параллельная обработка. Подобным образом, тогда как вышеприведенное раскрытие содержит несколько характерных деталей реализации, их следует истолковывать не как ограничения объема любой части настоящего изобретения или любого пункта формулы изобретения, а как описания признаков, которые могут быть характерными для конкретных вариантов осуществления настоящего изобретения. Конкретные признаки, описанные в данном изобретении в контексте отдельных вариантов осуществления, также могут быть реализованы в комбинации в одном варианте осуществления. И наоборот, различные признаки, которые описаны в контексте одного варианта осуществления, также могут быть реализованы в нескольких вариантах осуществления по отдельности или в любой подходящей субкомбинации. [00112] Furthermore, although operations are depicted in a particular order, this should not be construed as a requirement that these operations be performed in the particular order shown, or in a sequential order, or that all of the illustrated operations be performed to achieve the desired results. In some circumstances, multitasking or parallel processing may be preferable. Similarly, while the above disclosure contains several specific implementation details, these should not be construed as limitations on the scope of any part of the present invention or any claim, but as descriptions of features that may be characteristic of particular embodiments of the present invention. Specific features described in this invention in the context of individual embodiments may also be implemented in combination in a single embodiment. Conversely, various features that are described in the context of a single embodiment may also be implemented in multiple embodiments individually or in any suitable subcombination.
[00113] Следует отметить, что описание и графические материалы иллюстрируют только принципы предложенных способов и аппаратов. Таким образом, следует принять во внимание, что специалисты в данной области техники будут способны разработать различные схемы, которые, хотя явно не описаны или показаны в настоящем документе, осуществляют принципы настоящего изобретения и включены в его сущность и объем. Кроме того, все примеры, перечисленные в настоящем документе, преимущественно явным образом предназначены только для педагогических целей для того, чтобы помочь читателю в понимании принципов предложенных аппаратов и устройств, а также концепций, внесенных авторами изобретения с целью развития данной области техники, и их следует толковать как имеющие место без ограничения указанными конкретно перечисленными примерами и условиями. Более того, все утверждения в настоящем документе, перечисляющие принципы, аспекты и варианты осуществления настоящего изобретения, а также их конкретные примеры, предполагаются как охватывающие их эквиваленты. [00113] It should be noted that the description and drawings illustrate only the principles of the proposed methods and apparatuses. Therefore, it should be taken into account that those skilled in the art will be able to design various circuits that, although not explicitly described or shown herein, implement the principles of the present invention and are included in its spirit and scope. In addition, all examples listed in this document are primarily expressly intended for pedagogical purposes only to assist the reader in understanding the principles of the proposed apparatuses and devices, as well as the concepts introduced by the inventors with the aim of developing this art, and they should be interpreted as taking place without being limited to the specifically listed examples and conditions. Moreover, all statements in this document listing the principles, aspects and embodiments of the present invention, as well as their specific examples, are intended to cover their equivalents.
Claims (20)
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| USUS/62/658,067 | 2018-04-16 | ||
| USUS/62/681,429 | 2018-06-06 | ||
| USUS/62/741,419 | 2018-10-04 |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| RU2020127190A Division RU2772227C2 (en) | 2018-04-16 | 2019-04-15 | Methods, apparatuses and systems for encoding and decoding directional sound sources |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| RU2022112239A RU2022112239A (en) | 2022-06-03 |
| RU2847190C2 true RU2847190C2 (en) | 2025-09-30 |
Family
ID=
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20070140501A1 (en) * | 2003-12-02 | 2007-06-21 | Jurgen Schmidt | Method for coding and decoding impulse responses of audio signals |
| RU2469422C2 (en) * | 2007-10-25 | 2012-12-10 | Моторола Мобилити, Инк. | Method and apparatus for generating enhancement layer in audio encoding system |
| US20120314876A1 (en) * | 2010-01-15 | 2012-12-13 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information |
| RU2509442C2 (en) * | 2008-12-19 | 2014-03-10 | Долби Интернэшнл Аб | Method and apparatus for applying reveberation to multichannel audio signal using spatial label parameters |
| US20170164130A1 (en) * | 2014-07-02 | 2017-06-08 | Dolby International Ab | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation |
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20070140501A1 (en) * | 2003-12-02 | 2007-06-21 | Jurgen Schmidt | Method for coding and decoding impulse responses of audio signals |
| RU2469422C2 (en) * | 2007-10-25 | 2012-12-10 | Моторола Мобилити, Инк. | Method and apparatus for generating enhancement layer in audio encoding system |
| RU2509442C2 (en) * | 2008-12-19 | 2014-03-10 | Долби Интернэшнл Аб | Method and apparatus for applying reveberation to multichannel audio signal using spatial label parameters |
| US20120314876A1 (en) * | 2010-01-15 | 2012-12-13 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information |
| US20170164130A1 (en) * | 2014-07-02 | 2017-06-08 | Dolby International Ab | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12315521B2 (en) | Methods, apparatus and systems for encoding and decoding of directional sound sources | |
| AU2019409705B2 (en) | Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source | |
| JP7728775B2 (en) | Audio rendering with spatial metadata interpolation | |
| TW202205259A (en) | Method and apparatus for compressing and decompressing a higher order ambisonics signal representation | |
| CN115335900B (en) | Using adaptive networks to transform the panoramic sound coefficients | |
| WO2009067741A1 (en) | Bandwidth compression of parametric soundfield representations for transmission and storage | |
| WO2018234628A1 (en) | AUDIO DISTANCE ESTIMATING FOR SPATIAL AUDIO PROCESSING | |
| Chaitanya et al. | Directional sources and listeners in interactive sound propagation using reciprocal wave field coding | |
| WO2021144308A1 (en) | Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a description for a spatially extended sound source using anchoring information | |
| WO2022242480A1 (en) | Three-dimensional audio signal encoding method and apparatus, and encoder | |
| RU2847190C2 (en) | Methods, devices and systems for encoding and decoding directional sound sources | |
| RU2772227C2 (en) | Methods, apparatuses and systems for encoding and decoding directional sound sources | |
| HK40030373A (en) | Methods, apparatus and systems for encoding and decoding of directional sound sources | |
| US12445796B2 (en) | Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source | |
| US20240381047A1 (en) | Directionally dependent acoustic structure for audio processing related to at least one microphone sensor | |
| CN113272895B (en) | Amplitude-independent window size in audio coding | |
| Ratnarajah | Efficient learning-based sound propagation for virtual and real-world audio processing applications | |
| CN119993172A (en) | Audio encoding method, device and electronic equipment | |
| WO2025075149A1 (en) | Audio signal processing method, computer program, and audio signal processing device |