RU2791664C1

RU2791664C1 - Time-variable positioning of time-frequency tiles using non-uniform orthogonal filter banks based on mdct analysis/synthesis and tdar

Info

Publication number: RU2791664C1
Application number: RU2022107762A
Authority: RU
Inventors: Нильс ВЕРНЕР; Бернд ЭДЛЕР
Original assignee: Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date: 2019-08-28
Filing date: 2020-08-25
Publication date: 2023-03-13

Abstract

FIELD: computer technology for processing audio data.

SUBSTANCE: effect is achieved by performing a cascaded overlapping critically sampled transform for at least two partially overlapping blocks of audio signal samples in order to obtain sets of subband samples based on the first block of audio signal samples and obtain sets of subband samples based on the second block of audio signal samples; identifying, in case the subband sample sets that are based on the first block of samples, represent different regions on the time-frequency plane compared to the subband sample sets that are based on the second block of samples, one or more subband sample sets of the subband sample sets that are based on the first block of samples, and one or more subband sample sets of subband sample sets that are based on the second block of samples that in combination represent an identical region of the time-frequency plane.

EFFECT: ensuring the compactness of the impulse response of a non-uniform filter bank, even when the characteristics of the input signals change.

17 cl, 24 dwg

Description

Варианты осуществления относятся к аудиопроцессору/способу для обработки аудиосигнала, с тем чтобы получать подполосное представление аудиосигнала. Дополнительные варианты осуществления относятся к аудиопроцессору/способу для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал. Некоторые варианты осуществления относятся к варьирующимся во времени расположениям частотно-временными плитками (tiles) с использованием неравномерных ортогональных гребенок фильтров на основе анализа/синтеза на основе MDCT (MDCT=модифицированное дискретное косинусное преобразование) и TDAR (TDAR=уменьшение наложения спектров во временной области).Embodiments relate to an audio processor/method for processing an audio signal so as to obtain a subband representation of an audio signal. Additional embodiments relate to an audio processor/method for processing a subband representation of an audio signal in order to obtain an audio signal. Some embodiments relate to time-varying time-frequency tiles using non-uniform orthogonal filterbanks based on MDCT (MDCT=modified discrete cosine transform) and TDAR (TDAR=time domain aliasing) analysis/synthesis based filterbanks. .

Выше показано, что проектирование неравномерной ортогональной гребенки фильтров с использованием подполосного объединения является возможным [1], [2], [3], и при введении этапа постобработки, называемого "уменьшением наложения спектров во временной области (TDAR)", компактные импульсные отклики являются возможными [4]. Кроме того, использование этой гребенки TDAR-фильтров при кодировании аудио показано как обеспечивающее в результате более высокую эффективность кодирования и/или повышенное перцепционное качество по сравнению с переключением окон кодирования со взвешиванием [5].It has been shown above that designing a non-uniform orthogonal filterbank using subband combining is possible [1], [2], [3], and with the introduction of a post-processing step called "time-domain aliasing reduction (TDAR)", the compact impulse responses are possible [4]. In addition, the use of this TDAR filterbank in audio coding has been shown to result in higher coding efficiency and/or improved perceptual quality compared to weighted coding window switching [5].

Тем не менее, один главный недостаток TDAR представляет собой тот факт, что оно требует двух смежных кадров, чтобы использовать идентичные расположения частотно-временными плитками. Это ограничивает гибкость гребенки фильтров, когда варьирующиеся во времени адаптивные расположения частотно-временными плитками требуются, поскольку TDAR должно быть временно недоступным для того, чтобы переключаться с одного расположения плитками на другое. Такое переключение обычно требуется, когда характеристики входных сигналов изменяются, т.е. когда встречаются переходные части. При равномерном MDCT, это достигается с использованием переключения окон кодирования со взвешиванием [6].However, one major disadvantage of TDAR is the fact that it requires two contiguous frames in order to use identical time-frequency tile arrangements. This limits the flexibility of the filter bank when time-varying adaptive time-frequency tile arrangements are required, since TDAR must be temporarily unavailable in order to switch from one tile arrangement to another. Such switching is usually required when the characteristics of the input signals change, i.e. when transitional parts meet. With uniform MDCT, this is achieved using weighted coding window switching [6].

Следовательно, цель настоящего изобретения заключается в том, чтобы улучшать компактность импульсного отклика неравномерной гребенки фильтров, даже когда характеристики входных сигналов изменяются.Therefore, it is an object of the present invention to improve the compactness of the impulse response of the non-uniform filter bank even when the characteristics of the input signals change.

Эта цель решается посредством независимых пунктов формулы изобретения.This goal is achieved by means of independent claims.

Преимущественные реализации затрагиваются в зависимых пунктах формулы изобретения.Preferred implementations are covered in the dependent claims.

Варианты осуществления предусматривают аудиопроцессор для обработки аудиосигнала, с тем чтобы получать подполосное представление аудиосигнала. Аудиопроцессор содержит каскад каскадного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать наборы подполосных выборок на основе первого блока выборок аудиосигнала и получать наборы подполосных выборок на основе второго блока выборок аудиосигнала. Дополнительно, аудиопроцессор содержит первый каскад частотно-временного преобразования, выполненный с возможностью идентифицировать, в случае если наборы подполосных выборок, которые основаны на первом блоке выборок, представляют различные области на частотно-временной плоскости [например, представление на частотно-временной плоскости первого блока выборок и второго блока выборок] по сравнению с наборами подполосных выборок, которые основаны на втором блоке выборок, один или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на первом блоке выборок, и один или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на втором блоке выборок, которые в комбинации представляют идентичную область на частотно-временной плоскости, и выполнять частотно-временное преобразование идентифицированных одного или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на первом блоке выборок, и/или идентифицированных одного или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на втором блоке выборок, с тем чтобы получать одну или более преобразованных по времени и частоте подполосных выборок, каждая из которых представляет идентичную область на частотно-временной плоскости относительно соответствующей одной из идентифицированных одной или более подполосных выборок либо одной или более их преобразованных по времени и частоте версий. Дополнительно, аудиопроцессор содержит каскад уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов подполосных выборок либо их преобразованных по времени и частоте версий, причем один из них получен на основе первого блока выборок аудиосигнала, и один из них получен на основе второго блока выборок аудиосигнала, с тем чтобы получать подполосные представления с уменьшенным наложением спектров аудиосигнала (102).Embodiments provide an audio processor for processing an audio signal so as to obtain a subband representation of the audio signal. The audio processor comprises a cascaded overlapped critically sampled transform, configured to perform a cascaded overlapped critically sampled transform on at least two partially overlapping blocks of audio samples to obtain sets of subband samples based on the first block of audio samples and obtain sets of subband samples on based on the second block of audio samples. Additionally, the audio processor comprises a first time-frequency transform stage configured to identify if the sets of sub-band samples that are based on the first block of samples represent different regions on the time-frequency plane [e.g., the time-frequency plane representation of the first block of samples and second sample block] compared to subband sample sets that are based on the second sample block, one or more subband sample sets from subband sample sets that are based on the first block of samples, and one or more subband sample sets from subband sample sets that are are based on a second block of samples that in combination represent an identical region in the time-frequency plane, and perform a time-frequency transform of the identified one or more subband sample sets from the subband sample sets that are based on the first block of samples, and/or the identified one or more subband sample sets from the subband sample sets that are based on the second block of samples, so as to obtain one or more time and frequency transformed subband samples, each of which represents an identical region on the time-frequency plane with respect to the corresponding one of the identified one or more sub-band samples, or one or more time- and frequency-transformed versions thereof. Additionally, the audio processor comprises a time-domain de-aliasing stage configured to weight-combine two respective sets of sub-band samples or time-transformed versions thereof, one of which is derived from the first block of audio samples, and one of which is derived based on the second block of audio samples so as to obtain de-aliased sub-band representations of the audio signal (102).

В вариантах осуществления, частотно-временное преобразование, выполняемое посредством каскада частотно-временного преобразования, представляет собой перекрывающееся критически дискретизированное преобразование.In embodiments, the time-frequency transform performed by the time-frequency transform stage is an overlapped critically sampled transform.

В вариантах осуществления, частотно-временное преобразование идентифицированных одного или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на втором блоке выборок, и/или идентифицированных одного или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на втором блоке выборок, выполняемое посредством каскада частотно-временного преобразования, соответствует преобразованию, описанному посредством следующей формулы:In embodiments, the frequency-to-time transform of the identified one or more subband sample sets from the subband sample sets that are based on the second block of samples and/or the identified one or more subband sample sets from the subband sample sets that are based on the second block of samples is performed by through the time-frequency conversion stage, corresponds to the conversion described by the following formula:

- при этом S(m) описывает преобразование, при этом m описывает индекс блока выборок аудиосигнала, при этом T₀...T_k описывают подполосные дискретные отсчеты (выборки) соответствующих идентифицированных одного или более наборов подполосных выборок.- while S(m) describes the transformation, while m describes the index of the block of samples of the audio signal, while T ₀ ...T _k describe subband discrete samples (samples) of the corresponding identified one or more sets of subband samples.

Например, каскад частотно-временного преобразования может быть выполнен с возможностью выполнять частотно-временное преобразование идентифицированных одного или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на втором блоке выборок, и/или идентифицированных одного или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на втором блоке выборок на основе вышеприведенной формулы.For example, the time-frequency transform stage may be configured to perform time-frequency transform on the identified one or more subband sample sets from the subband sample sets that are based on the second block of samples and/or the identified one or more subband sample sets from the subband sample sets. , which are based on the second block of samples based on the above formula.

В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью обрабатывать первый набор интервальных элементов (бинов), полученный на основе первого блока выборок аудиосигнала, и второй набор бинов, полученный на основе второго блока выборок аудиосигнала, с использованием второго каскада перекрывающегося критически дискретизированного преобразования из каскада каскадного перекрывающегося критически дискретизированного преобразования, при этом второй каскад перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять, в зависимости от характеристик сигналов для аудиосигнала [например, когда характеристики сигналов для аудиосигнала изменяются], первые перекрывающиеся критически дискретизированные преобразования для первого набора бинов и вторые перекрывающиеся критически дискретизированные преобразования для второго набора бинов, причем одно или более первых критически дискретизированных преобразований имеют различные длины по сравнению со вторыми критически дискретизированными преобразованиями.In embodiments, the cascaded overlapped critically sampled transform stage is configured to process a first set of interval elements (bins) derived from a first block of audio samples and a second set of bins derived from a second block of audio samples using a second block of overlapped critically sampled transforms. transforms from the cascaded overlapped critically sampled transform stage, wherein the second overlapped critically sampled transform stage is configured to perform, depending on signal characteristics for the audio signal [e.g., when signal characteristics for the audio signal change], the first overlapped critically sampled transforms for the first set of bins, and second overlapping critically sampled transforms for the second set of bins, with one or more of the first ones being critically sampled These transforms have different lengths compared to the second critically sampled transforms.

В вариантах осуществления, каскад частотно-временного преобразования выполнен с возможностью идентифицировать, в случае если одно или более первых критически дискретизированных преобразований имеют различные длины [например, коэффициенты объединения] по сравнению со вторыми критически дискретизированными преобразованиями, один или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на первом блоке выборок, и один или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на втором блоке выборок, которые представляют идентичную частотно-временную часть аудиосигнала.In embodiments, the time-frequency transform stage is configured to identify, in the event that one or more first critically sampled transforms have different lengths [e.g., pooling factors] compared to the second critically sampled transforms, one or more subband sample sets from the subband sample sets samples that are based on the first block of samples, and one or more sets of subband samples of sets of subband samples that are based on the second block of samples that represent the identical time-frequency portion of the audio signal.

В вариантах осуществления, аудиопроцессор содержит второй каскад частотно-временного преобразования, выполненный с возможностью выполнять частотно-временное преобразование подполосного представления с уменьшенным наложением спектров аудиосигнала, при этом частотно-временное преобразование, применяемое посредством второго каскада частотно-временного преобразования, является обратным по отношению к частотно-временному преобразованию, применяемому посредством первого каскада частотно-временного преобразования.In embodiments, the audio processor comprises a second time-frequency transform stage configured to perform a reduced-aliasing subband representation time-frequency transform of the audio signal, wherein the time-frequency transform applied by the second time-frequency transform stage is inverse of a time-frequency transform applied by the first time-frequency transform stage.

В вариантах осуществления, уменьшение наложения спектров во временной области, выполняемое посредством каскада уменьшения наложения спектров во временной области, соответствует преобразованию, описанному посредством следующей формулы:In embodiments, the time domain aliasing reduction performed by the time domain aliasing reduction stage corresponds to the transformation described by the following formula:

- при этом R(z, m) описывает преобразование, при этом z описывает индекс кадра в z-области, при этом m описывает индекс блока выборок аудиосигнала, при этом F'₀…F'_k описывают модифицированные версии предварительных перестановочных/свертывающихся матриц на основе перекрывающегося критически дискретизированного преобразования NxN.where R(z, m) describes the transformation, where z describes the frame index in the z-domain, where m describes the audio sample block index, where F' ₀ …F' _k describe modified versions of pre-permutation/convolution matrices on based on the overlapping NxN critically sampled transform.

В вариантах осуществления, аудиопроцессор выполнен с возможностью предоставлять поток битов, содержащий STDAR-параметр, указывающий то, используется или нет длина идентифицированных одного или более наборов подполосных выборок, соответствующих первому блоку выборок или второму блоку выборок, в каскаде уменьшения наложения спектров во временной области для получения соответствующего подполосного представления с уменьшенным наложением спектров аудиосигнала, или при этом аудиопроцессор выполнен с возможностью предоставлять поток битов, содержащий параметры MDCT-длины [например, параметры коэффициентов объединения (MF)], указывающие длины наборов подполосных выборок.In embodiments, the audio processor is configured to provide a bitstream containing a STDAR parameter indicating whether or not the length of the identified one or more subband sample sets corresponding to the first block of samples or the second block of samples is used in the time domain aliasing reduction stage for obtaining a corresponding sub-band de-aliased representation of the audio signal, or wherein the audio processor is configured to provide a bit stream containing MDCT length parameters [e.g., merge factor (MF) parameters] indicating the lengths of the sub-band sample sets.

В вариантах осуществления, аудиопроцессор выполнен с возможностью выполнять объединенное канальное кодирование.In embodiments, the audio processor is configured to perform joint channel coding.

В вариантах осуществления, аудиопроцессор выполнен с возможностью выполнять M/S или MCT в качестве объединенной обработки каналов.In embodiments, the audio processor is configured to perform M/S or MCT as a combined channel processing.

В вариантах осуществления, аудиопроцессор выполнен с возможностью предоставлять поток битов, содержащий, по меньшей мере, один STDAR-параметр, указывающий длину одной или более преобразованных по времени и частоте подполосных выборок, соответствующих первому блоку выборок, и одной или более преобразованных по времени и частоте подполосных выборок, соответствующих второму блоку выборок, используемых в каскаде уменьшения наложения спектров во временной области для получения соответствующего подполосного представления с уменьшенным наложением спектров аудиосигнала либо его кодированной версии [например, его энтропийно или дифференциально кодированной версии].In embodiments, the audio processor is configured to provide a bitstream containing at least one STDAR parameter indicating the length of one or more time and frequency mapped subband samples corresponding to the first block of samples, and one or more time and frequency mapped sub-band samples corresponding to the second block of samples used in the time domain de-aliasing stage to obtain the corresponding de-aliased sub-band representation of the audio signal or its encoded version [eg, its entropy or differentially encoded version].

В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования содержит первый каскад перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающиеся критически дискретизированные преобразования для первого блока выборок и второго блока выборок, по меньшей мере, из двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать первый набор бинов для первого блока выборок и второй набор бинов для второго блока выборок.In embodiments, the cascaded overlapped critically sampled transform stage comprises a first overlapped critically sampled transform stage configured to perform overlapped critically sampled transforms on a first block of samples and a second block of samples of at least two partially overlapping blocks of audio samples so that obtain a first set of bins for the first block of samples and a second set of bins for the second block of samples.

В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования дополнительно содержит второй каскад перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающееся критически дискретизированное преобразование для сегмента первого набора бинов и выполнять перекрывающееся критически дискретизированное преобразование для сегмента второго набора бинов, причем каждый сегмент ассоциирован с подполосой частот аудиосигнала, с тем чтобы получать набор подполосных выборок для первого набора бинов и набор подполосных выборок для второго набора бинов.In embodiments, the cascaded overlapped critically sampled transform stage further comprises a second overlapped critically sampled transform stage configured to perform overlapped critically sampled transform on a segment of the first bin set and perform overlapped critically sampled transform on a segment of the second bin set, each segment being associated with a subband. frequencies of the audio signal so as to obtain a set of subband samples for the first set of bins and a set of subband samples for the second set of bins.

Дополнительные варианты осуществления предусматривают аудиопроцессор для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, причем подполосное представление аудиосигнала содержит наборы выборок с уменьшенным наложением спектров. Аудиопроцессор содержит второй каскад обратного частотно-временного преобразования, выполненный с возможностью выполнять частотно-временное преобразование одного или более наборов подполосных выборок с уменьшенным наложением спектров из наборов подполосных выборок с уменьшенным наложением спектров, соответствующих второму блоку выборок аудиосигнала, и/или одного или более наборов подполосных выборок с уменьшенным наложением спектров из наборов подполосных выборок с уменьшенным наложением спектров, соответствующих второму блоку выборок аудиосигнала, с тем чтобы получать одну или более преобразованных по времени и частоте подполосных выборок с уменьшенным наложением спектров, каждая из которых представляет идентичную область на частотно-временной плоскости относительно соответствующей одной из одной или более подполосных выборок с уменьшенным наложением спектров, соответствующих другому блоку выборок аудиосигнала, либо одной или более их преобразованных по времени и частоте версий. Дополнительно, аудиопроцессор содержит каскад обратного уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирования со взвешиванием соответствующих наборов подполосных выборок с уменьшенным наложением спектров либо их преобразованных по времени и частоте версий, с тем чтобы получать подполосное представление с наложением спектров. Дополнительно, аудиопроцессор содержит первый каскад обратного частотно-временного преобразования, выполненный с возможностью выполнять частотно-временное преобразование подполосного представления с наложением спектров, с тем чтобы получать наборы подполосных выборок, соответствующих первому блоку выборок аудиосигнала, и наборы подполосных выборок, соответствующих второму блоку выборок аудиосигнала, при этом частотно-временное преобразование, применяемое посредством первого каскада обратного частотно-временного преобразования, является обратным по отношению к частотно-временному преобразованию, применяемому посредством второго каскада обратного частотно-временного преобразования. Дополнительно, аудиопроцессор содержит каскад каскадного обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное обратное перекрывающееся критически дискретизированное преобразование для наборов выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.Additional embodiments provide an audio processor for processing a subband representation of an audio signal so as to obtain an audio signal, the subband representation of the audio signal comprising de-aliased sample sets. The audio processor comprises a second inverse time-frequency transform stage configured to perform time-frequency conversion of one or more de-aliased sub-band sample sets from the de-aliased sub-band sample sets corresponding to the second block of audio samples and/or one or more sets de-aliased sub-band samples from the de-aliased sub-band sample sets corresponding to the second block of audio samples to obtain one or more time and frequency transformed de-aliased sub-band samples each representing an identical region on the time-frequency plane relative to the corresponding one of one or more sub-band samples with reduced aliasing corresponding to another block of audio samples, or one or more time-transformed and frequency-transformed versions thereof. Additionally, the audio processor comprises a time-domain de-aliasing stage configured to perform weighting combinations of respective de-aliased sub-band sample sets, or time- and frequency-transformed versions thereof, to obtain an aliased sub-band representation. Additionally, the audio processor comprises a first time-frequency inverse transform stage configured to perform an aliased sub-band transformation to obtain sub-band sample sets corresponding to the first block of audio samples and sets of sub-band samples corresponding to the second block of audio samples. , wherein the time-frequency transform applied by the first inverse time-frequency transform stage is the inverse of the time-frequency transform applied by the second inverse time-frequency transform stage. Additionally, the audio processor comprises a cascaded critically sampled inverse transform stage configured to perform a cascaded critically sampled inverse transform on sets of samples to obtain a set of samples associated with a block of audio samples.

Дополнительные варианты осуществления предусматривают способ для обработки аудиосигнала, с тем чтобы получать подполосное представление аудиосигнала. Способ содержит этап выполнения каскадного перекрывающегося критически дискретизированного преобразования, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать наборы подполосных выборок на основе первого блока выборок аудиосигнала и получать наборы подполосных выборок на основе второго блока выборок аудиосигнала. Дополнительно, способ содержит этап идентификации, в случае если наборы подполосных выборок, которые основаны на первом блоке выборок, представляют различные области на частотно-временной плоскости по сравнению с наборами подполосных выборок, которые основаны на втором блоке выборок, одного или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на первом блоке выборок, и одного или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на втором блоке выборок, которые в комбинации представляют идентичную область частотно-временной плоскости. Дополнительно, способ содержит этап выполнения частотно-временных преобразований для идентифицированных одного или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на первом блоке выборок, и/или идентифицированных одного или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на втором блоке выборок, с тем чтобы получать одну или более преобразованных по времени и частоте подполосных выборок, каждая из которых представляет идентичную область на частотно-временной плоскости относительно соответствующей одной из идентифицированных одной или более подполосных выборок либо одной или более их преобразованных по времени и частоте версий. Дополнительно, способ содержит этап выполнения комбинирования со взвешиванием двух соответствующих наборов подполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала либо их преобразованных по времени и частоте версий, и один из них получен на основе второго блока выборок аудиосигнала, с тем чтобы получать подполосные представления с уменьшенным наложением спектров аудиосигнала.Additional embodiments provide a method for processing an audio signal so as to obtain a subband representation of the audio signal. The method comprises the step of performing a cascaded overlapping critically sampled transform on at least two partially overlapping audio sample blocks to obtain subband sample sets based on the first audio sample block and obtain subband sample sets based on the second audio sample block. Additionally, the method comprises the step of identifying if the subband sample sets that are based on the first block of samples represent different regions on the time-frequency plane compared to the subband sample sets that are based on the second block of samples, one or more subband sample sets of subband sample sets that are based on the first block of samples; and one or more subband sample sets of subband sample sets that are based on the second block of samples that, in combination, represent an identical region of the time-frequency plane. Additionally, the method comprises the step of performing time-frequency transforms on the identified one or more subband sample sets from the subband sample sets that are based on the first block of samples and/or the identified one or more subband sample sets from the subband sample sets that are based on the second block. samples to obtain one or more time- and frequency-transformed sub-band samples, each of which represents an identical region on the time-frequency plane with respect to a corresponding one of the identified one or more sub-band samples, or one or more time- and frequency-transformed versions thereof. Additionally, the method comprises the step of performing a weight-combining of two respective sets of subband samples, one of which is derived from the first block of audio samples or time-transformed versions thereof, and one of which is derived from the second block of audio samples, such that obtain sub-band representations with reduced aliasing of the audio signal.

Дополнительные варианты осуществления предусматривают способ для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, причем подполосное представление аудиосигнала содержит наборы выборок с уменьшенным наложением спектров. Способ содержит этап выполнения частотно-временных преобразований для одного или более наборов подполосных выборок с уменьшенным наложением спектров из наборов подполосных выборок с уменьшенным наложением спектров, соответствующих второму блоку выборок аудиосигнала, и/или для одного или более наборов подполосных выборок с уменьшенным наложением спектров из наборов подполосных выборок с уменьшенным наложением спектров, соответствующих второму блоку выборок аудиосигнала, с тем чтобы получать одну или более преобразованных по времени и частоте подполосных выборок с уменьшенным наложением спектров, каждая из которых представляет идентичную область на частотно-временной плоскости относительно соответствующей одной из одной или более подполосных выборок с уменьшенным наложением спектров, соответствующих другому блоку выборок аудиосигнала, либо одной или более их преобразованных по времени и частоте версий. Дополнительно, способ содержит этап выполнения комбинирований со взвешиванием соответствующих наборов подполосных выборок с уменьшенным наложением спектров либо их преобразованных по времени и частоте версий, с тем чтобы получать подполосное представление с наложением спектров. Дополнительно, способ содержит этап выполнения частотно-временных преобразований для подполосного представления с наложением спектров, с тем чтобы получать наборы подполосных выборок, соответствующих первому блоку выборок аудиосигнала, и наборы подполосных выборок, соответствующих второму блоку выборок аудиосигнала, при этом частотно-временное преобразование, применяемое посредством первого каскада обратного частотно-временного преобразования, является обратным по отношению к частотно-временному преобразованию, применяемому посредством второго каскада обратного частотно-временного преобразования. Дополнительно, способ содержит этап выполнения каскадного обратного перекрывающегося критически дискретизированного преобразования для наборов выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.Additional embodiments provide a method for processing a subband representation of an audio signal to obtain an audio signal, wherein the subband representation of the audio signal comprises de-aliased sample sets. The method comprises the step of performing time-frequency transforms on one or more de-aliased subband sample sets from the de-aliased sub-band sample sets corresponding to a second block of audio signal samples and/or on one or more de-aliased sub-band sample sets from the sets de-aliased sub-band samples corresponding to the second block of audio samples to obtain one or more time-and-frequency-transformed de-aliased sub-band samples each representing an identical region in the time-frequency plane with respect to a corresponding one of the one or more de-aliased subband samples corresponding to another block of audio samples, or one or more time and frequency transformed versions thereof. Additionally, the method comprises the step of performing weighted combinations of the respective de-aliased sub-band sample sets, or time- and frequency-transformed versions thereof, to obtain a sub-band aliased representation. Additionally, the method comprises the step of performing time-frequency transforms on the aliased sub-band representation so as to obtain sets of sub-band samples corresponding to the first block of audio samples and sets of sub-band samples corresponding to the second block of audio samples, wherein the time-frequency transform applied by the first inverse time-frequency conversion stage is the inverse of the time-frequency conversion applied by the second inverse time-frequency conversion stage. Additionally, the method comprises the step of performing a cascaded inverse overlap critically sampled transform on sets of samples to obtain a set of samples associated with a block of audio samples.

Согласно концепции настоящего изобретения, уменьшение наложения спектров во временной области между двумя кадрами различных расположений частотно-временными плитками разрешается посредством введения другого этапа симметричного подполосного объединения/подполосного разбиения, который выравнивает расположения частотно-временными плитками двух кадров. После выравнивания расположений плитками, может применяться уменьшение наложения спектров во временной области, и исходные расположения плитками могут восстанавливаться.According to the concept of the present invention, the reduction of time-domain aliasing between two frames of different time-frequency tile arrangements is resolved by introducing another symmetric sub-band combining/sub-band splitting step that aligns the time-frequency tile arrangements of the two frames. Once the tiling arrangements are aligned, time domain aliasing reduction can be applied and the original tiling arrangements can be restored.

Варианты осуществления предусматривают гребенку фильтров с переключаемым уменьшением наложения спектров во временной области (STDAR) с унилатеральным или билатеральным STDAR.Embodiments provide a switchable time domain aliasing reduction (STDAR) filterbank with unilateral or bilateral STDAR.

В вариантах осуществления, STDAR-параметры могут извлекаться из параметров MDCT-длины (например, параметров коэффициентов объединения (MF)). Например, при использовании унилатерального STDAR, 1 бит может передаваться в расчете на коэффициент объединения. Этот бит может передавать в служебных сигналах то, используется коэффициент объединения кадра m или m-1 для STDAR. Альтернативно, преобразование может всегда выполняться к более высокому коэффициенту объединения. В этом случае, бит может опускаться.In embodiments, STDAR parameters may be derived from MDCT length parameters (eg, pooling factor (MF) parameters). For example, when using unilateral STDAR, 1 bit may be transmitted per pooling factor. This bit may signal whether the frame combining factor m or m-1 for STDAR is used. Alternatively, the transformation may always be performed to a higher pooling factor. In this case, the bit may be omitted.

В вариантах осуществления, может выполняться объединенная обработка каналов, например, инструментальное средство M/S- или многоканального кодирования (MCT) [10]. Например, некоторые или все каналы могут преобразовываться на основе билатерального STDAR в идентичную TDAR-схему размещения и объединенно обрабатываться. Варьирующиеся коэффициенты, к примеру, 2, 8, 1, 2, 16, 32 предположительно не имеют такую вероятность, как равномерные коэффициенты, к примеру, 4, 4, 8, 8, 16, 16. Эта корреляция может использоваться для того, чтобы уменьшать требуемый объем данных, например, посредством дифференциального кодирования.In embodiments, combined channel processing, such as an M/S or multi-channel coding (MCT) tool [10], may be performed. For example, some or all of the channels may be mapped based on the bilateral STDAR to an identical TDAR layout and combined processed. Varying odds such as 2, 8, 1, 2, 16, 32 are not expected to have the same probability as uniform odds such as 4, 4, 8, 8, 16, 16. This correlation can be used to reduce the required amount of data, for example, by means of differential coding.

В вариантах осуществления, меньшее число коэффициентов объединения может передаваться, при этом опускаемые коэффициенты объединения могут извлекаться или интерполироваться из соседних коэффициентов объединения. Например, если коэффициенты объединения фактически являются настолько равномерными, как описано в предыдущем параграфе, все коэффициенты объединения могут интерполироваться на основе нескольких коэффициентов объединения.In embodiments, a smaller number of pooling coefficients may be transmitted, wherein the omitted pooling coefficients may be extracted or interpolated from adjacent pooling coefficients. For example, if the pooling coefficients are in fact as uniform as described in the previous paragraph, all pooling coefficients may be interpolated based on multiple pooling coefficients.

В вариантах осуществления, билатеральный STDAR-коэффициент может передаваться в служебных сигналах в потоке битов. Например, некоторые биты в потоке битов требуются для того, чтобы передавать в служебных сигналах STDAR-коэффициент, описывающий предел по текущим кадрам. Эти биты могут энтропийно кодироваться. Дополнительно, эти биты могут кодироваться между собой.In embodiments, the bilateral STDAR coefficient may be signaled in the bit stream. For example, some bits in the bitstream are required in order to signal a STDAR factor describing the current frame limit. These bits may be entropy encoded. Additionally, these bits may be encoded with each other.

Дополнительные варианты осуществления предусматривают аудиопроцессор для обработки аудиосигнала, с тем чтобы получать подполосное представление аудиосигнала. Аудиопроцессор содержит каскад каскадного перекрывающегося критически дискретизированного преобразования и каскад уменьшения наложения спектров во временной области. Каскад каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор подполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор подполосных выборок на основе второго блока выборок аудиосигнала. Каскад уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов подполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, и один из них получен на основе второго блока выборок аудиосигнала, с тем чтобы получать подполосное представление с уменьшенным наложением спектров аудиосигнала.Additional embodiments provide an audio processor for processing the audio signal so as to obtain a subband representation of the audio signal. The audio processor includes a cascaded overlapped critically sampled transform and a time domain aliasing reduction stage. The cascaded overlapped critically sampled transform stage is configured to perform a cascaded overlapped critically sampled transform on at least two partially overlapping blocks of audio samples so as to obtain a set of subband samples based on the first block of audio samples and obtain a corresponding set of subband samples based on the second block of audio samples. block of samples of the audio signal. The time domain aliasing reduction stage is configured to weight-combine two respective sets of subband samples, one of them derived from the first block of audio samples and one of them derived from the second block of audio samples, to obtain a subband representation. with reduced audio signal aliasing.

Дополнительные варианты осуществления предусматривают аудиопроцессор для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал. Аудиопроцессор содержит каскад обратного уменьшения наложения спектров во временной области и каскад каскадного обратного перекрывающегося критически дискретизированного преобразования. Каскад обратного уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием (и сдвигом) двух соответствующих подполосных представлений с уменьшенным наложением спектров (различных блоков частично перекрывающихся выборок) аудиосигнала, с тем чтобы получать подполосное представление с наложением спектров, при этом подполосное представление с наложением спектров представляет собой набор подполосных выборок. Каскад каскадного обратного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять каскадное обратное перекрывающееся критически дискретизированное преобразование для набора подполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.Additional embodiments provide for an audio processor to process a subband representation of an audio signal so as to obtain an audio signal. The audio processor comprises an inverse time-domain aliasing reduction stage and a cascaded inverse overlapping critically sampled transform stage. The time-domain de-aliasing stage is configured to weight (and shift) two respective aliased sub-band representations (different blocks of partially overlapping samples) of an audio signal to obtain an aliased sub-band representation, wherein the sub-band representation aliased is a set of subband samples. The cascaded inverse overlapped critically sampled transform stage is configured to perform a cascaded inverse overlapped critically sampled transform on a set of subband samples to obtain a set of samples associated with a block of audio samples.

Согласно принципу настоящего изобретения, дополнительный каскад постобработки добавляется в конвейер перекрывающегося критически дискретизированного преобразования (например, MDCT), причем дополнительный каскад постобработки содержит другое перекрывающееся критически дискретизированное преобразование (например, MDCT) вдоль частотной оси и уменьшение наложения спектров во временной области вдоль каждой подполосной временной оси. Это обеспечивает возможность извлечения произвольных шкал частот из спектрограммы перекрывающегося критически дискретизированного преобразования (например, MDCT) с улучшенной временной компактностью импульсной характеристики, при отсутствии введения дополнительной избыточности и уменьшенной кадровой задержки перекрывающегося критически дискретизированного преобразования.According to the principle of the present invention, an additional post-processing stage is added to an overlapped critically sampled transform (e.g., MDCT) pipeline, wherein the additional post-processing stage comprises another overlapped critically sampled transform (e.g., MDCT) along the frequency axis and de-aliasing in the time domain along each time subband. axes. This allows arbitrary frequency scales to be extracted from the overlapped critically sampled transform (eg, MDCT) spectrogram with improved temporal compactness of the impulse response without introducing additional redundancy and reduced frame delay of the overlapped critically sampled transform.

Дополнительные варианты осуществления предусматривают способ для обработки аудиосигнала, с тем чтобы получать подполосное представление аудиосигнала. Способ содержит:Additional embodiments provide a method for processing an audio signal so as to obtain a subband representation of the audio signal. The method contains:

- выполнение каскадного перекрывающегося критически дискретизированного преобразования, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор подполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор подполосных выборок на основе второго блока выборок аудиосигнала; иperforming a cascaded overlapping critically sampled transform on at least two partially overlapping blocks of audio samples so as to obtain a set of subband samples based on the first block of audio samples and obtain a corresponding set of subband samples based on the second block of audio samples; And

- выполнение комбинирования со взвешиванием двух соответствующих наборов подполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, и один из них получен на основе второго блока выборок аудиосигнала, с тем чтобы получать подполосное представление с уменьшенным наложением спектров аудиосигнала.- performing a weight-combining of two respective sets of subband samples, one of them derived from the first block of audio samples and one of them derived from the second block of audio samples, so as to obtain a subband representation with reduced aliasing of the audio signal.

Дополнительные варианты осуществления предусматривают способ для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал. Способ содержит:Additional embodiments provide a method for processing a subband representation of an audio signal so as to obtain an audio signal. The method contains:

- выполнение комбинирования со взвешиванием (и сдвигом) двух соответствующих подполосных представлений с уменьшенным наложением спектров (различных блоков частично перекрывающихся выборок) аудиосигнала, с тем чтобы получать подполосное представление с наложением спектров, при этом подполосное представление с наложением спектров представляет собой набор подполосных выборок; и- performing a weighting (and shifting) combination of two respective reduced alias subband representations (different blocks of partially overlapping samples) of the audio signal to obtain an aliased subband representation, wherein the aliased subband representation is a set of subband samples; And

- выполнение каскадного обратного перекрывающегося критически дискретизированного преобразования для набора подполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.- performing a cascaded inverse overlap critically sampled transform on the set of subband samples to obtain a set of samples associated with a block of audio samples.

Далее описываются преимущественные реализации аудиопроцессора для обработки аудиосигнала, с тем чтобы получать подполосное представление аудиосигнала.The following describes advantageous implementations of an audio processor for processing an audio signal so as to obtain a subband representation of the audio signal.

В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может представлять собой каскад каскадного MDCT (MDCT=модифицированное дискретное косинусное преобразование), MDST (MDST=модифицированное дискретное синусное преобразование) или MLT (MLT=модулированное перекрывающееся преобразование).In embodiments, the cascaded overlapped critically sampled transform stage may be a cascaded MDCT (MDCT=modified discrete cosine transform), MDST (MDST=modified discrete sine transform) or MLT (MLT=modulated lapped transform) stage.

В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может содержать первый каскад перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающиеся критически дискретизированные преобразования для первого блока выборок и второго блока выборок, по меньшей мере, из двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать первый набор бинов для первого блока выборок и второй набор бинов (перекрывающихся критически дискретизированных коэффициентов) для второго блока выборок.In embodiments, the cascaded overlapped critically sampled transform stage may comprise a first overlapped critically sampled transform stage configured to perform overlapped critically sampled transforms on the first block of samples and the second block of samples of at least two partially overlapping blocks of audio samples, so that to obtain a first set of bins for the first block of samples and a second set of bins (overlapping critically sampled coefficients) for the second block of samples.

Первый каскад перекрывающегося критически дискретизированного преобразования может представлять собой первый MDCT-, MDST- или MLT-каскад.The first stage of the overlapped critically sampled transform may be the first MDCT, MDST or MLT stage.

Каскад каскадного перекрывающегося критически дискретизированного преобразования дополнительно может содержать второй каскад перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающееся критически дискретизированное преобразование для сегмента (собственного поднабора) первого набора бинов и выполнять перекрывающееся критически дискретизированное преобразование для сегмента (собственного поднабора) второго набора бинов, причем каждый сегмент ассоциирован с подполосой частот аудиосигнала, с тем чтобы получать набор подполосных выборок для первого набора бинов и набор подполосных выборок для второго набора бинов.The cascaded overlapped critically sampled transform stage may further comprise a second overlapped critically sampled transform stage configured to perform an overlapped critically sampled transform on a segment (self-subset) of the first bin set and perform an overlapped critically sampled transform on a segment (either subset) of the second bin set, wherein each segment is associated with a subband of the audio signal so as to obtain a set of subband samples for the first set of bins and a set of subband samples for the second set of bins.

Второй каскад перекрывающегося критически дискретизированного преобразования может представлять собой второй MDCT-, MDST- или MLT-каскад.The second stage of the overlapped critically sampled transform may be the second MDCT, MDST or MLT stage.

В силу этого, первый и второй каскады перекрывающегося критически дискретизированного преобразования могут иметь идентичный тип, т.е. представлять собой один из MDCT-, MDST- или MLT-каскадов.Because of this, the first and second stages of the overlapped critically sampled transform may be of the same type, i.e. represent one of the MDCT-, MDST- or MLT-cascades.

В вариантах осуществления, второй каскад перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять перекрывающиеся критически дискретизированные преобразования, по меньшей мере, для двух частично перекрывающихся сегментов (собственных поднаборов) первого набора бинов и выполнять перекрывающиеся критически дискретизированные преобразования, по меньшей мере, для двух частично перекрывающихся сегментов (собственных поднаборов) второго набора бинов, причем каждый сегмент ассоциирован с подполосой частот аудиосигнала, с тем чтобы получать, по меньшей мере, два набора подполосных выборок для первого набора бинов, и, по меньшей мере, два набора подполосных выборок для второго набора бинов.In embodiments, the second overlapped critically sampled transform stage may be configured to perform overlapped critically sampled transforms on at least two partially overlapping segments (either subsets) of the first bin set and perform overlapped critically sampled transforms on at least two partially overlapping segments (either subsets) of the second set of bins, each segment being associated with a subband of the audio signal so as to obtain at least two sets of subband samples for the first set of bins, and at least two sets of subband samples for the second set of bins.

В силу этого, первый набор подполосных выборок может представлять собой результат первого перекрывающегося критически дискретизированного преобразования на основе первого сегмента первого набора бинов, при этом второй набор подполосных выборок может представлять собой результат второго перекрывающегося критически дискретизированного преобразования на основе второго сегмента первого набора бинов, при этом третий набор подполосных выборок может представлять собой результат третьего перекрывающегося критически дискретизированного преобразования на основе первого сегмента второго набора бинов, при этом четвертый набор подполосных выборок может представлять собой результат четвертого перекрывающегося критически дискретизированного преобразования на основе второго сегмента второго набора бинов. Каскад уменьшения наложения спектров во временной области может быть выполнен с возможностью выполнять комбинирование со взвешиванием первого набора подполосных выборок и третьего набора подполосных выборок, с тем чтобы получать первое подполосное представление с уменьшенным наложением спектров аудиосигнала, и выполнять комбинирование со взвешиванием второго набора подполосных выборок и четвертого набора подполосных выборок, с тем чтобы получать второе подполосное представление с уменьшенным наложением спектров аудиосигнала.Therefore, the first subband sample set may be the result of the first overlapped critically sampled transform based on the first segment of the first bin set, while the second subband sample set may be the result of the second overlapped critically sampled transform based on the second segment of the first bin set, wherein the third subband sample set may be the result of the third overlapped critically sampled transform based on the first segment of the second bin set, while the fourth subband sample set may be the result of the fourth overlapped critically sampled transform based on the second segment of the second bin set. The time-domain aliasing reduction stage may be configured to weight-combine the first set of sub-band samples and the third set of sub-band samples so as to obtain a first sub-band de-aliased representation of the audio signal, and perform the weight combining of the second set of sub-band samples and the fourth set of sub-band samples. a set of sub-band samples so as to obtain a second sub-band representation with reduced aliasing of the audio signal.

В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор бинов, полученный на основе первого блока выборок, использованием, по меньшей мере, двух функций кодирования со взвешиванием, и получать, по меньшей мере, два набора подполосных выборок на основе сегментированного набора бинов, соответствующего первому блоку выборок, при этом каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор бинов, полученный на основе второго блока выборок, с использованием, по меньшей мере, двух функций кодирования со взвешиванием, и получать, по меньшей мере, два набора подполосных выборок на основе сегментированного набора бинов, соответствующего второму блоку выборок, при этом, по меньшей мере, две функции кодирования со взвешиванием содержат различную ширину окна кодирования со взвешиванием.In embodiments, the cascaded overlapped critically sampled transform stage may be configured to segment the set of bins derived from the first block of samples using at least two weighted coding functions and obtain at least two sets of subband samples per based on the segmented bin set corresponding to the first block of samples, wherein the cascaded overlapped critically sampled transform stage may be configured to segment the bin set derived from the second block of samples using at least two weighted coding functions and obtain, at least two subband sample sets based on the segmented bin set corresponding to the second block of samples, wherein the at least two weighted coding functions comprise different weighted coding window widths.

В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор бинов, полученный на основе первого блока выборок с использованием, по меньшей мере, двух функций кодирования со взвешиванием, и получать, по меньшей мере, два набора подполосных выборок на основе сегментированного набора бинов, соответствующего первому блоку выборок, при этом каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор бинов, полученный на основе второго блока выборок с использованием, по меньшей мере, двух функций кодирования со взвешиванием, и получать, по меньшей мере, два набора подполосных выборок на основе сегментированного набора бинов, соответствующего второму блоку выборок, при этом наклоны фильтра функций кодирования со взвешиванием, соответствующих смежным наборам подполосных выборок, являются симметричными.In embodiments, the cascaded overlapped critically sampled transform stage may be configured to segment the bin set derived from the first block of samples using at least two weighted coding functions and obtain at least two subband sample sets per based on the segmented bin set corresponding to the first block of samples, wherein the cascaded overlapped critically sampled transform stage may be configured to segment the bin set derived from the second block of samples using at least two weighted coding functions and obtain, by at least two subband sample sets based on the segmented bin set corresponding to the second block of samples, wherein the filter slopes of the weighted coding functions corresponding to adjacent subband sample sets are symmetrical.

В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать выборки аудиосигнала на первый блок выборок и второй блок выборок с использованием первой функции кодирования со взвешиванием, при этом каскад перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор бинов, полученный на основе первого блока выборок, и набор бинов, полученный на основе второго блока выборок, с использованием второй функции кодирования со взвешиванием, с тем чтобы получать соответствующие подполосные выборки, при этом первая функция кодирования со взвешиванием и вторая функция кодирования со взвешиванием содержат различную ширину окна кодирования со взвешиванием.In embodiments, the cascaded overlapped critically sampled transform stage may be configured to segment the audio signal samples into a first block of samples and a second block of samples using a first weighted coding function, wherein the overlapped critically sampled transform stage may be configured to segment a set of bins, obtained based on the first block of samples, and a set of bins obtained based on the second block of samples, using the second weighted coding function to obtain the respective subband samples, the first weighted coding function and the second weighted coding function having a different width weighted coding windows.

В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать выборки аудиосигнала на первый блок выборок и второй блок выборок с использованием первой функции кодирования со взвешиванием, при этом каскад перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор бинов, полученный на основе первого блока выборок, и набор бинов, полученный на основе второго блока выборок, с использованием второй функции кодирования со взвешиванием, с тем чтобы получать соответствующие подполосные выборки, при этом ширина окна кодирования со взвешиванием первой функции кодирования со взвешиванием и ширина окна кодирования со взвешиванием второй функции кодирования со взвешиванием отличаются друг от друга, при этом ширина окна кодирования со взвешиванием первой функции кодирования со взвешиванием и ширина окна кодирования со взвешиванием второй функции кодирования со взвешиванием отличаются друг от друга на коэффициент, отличающийся от степени двух.In embodiments, the cascaded overlapped critically sampled transform stage may be configured to segment the audio signal samples into a first block of samples and a second block of samples using a first weighted coding function, wherein the overlapped critically sampled transform stage may be configured to segment a set of bins, obtained based on the first block of samples, and a set of bins obtained based on the second block of samples, using the second weighted coding function to obtain the corresponding subband samples, wherein the width of the weighted coding window of the first weighted coding function and the width of the coding window weighted coding function of the second weighted coding function differ from each other, wherein the width of the weighted coding window of the first weighted coding function and the width of the weighted coding window of the second function weighted codings differ from each other by a factor other than a power of two.

Далее описываются преимущественные реализации аудиопроцессора для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал.The following describes advantageous implementations of an audio processor for processing a subband representation of an audio signal so as to obtain an audio signal.

В вариантах осуществления, каскад обратного каскадного перекрывающегося критически дискретизированного преобразования может представлять собой каскад обратного каскадного MDCT (MDCT=модифицированное дискретное косинусное преобразование), MDST (MDST=модифицированное дискретное синусное преобразование) или MLT (MLT=модулированное перекрывающееся преобразование).In embodiments, the inverse cascaded overlay critically sampled transform stage may be an inverse cascaded MDCT (MDCT=modified discrete cosine transform), MDST (MDST=modified discrete sine transform) or MLT (MLT=modulated lapped transform) stage.

В вариантах осуществления, каскад каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать первый каскад обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора подполосных выборок, с тем чтобы получать набор бинов, ассоциированный с данной подполосой частот аудиосигнала.In embodiments, the cascaded inverse lap critically sampled transform stage may comprise a first inverse lap critically sampled transform stage configured to perform an inverse lap critically sampled transform on a set of subband samples to obtain a set of bins associated with a given audio subband.

Первый каскад обратного перекрывающегося критически дискретизированного преобразования может представлять собой первый обратный MDCT-, MDST- или MLT-каскад.The first stage of the inverse overlap critically sampled transform may be the first inverse MDCT, MDST or MLT stage.

В вариантах осуществления, каскад каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать первый каскад суммирования с перекрытием, выполненный с возможностью выполнять конкатенацию набора бинов, ассоциированного с множеством подполос частот аудиосигнала, что содержит комбинирование со взвешиванием набора бинов, ассоциированного с данной подполосой частот аудиосигнала, с набором бинов, ассоциированным с другой подполосой частот аудиосигнала, с тем чтобы получать набор бинов, ассоциированный с блоком выборок аудиосигнала.In embodiments, the cascaded inverse lap critically sampled transform stage may comprise a first lap summation stage configured to concatenate a set of bins associated with a plurality of audio subbands, which comprises weighting a set of bins associated with a given audio subband with a set of bins associated with another audio subband to obtain a set of bins associated with a block of audio samples.

В вариантах осуществления, каскад каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать второй каскад обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора бинов, ассоциированных с блоком выборок аудиосигнала, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.In embodiments, the cascaded critically sampled inverse transform stage may comprise a second critically sampled inverse lapped transform stage configured to perform an inverse overlapped critically sampled transform on a set of bins associated with a block of audio samples to obtain a set of samples associated with the block. audio samples.

Второй каскад обратного перекрывающегося критически дискретизированного преобразования может представлять собой второй обратный MDCT-, MDST- или MLT-каскад.The second stage of the inverse overlap critically sampled transform may be the second inverse MDCT, MDST or MLT stage.

В силу этого, первый и второй каскады обратного перекрывающегося критически дискретизированного преобразования могут иметь идентичный тип, т.е. представлять собой один из обратных MDCT-, MDST- или MLT-каскадов.Because of this, the first and second stages of the inverse overlapped critically sampled transform may be of the same type, i.e. represent one of the reverse MDCT, MDST, or MLT cascades.

В вариантах осуществления, каскад каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать второй каскад суммирования с перекрытием, выполненный с возможностью суммировать с перекрытием набор выборок, ассоциированных с блоком выборок аудиосигнала, и другой набор выборок, ассоциированных с другим блоком выборок аудиосигнала, причем блок выборок и другой блок выборок аудиосигнала частично перекрываются, с тем чтобы получать аудиосигнал.In embodiments, the cascaded critically sampled inverse transform stage may comprise a second lap-add stage configured to overlap-add a set of samples associated with a block of audio samples and another set of samples associated with another block of audio samples, wherein the block of samples and the other block of audio samples are partially overlapped so as to obtain an audio signal.

Варианты осуществления настоящего изобретения описываются в данном документе со ссылкой на прилагаемые чертежи.Embodiments of the present invention are described herein with reference to the accompanying drawings.

Фиг. 1 показывает принципиальную блок-схему аудиопроцессора, выполненного с возможностью обрабатывать аудиосигнал, с тем чтобы получать подполосное представление аудиосигнала, согласно варианту осуществления;Fig. 1 shows a schematic block diagram of an audio processor configured to process an audio signal so as to obtain a subband representation of the audio signal, according to an embodiment;

Фиг. 2 показывает принципиальную блок-схему аудиопроцессора, выполненного с возможностью обрабатывать аудиосигнал, с тем чтобы получать подполосное представление аудиосигнала, согласно дополнительному варианту осуществления;Fig. 2 shows a schematic block diagram of an audio processor configured to process an audio signal so as to obtain a subband representation of the audio signal, according to a further embodiment;

Фиг. 3 показывает принципиальную блок-схему аудиопроцессора, выполненного с возможностью обрабатывать аудиосигнал, с тем чтобы получать подполосное представление аудиосигнала, согласно дополнительному варианту осуществления;Fig. 3 shows a schematic block diagram of an audio processor configured to process an audio signal so as to obtain a subband representation of the audio signal, according to a further embodiment;

Фиг. 4 показывает принципиальную блок-схему аудиопроцессора для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно варианту осуществления;Fig. 4 shows a schematic block diagram of an audio processor for processing subband representation of an audio signal so as to obtain an audio signal, according to an embodiment;

Фиг. 5 показывает принципиальную блок-схему аудиопроцессора для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно дополнительному варианту осуществления;Fig. 5 shows a schematic block diagram of an audio processor for processing subband representation of an audio signal so as to obtain an audio signal, according to a further embodiment;

Фиг. 6 показывает принципиальную блок-схему аудиопроцессора для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно дополнительному варианту осуществления;Fig. 6 shows a schematic block diagram of an audio processor for processing subband representation of an audio signal so as to obtain an audio signal, according to a further embodiment;

Фиг. 7 показывает на схемах пример подполосных выборок (верхний график) и разброс их выборок по времени и частоте (нижний график);Fig. 7 shows diagrammatically an example of sub-band samples (upper plot) and the spread of their samples in time and frequency (lower plot);

Фиг. 8 показывает на схеме спектральную и временную неопределенность, полученную посредством нескольких различных преобразований;Fig. 8 shows in a diagram the spectral and temporal uncertainty obtained through several different transformations;

Фиг. 9 показывает на схемах сравнение двух примерных импульсных характеристик, сформированных посредством подполосного объединения с и без TDAR, простых коротких MDCT-блоков и подполосного объединения на основе матрицы Адамара;Fig. 9 shows a diagrammatic comparison of two exemplary impulse responses generated by subband combining with and without TDAR, simple short MDCT blocks, and Hadamard subband combining;

Фиг. 10 показывает блок-схему последовательности операций способа для обработки аудиосигнала, с тем чтобы получать подполосное представление аудиосигнала, согласно варианту осуществления;Fig. 10 shows a flowchart of a method for processing an audio signal so as to obtain a subband representation of an audio signal, according to an embodiment;

Фиг. 11 показывает блок-схему последовательности операций способа для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно варианту осуществления;Fig. 11 shows a flowchart of a method for processing a subband representation of an audio signal so as to obtain an audio signal, according to an embodiment;

Фиг. 12 показывает принципиальную блок-схему аудиокодера, согласно варианту осуществления;Fig. 12 shows a schematic block diagram of an audio encoder, according to an embodiment;

Фиг. 13 показывает принципиальную блок-схему аудиодекодера, согласно варианту осуществления;Fig. 13 shows a schematic block diagram of an audio decoder according to an embodiment;

Фиг. 14 показывает принципиальную блок-схему аудиоанализатора, согласно варианту осуществления;Fig. 14 shows a schematic block diagram of an audio analyzer according to an embodiment;

Фиг. 15 показывает принципиальную блок-схему аудиопроцессора, выполненного с возможностью обрабатывать аудиосигнал, с тем чтобы получать подполосное представление аудиосигнала, согласно дополнительному варианту осуществления;Fig. 15 shows a schematic block diagram of an audio processor configured to process an audio signal so as to obtain a subband representation of the audio signal, according to a further embodiment;

Фиг. 16 показывает схематичное представление частотно-временного преобразования, выполняемого посредством каскада частотно-временного преобразования на частотно-временной плоскости;Fig. 16 shows a schematic representation of the time-frequency conversion performed by the time-frequency conversion stage on the time-frequency plane;

Фиг. 17 показывает принципиальную блок-схему аудиопроцессора, выполненного с возможностью обрабатывать аудиосигнал, с тем чтобы получать подполосное представление аудиосигнала, согласно дополнительному варианту осуществления;Fig. 17 shows a schematic block diagram of an audio processor configured to process an audio signal so as to obtain a subband representation of the audio signal, according to a further embodiment;

Фиг. 18 показывает принципиальную блок-схему аудиопроцессора для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно дополнительному варианту осуществления;Fig. 18 shows a schematic block diagram of an audio processor for processing subband representation of an audio signal so as to obtain an audio signal, according to a further embodiment;

Фиг. 19 показывает схематичное представление STDAR-операции на частотно-временной плоскости;Fig. 19 shows a schematic representation of STDAR operation on the time-frequency plane;

Фиг. 20 показывает на схемах примерные импульсные отклики двух кадров с коэффициентом объединения 8 и 16 перед STDAR (верхняя часть) и после STDAR (нижняя часть);Fig. 20 shows diagrammatically exemplary impulse responses of two frames with a pooling factor of 8 and 16 before STDAR (top) and after STDAR (bottom);

Фиг. 21 показывает на схемах компактность импульсного отклика и частотного отклика для повышающего согласования;Fig. 21 shows in diagrams the compactness of the impulse response and frequency response for up-matching;

Фиг. 22 показывает на схемах компактность импульсного отклика и частотного отклика для понижающего согласования;Fig. 22 shows in diagrams the compactness of the impulse response and frequency response for down-matching;

Фиг. 23 показывает блок-схему последовательности операций способа для обработки аудиосигнала, с тем чтобы получать подполосное представление аудиосигнала, согласно дополнительному варианту осуществления; иFig. 23 shows a flowchart of a method for processing an audio signal so as to obtain a subband representation of an audio signal, according to a further embodiment; And

Фиг. 24 показывает блок-схему последовательности операций способа для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, причем подполосное представление аудиосигнала содержит наборы выборок с уменьшенным наложением спектров, согласно дополнительному варианту осуществления.Fig. 24 shows a flowchart of a method for processing a subband representation of an audio signal so as to obtain an audio signal, wherein the subband representation of the audio signal comprises de-aliased sample sets, according to a further embodiment.

Идентичные или эквивалентные элементы либо элементы с идентичной или эквивалентной функциональностью обозначаются в нижеприведенном описании посредством идентичных или эквивалентных ссылок с номерами.Identical or equivalent elements, or elements with identical or equivalent functionality, are referred to in the following description by identical or equivalent reference numbers.

В нижеприведенном описании, множество деталей изложено с тем, чтобы обеспечить более полное пояснение вариантов осуществления настоящего изобретения. Тем не менее, специалистам в данной области техники должно быть очевидным, что варианты осуществления настоящего изобретения могут быть использованы на практике без этих конкретных деталей. В других случаях, известные структуры и устройства показаны в форме блок-схемы, а не подробно, чтобы не затруднять понимание вариантов осуществления настоящего изобретения. Помимо этого, признаки различных вариантов осуществления, описанных далее, могут комбинироваться между собой, если прямо не указано иное.In the following description, many details are set forth in order to provide a more complete explanation of the embodiments of the present invention. However, those skilled in the art will appreciate that embodiments of the present invention may be practiced without these specific details. In other instances, known structures and devices are shown in block diagram form rather than in detail so as not to obscure the embodiments of the present invention. In addition, the features of the various embodiments described below may be combined with each other, unless expressly stated otherwise.

Во-первых, в разделе 1, описывается неравномерная ортогональная гребенка фильтров на основе каскадирования двух MDCT и уменьшения наложения спектров во временной области (TDAR), которая позволяет достигать импульсных откликов, которые являются компактными во времени и по частоте [1]. После этого, в разделе 2, описывается переключаемое уменьшение наложения спектров во временной области (STDAR), которое обеспечивает возможность TDAR между двумя кадрами различных расположений частотно-временными плитками. Это достигается посредством введения другого этапа симметричного подполосного объединения/подполосного разбиения, который выравнивает расположения частотно-временными плитками двух кадров. После выравнивания расположений плитками, применяется регулярное TDAR, и исходные расположения плитками восстанавливаются.First, in Section 1, a non-uniform orthogonal filterbank based on cascading two MDCTs and time domain aliasing reduction (TDAR) is described, which allows one to achieve impulse responses that are compact in time and frequency [1]. Thereafter, in Section 2, switchable time-domain aliasing reduction (STDAR) is described, which enables TDAR between two frames of different time-frequency tile locations. This is achieved by introducing another symmetrical sub-band combining/sub-band splitting step that aligns the time-frequency tile locations of the two frames. Once the tile arrangements are aligned, regular TDAR is applied and the original tile arrangements are restored.

1. Неравномерная ортогональная гребенка фильтров на основе каскадирования двух MDCT и уменьшения наложения спектров во временной области (TDAR)1. Non-uniform orthogonal filterbank based on cascading two MDCTs and time domain aliasing reduction (TDAR)

Фиг. 1 показывает принципиальную блок-схему аудиопроцессора 100, выполненного с возможностью обрабатывать аудиосигнал 102, с тем чтобы получать подполосное представление аудиосигнала, согласно варианту осуществления. Аудиопроцессор 100 содержит каскад 104 каскадного перекрывающегося критически дискретизированного преобразования (LCST) и каскад 106 уменьшения наложения спектров во временной области (TDAR).Fig. 1 shows a schematic block diagram of an audio processor 100 configured to process an audio signal 102 so as to obtain a subband representation of the audio signal, according to an embodiment. The audio processor 100 includes a cascaded overlapped critically sampled transform (LCST) stage 104 and a time domain alias reduction (TDAR) stage 106 .

Каскад 104 каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков 108_1 и 108_2 выборок аудиосигнала 102, с тем чтобы получать набор 110_1,1 подполосных выборок на основе первого блока 108_1 выборок (по меньшей мере, из двух перекрывающихся блоков 108_1 и 108_2 выборок) аудиосигнала 102 и получать соответствующий набор 110_2,1 подполосных выборок на основе второго блока 108_2 выборок (по меньшей мере, из двух перекрывающихся блоков 108_1 и 108_2 выборок) аудиосигнала 102.The cascaded overlapped critically sampled transform stage 104 is configured to perform a cascaded overlapped critically sampled transform on at least two partially overlapping blocks 108_1 and 108_2 of samples of the audio signal 102 so as to obtain a subband sample set 110_1,1 based on the first block 108_1 samples ( from at least two overlapping blocks 108_1 and 108_2 samples) of the audio signal 102 and obtain a corresponding subband sample set 110_2,1 based on the second block 108_2 samples (from at least two overlapping blocks 108_1 and 108_2 samples) of the audio signal 102.

Каскад 104 уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов 110_1,1 и 110_2,1 подполосных выборок (т.е. подполосных выборок, соответствующих идентичной подполосе частот), причем один из них получен на основе первого блока 108_1 выборок аудиосигнала 102, и один из них получен на основе второго блока 108_2 выборок аудиосигнала, с тем чтобы получать подполосное представление 112_1 с уменьшенным наложением спектров аудиосигнала 102.The time-domain aliasing reduction stage 104 is configured to weight-combine two respective sets 110_1,1 and 110_2,1 of subband samples (i.e., subband samples corresponding to the same subband), one of which is derived from the first block. 108_1 samples of the audio signal 102, and one of them is obtained based on the second block 108_2 of audio samples, so as to obtain a sub-band de-aliased representation 112_1 of the audio signal 102.

В вариантах осуществления, каскад 104 каскадного перекрывающегося критически дискретизированного преобразования может содержать, по меньшей мере, два каскада каскадного перекрывающегося критически дискретизированного преобразования, или другими словами, причем два каскада перекрывающегося критически дискретизированного преобразования соединяются каскадным способом.In embodiments, the cascaded overlapped critically sampled transform stage 104 may comprise at least two cascaded overlapped critically sampled transform stages, or in other words, the two overlapped critically sampled transform stages are connected in a cascaded manner.

Каскад каскадного перекрывающегося критически дискретизированного преобразования может представлять собой каскад каскадного MDCT (MDCT=модифицированное дискретное косинусное преобразование). Каскадный MDCT-каскад может содержать, по меньшей мере, два MDCT-каскада.The cascaded overlapped critically sampled transform cascade may be a cascaded MDCT (MDCT=Modified Discrete Cosine Transform) cascade. A cascaded MDCT cascade may comprise at least two MDCT cascades.

Естественно, каскад каскадного перекрывающегося критически дискретизированного преобразования также может представлять собой каскад каскадного MDST (MDST=модифицированное дискретное синусное преобразование) или MLT (MLT=модулированное перекрывающееся преобразование), содержащий, по меньшей мере, два MDST- или MLT-каскада, соответственно.Naturally, the cascaded overlapped critically sampled transform stage can also be a cascaded MDST (MDST=modified discrete sine transform) or MLT (MLT=modulated lapped transform) stage comprising at least two MDST or MLT stages, respectively.

Два соответствующих набора 110_1,1 и 110_2,1 подполосных выборок могут представлять собой подполосные выборки, соответствующие идентичной подполосе частот (т.е. полосе частот).The two respective sets 110_1,1 and 110_2,1 of subband samples may be subband samples corresponding to the same subband (ie frequency band).

Фиг. 2 показывает принципиальную блок-схему аудиопроцессора 100, выполненного с возможностью обрабатывать аудиосигнал 102, с тем чтобы получать подполосное представление аудиосигнала, согласно дополнительному варианту осуществления.Fig. 2 shows a schematic block diagram of an audio processor 100 configured to process an audio signal 102 to obtain a subband representation of the audio signal, according to a further embodiment.

Как показано на фиг. 2, каскад 104 каскадного перекрывающегося критически дискретизированного преобразования может содержать первый каскад 120 перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающиеся критически дискретизированные преобразования для первого блока 108_1 (2M) выборок (x_i-1(n), 0≤n≤2M-1) и второго блока 108_2 (2M) выборок (x_i(n), 0≤n≤2M-1), по меньшей мере, из двух частично перекрывающихся блоков 108_1 и 108_2 выборок аудиосигнала 102, с тем чтобы получать первый набор 124_1 из (M) бинов (LCST-коэффициентов) (X_i-1(k), 0≤k≤M-1) для первого блока 108_1 выборок и второй набор 124_2 из (M) бинов (LCST-коэффициентов) (X_i(k), 0≤k≤M-1) для второго блока 108_2 выборок.As shown in FIG. 2, the cascaded overlapped critically sampled transform stage 104 may comprise a first overlapped critically sampled transform stage 120 configured to perform overlapped critically sampled transforms for the first block 108_1(2M) of samples (x _i-1 (n), 0≤n≤2M- 1) and a second block 108_2 (2M) of samples (x _i (n), 0≤n≤2M-1) from at least two partially overlapping blocks 108_1 and 108_2 of samples of the audio signal 102 so as to obtain a first set 124_1 of (M) bins (LCST coefficients) (X _i-1 (k), 0≤k≤M-1) for the first block 108_1 samples and the second set 124_2 of (M) bins (LCST coefficients) (X _i (k ), 0≤k≤M-1) for the second block 108_2 samples.

Каскад 104 каскадного перекрывающегося критически дискретизированного преобразования может содержать второй каскад 126 перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающееся критически дискретизированное преобразование для сегмента 128_1,1 (собственного поднабора) (X_{v, i-1}(k)) первого набора 124_1 бинов и выполнять перекрывающееся критически дискретизированное преобразование для сегмента 128_2,1 (собственного поднабора) (X_{v, i}(k)) второго набора 124_2 бинов, причем каждый сегмент ассоциирован с подполосой частот аудиосигнала 102, с тем чтобы получать набор 110_1,1 подполосных выборок (ŷ_{v, i-1}(m)) для первого набора 124_1 бинов и набор 110_2,1 подполосных выборок (ŷ_{v, i}(m)) для второго набора 124_2 бинов.The cascaded overlapped critically sampled transform stage 104 may comprise a second overlapped critically sampled transform stage 126 configured to perform the overlapped critically sampled transform for the (own subset) segment 128_1,1 (X _{v, i-1} (k)) of the first bin set 124_1 and perform an overlapped critically sampled transform on the (own subset) segment 128_2,1 (X _{v, i} (k)) of the second bin set 124_2, with each segment associated with a subband of the audio signal 102, so as to obtain a subband sample set 110_1,1 (ŷ _{v, i-1} (m)) for the first bin set 124_1 and subband samples set 110_2,1 (ŷ _{v, i} (m)) for the second bin set 124_2.

Фиг. 3 показывает принципиальную блок-схему аудиопроцессора 100, выполненного с возможностью обрабатывать аудиосигнал 102, с тем чтобы получать подполосное представление аудиосигнала, согласно дополнительному варианту осуществления. Другими словами, фиг. 3 показывает схему гребенки аналитических фильтров. В силу этого, предполагаются соответствующие функции кодирования со взвешиванием. Следует отметить, что для простоты, на фиг. 3 указывается (только) обработка первой половины подполосного кадра (y[m], 0<=m<N/2) (т.е. только первая строка уравнения (6)).Fig. 3 shows a schematic block diagram of an audio processor 100 configured to process an audio signal 102 to obtain a subband representation of the audio signal, according to a further embodiment. In other words, FIG. 3 shows a schematic of an analytical filter bank. Therefore, appropriate weighting coding functions are assumed. It should be noted that for simplicity, in FIG. 3 indicates (only) the processing of the first half of the subband frame (y[m], 0<=m<N/2) (ie, only the first line of equation (6)).

Как показано на фиг. 3, первый каскад 120 перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять первое перекрывающееся критически дискретизированное преобразование 122_1 (например, MDCT i-1) для первого блока 108_1 (2M) выборок (x_i-1(n), 0≤n≤2M-1), с тем чтобы получать первый набор 124_1 из (M) бинов (LCST-коэффициентов) (X_i-1(k), 0≤k≤M-1) для первого блока 108_1 выборок, и выполнять второе перекрывающееся критически дискретизированное преобразование 122_2 (например, MDCT i) для второго блока 108_2 (2M) выборок (x_i(n), 0≤n≤2M-1), с тем чтобы получать второй набор 124_2 из (M) бинов (LCST-коэффициентов) (X_i(k), 0≤k≤M-1) для второго блока 108_2 выборок.As shown in FIG. 3, the first overlapped critically sampled transform stage 120 may be configured to perform the first overlapped critically sampled transform 122_1 (e.g., MDCT i-1) on the first block 108_1 (2M) of samples (x _i-1 (n), 0≤n≤ 2M-1) so as to obtain the first set 124_1 of (M) bins (LCST coefficients) (X _i-1 (k), 0≤k≤M-1) for the first sample block 108_1, and perform the second overlap critical sampling transform 122_2 (eg, MDCT i) for the second block 108_2 (2M) samples (x _i (n), 0≤n≤2M-1) to obtain a second set 124_2 of (M) bins (LCST coefficients) (X _i (k), 0≤k≤M-1) for the second block 108_2 samples.

Подробно, второй каскад 126 перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять перекрывающиеся критически дискретизированные преобразования, по меньшей мере, для двух частично перекрывающихся сегментов 128_1,1 и 128_1,2 (собственных поднаборов) (X_{v, i-1}(k)) первого набора 124_1 бинов и выполнять перекрывающиеся критически дискретизированные преобразования, по меньшей мере, для двух частично перекрывающихся сегментов 128_2,1 и 128_2,2 (собственных поднаборов) (X_{v, i}(k)) второго набора бинов, причем каждый сегмент ассоциирован с подполосой частот аудиосигнала, с тем чтобы получать, по меньшей мере, два набора 110_1,1 и 110_1,2 подполосных выборок (ŷ_{v, i-1}(m)) для первого набора 124_1 бинов и, по меньшей мере, два набора 110_2,1 и 110_2,2 подполосных выборок (ŷ_{v, i}(m)) для второго набора 124_2 бинов.In detail, the second overlapped critically sampled transform stage 126 may be configured to perform overlapped critically sampled transforms on at least two partially overlapping segments 128_1,1 and 128_1,2 (own subsets) (X _{v, i-1} (k) ) of the first bin set 124_1 and perform overlapping critically sampled transforms on at least two partially overlapping segments 128_2,1 and 128_2,2 (own subsets) (X _{v, i} (k)) of the second bin set, with each segment associated with subband of the audio signal so as to obtain at least two sets 110_1,1 and 110_1,2 subband samples (ŷ _{v, i-1} (m)) for the first set 124_1 bins and at least two sets 110_2, 1 and 110_2,2 subband samples (ŷ _{v, i} (m)) for the second bin set 124_2.

Например, первый набор 110_1,1 подполосных выборок может представлять собой результат первого перекрывающегося критически дискретизированного преобразования 132_1,1 на основе первого сегмента 132_1,1 первого набора 124_1 бинов, при этом второй набор 110_1,2 подполосных выборок может представлять собой результат второго перекрывающегося критически дискретизированного преобразования 132_1,2 на основе второго сегмента 128_1,2 первого набора 124_1 бинов, при этом третий набор 110_2,1 подполосных выборок может представлять собой результат третьего перекрывающегося критически дискретизированного преобразования 132_2,1 на основе первого сегмента 128_2,1 второго набора 124_2 бинов, при этом четвертый набор 110_2,2 подполосных выборок может представлять собой результат четвертого перекрывающегося критически дискретизированного преобразования 132_2,2 на основе второго сегмента 128_2,2 второго набора 124_2 бинов.For example, the first subband sample set 110_1,1 may be the result of a first overlapped critically sampled transform 132_1,1 based on the first segment 132_1,1 of the first bin set 124_1, while the second subband sample set 110_1,2 may be the result of a second overlapped critically sampled transforms 132_1,2 based on the second segment 128_1,2 of the first bin set 124_1, wherein the third subband sample set 110_2,1 may be the result of a third overlapped critically sampled transform 132_2,1 based on the first segment 128_2,1 of the second bin set 124_2, with whereby the fourth subband sample set 110_2,2 may be the result of a fourth overlapped critically sampled transform 132_2,2 based on the second segment 128_2,2 of the second bin set 124_2.

В силу этого, каскад 106 уменьшения наложения спектров во временной области может быть выполнен с возможностью выполнять комбинирование со взвешиванием первого набора 110_1,1 подполосных выборок и третьего набора 110_2,1 подполосных выборок, с тем чтобы получать первое подполосное представление 112_1 с уменьшенным наложением спектров (y_1,i[m₁]) аудиосигнала, при этом каскад 106 уменьшения наложения спектров в области может быть выполнен с возможностью выполнять комбинирование со взвешиванием второго набора 110_1,2 подполосных выборок и четвертого набора 110_2,2 подполосных выборок, с тем чтобы получать второе подполосное представление 112_2 с уменьшенным наложением спектров (y_2,i[m₂]) аудиосигнала.Because of this, the time domain de-aliasing stage 106 can be configured to weight-combine the first sub-band sample set 110_1,1 and the third sub-band sample set 110_2,1 to obtain a first de-aliased sub-band representation 112_1 ( y _1,i [m ₁ ]) of the audio signal, wherein the domain de-aliasing stage 106 can be configured to weight-combine the second subband sample set 110_1,2 and the fourth subband sample set 110_2,2 to obtain a second sub-band representation 112_2 with reduced aliasing (y _2,i [m ₂ ]) of the audio signal.

Фиг. 4 показывает принципиальную блок-схему аудиопроцессора 200 для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал 102, согласно варианту осуществления. Аудиопроцессор 200 содержит каскад 202 обратного уменьшения наложения спектров во временной области (TDAR) и каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования (LCST).Fig. 4 shows a schematic block diagram of an audio processor 200 for processing subband representation of an audio signal so as to obtain an audio signal 102, according to an embodiment. The audio processor 200 includes a time domain inverse aliasing reduction (TDAR) stage 202 and a cascaded inverse overlapping critically sampled transform (LCST) stage 204 .

Каскад 202 обратного уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием (и сдвигом) двух соответствующих подполосных представлений 112_1 и 112_2 с уменьшенным наложением спектров (y_{v, i}(m), y_{v, i-1}(m)) аудиосигнала 102, с тем чтобы получать подполосное представление 110_1 с наложением спектров (ŷ_{v, i}(m)), при этом подполосное представление с наложением спектров представляет собой набор 110_1 подполосных выборок.The inverse time domain de-aliasing stage 202 is configured to weight (and shift) combine the two respective de-aliased sub-band representations 112_1 and 112_2 (y _{v, i} (m), y _{v, i-1} (m)) audio signal 102 to obtain a sub-band aliased representation 110_1 (ŷ _{v, i} (m)), wherein the sub-band aliased representation is a set 110_1 of sub-band samples.

Каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять каскадное обратное перекрывающееся критически дискретизированное преобразование для набора 110_1 подполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком 108_1 выборок аудиосигнала 102.The cascaded inverse overlapped critically sampled transform stage 204 is configured to perform a cascaded inverse overlapped critically sampled transform on subband sample set 110_1 to obtain a set of samples associated with sample block 108_1 of audio signal 102.

Фиг. 5 показывает принципиальную блок-схему аудиопроцессора 200 для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал 102, согласно дополнительному варианту осуществления. Каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать первый каскад 208 обратного перекрывающегося критически дискретизированного преобразования (LCST) и первый каскад 210 суммирования с перекрытием.Fig. 5 shows a schematic block diagram of an audio processor 200 for processing a subband representation of an audio signal so as to obtain an audio signal 102, according to a further embodiment. The cascaded inverse overlapped critically sampled transform stage 204 may comprise a first inverse overlapped critically sampled transform (LCST) stage 208 and a first overlap summation stage 210 .

Первый каскад 208 обратного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора 110_1,1 подполосных выборок, с тем чтобы получать набор 128_1,1 бинов, ассоциированных с данной подполосой частот аудиосигнала (

_{v, i}(k)).The first inverse lap critically sampled transform stage 208 may be configured to perform an inverse lap critically sampled transform on the subband sample set 110_1,1 to obtain a set 128_1,1 of bins associated with a given audio subband (

_{v, i} (k)).

Первый каскад 210 суммирования с перекрытием может быть выполнен с возможностью выполнять конкатенацию наборов бинов, ассоциированных с множеством подполос частот аудиосигнала, что содержит комбинирование со взвешиванием набора 128_1,1 бинов (

_{v, i(}k)), ассоциированных с данной подполосой (v) частот аудиосигнала 102, с набором 128_1,2 бинов (

_v-1,(k)), ассоциированных с другой подполосой (v-1) частот аудиосигнала 102, с тем чтобы получать набор 124_1 бинов, ассоциированных с блоком 108_1 выборок аудиосигнала 102.The first overlap summation stage 210 may be configured to concatenate the sets of bins associated with the plurality of audio subbands, which comprises weighting the set of 128_1.1 bins (

_{v, i(} k)) associated with a given subband (v) of the audio signal 102, with a set of 128_1,2 bins (

_v-1, (k)) associated with another sub-band (v-1) of the frequencies of the audio signal 102 in order to obtain a set 124_1 of bins associated with the sample block 108_1 of the audio signal 102.

Как показано на фиг. 5, каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать второй каскад 212 обратного перекрывающегося критически дискретизированного преобразования (LCST), выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора 124_1 бинов, ассоциированных с блоком 108_1 выборок аудиосигнала 102, с тем чтобы получать набор 206_1,1 выборок, ассоциированных с блоком 108_1 выборок аудиосигнала 102.As shown in FIG. 5, the cascaded inverse overlap critically sampled transform stage 204 may comprise a second inverse overlap critically sampled transform (LCST) stage 212 configured to perform an inverse overlap critically sampled transform on the set 124_1 of bins associated with the sample block 108_1 of the audio signal 102 so as to obtain a set 206_1,1 of samples associated with block 108_1 of samples of the audio signal 102.

Дополнительно, каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать второй каскад 214 суммирования с перекрытием, выполненный с возможностью суммировать с перекрытием набор 206_1,1 выборок, ассоциированных с блоком 108_1 выборок аудиосигнала 102, и другой набор 206_2,1 выборок, ассоциированных с другим блоком 108_2 выборок аудиосигнала, причем блок 108_1 выборок и другой блок 108_2 выборок аудиосигнала 102 частично перекрываются, с тем чтобы получать аудиосигнал 102.Additionally, the cascaded inverse overlap critically sampled transform stage 204 may comprise a second lap-add stage 214 configured to overlap-add a set 206_1,1 of samples associated with block 108_1 of samples of audio signal 102 and another set 206_2,1 of samples associated with another an audio sample block 108_2, wherein the sample block 108_1 and the other sample block 108_2 of the audio signal 102 partially overlap so as to obtain the audio signal 102.

Фиг. 6 показывает принципиальную блок-схему аудиопроцессора 200 для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал 102, согласно дополнительному варианту осуществления. Другими словами, фиг. 6 показывает схему гребенки синтезирующих фильтров. В силу этого, предполагаются соответствующие функции кодирования со взвешиванием. Следует отметить, что для простоты, на фиг. 6 указывается (только) обработка первой половины подполосного кадра (y[m], 0<=m<N/2) (т.е. только первая строка уравнения (6)).Fig. 6 shows a schematic block diagram of an audio processor 200 for processing subband representation of an audio signal so as to obtain an audio signal 102, according to a further embodiment. In other words, FIG. 6 shows a schematic of a synthesis filter bank. Therefore, appropriate weighting coding functions are assumed. It should be noted that for simplicity, in FIG. 6 indicates (only) the processing of the first half of the subband frame (y[m], 0<=m<N/2) (ie, only the first line of equation (6)).

Как описано выше, аудиопроцессор 200 содержит каскад 202 обратного уменьшения наложения спектров во временной области и каскад 204 обратного каскадного перекрывающегося критически дискретизированного преобразования, содержащий первый каскад 208 обратного перекрывающегося критически дискретизированного преобразования и второй каскад 212 обратного перекрывающегося критически дискретизированного преобразования.As described above, the audio processor 200 comprises a time domain inverse aliasing reduction stage 202 and an inverse lapped critically sampled transform stage 204 comprising a first inverse lapped critically sampled transform stage 208 and a second inverse lapped critically sampled transform stage 212.

Каскад 104 обратного уменьшения во временной области выполнен с возможностью выполнять первое комбинирование 220_1 со взвешиванием и сдвигом первого и второго подполосных представлений y_1,i-1[_m1] и y_1,i[_m1] с уменьшенным наложением спектров, с тем чтобы получать первое подполосное представление 110_1,1 ŷ_1,i[m₁] с наложением спектров, при этом подполосное представление с наложением спектров представляет собой набор подполосных выборок, и выполнять второе комбинирование 220_2 со взвешиванием и сдвигом третьего и четвертого подполосных представлений y_2,i-1[_m1] и y_2,i[_m1] с уменьшенным наложением спектров, с тем чтобы получать второе подполосное представление 110_2,1 ŷ_2,i[m₁] с наложением спектров, при этом подполосное представление с наложением спектров представляет собой набор подполосных выборок.The time domain inverse reduction stage 104 is configured to perform a first weighted and shifted combination 220_1 of the first and second subband representations y _1,i-1 [ _m1 ] and y _1,i [ _m1 ] with reduced aliasing, so as to obtain the first sub-band representation 110_1,1 ŷ _1,i [m ₁ ] with aliasing, wherein the sub-band representation with aliasing is a set of sub-band samples, and perform the second combination 220_2 with weighting and shifting the third and fourth sub-band representations y _2,i-1 [ _m1 ] and y _2,i [ _m1 ] with reduced aliasing to obtain a second aliased subband representation 110_2,1 ŷ _2,i [m ₁ ], where the aliased subband representation is a set of subband samples .

Первый каскад 208 обратного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять первое обратное перекрывающееся критически дискретизированное преобразование 222_1 для первого набора 110_1,1 ŷ_1,i[m₁] подполосных выборок, с тем чтобы получать набор 128_1,1 бинов, ассоциированных с данной подполосой частот аудиосигнала (

_1,1(k)), и выполнять второе обратное перекрывающееся критически дискретизированное преобразование 222_2 для второго набора 110_2,1 ŷ_2,i[m₁] подполосных выборок, с тем чтобы получать набор 128_2,1 бинов, ассоциированных с данной подполосой частот аудиосигнала (

_2,1(k)).The first inverse overlap critically sampled transform stage 208 is configured to perform the first inverse overlap critically sampled transform 222_1 on the first set 110_1.1 ŷ _1,i [m ₁ ] of subband samples to obtain a set 128_1.1 of bins associated with a given subband audio signal frequencies (

_1,1 (k)), and perform a second inverse overlap critically sampled transform 222_2 on the second set 110_2,1 ŷ _2,i [m ₁ ] of subband samples to obtain a set 128_2,1 of bins associated with that audio subband. (

_2.1 (k)).

Второй каскад 212 обратного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для перекрывающегося и суммированного набора бинов, полученного посредством перекрытия и суммирования наборов 128_1,1 и 128_2,1 бинов, предоставленных посредством первого каскада 208 обратного перекрывающегося критически дискретизированного преобразования, с тем чтобы получать блок 108_2 выборок.The second inverse overlap critically sampled transform stage 212 is configured to perform an inverse overlap critically sampled transform on the overlapped and summed set of bins obtained by overlapping and summing the bin sets 128_1,1 and 128_2,1 provided by the first inverse overlapping critically sampled transform stage 208, so as to obtain a block 108_2 samples.

Далее описываются варианты осуществления аудиопроцессоров, показанных на фиг. 1-6, в которых примерно предполагается, что каскад 104 каскадного перекрывающегося критически дискретизированного преобразования представляет собой MDCT-каскад, т.е. первый и второй каскады 120 и 126 перекрывающегося критически дискретизированного преобразования представляют собой MDCT-каскады, и каскад 204 обратного каскадного перекрывающегося критически дискретизированного преобразования представляет собой обратный каскадный MDCT-каскад, т.е. первый и второй каскады 120 и 126 обратного перекрывающегося критически дискретизированного преобразования представляют собой обратные MDCT-каскады. Естественно, нижеприведенное описание также является применимым к другим вариантам осуществления каскада 104 каскадного перекрывающегося критически дискретизированного преобразования и каскада 204 обратного перекрывающегося критически дискретизированного преобразования, к примеру, к каскадному MDST- или MLT-каскаду или к обратному каскадному MDST- или MLT-каскаду.The following describes embodiments of the audio processors shown in FIG. 1-6, in which it is roughly assumed that the cascaded overlapped critically sampled transform stage 104 is an MDCT stage, i. e. the first and second overlapped critically sampled transform stages 120 and 126 are MDCT stages, and the inverse staged overlapped critically sampled transform stage 204 is an inverse staged MDCT stage, i. e. the first and second stages 120 and 126 of the inverse overlapped critically sampled transform are inverse MDCT stages. Naturally, the description below is also applicable to other embodiments of the cascaded overlapped critically sampled transform stage 104 and the inverse overlapped critically sampled transform stage 204, such as a cascaded MDST or MLT stage, or an inverse cascaded MDST or MLT stage.

В силу этого, описанные варианты осуществления могут работать для последовательности MDCT-спектров ограниченной длины и использовать MDCT и уменьшение наложения спектров во временной области (TDAR) в качестве операции подполосного объединения. Результирующая неравномерная гребенка фильтров является перекрывающейся, ортогональной и обеспечивает подполосные ширины k=2ⁿ, где n∈N. Вследствие TDAR, может достигаться временно и спектрально более компактная подполосная импульсная характеристика.Because of this, the described embodiments can work for a sequence of MDCT spectra of limited length and use MDCT and time domain alias reduction (TDAR) as a subband combining operation. The resulting non-uniform filterbank is overlapped, orthogonal, and provides subband widths k=2 ⁿ , where n∈N. Due to TDAR, a temporally and spectrally more compact subband impulse response can be achieved.

Далее описываются варианты осуществления гребенки фильтров.The following describes embodiments of the filter bank.

Реализация гребенки фильтров непосредственно базируется на общих схемах перекрывающегося MDCT-преобразования: Исходное преобразование с перекрытием и кодированием со взвешиванием остается неизменным.The implementation of the filterbank is directly based on the general schemes of the lapped MDCT transform: The original lapped and weighted transform remains unchanged.

Без потери общности, следующая система обозначений допускает ортогональные MDCT-преобразования, например, в которых функции аналитического и синтезирующего кодирования со взвешиванием являются идентичными.Without loss of generality, the following notation allows orthogonal MDCT transforms, for example, in which the analytic and synthesis weighted coding functions are identical.

где k(k, n, M) является ядром MDCT-преобразования, и h(n) является подходящей функцией аналитического кодирования со взвешиванием.where k(k, n, M) is the kernel of the MDCT transform and h(n) is the appropriate weighted analytic coding function.

Вывод этого преобразования X_i(k) после этого сегментируется на v подполос частот с отдельными ширинами N_vи снова преобразуется с использованием MDCT. Это приводит к гребенке фильтров с перекрытием во временном и спектральном направлении.The output of this transformation X _i (k) is then segmented into v sub-bands with individual widths N _v and transformed again using MDCT. This results in a filter bank with overlap in the temporal and spectral directions.

Для упрощения системы обозначений в данном документе, используется один общий коэффициент N объединения для всех подполос частот; тем не менее, любое допустимое переключение/упорядочение функции MDCT-кодирования со взвешиванием может использоваться для того, чтобы реализовывать требуемое частотно-временное разрешение. Ниже содержится дополнительная информация относительно проектирования разрешения.To simplify the notation in this document, one common pooling factor N is used for all subbands; however, any allowable switching/ordering of the weighted MDCT coding function may be used in order to realize the desired time-frequency resolution. The following contains additional information regarding resolution design.

(4)

где w(k) является подходящей функцией аналитического кодирования со взвешиванием и, в общем, отличается от h(n) по размеру и может отличаться по типу функции кодирования со взвешиванием. Поскольку варианты осуществления применяют функцию кодирования со взвешиванием в частотной области, следует заметить, что временная и частотная избирательность функции кодирования со взвешиванием переставляются.where w(k) is an appropriate analytic weighting coding function and is generally different from h(n) in size and may be different in the type of weighting coding function. Since the embodiments apply a weighted coding function in the frequency domain, it should be noted that the time and frequency selectivity of the weighted coding function are interchanged.

Для надлежащей обработки границ, дополнительное смещение в N/2 может вводиться в уравнении (4), комбинированное с прямоугольными половинами начального/конечного окна кодирования со взвешиванием на границах. Также для упрощения системы обозначений, это смещение не учитывается здесь.For proper edge handling, an additional N/2 offset can be introduced in Equation (4) combined with the rectangular halves of the start/end edge-weighted coding window. Also, to simplify the notation, this offset is not taken into account here.

Вывод

представляет собой список v-векторов отдельных длин N_v коэффициентов с соответствующими полосами

пропускания и временным разрешением, пропорциональным этой полосе пропускания.Conclusion

is a list of v-vectors of distinct lengths of N _v coefficients with corresponding bands

bandwidth and a temporal resolution proportional to that bandwidth.

Тем не менее, эти векторы содержат наложение спектров из исходного MDCT-преобразования и в силу этого демонстрируют плохую временную компактность. Чтобы компенсировать это наложение спектров, TDAR может упрощаться.However, these vectors contain aliasing from the original MDCT transform and therefore exhibit poor temporal compactness. To compensate for this aliasing, TDAR can be simplified.

Выборки, используемые для TDAR, извлекаются из двух смежных блоков v подполосных выборок в текущем и предыдущем MDCT-кадре i и i-1. Результат представляет собой уменьшенное наложение спектров во второй половине предыдущего кадра и в первой половине второго кадра.The samples used for TDAR are drawn from two adjacent blocks v of subband samples in the current and previous MDCT frame i and i-1. The result is a reduced aliasing in the second half of the previous frame and the first half of the second frame.

- для 0≤m<N/2 при:- for 0≤m<N/2 with:

TDAR-коэффициенты a_v(m), b_v(m), c_y(m) и d_v(m) могут проектироваться с возможностью минимизировать остаточное наложение спектров. Ниже вводится простой способ оценки на основе функции g(n) синтезирующего кодирования со взвешиванием.The TDAR coefficients a _v (m), b _v (m), c _y (m), and d _v (m) can be designed to minimize residual aliasing. In the following, a simple evaluation method based on the function g(n) of weighted synthesis coding is introduced.

Также следует отметить, что, если A является несингулярной, операции (6) и (8) соответствуют биортогональной системе. Дополнительно, если g(n)=h(n) и v(k)=w(k), например, оба MDCT являются ортогональными, и матрица A является ортогональной, полный конвейер составляет ортогональное преобразование.It should also be noted that if A is nonsingular, operations (6) and (8) correspond to a biorthogonal system. Additionally, if g(n)=h(n) and v(k)=w(k), for example, both MDCTs are orthogonal and matrix A is orthogonal, the full pipeline constitutes an orthogonal transformation.

Чтобы вычислять обратное преобразование, выполняется первое обратное TDAR,To calculate the inverse transform, the first inverse TDAR is performed,

после которого выполняется обратное MDCT, и должно выполняться подавление наложения спектров во временной области (TDAC, хотя подавление наложения спектров осуществляется вдоль частотной оси здесь), с тем чтобы подавлять наложение спектров, сформированное в уравнении 5:after which an inverse MDCT is performed and time-domain aliasing suppression (TDAC, although aliasing suppression is performed along the frequency axis here) must be performed in order to suppress the aliasing generated in Equation 5:

В завершение, начальное MDCT в уравнении 2 инвертируется, и снова выполняется TDAC:Finally, the initial MDCT in Equation 2 is inverted and TDAC is performed again:

Далее описываются проектные ограничения частотно-временного разрешения. Хотя любое требуемое частотно-временное разрешение является возможным, некоторые ограничения для проектирования результирующих функций кодирования со взвешиванием должны соблюдаться с тем, чтобы обеспечивать обратимость. В частности, наклоны двух смежных подполос частот могут быть симметричными таким образом, что уравнение (6) удовлетворяет условию Принцена-Брэдли [J. Princen, A. Johnson и A. Bradley, "Subband/transform coding using filter bank designs based on time domain aliasing cancellation", in Acoustics, Speech and Signal Processing, IEEE International Conference on ICASSP '87, апрель года 1987, издание 12, стр. 2161-2164]. Схема переключения окон кодирования со взвешиванием, введенная в [B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen", Frequenz, издание 43, стр. 252-256, сентябрь 1989 года], первоначально спроектированная с возможностью противостоять эффектам опережающего эхо, может применяться здесь. См. [Olivier Derrien, Thibaud Necciari и Peter Balazs, "A quasi-orthogonal, invertible and perceptually relevant time-frequency transform for audio coding", in EUSIPCO, Ницца, Франция, август 2015 года].The following describes the design limitations of the time-frequency resolution. Although any desired time-frequency resolution is possible, some restrictions on the design of the resulting weighted coding functions must be observed in order to ensure reversibility. In particular, the slopes of two adjacent subbands may be symmetrical such that equation (6) satisfies the Prinzen-Bradley condition [J. Princen, A. Johnson and A. Bradley, "Subband/transform coding using filter bank designs based on time domain aliasing cancellation", in Acoustics, Speech and Signal Processing, IEEE International Conference on ICASSP '87, April 1987, Edition 12, pp. 2161-2164]. The weighted coding window switching scheme introduced in [B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen", Frequenz, edition 43, pp. 252-256, September 1989], originally designed to resist pre-echo effects, can be applied here. See [Olivier Derrien, Thibaud Necciari and Peter Balazs, "A quasi-orthogonal, invertible and perceptually relevant time-frequency transform for audio coding", in EUSIPCO, Nice, France, August 2015].

Во-вторых, сумма всех длин вторых MDCT-преобразований должна составлять в сумме общую длину предоставленных MDCT-коэффициентов. Полосы частот могут выбираться с возможностью не преобразовываться с использованием единичной ступенчатой функции кодирования со взвешиванием с нулями в требуемых коэффициентах. Тем не менее, свойства симметрии соседних функций кодирования со взвешиванием должны отслеживаться [B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen", Frequenz, издание 43, стр. 252-256, сентябрь 1989 года]. Результирующее преобразование должно давать в результате нули в этих полосах частот, так что исходные коэффициенты могут непосредственно использоваться.Second, the sum of all lengths of the second MDCT transforms must add up to the total length of the provided MDCT coefficients. The frequency bands may be chosen to not be transformed using a unit coding step function, weighted with zeros in the required coefficients. However, the symmetry properties of neighboring weighted coding functions must be monitored [B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen", Frequenz, edition 43, pp. 252-256, September 1989]. The resulting transform should result in zeros in these frequency bands so that the original coefficients can be directly used.

В качестве возможного частотно-временного разрешения, полосы частот коэффициентов масштабирования из наиболее современных аудиокодеров могут непосредственно использоваться.As a possible time-frequency resolution, scaling factor bands from most modern audio encoders can be directly used.

Далее описывается вычисление коэффициентов уменьшения наложения спектров во временной области (TDAR).The following describes the calculation of aliasing reduction factors in the time domain (TDAR).

Согласно вышеуказанному временному разрешению, каждая подполосная выборка соответствует M/N_v исходных выборок или интервалу N_v, умноженному на размер, в качестве одной исходной выборки.According to the above temporal resolution, each subband sample corresponds to M/N _v original samples, or an interval of N _v times the size, as one original sample.

Кроме того, величина наложения спектров в каждой подполосной выборке зависит от величины наложения спектров в интервале, который она представляет. Поскольку наложение спектров взвешивается с помощью функции h(n) аналитического кодирования со взвешиванием, использование приближенного значения функции синтезирующего кодирования со взвешиванием в каждом интервале подполосной выборки предполагается в качестве хорошей первой оценки для TDAR-коэффициента.In addition, the amount of aliasing in each subband sample depends on the amount of aliasing in the interval it represents. Since the aliasing is weighted by the analytic weighting function h(n), using an approximation of the weighted synthesis coding function in each subband sampling interval is assumed to be a good first estimate for the TDAR coefficient.

Эксперименты демонстрируют, что две очень простых схемы вычисления коэффициентов обеспечивают хорошие начальные значения с улучшенной временной и спектральной компактностью. Оба способа основаны на гипотетической функции g_v(m) синтезирующего кодирования со взвешиванием длины 2N_v.Experiments demonstrate that two very simple coefficient calculation schemes provide good initial values with improved temporal and spectral compactness. Both methods are based on a hypothetical function g _v (m) of 2N _v length-weighted synthesis coding.

1) Для параметрических функций кодирования со взвешиванием, таких как синусоидальные или извлеченные методом Кайзера-Бесселя, может задаваться простое более короткое окно кодирования со взвешиванием идентичного типа.1) Parametric weighted coding functions such as sinusoidal or Kaiser-Bessel derived coding functions can be given a simple shorter weighted coding window of the same type.

2) Как для параметрических, так и для табличных функций кодирования со взвешиванием без закрытого представления, окно может разделяться на 2N_v секций равного размера, обеспечивая возможность получения коэффициентов с использованием среднего значения каждой секции:2) For both parametric and tabular weighted coding functions without closed representation, the window may be divided into 2N _v sections of equal size, allowing the coefficients to be obtained using the average of each section:

С учетом граничных MDCT-условий и зеркалирования наложения спектров, в таком случае в результате получаются TDAR-коэффициенты:Taking into account the MDCT boundary conditions and aliasing mirroring, in this case, the result is the TDAR coefficients:

или в случае ортогонального преобразования:or in case of orthogonal transformation:

Независимо от того, какое решение по аппроксимации коэффициентов выбрано, при условии, что A является несингулярной, идеальное восстановление всей гребенки фильтров сохраняется. В других отношениях субоптимальный выбор коэффициентов должен затрагивать только величину остаточного наложения спектров в подполосном сигнале y_{v, i}(m); тем не менее, не в сигнале x(n), синтезированном посредством гребенки обратных фильтров.No matter which coefficient fitting solution is chosen, as long as A is non-singular, the perfect recovery of the entire filterbank is preserved. In other respects, the suboptimal choice of coefficients should only affect the amount of residual aliasing in the subband signal y _{v, i} (m); however, not in the signal x(n) synthesized by the inverse filter bank.

Фиг. 7 показывает на схемах пример подполосных выборок (верхний график) и разброс их выборок по времени и частоте (нижний график). Снабженная примечаниями выборка имеет более широкую полосу пропускания, но меньший разброс по времени, чем нижние выборки. Функции аналитического кодирования со взвешиванием (нижний график) имеют полное разрешение одного коэффициента в расчете на исходную временную выборку. TDAR-коэффициенты в силу этого должны аппроксимироваться (снабжаться посредством точки) для каждой временной области подполосных выборок (m=256:::384).Fig. 7 shows diagrammatically an example of sub-band samples (upper plot) and the spread of their samples in time and frequency (lower plot). The annotated sample has a wider bandwidth but less time spread than the lower samples. Weighted analytic coding functions (bottom plot) have a full resolution of one coefficient per original time sample. The TDAR coefficients therefore need to be approximated (provided with a dot) for each subband sample time domain (m=256:::384).

Далее описываются результаты (моделирования).The results (simulations) are described next.

Фиг. 8 показывает спектральную и временную неопределенность, полученную посредством нескольких различных преобразований, как показано в [Frederic Bimbot, Ewen Camberlein и Pierrick Philippe, "Adaptive filter banks using fixed size mdct and subband merging for audio coding-comparison with the mpeg aac filter banks", in Audio Engineering Society Convention, октябрь 2006 года].Fig. 8 shows the spectral and temporal uncertainty obtained through several different transformations, as shown in [Frederic Bimbot, Ewen Camberlein and Pierrick Philippe, "Adaptive filter banks using fixed size mdct and subband merging for audio coding-comparison with the mpeg aac filter banks", in Audio Engineering Society Convention, October 2006].

Можно видеть, что преобразования на основе матрицы Адамара предлагают сильно ограниченные характеристики частотно-временного компромисса. Для растущих размеров объединения, дополнительное временное разрешение приводит к непропорционально высоким затратам в спектральной неопределенности.It can be seen that the Hadamard matrix transforms offer highly limited time-frequency trade-off characteristics. For growing pool sizes, the additional temporal resolution results in a disproportionately high cost in spectral uncertainty.

Другими словами, фиг. 8 показывает сравнение спектрального и временного энергетического уплотнения различных преобразований. Встроенные метки обозначают длины кадров для MDCT, коэффициенты разбиения для разбиения Гейзенберга и коэффициенты объединения для всего остального.In other words, FIG. 8 shows a comparison of the spectral and temporal energy multiplexing of various transforms. Built-in labels indicate frame lengths for MDCT, split factors for Heisenberg split, and pool factors for everything else.

Тем не менее, подполосное объединение с TDAR имеет линейный компромисс между временной и спектральной неопределенностью, параллельно простому равномерному MDCT. Их произведение является постоянным, хотя немного выше, чем простое равномерное MDCT. Для этого анализа, синусоидальная функция аналитического кодирования со взвешиванием и извлеченная методом Кайзера-Бесселя функция кодирования со взвешиванием при подполосном объединении демонстрируют наиболее компактные результаты и в силу этого выбираются.However, sub-band combining with TDAR has a linear trade-off between temporal and spectral uncertainty, parallel to simple uniform MDCT. Their product is constant, although slightly higher than the simple uniform MDCT. For this analysis, the sinusoidal analytic weighted coding function and the derived Kaiser-Bessel weighted coding function under subband combining show the most compact results and are therefore chosen.

Тем не менее, кажется, что использование TDAR для коэффициента объединения N_v=2 снижает временную и спектральную компактность. Это обусловлено тем, что схема вычисления коэффициентов, введенная в разделе II-B, является слишком упрощенной и не аппроксимирует надлежащим образом значения для крутых наклонов функции кодирования со взвешиванием. Схема числовой оптимизации должна представляться в последующей публикации.However, it seems that using TDAR for the pooling factor N _v =2 reduces temporal and spectral compactness. This is because the coefficient calculation scheme introduced in Section II-B is too simplistic and does not properly approximate the values for the steep slopes of the weighted coding function. The numerical optimization scheme should be presented in a subsequent publication.

Эти значения компактности вычислены с использованием центра cog тяжести и эффективной длины

квадратной формы импульсной характеристики

, заданной как [Athanasios Papoulis, "Signal analysis", Electrical and electronic engineering series, McGraw-Hill, Нью-Йорк, Сан-Франциско, Париж, 1977 год].These compactness values are calculated using the center of gravity and the effective length

square wave impulse response

given as [Athanasios Papoulis, "Signal analysis", Electrical and electronic engineering series, McGraw-Hill, New York, San Francisco, Paris, 1977].

Показаны средние значения всех импульсных характеристик каждой отдельной гребенки фильтров.The average values of all impulse responses of each individual filter bank are shown.

Фиг. 9 показывает сравнение двух примерных импульсных характеристик, сформированных посредством подполосного объединения с и без TDAR, простых коротких MDCT-блоков и подполосного объединения на основе матрицы Адамара, как предложено в [O.A. Niamut и R. Heusdens, "Flexible frequency decompositions for cosine-modulated filter banks", in Acoustics, Speech and Signal Processing, 2003. Proceedings (ICASSP '03), 2003 IEEE International Conference on, апрель 2003 года, издание 5, стр. V-449-52, издание 5].Fig. 9 shows a comparison of two exemplary impulse responses generated by sub-band combining with and without TDAR, simple short MDCT blocks, and sub-band combining based on the Hadamard matrix as proposed in [O.A. Niamut and R. Heusdens, "Flexible frequency decompositions for cosine-modulated filter banks", in Acoustics, Speech and Signal Processing, 2003. Proceedings (ICASSP '03), 2003 IEEE International Conference on April 2003, Edition 5, p. V-449-52, edition 5].

Плохая временная компактность преобразования с объединением на основе матрицы Адамара является четко видимой. Также можно четко видеть, что большинство артефактов наложения спектров в подполосе частот значительно уменьшаются посредством TDAR.The poor temporal compactness of the Hadamard-based union transformation is clearly visible. It can also be clearly seen that most subband aliasing artifacts are greatly reduced by TDAR.

Другими словами, фиг. 9 показывает примерные импульсные характеристики объединенного подполосного фильтра, содержащего 8 из 1024 исходных бинов, с использованием способа, предложенного здесь без TDAR, с TDAR, способа, предложенного в [O.A. Niamut и R. Heusdens, "Subband merging in cosine-modulated filter banks", Signal Processing Letters, IEEE, издание 10, № 4, стр. 111-114, апрель 2003 года], и с использованием меньшей длины MDCT-кадра в 256 выборок.In other words, FIG. 9 shows exemplary impulse responses of a combined subband filter containing 8 out of 1024 original bins using the method proposed here without TDAR, with TDAR, the method proposed in [O.A. Niamut and R. Heusdens, "Subband merging in cosine-modulated filter banks", Signal Processing Letters, IEEE, Vol. 10, No. 4, pp. 111-114, April 2003], and using a shorter MDCT frame length of 256 samples.

Фиг. 10 показывает блок-схему последовательности операций способа 300 для обработки аудиосигнала, с тем чтобы получать подполосное представление аудиосигнала. Способ 300 содержит этап 302 выполнения каскадного перекрывающегося критически дискретизированного преобразования, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор подполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор подполосных выборок на основе второго блока выборок аудиосигнала. Дополнительно, способ 300 содержит этап 304 выполнения комбинирования со взвешиванием двух соответствующих наборов подполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, и один из них получен на основе второго блока выборок аудиосигнала, с тем чтобы получать подполосное представление с уменьшенным наложением спектров аудиосигнала.Fig. 10 shows a flow diagram of a method 300 for processing an audio signal so as to obtain a subband representation of the audio signal. Method 300 comprises 302 performing a cascaded overlapping critically sampled transform on at least two partially overlapping blocks of audio samples to obtain a set of subband samples based on the first block of audio samples and obtain a corresponding set of subband samples based on the second block of audio samples. Additionally, the method 300 comprises 304 performing a weighted combination of two respective sets of subband samples, one of them derived from the first block of audio samples and one of them derived from the second block of audio samples, so as to obtain a reduced aliasing subband representation. spectra of the audio signal.

Фиг. 11 показывает блок-схему последовательности операций способа 400 для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал. Способ 400 содержит этап 402 выполнения комбинирования со взвешиванием (и сдвигом) двух соответствующих подполосных представлений с уменьшенным наложением спектров (различных блоков частично перекрывающихся выборок) аудиосигнала, с тем чтобы получать подполосное представление с наложением спектров, при этом подполосное представление с наложением спектров представляет собой набор подполосных выборок. Дополнительно, способ 400 содержит этап 404 выполнения каскадного обратного перекрывающегося критически дискретизированного преобразования для набора подполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.Fig. 11 shows a flow diagram of a method 400 for processing a subband representation of an audio signal so as to obtain an audio signal. The method 400 comprises a step 402 of performing a weighted (and shifted) combination of two respective reduced aliasing subband representations (different blocks of partially overlapping samples) of an audio signal to obtain a aliased subband representation, where the aliased subband representation is a set subband samples. Additionally, method 400 comprises 404 performing a cascaded inverse overlap critically sampled transform on a set of subband samples to obtain a set of samples associated with a block of audio samples.

Фиг. 12 показывает принципиальную блок-схему аудиокодера 150, согласно варианту осуществления. Аудиокодер 150 содержит аудиопроцессор (100), как описано выше, кодер 152, выполненный с возможностью кодировать подполосное представление с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать кодированное подполосное представление с уменьшенным наложением спектров аудиосигнала, и модуль 154 формирования потоков битов, выполненный с возможностью формировать поток 156 битов из кодированного подполосного представления с уменьшенным наложением спектров аудиосигнала.Fig. 12 shows a schematic block diagram of an audio encoder 150, according to an embodiment. The audio encoder 150 comprises an audio processor (100) as described above, an encoder 152 configured to encode a de-aliased sub-band representation of an audio signal so as to obtain a de-aliased sub-band encoded representation of the audio signal, and a bit stream generator 154 configured to generate a stream of 156 bits from the encoded sub-band representation with reduced aliasing of the audio signal.

Фиг. 13 показывает принципиальную блок-схему аудиодекодера 250, согласно варианту осуществления. Аудиодекодер 250 содержит синтаксический анализатор 252 потоков битов, выполненный с возможностью синтаксически анализировать поток 154 битов, с тем чтобы получать кодированное подполосное представление с уменьшенным наложением спектров, декодер 254, выполненный с возможностью декодировать кодированное подполосное представление с уменьшенным наложением спектров, с тем чтобы получать подполосное представление с уменьшенным наложением спектров аудиосигнала, и аудиопроцессор 200, как описано выше.Fig. 13 shows a schematic block diagram of an audio decoder 250, according to an embodiment. The audio decoder 250 comprises a bit stream parser 252 configured to parse the bit stream 154 to obtain a de-aliased sub-band encoded representation, a decoder 254 configured to decode the de-aliased sub-band encoded representation to obtain a sub-band a de-aliased representation of the audio signal, and an audio processor 200 as described above.

Фиг. 14 показывает принципиальную блок-схему аудиоанализатора 180, согласно варианту осуществления. Аудиоанализатор 180 содержит аудиопроцессор 100, как описано выше, модуль 182 извлечения информации, выполненный с возможностью анализировать подполосное представление с уменьшенным наложением спектров, с тем чтобы предоставлять информацию, описывающую аудиосигнал.Fig. 14 shows a schematic block diagram of an audio analyzer 180, according to an embodiment. The audio analyzer 180 includes an audio processor 100 as described above, an information extractor 182, configured to analyze the de-aliased subband representation to provide information describing the audio signal.

Варианты осуществления предусматривают уменьшение наложения спектров во временной области (TDAR) в подполосах частот гребенок фильтров неравномерного ортогонального модифицированного дискретного косинусного преобразования (MDCT).Embodiments provide for time domain aliasing (TDAR) reduction in subbands of non-uniform orthogonal modified discrete cosine transform (MDCT) filterbanks.

Варианты осуществления добавляют дополнительный этап постобработки в широко используемый конвейер MDCT-преобразования, причем непосредственно этап содержит только другое перекрывающееся MDCT-преобразование вдоль частотной оси и уменьшение наложения спектров во временной области (TDAR) вдоль каждой подполосной временной оси, обеспечивая возможность извлекать произвольные шкалы частот из MDCT-спектрограммы с улучшенной временной компактностью импульсной характеристики, при отсутствии введения дополнительной избыточности и с введением только одной кадровой MDCT-задержки.Embodiments add an additional post-processing step to the widely used MDCT pipeline, the step itself containing only another overlapping MDCT along the frequency axis and time domain aliasing reduction (TDAR) along each sub-band time axis, providing the ability to extract arbitrary frequency scales from MDCT spectrograms with improved temporal compactness of the impulse response, without the introduction of additional redundancy and with the introduction of only one MDCT frame delay.

2. Варьирующиеся во времени расположения частотно-временными плитками с использованием неравномерных ортогональных гребенок фильтров на основе MDCT-анализа/синтеза и TDAR2. Time Varying Time-Frequency Tiling Using Non-uniform Orthogonal Filter Banks Based on MDCT Analysis/Synthesis and TDAR

Фиг. 15 показывает принципиальную блок-схему аудиопроцессора 100, выполненного с возможностью обрабатывать аудиосигнал, с тем чтобы получать подполосное представление аудиосигнала, согласно дополнительному варианту осуществления. Аудиопроцессор 100 содержит каскад 104 каскадного перекрывающегося критически дискретизированного преобразования (LCST) и каскад 106 уменьшения наложения спектров во временной области (TDAR), оба из которых подробно описываются выше в разделе 1.Fig. 15 shows a schematic block diagram of an audio processor 100 configured to process an audio signal so as to obtain a subband representation of the audio signal, according to a further embodiment. Audio processor 100 includes a cascaded overlapped critically sampled transform (LCST) stage 104 and a time domain alias reduction (TDAR) stage 106, both of which are described in detail above in Section 1.

Каскад 104 каскадного перекрывающегося критически дискретизированного преобразования содержит первый каскад 120 перекрывающегося критически дискретизированного преобразования (LCST), выполненный с возможностью выполнять LCST 122_1 и 122_2 (например, MDCT) для первого блока 108_1 выборок и второго блока 108_2, соответственно, с тем чтобы получать первый набор 124_1 бинов для первого блока 108_1 выборок и второй набор 124_2 бинов для второго блока 108_2 выборок. Дополнительно, каскад 104 каскадного перекрывающегося критически дискретизированного преобразования содержит второй каскад 126 перекрывающегося критически дискретизированного преобразования (LCST), выполненный с возможностью выполнять LCST 132_1,1-132_1,2 (например, MDCT) для сегментированных наборов 128_1,1-128_1,2 бинов первого набора 124_1 бинов и LCST 132_2,1-132_2,2 (например, MDCT) для сегментированных наборов 128_2,1-128_2,2 бинов второго набора 124_1 бинов, с тем чтобы получать наборы 110_1,1-110_1,2 подполосных выборок, которые основаны на первом блоке 108_1 выборок, и наборы 110_2,1-110_2,2 подполосных выборок, которые основаны на втором блоке 108_1 выборок.The cascaded overlapped critically sampled transform stage 104 comprises a first overlapped critically sampled transform (LCST) stage 120 configured to perform LCSTs 122_1 and 122_2 (e.g., MDCT) on the first sample block 108_1 and the second block 108_2, respectively, to obtain the first set 124_1 bins for the first block 108_1 samples and the second set 124_2 bins for the second block 108_2 samples. Additionally, the cascaded overlapped critically sampled transform stage 104 comprises a second overlapped critically sampled transform (LCST) stage 126 configured to perform LCST 132_1,1-132_1,2 (e.g., MDCT) on segmented bin sets 128_1,1-128_1,2 of the first bin set 124_1 and LCST 132_2.1-132_2.2 (e.g., MDCT) for segmented bin sets 128_2.1-128_2.2 of second bin set 124_1 to obtain subband sample sets 110_1.1-110_1.2 that are based on the first block 108_1 samples, and sets 110_2,1-110_2,2 subband samples that are based on the second block 108_1 samples.

Как уже указано во вводной части, каскад 106 уменьшения наложения спектров во временной области (TDAR) может применять уменьшение наложения спектров во временной области (TDAR) только в том случае, если идентичное расположение частотно-временными плитками используется для первого блока 108_1 выборок и второго блока 108_2 выборок, т.е. если наборы 110_1,1-110_1,2 подполосных выборок, которые основаны на первом блоке 108_1 выборок, представляют идентичные области на частотно-временной плоскости по сравнению с наборами 110_2,1-110_2,2 подполосных выборок, которые основаны на втором блоке 108_2 выборок.As already indicated in the introductory part, the time-domain aliasing reduction (TDAR) stage 106 can only apply time-domain aliasing reduction (TDAR) if the same time-frequency tile arrangement is used for the first block 108_1 of samples and the second block. 108_2 samples, i.e. if the subband sample sets 110_1,1-110_1,2 that are based on the first sample block 108_1 represent identical regions on the time-frequency plane compared to the subband sample sets 110_2,1-110_2,2 that are based on the second sample block 108_2.

Тем не менее, если характеристики сигналов для входного сигнала изменяются, LCST 132_1,1-132_1,2 (например, MDCT), используемые для обработки сегментированных наборов 128_1,1-128_1,2 бинов, которые основаны на первом блоке 108_1 выборок, могут иметь другую длину кадра (например, коэффициенты объединения) по сравнению с LCST 132_2,1-132_2,2 (например, MDCT), используемыми для обработки сегментированных наборов 128_2,1-128_2,2 бинов, которые основаны на втором блоке 108_2 выборок.However, if the signal characteristics for the input signal change, the LCSTs 132_1,1-132_1,2 (eg, MDCT) used to process segmented bin sets 128_1,1-128_1,2 that are based on the first sample block 108_1 may have a different frame length (eg, pooling coefficients) compared to the LCSTs 132_2.1-132_2.2 (eg, MDCT) used to process segmented bin sets 128_2.1-128_2.2 that are based on the second block 108_2 of samples.

В этом случае, наборы 110_1,1-110_1,2 подполосных выборок, которые основаны на первом блоке 108_1 выборок, представляют различные области на частотно-временной плоскости по сравнению с наборами 110_2,1-110_2,2 подполосных выборок, которые основаны на втором блоке 108_2 выборок, т.е. если первый набор 110_1,1 подполосных выборок представляет область на частотно-временной плоскости, отличающуюся от области третьего набора 110_2,1 подполосных выборок, и второй набор 110_1,2 подполосных выборок представляет область на частотно-временной плоскости, отличающуюся от области четвертого набора 110_2,1 подполосных выборок, и уменьшение наложения спектров во временной области (TDAR) не может применяться непосредственно.In this case, the subband sample sets 110_1,1-110_1,2 that are based on the first block 108_1 samples represent different regions on the time-frequency plane compared to the subband sample sets 110_2,1-110_2,2 that are based on the second block 108_2 samples, i.e. if the first subband sample set 110_1,1 represents a region on the time-frequency plane that is different from that of the third subband sample set 110_2,1 and the second subband sample set 110_1,2 represents a region on the time-frequency plane that is different from that of the fourth subband sample set 110_2, 1 subband samples, and time domain aliasing reduction (TDAR) cannot be applied directly.

Чтобы преодолевать это ограничение, аудиопроцессор 100 дополнительно содержит первый каскад 105 частотно-временного преобразования, выполненный с возможностью идентифицировать, в случае если наборы 110_1,1-110_1,2 подполосных выборок, которые основаны на первом блоке 108_1 выборок, представляют различные области на частотно-временной плоскости по сравнению с наборами 110_2,1-110_2,2 подполосных выборок, которые основаны на втором блоке 108_2 выборок, один или более наборов подполосных выборок из наборов 110_1,1-110_1,2 подполосных выборок, которые основаны на первом блоке 108_1 выборок, и один или более наборов подполосных выборок из наборов 110_2,1-110_2,2 подполосных выборок, которые основаны на втором блоке 108_2 выборок, которые в комбинации представляют идентичную область на частотно-временной плоскости, и выполнять частотно-временное преобразование идентифицированных одного или более наборов подполосных выборок из наборов 110_2,1-110_2,2 подполосных выборок, которые основаны на втором блоке 108_2 выборок, и/или идентифицированных одного или более наборов подполосных выборок из наборов 110_2,1-110_2,2 подполосных выборок, которые основаны на втором блоке 108_2 выборок, с тем чтобы получать одну или более преобразованных по времени и частоте подполосных выборок, каждая из которых представляет идентичную область на частотно-временной плоскости относительно соответствующей одной из идентифицированных одной или более подполосных выборок либо одной или более их преобразованных по времени и частоте версий.To overcome this limitation, the audio processor 100 further comprises a first time-frequency conversion stage 105 configured to identify if the subband sample sets 110_1,1-110_1,2, which are based on the first sample block 108_1, represent different regions on the frequency time plane compared to the subband sample sets 110_2,1-110_2,2 that are based on the second sample block 108_2, one or more subband sample sets of the subband sample sets 110_1,1-110_1,2 that are based on the first sample block 108_1, and one or more subband sample sets from subband sample sets 110_2,1-110_2,2 that are based on a second block 108_2 of samples that in combination represent an identical region on the time-frequency plane, and perform a time-frequency transform of the identified one or more sets subband samples from sets 110_2,1-110_2,2 of subband samples that are based on second sample block 108_2, and/or identified one or more subband sample sets from subband sample sets 110_2,1-110_2,2 that are based on the second sample block 108_2, so as to obtain one or more time and frequency transformed subband samples, each of which represents an identical region on the time-frequency plane with respect to a corresponding one of the identified one or more subband samples, or one or more of their time-transformed and frequency-transformed versions.

Впоследствии, каскад 106 уменьшения наложения спектров во временной области может применять уменьшение временной области (TDAR), т.е. посредством выполнения комбинирования со взвешиванием двух соответствующих наборов подполосных выборок либо их преобразованных по времени и частоте версий, причем один из них получен на основе первого блока 108_1 выборок аудиосигнала 102, и один из них получен на основе на втором блоке 108_2 выборок аудиосигнала, с тем чтобы получать подполосные представления с уменьшенным наложением спектров аудиосигнала 102.Subsequently, the time domain de-aliasing stage 106 may apply time domain reduction (TDAR), i. e. by performing a weighted combination of two respective sets of subband samples or their time and frequency transformed versions, one of them derived from the first block 108_1 of audio samples 102 and one of them derived from the second block 108_2 of audio samples, so that obtain sub-band representations with reduced aliasing of the audio signal 102.

В вариантах осуществления, первый каскад 105 частотно-временного преобразования может быть выполнен с возможностью выполнять частотно-временное преобразование либо идентифицированных одного или более наборов подполосных выборок из наборов 110_2,1-110_2,2 подполосных выборок, которые основаны на первом блоке 108_1 выборок, либо идентифицированных одного или более наборов подполосных выборок из наборов 110_2,1-110_2,2 подполосных выборок, которые основаны на втором блоке 108_2 выборок, с тем чтобы получать одну или более преобразованных по времени и частоте подполосных выборок, каждая из которых представляет идентичную область на частотно-временной плоскости относительно соответствующей одной из идентифицированных одной или более подполосных выборок.In embodiments, the first time-frequency transform stage 105 may be configured to perform time-frequency transform on either the identified one or more subband sample sets from the subband sample sets 110_2,1-110_2,2 that are based on the first sample block 108_1, or identified one or more subband sample sets from the subband sample sets 110_2,1-110_2,2 that are based on the second sample block 108_2 so as to obtain one or more time and frequency transformed subband samples, each of which represents an identical region on a frequency - the time plane relative to the corresponding one of the identified one or more subband samples.

В этом случае, каскад 106 уменьшения наложения спектров во временной области может быть выполнен с возможностью выполнять комбинирование со взвешиванием преобразованного по времени и частоте набора подполосных выборок и соответствующего (непреобразованного по времени и частоте) набора подполосных выборок, причем один из них получен на основе первого блока 108_1 выборок аудиосигнала 102, и один из них получен на основе на втором блоке 108_2 выборок аудиосигнала. Это называется в данном документе "унилатеральным STDAR".In this case, the time domain aliasing de-aliasing stage 106 may be configured to weight-combine the time-transformed subband sample set and the corresponding (untime-transformed) subband sample set, one of which is derived from the first block 108_1 audio samples 102, and one of them is obtained based on the second block 108_2 audio samples. This is referred to in this document as "unilateral STDAR".

Естественно, первый каскад 105 частотно-временного преобразования также может быть выполнен с возможностью выполнять частотно-временное преобразование как идентифицированных одного или более наборов подполосных выборок из наборов 110_2,1-110_2,2 подполосных выборок, которые основаны на первом блоке 108_1 выборок, так и идентифицированных одного или более наборов подполосных выборок из наборов 110_2,1-110_2,2 подполосных выборок, которые основаны на втором блоке 108_2 выборок, с тем чтобы получать одну или более преобразованных по времени и частоте подполосных выборок, каждая из которых представляет идентичную область на частотно-временной плоскости относительно соответствующей одной из преобразованных по времени и частоте версий другой идентифицированной одной или более подполосных выборок.Naturally, the first time-frequency transform stage 105 may also be configured to perform time-frequency transform on both the identified one or more subband sample sets from the subband sample sets 110_2.1-110_2.2 that are based on the first sample block 108_1, and identified one or more subband sample sets from the subband sample sets 110_2,1-110_2,2 that are based on the second sample block 108_2 so as to obtain one or more time and frequency transformed subband samples, each of which represents an identical region on a frequency - the time plane relative to the corresponding one of the time and frequency transformed versions of the other identified one or more subband samples.

В этом случае, каскад 106 уменьшения наложения спектров во временной области может быть выполнен с возможностью выполнять комбинирование со взвешиванием двух соответствующих преобразованных по времени и частоте наборов подполосных выборок, причем один из них получен на основе первого блока 108_1 выборок аудиосигнала 102, и один из них получен на основе на втором блоке 108_2 выборок аудиосигнала. Это называется в данном документе "билатеральным STDAR".In this case, the time domain de-aliasing stage 106 may be configured to weight-combine two respective time and frequency transformed sets of subband samples, one of which is obtained based on the first block 108_1 of samples of the audio signal 102, and one of them obtained based on the second block 108_2 audio samples. This is referred to herein as "bilateral STDAR".

Фиг. 16 показывает схематичное представление частотно-временного преобразования, выполняемого посредством каскада 105 частотно-временного преобразования на частотно-временной плоскости.Fig. 16 shows a schematic representation of the time-frequency conversion performed by the time-frequency conversion stage 105 on the time-frequency plane.

Как указано на схемах 170_1 и 170_2 по фиг. 16, первый набор 110_1,1 подполосных выборок, соответствующих первому блоку 108_1 выборок, и третий набор 110_2,1 подполосных выборок, соответствующих второму блоку 108_2 выборок, представляют различные области 194_1,1 и 194_2,1 на частотно-временной плоскости таким образом, что каскад 106 уменьшения наложения спектров во временной области не имеет возможность применять уменьшение наложения спектров во временной области (TDAR) к первому набору 110_1,1 подполосных выборок и третьему набору 110_2,1 подполосных выборок.As shown in diagrams 170_1 and 170_2 of FIG. 16, the first subband sample set 110_1.1 corresponding to the first sample block 108_1 and the third subband sample set 110_2.1 corresponding to the second sample block 108_2 represent different regions 194_1.1 and 194_2.1 on the time-frequency plane such that the time domain alias reduction stage 106 does not have the ability to apply time domain alias reduction (TDAR) to the first subband sample set 110_1.1 and the third subband sample set 110_2.1.

Аналогично, второй набор 110_1,2 подполосных выборок, соответствующих первому блоку 108_1 выборок, и четвертый набор 110_2,2 подполосных выборок, соответствующих второму блоку 108_2 выборок, представляют различные области 194_1,2 и 194_2,2 на частотно-временной плоскости таким образом, что каскад 106 уменьшения наложения спектров во временной области не имеет возможность применять уменьшение наложения спектров во временной области (TDAR) ко второму набору 110_1,2 подполосных выборок и четвертому набору 110_2,2 подполосных выборок.Similarly, the second subband sample set 110_1,2 corresponding to the first sample block 108_1 and the fourth subband sample set 110_2,2 corresponding to the second sample block 108_2 represent different regions 194_1,2 and 194_2,2 on the time-frequency plane such that the time domain alias reduction stage 106 does not have the ability to apply time domain alias reduction (TDAR) to the second subband sample set 110_1,2 and the fourth subband sample set 110_2,2.

Тем не менее, первый набор 110_1,1 подполосных выборок в сочетании со вторым набором 110_1,2 подполосных выборок представляет идентичную область 196 на частотно-временной плоскости относительно третьего набора 110_2,1 подполосных выборок в комбинации с четвертым набором 110_2,2 подполосных выборок.However, the first subband sample set 110_1,1 in combination with the second subband sample set 110_1,2 represents an identical region 196 on the time-frequency plane with respect to the third subband sample set 110_2.1 in combination with the fourth subband sample set 110_2.2.

Таким образом, каскад 105 частотно-временного преобразования может выполнять частотно-временное преобразование первого набора 110_1,1 подполосных выборок и второго набора 110_1,2 подполосных выборок или выполнять частотно-временное преобразование третьего набора 110_2,1 подполосных выборок и четвертого набора 110_2,2 подполосных выборок, с тем чтобы получать преобразованные по времени и частоте наборы подполосных выборок, каждая из которых представляет идентичную область на частотно-временной плоскости относительно соответствующего одного из других наборов подполосных выборок.Thus, the time-frequency transform stage 105 may perform a time-frequency transform of the first subband sample set 110_1,1 and the second subband sample set 110_1,2, or perform a time-frequency transform of the third subband sample set 110_2,1 and the fourth subband sample set 110_2,2 samples to obtain time- and frequency-transformed subband sample sets each representing an identical region on the time-frequency plane with respect to a corresponding one of the other subband sample sets.

На фиг. 16 примерно предполагается, что каскад 105 частотно-временного преобразования выполняет частотно-временное преобразование первого набора 110_1,1 подполосных выборок и второго набора 110_1,2 подполосных выборок, с тем чтобы получать первый преобразованный по времени и частоте набор 110_1,1' подполосных выборок и второй преобразованный по времени и частоте набор 110_1,2' подполосных выборок.In FIG. 16, it is roughly assumed that the time-frequency transform stage 105 performs a time-frequency transform of the first subband sample set 110_1,1 and the second subband sample set 110_1,2 so as to obtain a first time and frequency transformed subband sample set 110_1,1' and a second time and frequency converted set 110_1,2' of subband samples.

Как указано на схемах 170_3 и 170_4 по фиг. 16, первый преобразованный по времени и частоте набор 110_1,1' подполосных выборок и третий набор 110_2,1 подполосных выборок представляют идентичную область 194_1,1' и 194_2,1 на частотно-временной плоскости таким образом, что уменьшение наложения спектров во временной области (TDAR) может применяться к первому преобразованному по времени и частоте набору 110_1,1' подполосных выборок и третьему набору 110_2,1 подполосных выборок.As shown in diagrams 170_3 and 170_4 of FIG. 16, the first time and frequency transformed subband sample set 110_1,1' and the third subband sample set 110_2,1 represent the identical region 194_1,1' and 194_2,1 on the time-frequency plane such that the reduction of aliasing in the time domain ( TDAR) may be applied to the first time and frequency transformed subband sample set 110_1,1' and the third subband sample set 110_2,1.

Аналогично, второй преобразованный по времени и частоте набор 110_1,2' подполосных выборок и четвертый набор 110_2,2 подполосных выборок представляют идентичную область 194_1,2' и 194_2,3 на частотно-временной плоскости таким образом, что уменьшение наложения спектров во временной области (TDAR) может применяться ко второму преобразованному по времени и частоте набору 110_1,2' подполосных выборок и четвертому набору 110_2,2 подполосных выборок.Similarly, the second time-frequency-transformed subband sample set 110_1,2' and the fourth subband sample set 110_2,2 represent the identical region 194_1,2' and 194_2,3 on the time-frequency plane such that the reduction of aliasing in the time domain ( TDAR) may be applied to the second time and frequency transformed subband sample set 110_1,2' and the fourth subband sample set 110_2,2.

Хотя на фиг. 16 только первый набор 110_1,1 подполосных выборок и второй набор 110_1,2 подполосных выборок, соответствующих первому блоку 108_1 выборок, преобразуются по времени и частоте посредством первого каскада 105 частотно-временного преобразования, в вариантах осуществления, также первый набор 110_1,1 подполосных выборок и второй набор 110_1,2 подполосных выборок, соответствующих первому блоку 108_1 выборок и третьему набору 110_2,1 подполосных выборок, и четвертый набор 110_2,2 подполосных выборок, соответствующих второму блоку 108_1 выборок, могут преобразовываться по времени и частоте посредством первого каскада 105 частотно-временного преобразования.Although in FIG. 16, only the first subband sample set 110_1,1 and the second subband sample set 110_1,2 corresponding to the first sample block 108_1 are converted in time and frequency by the first time-frequency transform stage 105, in embodiments also the first subband sample set 110_1,1 and the second subband sample set 110_1,2 corresponding to the first subband sample block 108_1 and the third subband sample set 110_2.1 and the fourth subband sample set 110_2.2 corresponding to the second sample block 108_1 can be time and frequency converted by the first frequency-frequency stage 105. temporary transformation.

Фиг. 17 показывает принципиальную блок-схему аудиопроцессора 100, выполненного с возможностью обрабатывать аудиосигнал, с тем чтобы получать подполосное представление аудиосигнала, согласно дополнительному варианту осуществления.Fig. 17 shows a schematic block diagram of an audio processor 100 configured to process an audio signal so as to obtain a subband representation of the audio signal, according to a further embodiment.

Как показано на фиг. 17, аудиопроцессор 100 дополнительно может содержать второй каскад 107 частотно-временного преобразования, выполненный с возможностью выполнять частотно-временное преобразование подполосных представлений с уменьшенным наложением спектров аудиосигнала, при этом частотно-временное преобразование, применяемое посредством второго каскада частотно-временного преобразования, является обратным по отношению к частотно-временному преобразованию, применяемому посредством первого каскада частотно-временного преобразования.As shown in FIG. 17, the audio processor 100 may further comprise a second time-frequency transform stage 107 configured to perform a reduced-aliasing subband time-frequency transform of the audio signal, wherein the time-frequency transform applied by the second time-frequency transform stage is the inverse of with respect to the time-frequency transform applied by the first time-frequency transform stage.

Фиг. 18 показывает принципиальную блок-схему аудиопроцессора 200 для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно дополнительному варианту осуществления.Fig. 18 shows a schematic block diagram of an audio processor 200 for processing subband representation of an audio signal so as to obtain an audio signal, according to a further embodiment.

Аудиопроцессор 200 содержит второй каскад 201 обратного частотно-временного преобразования, который является обратным по отношению ко второму каскаду 107 частотно-временного преобразования аудиопроцессора 100, показанного на фиг. 17. Подробно, второй каскад 201 обратного частотно-временного преобразования может быть выполнен с возможностью выполнять частотно-временное преобразование одного или более наборов подполосных выборок с уменьшенным наложением спектров из наборов подполосных выборок с уменьшенным наложением спектров, соответствующих второму блоку выборок аудиосигнала, и/или одного или более наборов подполосных выборок с уменьшенным наложением спектров из наборов подполосных выборок с уменьшенным наложением спектров, соответствующих второму блоку выборок аудиосигнала, с тем чтобы получать одну или более преобразованных по времени и частоте подполосных выборок с уменьшенным наложением спектров, каждая из которых представляет идентичную область на частотно-временной плоскости, которые имеют идентичную длину относительно соответствующей одной из одной или более подполосных выборок с уменьшенным наложением спектров, соответствующих другому блоку выборок аудиосигнала, либо одной или более их преобразованных по времени и частоте версий.The audio processor 200 includes a second inverse time-frequency transform stage 201 that is inverse of the second time-frequency transform stage 107 of the audio processor 100 shown in FIG. 17. In detail, the second inverse time-frequency transform stage 201 may be configured to perform a time-frequency transform of one or more de-aliased sub-band sample sets from the de-aliased sub-band sample sets corresponding to the second block of audio samples, and/or one or more de-aliased sub-band sample sets from the de-aliased sub-band sample sets corresponding to the second block of audio samples to obtain one or more time and frequency transformed de-aliased sub-band samples each representing an identical area on the time-frequency plane that are identical in length to a corresponding one of one or more de-aliased sub-band samples corresponding to another block of audio samples, or one or more of their transformed n about time and frequency of versions.

Дополнительно, аудиопроцессор 200 содержит каскад 202 обратного уменьшения наложения спектров во временной области (ITDAR), выполненный с возможностью выполнять комбинирования со взвешиванием соответствующих наборов подполосных выборок с уменьшенным наложением спектров либо их преобразованных по времени и частоте версий, с тем чтобы получать подполосное представление с наложением спектров.Additionally, the audio processor 200 includes an inverse time domain aliasing reduction (ITDAR) stage 202, configured to perform weighted combinations of respective de-aliased sub-band sample sets, or their time- and frequency-transformed versions, to obtain an aliased sub-band representation. spectra.

Дополнительно, аудиопроцессор 200 содержит первый каскад 203 обратного частотно-временного преобразования, выполненный с возможностью выполнять частотно-временное преобразование подполосного представления с наложением спектров, с тем чтобы получать наборы 110_1,1-110_1,2 подполосных выборок, соответствующих первому блоку 108_1 выборок аудиосигнала, и наборы 110_2,1-110_2,2 подполосных выборок, соответствующих второму блоку 108_1 выборок аудиосигнала, при этом частотно-временное преобразование, применяемое посредством первого каскада 203 обратного частотно-временного преобразования, является обратным по отношению к частотно-временному преобразованию, применяемому посредством второго каскада 201 обратного частотно-временного преобразования.Additionally, the audio processor 200 includes a first inverse time-frequency transform stage 203 configured to perform a frequency-time aliased subband transform to obtain subband sample sets 110_1.1 to 110_1.2 corresponding to the first block 108_1 of audio samples, and subband sample sets 110_2.1-110_2.2 corresponding to the second block of audio samples 108_1, wherein the time-frequency transform applied by the first inverse time-frequency transform stage 203 is the inverse of the time-frequency transform applied by the second cascade 201 inverse time-frequency conversion.

Дополнительно, аудиопроцессор 200 содержит каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное обратное перекрывающееся критически дискретизированное преобразование для наборов 110_1,1-110_2,2 выборок, с тем чтобы получать набор 206_1,1 выборок, ассоциированных с блоком выборок аудиосигнала 102.Additionally, audio processor 200 includes a cascaded critically sampled inverse transform stage 204 configured to perform a cascaded critically sampled inverse lapped transform on the sample sets 110_1,1-110_2,2 to obtain a set 206_1,1 of samples associated with a block of audio samples. 102.

Далее подробнее описываются варианты осуществления настоящего изобретения.The following describes in more detail the embodiments of the present invention.

2.1. Уменьшение наложения спектров во временной области2.1. Reducing aliasing in the time domain

При выражении перекрывающихся преобразований в полифазном обозначении, индекс кадра может выражаться в z-области, где

ссылается на предыдущий кадр [7]. В этом обозначении, MDCT-анализ может выражаться следующим образом:When expressing overlapping transforms in polyphase notation, the frame index can be expressed in z-domain, where

refers to the previous frame [7]. In this notation, MDCT analysis can be expressed as follows:

где D является DCT-IV-матрицей NxN, и F(z) является предварительной перестановочной/свертывающейся MDCT-матрицей NxN [7].where D is an NxN DCT-IV matrix and F(z) is an NxN pre-permutation/convolution MDCT matrix [7].

Подполосное объединение M и TDAR R(z) затем становятся другой парой блочно-диагональных матриц преобразования:The subband pooling M and TDAR R(z) then become another pair of block-diagonal transformation matrices:

где Tk является подходящей матрицей преобразования (перекрывающимся MDCT в некоторых вариантах осуществления), и

является модифицированным и меньшим вариантом F(z) [4]. Вектор

, содержащий размеры субматриц T_k и

, называется "подполосной схемой размещения". Полный анализ становится следующим:where Tk is the appropriate transformation matrix (overlapping MDCT in some embodiments), and

is a modified and smaller version of F(z) [4]. Vector

, containing the sizes of submatrices T _k and

, is called the "sub-band layout". The complete analysis becomes the following:

Для простоты, только частный случай равномерных расположений плитками анализируется в M и R(z) здесь, т.е.

, где

, легко показывать, что варианты осуществления не ограничены означенными.For simplicity, only the special case of uniform tiling is analyzed in M and R(z) here, i.e.

, Where

, it is easy to show that the embodiments are not limited to those indicated.

2.2. Переключаемое уменьшение наложения спектров во временной области2.2. Switchable de-aliasing in the time domain

Поскольку STDAR должно применяться между двумя по-разному преобразованными кадрами, в вариантах осуществления, матрица M подполосного объединения, TDAR-матрица R(z) и подполосная схема

размещения расширяются до варьирующегося во времени обозначения M(m), R(z, m) и

, где m является индексом кадра [8].Since STDAR must be applied between two differently transformed frames, in the embodiments, the subband combining matrix M, the TDAR matrix R(z), and the subband scheme

placements are expanded to the time-varying notation M(m), R(z, m) and

, where m is the frame index [8].

Конечно, STDAR также может расширяться до изменяющихся во времени матриц F(z, m) и D(m); тем не менее, этот сценарий не должен рассматриваться здесь.Of course, STDAR can also be extended to time-varying matrices F(z, m) and D(m); however, this scenario should not be considered here.

Если расположения плитками двух кадров m и m-1 отличаются, т.е.:If the tile locations of two frames m and m-1 are different, i.e.:

может проектироваться дополнительная матрица S(m) преобразования, которая временно преобразует расположение частотно-временными плитками кадра m таким образом, что оно согласуется с расположением плитками кадра m-1 (обратное согласование). Общее представление STDAR-операции содержится на фиг. 19.an additional transformation matrix S(m) may be designed that temporally transforms the time-frequency tiling of frame m such that it matches the tiling of frame m-1 (inverse matching). An overview of the STDAR operation is shown in FIG. 19.

Подробно, фиг. 19 показывает схематичное представление STDAR-операции на частотно-временной плоскости. Как указано на фиг. 19, наборы 110_1,1-110_1,4 подполосных выборок, соответствующих первому блоку 108_1 выборок (кадру m-1), и наборы 110_2,1-110_2,4 подполосных выборок, соответствующих второму блоку 108_2 выборок (кадру m), представляют различные области на частотно-временной плоскости. Таким образом, наборы 110_1,1-110_1,4 подполосных выборок, соответствующих первому блоку 108_1 выборок (кадру m-1), могут преобразовываться по времени и частоте, чтобы получать преобразованные по времени и частоте наборы 110_1,1'-110_1,4' подполосных выборок, соответствующих первому блоку 108_1 выборок (кадру m-1), каждый из которых представляет идентичную область на частотно-временной плоскости относительно соответствующего одного из наборов 110_2,1-110_2,4 подполосных выборок, соответствующих второму блоку 108_2 выборок (кадру m), так что TDAR (R(z, m)) может применяться, как указано на фиг. 19. Впоследствии, обратное частотно-временное преобразование может применяться, чтобы получать наборы 112_1,1-112_1,4 с уменьшенным наложением спектров подполосных выборок, соответствующих первому блоку 108_1 выборок (кадру m-1), и наборы 112_2,1-112_2,4 с уменьшенным наложением спектров подполосных выборок, соответствующих второму блоку 108_2 выборок (кадру m).In detail, fig. 19 shows a schematic representation of STDAR operation on the time-frequency plane. As indicated in FIG. 19, subband sample sets 110_1.1 to 110_1.4 corresponding to the first sample block 108_1 (frame m-1) and subband sample sets 110_2.1 to 110_2.4 corresponding to the second sample block 108_2 (frame m) represent different regions. on the frequency-time plane. Thus, the subband sample sets 110_1,1-110_1,4 corresponding to the first sample block 108_1 (frame m-1) can be time and frequency transformed to obtain time and frequency transformed sets 110_1,1'-110_1,4' subband samples corresponding to the first block 108_1 samples (frame m-1), each of which represents an identical area on the time-frequency plane relative to the corresponding one of the sets 110_2,1-110_2,4 subband samples corresponding to the second block 108_2 samples (frame m) , so that TDAR (R(z, m)) can be applied as indicated in FIG. 19. Subsequently, an inverse time-frequency transform may be applied to obtain de-aliased sets 112_1,1-112_1,4 of subband samples corresponding to the first block 108_1 samples (frame m-1) and sets 112_2,1-112_2,4 with reduced aliasing of the subband samples corresponding to the second sample block 108_2 (frame m).

Другими словами, фиг. 19 показывает STDAR с использованием прямого повышающего согласования. Расположение частотно-временными плитками релевантной половины кадра m-1 изменяется таким образом, что оно согласуется с расположением частотно-временными плитками кадра m, после которого может применяться TDAR, и исходное расположение плитками восстанавливается. Расположение плитками кадра m не изменяется, как указано посредством единичной матрицы I.In other words, FIG. 19 shows STDAR using forward up-negotiation. The temporal-frequency tiling of the relevant half of frame m-1 is changed to match the temporal-frequency tiling of frame m after which TDAR may be applied, and the original tiling is restored. The tiling of frame m does not change, as indicated by the identity matrix I.

Естественно, также кадр m-1 может преобразовываться таким образом, что он согласуется с расположением частотно-временными плитками кадра m (прямое согласование). В этом случае, S(m-1) рассматривается вместо S(m). Прямое и обратное согласование являются симметричными, так что исследуется только одна из двух операций.Naturally, also frame m-1 can be transformed in such a way that it matches the location of the time-frequency tiles of frame m (forward matching). In this case, S(m-1) is considered instead of S(m). Forward and backward matching are symmetrical, so only one of the two operations is examined.

Если посредством этой операции временное разрешение увеличивается посредством этапа подполосного объединения, в данном документе это называется "повышающим согласованием". Если временное разрешение снижается посредством этапа подполосного разбиения, в данном документе это называется "понижающим согласованием". Повышающее и понижающее согласование оцениваются в данном документе.If by this operation the temporal resolution is increased by the sub-band combining step, this is referred to as "up-matching" in this document. If the temporal resolution is reduced by the sub-band splitting step, this is referred to in this document as "down-negotiation". Up- and down-negotiation are evaluated in this document.

Тем не менее, эта матрица S(m) снова является блочно-диагональной, при

:However, this matrix S(m) is again block-diagonal, with

:

и должна применяться перед TDAR и инвертироваться впоследствии.and must be applied before TDAR and inverted afterwards.

Таким образом, анализ становится следующим:So the analysis becomes:

Естественно, только одна половина каждого кадра затрагивается посредством TDAR между двумя кадрами, так что должна преобразовываться только одна половина соответствующего кадра. Как результат, половина S(m) может выбираться в качестве единичной матрицы.Naturally, only one half of each frame is affected by TDAR between two frames, so only one half of the corresponding frame needs to be converted. As a result, half of S(m) may be chosen as the identity matrix.

2.3. Дополнительные соображения2.3. Additional Considerations

Очевидно, порядок импульсного отклика (т.е. порядок строк) каждой матрицы преобразования должен согласовываться с порядком соседних матриц.Obviously, the order of the impulse response (ie, the order of the rows) of each transformation matrix must be consistent with the order of neighboring matrices.

В случае традиционного TDAR, особые соображения не должны учитываться, поскольку порядок двух смежных идентичных кадров всегда является равным. Тем не менее, в зависимости от варианта выбора параметров, при введении STDAR, входное упорядочение STDAR S(m) может не быть совместимым с выходным упорядочением подполосного объединения M. В этом случае, два или более коэффициентов, не смежных в запоминающем устройстве, объединенно преобразуются, и в силу этого должны повторно совмещаться перед операцией.In the case of traditional TDAR, special considerations need not be taken into account since the order of two adjacent identical frames is always equal. However, depending on the choice of parameters, when introducing STDAR, the input STDAR ordering S(m) may not be compatible with the output ordering of subband combining M. In this case, two or more coefficients not contiguous in memory are combined transformed , and therefore must be realigned prior to operation.

Кроме того, выходное упорядочение STDAR S(m) обычно не является совместимым с входным упорядочением исходного определения TDAR R(z, m). С другой стороны, причина состоит в том, что коэффициенты одной подполосы частот не являются смежными в запоминающем устройстве.In addition, the output ordering of STDAR S(m) is usually not compatible with the input ordering of the original definition of TDAR R(z, m). On the other hand, the reason is that the coefficients of one subband are not contiguous in the memory.

Как переупорядочение, так и неупорядочение могут выражаться как дополнительные перестановочные матрицы P и

, которые вводятся в конвейер преобразования в соответствующих местах.Both reordering and unordering can be expressed as complementary permutation matrices P and

, which are injected into the transformation pipeline at the appropriate places.

Порядок коэффициентов в этих матрицах зависит от операции, схемы размещения в запоминающем устройстве и используемых преобразований. Таким образом, общее решение не может быть представлено здесь.The order of the coefficients in these matrices depends on the operation, the storage layout, and the transformations used. So a general solution cannot be presented here.

Все введенные матрицы являются ортогональными, так что полное преобразование по-прежнему является ортогональным.All matrices introduced are orthogonal, so the complete transformation is still orthogonal.

2.4. Оценка2.4. Grade

При оценке, DCT-IV и DCT-II рассматриваются для T(m) в S(m), которые используются без перекрытия. Входная длина кадра N=1024 примерно выбирается. В силу этого, система анализируется для различных соотношений r(m) переключений, которые представляют собой соотношение коэффициентов объединения между двумя кадрами, т.е.:In evaluation, DCT-IV and DCT-II are considered for T(m) to S(m), which are used without overlap. The input frame length N=1024 is approximately chosen. Therefore, the system is analyzed for various switching ratios r(m), which are the ratio of the combining coefficients between two frames, i.e.:

Аналогично случаю, при анализе TDAR, исследование концентрируется на форме и, в частности, на компактности импульсного отклика и частотного отклика полного преобразования [4], [9].As is the case, in the analysis of TDAR, the study concentrates on the shape and, in particular, on the compactness of the impulse response and the frequency response of the full transform [4], [9].

2.5. Результаты2.5. results

DCT-II обеспечивает в результате наилучшие результаты, так что далее следует сфокусироваться на этом преобразовании. Прямое и обратное согласование являются симметричными и обеспечивают в результате идентичные результаты, так что описываются только результаты прямого согласования.The DCT-II results in the best results, so the next step is to focus on this conversion. Forward and backward matching are symmetrical and result in identical results, so only the results of forward matching are described.

Фиг. 20 показывает на схемах примерные импульсные отклики двух кадров с коэффициентом объединения 8 и 16 перед STDAR (верхняя часть) и после STDAR (нижняя часть).Fig. 20 shows diagrammatically exemplary impulse responses of two frames with a pooling factor of 8 and 16 before STDAR (top) and after STDAR (bottom).

Другими словами, фиг. 20 показывает два примерных импульсных отклика двух кадров с различными расположениями частотно-временными плитками, до и после STDAR. Импульсные отклики демонстрируют различные ширины вследствие своей разности в коэффициенте объединения в -c(m-1)=8 и c(m)=16. После STDAR, наложение спектров явно уменьшается, но некоторое остаточное наложение спектров по-прежнему является видимым.In other words, FIG. 20 shows two exemplary impulse responses of two frames with different time-frequency tile arrangements, before and after STDAR. The impulse responses exhibit different widths due to their difference in the pooling factor at -c(m-1)=8 and c(m)=16. After STDAR, the aliasing is clearly reduced, but some residual aliasing is still visible.

Фиг. 21 показывает на схеме компактность импульсного отклика и частотного отклика для повышающего согласования. Встроенные метки обозначают длину кадра для равномерного MDCT, коэффициенты объединения для TDAR и коэффициенты объединения кадра m-1 и m для STDAR. В силу этого, на фиг. 21 первая кривая 500 обозначает TDAR, вторая кривая 502 обозначает отсутствие TDAR, третья кривая 504 обозначает STDAR при c(m)=4, четвертая кривая 506 обозначает STDAR при c(m)=8, пятая кривая 508 обозначает STDAR при c(m)=16, шестая кривая 518 обозначает STDAR при c(m)=32, седьмая кривая 512 обозначает MDCT, и восьмая кривая 514 обозначает границу Гейзенберга.Fig. 21 diagrammatically shows the compactness of the impulse response and frequency response for up-matching. Embedded labels indicate frame length for uniform MDCT, combining factors for TDAR, and frame combining factors m-1 and m for STDAR. Because of this, in Fig. 21 first curve 500 indicates TDAR, second curve 502 indicates no TDAR, third curve 504 indicates STDAR at c(m)=4, fourth curve 506 indicates STDAR at c(m)=8, fifth curve 508 indicates STDAR at c(m) =16, the sixth curve 518 denotes STDAR at c(m)=32, the seventh curve 512 denotes MDCT, and the eighth curve 514 denotes the Heisenberg boundary.

Фиг. 22 показывает на схеме компактность импульсного отклика и частотного отклика для понижающего согласования. Встроенные метки обозначают длину кадра для равномерного MDCT, коэффициенты объединения для TDAR и коэффициенты объединения кадра m-1 и m для STDAR. В силу этого, на фиг. 21 первая кривая 500 обозначает TDAR, вторая кривая 502 обозначает отсутствие TDAR, третья кривая 504 обозначает STDAR при c(m)=4, четвертая кривая 506 обозначает STDAR при c(m)=8, пятая кривая 508 обозначает STDAR при c(m)=16, шестая кривая 518 обозначает STDAR при c(m)=32, седьмая кривая 512 обозначает MDCT, и восьмая кривая 514 обозначает границу Гейзенберга.Fig. 22 shows in a diagram the compactness of the impulse response and frequency response for down-matching. Embedded labels indicate frame length for uniform MDCT, combining factors for TDAR, and frame combining factors m-1 and m for STDAR. Because of this, in Fig. 21 first curve 500 indicates TDAR, second curve 502 indicates no TDAR, third curve 504 indicates STDAR at c(m)=4, fourth curve 506 indicates STDAR at c(m)=8, fifth curve 508 indicates STDAR at c(m) =16, the sixth curve 518 denotes STDAR at c(m)=32, the seventh curve 512 denotes MDCT, and the eighth curve 514 denotes the Heisenberg boundary.

В силу этого, на фиг. 21 и 22, средняя компактность

импульсного отклика и компактность

частотного отклика [3], [9] широкого спектра гребенок фильтров для повышающего и понижающего согласования, соответственно. Для базового сравнения, равномерное MDCT, а также подполосное объединение с и без TDAR показываются [3], [4] с использованием кривых 512, 500 и 502. Гребенки фильтров STDAR показаны с использованием кривых 504, 506, 508 и 510. Каждая линия представляет все гребенки фильтров с идентичным коэффициентом c объединения. Встроенные метки для каждой точки данных обозначают коэффициенты объединения кадра m-1 и m.Because of this, in Fig. 21 and 22, medium compact

impulse response and compactness

frequency response [3], [9] of a wide range of filterbanks for up- and down-matching, respectively. For basic comparison, uniform MDCT as well as subband combining with and without TDAR are shown [3], [4] using

curves

512, 500 and 502. STDAR filterbanks are shown using

curves

504, 506, 508 and 510. Each line represents all filterbanks with the same pooling factor c. The built-in labels for each data point indicate the m-1 and m frame aggregation factors.

На фиг. 21, кадр m-1 преобразуется таким образом, что он согласуется с расположением плитками кадра m. Можно видеть, что временная компактность кадра m улучшается без затрат в спектральной компактности. Для компактности кадра m-1, можно видеть улучшение для всех коэффициентов c объединения > 2, но регрессия для коэффициента объединения c=2. Эта регрессия ожидается, поскольку исходное TDAR при c=2 уже приводит к ухудшенной компактности импульсного отклика [4].In FIG. 21, frame m-1 is converted such that it matches the tiling of frame m. It can be seen that the temporal compactness of the frame m improves at no cost in the spectral compactness. For frame compactness m-1, one can see improvement for all pooling coefficients c > 2, but regression for pooling coefficient c=2. This regression is expected since the original TDAR at c=2 already leads to a degraded compactness of the impulse response [4].

Аналогичная ситуация наблюдается на фиг. 22. С другой стороны, кадр m-1 преобразуется таким образом, что он согласуется с расположением плитками кадра m. В этой ситуации, временная компактность кадра m-1 улучшается без затрат в спектральной компактности. Кроме того, коэффициент объединения c=2 остается проблематичным.A similar situation is observed in Fig. 22. On the other hand, frame m-1 is transformed in such a way that it matches the tiling of frame m. In this situation, the temporal compactness of the m-1 frame is improved at no cost in spectral compactness. In addition, the pooling factor c=2 remains problematic.

В целом, можно четко видеть, что для коэффициентов c объединения > 2, STDAR уменьшает ширину импульсного отклика посредством уменьшения наложения спектров. Для всех коэффициентов объединения, компактность является наилучшей для наименьших коэффициентов r переключения.In general, it can be clearly seen that for pooling coefficients c > 2, STDAR reduces the impulse response width by reducing aliasing. For all pooling coefficients, compactness is best for the smallest switching coefficients r.

2.6. Дополнительные варианты осуществления2.6. Additional Embodiments

Хотя вышеуказанные варианты осуществления главным образом относятся к унилатеральному STDAR, в котором STDAR-операция изменяет расположение частотно-временными плитками только одного из двух кадров таким образом, что оно согласуется с другим, следует отметить, что настоящее изобретение не ограничено такими вариантами осуществления. В отличие от этого, в вариантах осуществления, также может применяться билатеральное STDAR, при котором STDAR-операция изменяет расположение частотно-временными плитками обоих кадров таким образом, что они совпадают между собой. Эта система может использоваться для того, чтобы улучшать системную компактность для очень высоких соотношений переключений, т.е. при которых вместо изменения одного кадра с одного экстремального расположения плитками на другое экстремальное расположение (

) плитками, оба кадра могут изменяться на компромиссное расположение

плитками.Although the above embodiments primarily relate to unilateral STDAR, in which the STDAR operation changes the time-frequency tile arrangement of only one of the two frames in such a way that it is consistent with the other, it should be noted that the present invention is not limited to such embodiments. In contrast, in embodiments, bilateral STDAR may also be used, in which the STDAR operation changes the time-frequency tiles of both frames so that they coincide with each other. This system can be used to improve system compactness for very high switching ratios, i.e. where instead of changing one frame from one extreme tile arrangement to another extreme arrangement (

) tiles, both frames can be changed to a compromise arrangement

tiles.

Кроме того, при условии, что ортогональность не нарушается, числовая оптимизация коэффициентов в R(z, m) и S(m) является возможной. Это может повышать производительность STDAR для более низких коэффициентов c объединения или более высоких соотношений r переключений.In addition, provided that orthogonality is not violated, numerical optimization of the coefficients in R(z, m) and S(m) is possible. This can improve STDAR performance for lower pooling ratios c or higher switching ratios r.

Уменьшение наложения спектров во временной области (TDAR) представляет собой способ для того, чтобы улучшать компактность импульсного отклика неравномерных ортогональных модифицированных дискретных косинусных преобразований (MDCT). Традиционно, TDAR является возможным только между кадрами идентичных расположений частотно-временными плитками; тем не менее, варианты осуществления, описанные в данном документе, преодолевают это ограничение. Варианты осуществления предусматривают использование TDAR между двумя последовательными кадрами различных расположений частотно-временными плитками посредством введения другого подполосного объединения или этапа подполосного разбиения. Как следствие, варианты осуществления обеспечивают возможность более гибких и адаптивных расположений плитками гребенки фильтров, при одновременном сохранении компактных импульсных откликов, два атрибута требуются для эффективного перцепционного кодирования аудио.Time domain aliasing reduction (TDAR) is a technique for improving the compactness of the impulse response of non-uniform orthogonal modified discrete cosine transforms (MDCTs). Traditionally, TDAR is only possible between frames of identical time-frequency tile locations; however, the embodiments described herein overcome this limitation. Embodiments provide for the use of TDAR between two consecutive frames of different time-frequency tile locations by introducing another sub-band combining or sub-band splitting step. As a consequence, embodiments allow for more flexible and adaptive filterbank tilings while maintaining compact impulse responses, two attributes required for efficient perceptual audio coding.

Варианты осуществления предусматривают способ применения уменьшения наложения спектров во временной области (TDAR) между двумя кадрами различных расположений частотно-временными плитками. До этого, TDAR между такими кадрами является невозможным, что приводит к менее идеальной компактности импульсного отклика, когда расположения частотно-временными плитками должны адаптивно изменяться.Embodiments provide a method for applying time domain aliasing reduction (TDAR) between two frames of different time-frequency tile locations. Prior to this, TDAR between such frames is not possible, resulting in a less than ideal compactness of the impulse response when time-frequency tile arrangements must adaptively change.

Варианты осуществления вводят другой этап подполосного объединения/подполосного разбиения, чтобы обеспечивать возможность согласования расположений частотно-временными плитками двух кадров до применения TDAR. После TDAR, исходные расположения частотно-временными плитками могут восстанавливаться.Embodiments introduce another sub-band combining/sub-band splitting step to allow time-frequency tile locations of two frames to be matched prior to applying TDAR. After TDAR, the original time-frequency tile locations can be restored.

Варианты осуществления предусматривают два сценария. Во-первых, восходящее согласование, при котором временное разрешение каждый увеличивается таким образом, что оно согласуется с временным разрешением другого. Во-вторых, нисходящее согласование, обратный случай.Embodiments provide for two scenarios. First, upward matching, in which the temporal resolution of each is increased in such a way that it is consistent with the temporal resolution of the other. Second, downward negotiation, the reverse case.

Фиг. 23 показывает блок-схему последовательности операций способа 320 для обработки аудиосигнала, с тем чтобы получать подполосное представление аудиосигнала. Способ содержит этап 322 выполнения каскадного перекрывающегося критически дискретизированного преобразования, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать наборы подполосных выборок на основе первого блока выборок аудиосигнала и получать наборы подполосных выборок на основе второго блока выборок аудиосигнала. Дополнительно, способ 320 содержит этап 324 идентификации, в случае если наборы подполосных выборок, которые основаны на первом блоке выборок, представляют различные области на частотно-временной плоскости по сравнению с наборами подполосных выборок, которые основаны на втором блоке выборок, одного или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на первом блоке выборок, и одного или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на втором блоке выборок, которые в комбинации представляют идентичную область частотно-временной плоскости. Дополнительно, способ 320 содержит этап 326 выполнения частотно-временных преобразований для идентифицированных одного или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на первом блоке выборок, и/или идентифицированных одного или более наборов подполосных выборок из наборов подполосных выборок, которые основаны на втором блоке выборок, с тем чтобы получать одну или более преобразованных по времени и частоте подполосных выборок, каждая из которых представляет идентичную область на частотно-временной плоскости относительно соответствующей одной из идентифицированных одной или более подполосных выборок либо одной или более их преобразованных по времени и частоте версий. Дополнительно, способ 320 содержит этап 328 выполнения комбинирования со взвешиванием двух соответствующих наборов подполосных выборок либо их преобразованных по времени и частоте версий, причем один из них получен на основе первого блока выборок аудиосигнала, и один из них получен на основе второго блока выборок аудиосигнала, с тем чтобы получать подполосные представления с уменьшенным наложением спектров аудиосигнала.Fig. 23 shows a flow diagram of a method 320 for processing an audio signal so as to obtain a subband representation of the audio signal. The method comprises 322 performing a cascaded overlapping critically sampled transform on at least two partially overlapping blocks of audio samples to obtain sets of subband samples based on the first block of audio samples and obtain sets of subband samples based on the second block of audio samples. Additionally, the method 320 comprises a step 324 of identifying if the subband sample sets that are based on the first block of samples represent different regions on the time-frequency plane compared to the subband sample sets that are based on the second block of samples, one or more subband sample sets samples from subband sample sets that are based on the first block of samples, and one or more subband sample sets from subband sample sets that are based on the second block of samples, which in combination represent an identical region of the time-frequency plane. Additionally, method 320 comprises 326 performing time-frequency transforms on the identified one or more subband sample sets from subband sample sets that are based on the first block of samples and/or the identified one or more subband sample sets from subband sample sets that are based on a second block of samples so as to obtain one or more time and frequency transformed subband samples, each representing an identical region on the time-frequency plane with respect to the corresponding one of the identified one or more subband samples or one or more of their time and frequency transformed versions. Additionally, method 320 comprises 328 performing a weight-combining of two respective sets of subband samples or their time and frequency transformed versions, one of them derived from the first block of audio samples and one of them derived from the second block of audio samples, with in order to obtain sub-band representations with reduced aliasing of the audio signal.

Фиг. 24 показывает блок-схему последовательности операций способа 420 для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, причем подполосное представление аудиосигнала содержит наборы выборок с уменьшенным наложением спектров. Способ 420 содержит этап 422 выполнения частотно-временных преобразований для одного или более наборов подполосных выборок с уменьшенным наложением спектров из наборов подполосных выборок с уменьшенным наложением спектров, соответствующих второму блоку выборок аудиосигнала, и/или для одного или более наборов подполосных выборок с уменьшенным наложением спектров из наборов подполосных выборок с уменьшенным наложением спектров, соответствующих второму блоку выборок аудиосигнала, с тем чтобы получать одну или более преобразованных по времени и частоте подполосных выборок с уменьшенным наложением спектров, каждая из которых представляет идентичную область на частотно-временной плоскости относительно соответствующей одной из одной или более подполосных выборок с уменьшенным наложением спектров, соответствующих другому блоку выборок аудиосигнала, либо одной или более их преобразованных по времени и частоте версий. Дополнительно, способ 420 содержит этап 424 выполнения комбинирований со взвешиванием соответствующих наборов подполосных выборок с уменьшенным наложением спектров либо их преобразованных по времени и частоте версий, с тем чтобы получать подполосное представление с наложением спектров. Дополнительно, способ 420 содержит этап 426 выполнения частотно-временных преобразований для подполосного представления с наложением спектров, с тем чтобы получать наборы подполосных выборок, соответствующих первому блоку выборок аудиосигнала, и наборы подполосных выборок, соответствующих второму блоку выборок аудиосигнала, при этом частотно-временное преобразование, применяемое посредством первого каскада обратного частотно-временного преобразования, является обратным по отношению к частотно-временному преобразованию, применяемому посредством второго каскада обратного частотно-временного преобразования. Дополнительно, способ 420 содержит этап 428 выполнения каскадного обратного перекрывающегося критически дискретизированного преобразования для наборов подполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.Fig. 24 shows a flow diagram of a method 420 for processing a subband representation of an audio signal to obtain an audio signal, the subband representation of the audio signal comprising de-aliased sample sets. Method 420 comprises 422 performing time-frequency transforms on one or more de-aliased sub-band sample sets from the de-aliased sub-band sample sets corresponding to the second block of audio samples and/or on one or more de-aliased sub-band sample sets. from sets of de-aliased sub-band samples corresponding to the second block of audio samples, so as to obtain one or more time-frequency-transformed de-aliased sub-band samples, each representing an identical region in the time-frequency plane with respect to the corresponding one of the one or more de-aliased subband samples corresponding to another block of audio samples, or one or more time and frequency transformed versions thereof. Additionally, the method 420 comprises 424 performing weighted combinations of the respective de-aliased subband sample sets, or time and frequency transformed versions thereof, to obtain a subband aliased representation. Further, the method 420 comprises 426 performing time-frequency transforms on the aliased sub-band representation to obtain sets of sub-band samples corresponding to the first block of audio samples and sets of sub-band samples corresponding to the second block of audio samples, wherein the time-frequency transform applied by the first inverse time-frequency transform stage is the inverse of the time-frequency transform applied by the second inverse time-frequency transform stage. Additionally, method 420 comprises 428 performing a cascaded inverse lapped critically sampled transform on sets of subband samples to obtain a set of samples associated with a block of audio samples.

Далее описываются дополнительные варианты осуществления. В силу этого, нижеприведенные варианты осуществления могут комбинироваться с вышеуказанными вариантами осуществления.Further embodiments are described below. Because of this, the following embodiments can be combined with the above embodiments.

Вариант 1 осуществления. Аудиопроцессор (100) для обработки аудиосигнала (102), с тем чтобы получать подполосное представление аудиосигнала (102), причем аудиопроцессор (100) содержит: каскад (104) каскадного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков (108_1; 108_2) выборок аудиосигнала (102), с тем чтобы получать набор (110_1,1) подполосных выборок на основе первого блока (108_1) выборок аудиосигнала (102) и получать соответствующий набор (110_2,1) подполосных выборок на основе второго блока (108_2) выборок аудиосигнала (102); и каскад (106) уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов (110_1,1; 110_1,2) подполосных выборок, причем один из них получен на основе первого блока (108_1) выборок аудиосигнала (102), и один из них получен на основе на втором блоке (108_2) выборок аудиосигнала, с тем чтобы получать подполосное представление (112_1) с уменьшенным наложением спектров аудиосигнала (102).Option 1 implementation. An audio processor (100) for processing an audio signal (102) so as to obtain a sub-band representation of the audio signal (102), wherein the audio processor (100) comprises: for at least two partially overlapping blocks (108_1; 108_2) of audio samples (102) so as to obtain a set (110_1,1) of subband samples based on the first block (108_1) of audio samples (102) and obtain a corresponding set (110_2, 1) subband samples based on the second block (108_2) of audio samples (102); and a time-domain aliasing reduction stage (106) configured to weight-combine two respective sets (110_1.1; 110_1.2) of subband samples, one of which is obtained based on the first block (108_1) of audio signal samples (102 ), and one of them is derived based on the second block (108_2) of audio samples so as to obtain a sub-band representation (112_1) with reduced aliasing of the audio signal (102).

Вариант 2 осуществления. Аудиопроцессор (100) согласно варианту 1 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования содержит: первый каскад (120) перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающиеся критически дискретизированные преобразования для первого блока (108_1) выборок и второго блока (108_2) выборок, по меньшей мере, из двух частично перекрывающихся блоков (108_1; 108_2) выборок аудиосигнала (102), с тем чтобы получать первый набор (124_1) бинов для первого блока (108_1) выборок и второй набор (124_2) бинов для второго блока (108_2) выборок.Option 2 implementation. The audio processor (100) according to embodiment 1, wherein the cascaded overlapped critically sampled transform stage (104) comprises: a first overlapped critically sampled transform stage (120) configured to perform overlapped critically sampled transforms for the first block (108_1) of samples and the second block (108_2) samples from at least two partially overlapping blocks (108_1; 108_2) of audio signal samples (102) so as to obtain a first set (124_1) of bins for the first block (108_1) of samples and a second set (124_2) of bins for the second block (108_2) samples.

Вариант 3 осуществления. Аудиопроцессор (100) согласно варианту 2 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования дополнительно содержит: второй каскад (126) перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающееся критически дискретизированное преобразование для сегмента (128_1,1) первого набора (124_1) бинов и выполнять перекрывающееся критически дискретизированное преобразование для сегмента (128_2,1) второго набора (124_2) бинов, причем каждый сегмент ассоциирован с подполосой частот аудиосигнала (102), с тем чтобы получать набор (110_1,1) подполосных выборок для первого набора бинов и набор (110_2,1) подполосных выборок для второго набора бинов.Option 3 implementation. The audio processor (100) according to embodiment 2, wherein the cascaded overlapped critically sampled transform stage (104) further comprises: a second overlapped critically sampled transform stage (126) configured to perform overlapped critically sampled transform for segment (128_1,1) of the first set (124_1) bins and perform an overlap critically sampled transform on a segment (128_2,1) of the second set (124_2) of bins, with each segment associated with an audio subband (102), so as to obtain a set (110_1,1) of subband samples for the first a set of bins and a set (110_2,1) of subband samples for the second set of bins.

Вариант 4 осуществления. Аудиопроцессор (100) согласно варианту 3 осуществления, в котором первый набор (110_1,1) подполосных выборок представляет собой результат первого перекрывающегося критически дискретизированного преобразования (132_1,1) на основе первого сегмента (128_1,1) первого набора (124_1) бинов, при этом второй набор (110_1,2) подполосных выборок представляет собой результат второго перекрывающегося критически дискретизированного преобразования (132_1,2) на основе второго сегмента (128_1,2) первого набора (124_1) бинов, при этом третий набор (110_2,1) подполосных выборок представляет собой результат третьего перекрывающегося критически дискретизированного преобразования (132_2,1) на основе первого сегмента (128_2,1) второго набора (128_2,1) бинов, при этом четвертый набор (110_2,2) подполосных выборок представляет собой результат четвертого перекрывающегося критически дискретизированного преобразования (132_2,2) на основе второго сегмента (128_2,2) второго набора (128_2,1) бинов; и при этом каскад (106) уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием первого набора (110_1,1) подполосных выборок и третьего набора (110_2,1) подполосных выборок, с тем чтобы получать первое подполосное представление (112_1) с уменьшенным наложением спектров аудиосигнала, при этом каскад (106) уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием второго набора (110_1,2) подполосных выборок и четвертого набора (110_2,2) подполосных выборок, с тем чтобы получать второе подполосное представление (112_2) с уменьшенным наложением спектров аудиосигнала.Option 4 implementation. The audio processor (100) according to embodiment 3, wherein the first set (110_1,1) of subband samples is the result of the first overlapped critically sampled transform (132_1,1) based on the first segment (128_1,1) of the first set (124_1) of bins, with the second set (110_1,2) subband samples is the result of the second overlapping critically sampled transform (132_1,2) based on the second segment (128_1,2) of the first set (124_1) bins, while the third set (110_2,1) subband samples is the result of the third overlapped critically sampled transform (132_2,1) based on the first segment (128_2.1) of the second set (128_2.1) of bins, while the fourth set (110_2.2) subband samples is the result of the fourth overlapped critically sampled transform (132_2,2) based on the second segment (128_2,2) of the second set (128_2,1) of bins; and wherein the time-domain aliasing reduction stage (106) is configured to weight-combine the first subband sample set (110_1,1) and the third subband sample set (110_2,1) to obtain the first subband representation (112_1) with reduced aliasing of the audio signal, wherein the time domain aliasing reduction stage (106) is configured to weight-combine the second set (110_1,2) subband samples and the fourth set (110_2,2) subband samples to obtain a second subband representation (112_2) with reduced aliasing of the audio signal.

Вариант 5 осуществления. Аудиопроцессор (100) согласно одному из вариантов 1-4 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_1) бинов, полученный на основе первого блока (108_1) выборок, с использованием, по меньшей мере, двух функций кодирования со взвешиванием и получать, по меньшей мере, два сегментированных набора (128_1,1; 128_1,2) подполосных выборок на основе сегментированного набора бинов, соответствующего первому блоку (108_1) выборок; при этом каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_2) бинов, полученный на основе второго блока (108_2) выборок, с использованием, по меньшей мере, двух функций кодирования со взвешиванием, с тем чтобы получать, по меньшей мере, два сегментированных набора (128_2,1; 128_2,2) подполосных выборок на основе сегментированного набора бинов, соответствующего второму блоку (108_2) выборок; и при этом, по меньшей мере, две функции кодирования со взвешиванием содержат различную ширину окна кодирования со взвешиванием.Option 5 implementation. The audio processor (100) according to one of embodiments 1-4, wherein the cascaded overlapped critically sampled transform stage (104) is configured to segment the set (124_1) of bins obtained from the first block (108_1) of samples using at least , two weighted coding functions, and obtain at least two segmented sets (128_1,1; 128_1,2) of subband samples based on the segmented set of bins corresponding to the first block (108_1) of samples; wherein the cascaded overlapped critically sampled transform stage (104) is configured to segment the set (124_2) of bins obtained from the second block (108_2) of samples using at least two weighted coding functions to obtain, by at least two segmented sets (128_2.1; 128_2.2) of subband samples based on the segmented set of bins corresponding to the second block (108_2) of samples; and wherein the at least two weighting coding functions comprise different weighting coding window widths.

Вариант 6 осуществления. Аудиопроцессор (100) согласно одному из вариантов 1-5 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_1) бинов, полученный на основе первого блока (108_1) выборок, с использованием, по меньшей мере, двух функций кодирования со взвешиванием и получать, по меньшей мере, два сегментированных набора (128_1,1; 128_1,2) подполосных выборок на основе сегментированного набора бинов, соответствующего первому блоку (108_1) выборок; при этом каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_2) бинов, полученный на основе второго блока (108_2) выборок, с использованием, по меньшей мере, двух функций кодирования со взвешиванием, с тем чтобы получать, по меньшей мере, два набора (128_2,1; 128_2,2) подполосных выборок на основе сегментированного набора бинов, соответствующего второму блоку (108_2) выборок; и при этом наклоны фильтра функций кодирования со взвешиванием, соответствующих смежным наборам подполосных выборок, являются симметричными.Option 6 implementation. The audio processor (100) according to one of embodiments 1-5, wherein the cascaded overlapped critically sampled transform stage (104) is configured to segment the set (124_1) of bins derived from the first block (108_1) of samples using at least , two weighted coding functions, and obtain at least two segmented sets (128_1,1; 128_1,2) of subband samples based on the segmented set of bins corresponding to the first block (108_1) of samples; wherein the cascaded overlapped critically sampled transform stage (104) is configured to segment the set (124_2) of bins obtained from the second block (108_2) of samples using at least two weighted coding functions to obtain, by at least two sets (128_2.1; 128_2.2) of subband samples based on the segmented set of bins corresponding to the second block (108_2) of samples; and wherein the filter slopes of the weighted coding functions corresponding to adjacent sets of subband samples are symmetrical.

Вариант 7 осуществления. Аудиопроцессор (100) согласно одному из вариантов 1-6 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать выборки аудиосигнала на первый блок (108_1) выборок и второй блок (108_2) выборок с использованием первой функции кодирования со взвешиванием; при этом каскад перекрывающегося критически дискретизированного преобразования (104) выполнен с возможностью сегментировать набор (124_1) бинов, полученный на основе первого блока (108_1) выборок, и набор (124_2) бинов, полученный на основе второго блока (108_2) выборок, с использованием второй функции кодирования со взвешиванием, с тем чтобы получать соответствующие подполосные выборки; и при этом первая функция кодирования со взвешиванием и вторая функция кодирования со взвешиванием содержат различную ширину окна кодирования со взвешиванием.Option 7 implementation. An audio processor (100) according to one of embodiments 1-6, wherein the cascaded overlapped critically sampled transform stage (104) is configured to segment the audio signal samples into a first block (108_1) of samples and a second block (108_2) of samples using a first coding function with weighing; wherein the overlapping critically sampled transform stage (104) is configured to segment the set (124_1) of bins obtained from the first block (108_1) of samples and the set (124_2) of bins obtained from the second block (108_2) of samples using the second weighted coding functions to obtain the corresponding subband samples; and wherein the first weighting coding function and the second weighting coding function comprise a different weighting coding window width.

Вариант 8 осуществления. Аудиопроцессор (100) согласно одному из вариантов 1-6 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать выборки аудиосигнала на первый блок (108_1) выборок и второй блок (108_2) выборок с использованием первой функции кодирования со взвешиванием; при этом каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_1) бинов, полученный на основе первого блока (108_1) выборок, и набор (124_2) бинов, полученный на основе второго блока (108_2) выборок, с использованием второй функции кодирования со взвешиванием, с тем чтобы получать соответствующие подполосные выборки; и при этом ширина окна кодирования со взвешиванием первой функции кодирования со взвешиванием и ширина окна кодирования со взвешиванием второй функции кодирования со взвешиванием отличаются друг от друга, при этом ширина окна кодирования со взвешиванием первой функции кодирования со взвешиванием и ширина окна кодирования со взвешиванием второй функции кодирования со взвешиванием отличаются друг от друга на коэффициент, отличающийся от степени двух.Option 8 implementation. An audio processor (100) according to one of embodiments 1-6, wherein the cascaded overlapped critically sampled transform stage (104) is configured to segment the audio signal samples into a first block (108_1) of samples and a second block (108_2) of samples using a first coding function with weighing; wherein the cascaded overlapped critically sampled transform stage (104) is configured to segment the bin set (124_1) obtained from the first block (108_1) of samples and the set (124_2) of bins obtained from the second block (108_2) of samples using a second weighted coding function so as to obtain corresponding subband samples; and wherein the width of the weighted coding window of the first weighted coding function and the width of the weighted coding window of the second weighted coding function are different from each other, wherein the width of the weighted coding window of the first weighted coding function and the width of the weighted coding window of the second coding function with weighting differ from each other by a factor different from a power of two.

Вариант 9 осуществления. Аудиопроцессор (100) согласно одному из вариантов 1-8 осуществления, в котором каскад (106) уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов подполосных выборок согласно следующему уравнению:Option 9 implementation. An audio processor (100) according to one of embodiments 1-8, wherein the time domain de-aliasing stage (106) is configured to perform weighting of two respective sets of subband samples according to the following equation:

- для 0≤m<N/2 при:- for 0≤m<N/2 with:

с тем чтобы получать подполосное представление с уменьшенным наложением спектров аудиосигнала, при этом y_{v, i}(m) представляет собой первое подполосное представление с уменьшенным наложением спектров аудиосигнала, y_{v, i-1}(N-1-m) представляет собой второе подполосное представление с уменьшенным наложением спектров аудиосигнала, ŷ_{v, i}(m) представляет собой набор подполосных выборок на основе второго блока выборок аудиосигнала, ŷ_{v, i-1}(N-1-m) представляет собой набор подполосных выборок на основе первого блока выборок аудиосигнала, a_v(m) представляет собой ..., b_v(m) представляет собой..., c_v(m) представляет собой ..., и d_v(m) представляет собой....so as to obtain an audio dealiased sub-band representation, wherein y _{v, i} (m) is the first audio de-aliased sub-band representation, y _{v, i-1} (N-1-m) is the second sub-band representation with reduced audio aliasing, ŷ _{v, i} (m) is a set of sub-band samples based on the second block of audio samples, ŷ _{v, i-1} (N-1-m) is a set of sub-band samples based on the first block of audio samples, a _v (m) is ..., b _v (m) is ..., c _v (m) is ..., and d _v (m) is ....

Вариант 10 осуществления. Аудиопроцессор (200) для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал (102), причем аудиопроцессор (200) содержит: каскад (202) обратного уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих подполосных представлений с уменьшенным наложением спектров аудиосигнала (102), с тем чтобы получать подполосное представление с наложением спектров, при этом подполосное представление с наложением спектров представляет собой набор (110_1,1) подполосных выборок; и каскад (204) каскадного обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное обратное перекрывающееся критически дискретизированное преобразование для набора (110_1,1) подполосных выборок, с тем чтобы получать набор (206_1,1) выборок, ассоциированных с блоком выборок аудиосигнала (102).Option 10 implementation. An audio processor (200) for processing a subband representation of an audio signal so as to obtain an audio signal (102), wherein the audio processor (200) comprises: an inverse time domain dealiasing stage (202) configured to perform a weighted combination of two respective subband representations with reduced aliasing of the audio signal (102) so as to obtain an aliased sub-band representation, wherein the aliased sub-band representation is a set of (110_1,1) sub-band samples; and a cascaded inverse lap critically sampled transform (204) configured to perform a cascaded inverse lap critically sampled transform on a set of (110_1,1) subband samples to obtain a set of (206_1,1) samples associated with a block of audio samples ( 102).

Вариант 11 осуществления. Аудиопроцессор (200) согласно варианту 10 осуществления, в котором каскад (204) каскадного обратного перекрывающегося критически дискретизированного преобразования содержит первый каскад (208) обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора (110_1,1) подполосных выборок, с тем чтобы получать набор (128_1,1) бинов, ассоциированный с данной подполосой частот аудиосигнала; и первый каскад (210) суммирования с перекрытием, выполненный с возможностью выполнять конкатенацию наборов бинов, ассоциированных с множеством подполос частот аудиосигнала, что содержит комбинирование со взвешиванием набора (128_1,1) бинов, ассоциированных с данной подполосой частот аудиосигнала (102), с набором (128_1,2) бинов, ассоциированных с другой подполосой частот аудиосигнала (102), с тем чтобы получать набор (124_1) бинов, ассоциированных с блоком выборок аудиосигнала (102).Option 11 implementation. The audio processor (200) according to embodiment 10, wherein the cascaded inverse overlapped critically sampled transform stage (204) comprises a first inverse overlapped critically sampled transform stage (208) configured to perform an inverse overlapped critically sampled transform for a set of (110_1,1) subband samples to obtain a set of (128_1,1) bins associated with a given subband of the audio signal; and a first overlap-adding stage (210) configured to concatenate the sets of bins associated with the plurality of audio subbands, which comprises weighting the set (128_1,1) of bins associated with a given audio subband (102) with the set (128_1,2) bins associated with another audio subband (102) to obtain a set (124_1) of bins associated with a block of audio samples (102).

Вариант 12 осуществления. Аудиопроцессор (200) согласно варианту 11 осуществления, в котором каскад (204) каскадного обратного перекрывающегося критически дискретизированного преобразования содержит второй каскад (212) обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора (124_1) бинов, ассоциированных с блоком выборок аудиосигнала (102), с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала (102).Option 12 implementation. The audio processor (200) according to embodiment 11, wherein the cascaded inverse overlapped critically sampled transform stage (204) comprises a second inverse overlapped critically sampled transform stage (212) configured to perform an inverse overlapped critically sampled transform on a set (124_1) of bins associated with a block of audio samples (102) so as to obtain a set of samples associated with a block of audio samples (102).

Вариант 13 осуществления. Аудиопроцессор (200) согласно варианту 12 осуществления, в котором каскад (204) каскадного обратного перекрывающегося критически дискретизированного преобразования содержит второй каскад (214) суммирования с перекрытием, выполненный с возможностью суммировать с перекрытием набор (206_1,1) выборок, ассоциированных с блоком выборок аудиосигнала (102), и другой набор (206_2,1) выборок, ассоциированных с другим блоком выборок аудиосигнала (102), причем блок выборок и другой блок выборок аудиосигнала (102) частично перекрываются, с тем чтобы получать аудиосигнал (102).Option 13 implementation. The audio processor (200) according to embodiment 12, wherein the cascaded inverse overlapped critically sampled transform stage (204) comprises a second overlap-add stage (214) configured to overlap-add a set (206_1,1) of samples associated with a block of audio signal samples (102), and another set (206_2,1) of samples associated with another block of audio samples (102), wherein the block of samples and the other block of audio samples (102) partially overlap so as to obtain an audio signal (102).

Вариант 14 осуществления. Аудиопроцессор (200) согласно одному из вариантов 10-13 осуществления, в котором каскад (202) обратного уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием двух соответствующих подполосных представлений с уменьшенным наложением спектров аудиосигнала (102) на основе следующего уравнения:Option 14 implementation. An audio processor (200) according to one of embodiments 10-13, wherein the time domain de-aliasing de-aliasing stage (202) is configured to weight-combine two respective de-aliased sub-band representations of the audio signal (102) based on the following equation:

- для 0≤m<N/2 при:- for 0≤m<N/2 with:

с тем чтобы получать подполосное представление с наложением спектров, при этом y_v,i(m) представляет собой первое подполосное представление с уменьшенным наложением спектров аудиосигнала, y_v,i-1(N-1-m) представляет собой второе подполосное представление с уменьшенным наложением спектров аудиосигнала, ŷ_v,i(m) представляет собой набор подполосных выборок на основе второго блока выборок аудиосигнала, ŷ_v,i-1(N-1-m) представляет собой набор подполосных выборок на основе первого блока выборок аудиосигнала, a_v(m) представляет собой ..., b_v(m) представляет собой ..., c_v(m) представляет собой ..., и d_v(m) представляет собой ....so as to obtain an aliased sub-band representation, wherein y _v,i (m) is the first de-aliased sub-band representation of the audio signal, y _{v, i-1} (N-1-m) is the second de-aliased sub-band representation ŷ _v,i (m) is a set of subband samples based on the second block of audio samples, ŷ _v,i-1 (N-1-m) is a set of subband samples based on the first block of audio samples, a _v (m) is ..., b _v (m) is ..., c _v (m) is ..., and d _v (m) is ....

Вариант 15 осуществления. Аудиокодер, содержащий: аудиопроцессор (100) согласно одному из вариантов 1-9 осуществления; кодер, выполненный с возможностью кодировать подполосное представление с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать кодированное подполосное представление с уменьшенным наложением спектров аудиосигнала; и модуль формирования потоков битов, выполненный с возможностью формировать поток битов из кодированного подполосного представления с уменьшенным наложением спектров аудиосигнала.Option 15 implementation. An audio encoder comprising: an audio processor (100) according to one of embodiments 1-9; an encoder configured to encode a de-aliased sub-band representation of the audio signal so as to obtain a de-aliased sub-band encoded representation of the audio signal; and a bitstream generator configured to generate a bitstream from the encoded subband dealiased representation of the audio signal.

Вариант 16 осуществления. Аудиодекодер, содержащий: синтаксический анализатор потоков битов, выполненный с возможностью синтаксически анализировать поток битов, с тем чтобы получать кодированное подполосное представление с уменьшенным наложением спектров; декодер, выполненный с возможностью декодировать кодированное подполосное представление с уменьшенным наложением спектров, с тем чтобы получать подполосное представление с уменьшенным наложением спектров аудиосигнала; и аудиопроцессор (200) согласно одному из вариантов 10-14 осуществления.Option 16 implementation. An audio decoder comprising: a bit stream parser configured to parse the bit stream to obtain an encoded sub-band representation with reduced aliasing; a decoder configured to decode the encoded de-aliased sub-band representation to obtain a de-aliased sub-band representation of the audio signal; and an audio processor (200) according to one of the embodiments 10-14.

Вариант 17 осуществления: Аудиоанализатор, содержащий: аудиопроцессор (100) согласно одному из вариантов 1-9 осуществления; и модуль извлечения информации, выполненный с возможностью анализировать подполосное представление с уменьшенным наложением спектров, с тем чтобы предоставлять информацию, описывающую аудиосигнал.Embodiment 17: An audio analyzer comprising: an audio processor (100) according to one of embodiments 1-9; and an information extractor configured to analyze the de-aliased sub-band representation so as to provide information describing the audio signal.

Вариант 18 осуществления. Способ (300) для обработки аудиосигнала, с тем чтобы получать подполосное представление аудиосигнала, при этом способ содержит: выполнение (302) каскадного перекрывающегося критически дискретизированного преобразования, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор подполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор подполосных выборок на основе второго блока выборок аудиосигнала; и выполнение (304) комбинирования со взвешиванием двух соответствующих наборов подполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, и один из них получен на основе второго блока выборок аудиосигнала, с тем чтобы получать подполосное представление с уменьшенным наложением спектров аудиосигнала.Option 18 implementation. A method (300) for processing an audio signal so as to obtain a sub-band representation of an audio signal, the method comprising: performing (302) a cascaded overlapping critically sampled transform on at least two partially overlapping blocks of audio signal samples so as to obtain a set of sub-band samples based on the first block of audio samples and obtain a corresponding set of subband samples based on the second block of audio samples; and performing (304) weight-combining the two respective sets of subband samples, one of them derived from the first block of audio samples and one of them derived from the second block of audio samples, so as to obtain a de-aliased subband representation of the audio signal.

Вариант 19 осуществления. Способ (400) для обработки подполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, при этом способ содержит: выполнение (402) комбинирования со взвешиванием двух соответствующих подполосных представлений с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать подполосное представление с наложением спектров, при этом подполосное представление с наложением спектров представляет собой набор подполосных выборок; и выполнение (404) каскадного обратного перекрывающегося критически дискретизированного преобразования для набора подполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.Option 19 implementation. A method (400) for processing a sub-band representation of an audio signal so as to obtain an audio signal, the method comprising: performing (402) a weighted combination of two respective de-aliased sub-band representations of the audio signal so as to obtain a sub-band alias representation, wherein the sub-band aliasing is a set of sub-band samples; and performing (404) a cascaded inverse overlap critically sampled transform on the set of subband samples to obtain a set of samples associated with the block of audio samples.

Вариант 20 осуществления. Компьютерная программа для осуществления способа согласно одному из вариантов 18 и 19 осуществления.Embodiment 20. Computer program for implementing the method according to one of the options 18 and 19 implementation.

Хотя некоторые аспекты описаны в контексте оборудования, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего оборудования. Некоторые или все этапы способа могут выполняться посредством (или с использованием) аппаратного оборудования, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, один или более из самых важных этапов способа могут выполняться посредством этого оборудования.Although some aspects are described in the context of equipment, it is obvious that these aspects also represent a description of the corresponding method, with the block or device corresponding to a method step or a feature of a method step. Likewise, aspects described in the context of a method step also provide a description of the associated block or element, or feature of the associated equipment. Some or all of the steps of the method may be performed by (or using) hardware such as, for example, a microprocessor, a programmable computer, or an electronic circuit. In some embodiments, one or more of the most important steps of the method may be performed by this equipment.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут реализовываться в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.Depending on certain implementation requirements, embodiments of the invention may be implemented in hardware or in software. The implementation may be performed using a digital storage medium, such as a floppy disk, DVD, Blu-ray, CD, ROM, PROM, EPROM, EEPROM, or flash memory, having electronically readable control signals stored that interact (or are capable of interacting) with programmable computer system in such a way that the corresponding method is carried out. Therefore, the digital storage medium can be machine readable.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.Some embodiments of the invention comprise a storage medium having electronically readable control signals that are capable of interacting with a programmable computer system such that one of the methods described herein is implemented.

В общем, варианты осуществления настоящего изобретения могут реализовываться как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.In general, embodiments of the present invention may be implemented as a computer program product with program code, wherein the program code is configured to perform one of the methods when the computer program product is running on the computer. The program code may, for example, be stored on a computer-readable medium.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.Other embodiments comprise a computer program for carrying out one of the methods described herein, stored on a computer-readable medium.

Другими словами, вариант осуществления изобретаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.In other words, an embodiment of the inventive method is therefore a computer program having program code for carrying out one of the methods described herein when the computer program is running on a computer.

Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.Therefore, a further embodiment of the inventive methods is a storage medium (digital storage medium or computer-readable medium) containing a recorded computer program for carrying out one of the methods described herein. The storage medium, digital storage medium or recorded data medium is typically tangible and/or non-volatile.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.Therefore, an additional embodiment of the inventive method is a data stream or a sequence of signals representing a computer program for implementing one of the methods described herein. The data stream or signal sequence, for example, may be configured to be transmitted over a data connection, such as the Internet.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.An additional embodiment comprises processing means, such as a computer or programmable logic device, configured to perform one of the methods described herein.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.An additional embodiment comprises a computer having a computer program installed to implement one of the methods described herein.

Дополнительный вариант осуществления согласно изобретению содержит оборудование или систему, выполненную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Оборудование или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.A further embodiment according to the invention comprises equipment or a system capable of transmitting (eg, electronically or optically) a computer program for performing one of the methods described herein to a receiving device. The receiving device may, for example, be a computer, mobile device, storage device, or the like. The equipment or system, for example, may include a file server for transmitting a computer program to a receiving device.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного оборудования.In some embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a user-programmable gate array may interface with a microprocessor to implement one of the methods described herein. In general, the methods are preferably carried out by any hardware.

Оборудование, описанное в данном документе, может реализовываться с использованием аппаратного оборудования либо с использованием компьютера, либо с использованием комбинации аппаратного оборудования и компьютера.The equipment described in this document may be implemented using hardware or using a computer, or using a combination of hardware and a computer.

Оборудование, описанное в данном документе, или любые компоненты оборудования, описанного в данном документе, могут реализовываться, по меньшей мере, частично в аппаратных средствах и/или в программном обеспечении.The equipment described herein, or any components of the equipment described herein, may be implemented at least in part in hardware and/or software.

Способы, описанные в данном документе, могут осуществляться с использованием аппаратного оборудования либо с использованием компьютера, либо с использованием комбинации аппаратного оборудования и компьютера.The methods described herein may be performed using hardware, or using a computer, or using a combination of hardware and a computer.

Способы, описанные в данном документе, или любые компоненты оборудования, описанного в данном документе, могут выполняться, по меньшей мере, частично посредством аппаратных средств и/или посредством программного обеспечения.The methods described herein, or any components of the equipment described herein, may be performed at least in part by hardware and/or by software.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.The above described embodiments are merely illustrative of the principles of the present invention. It should be understood that modifications and changes to the arrangements and details described herein should be apparent to those skilled in the art. Therefore, they are intended to be limited only by the scope of the following claims, and not by the specific details provided through the description and explanation of the embodiments herein.

Библиографический списокBibliographic list

[1] H. S. Malvar "Biorthogonal and nonuniform lapped transforms for transform coding with reduced blocking and ringing artifacts", IEEE Transactions on Signal Processing, издание 46, номер 4, стр. 1043-1053, апрель 1998 года.[1] H. S. Malvar "Biorthogonal and nonuniform lapped transforms for transform coding with reduced blocking and ringing artifacts", IEEE Transactions on Signal Processing, Vol. 46, Number 4, pp. 1043-1053, April 1998.

[2] O. A. Niamut и R. Heusdens "Subband merging in cosine-modulated filter banks", IEEE Signal Processing Letters, издание 10, номер 4, стр. 111-114, апрель 2003 года.[2] O. A. Niamut and R. Heusdens "Subband merging in cosine-modulated filter banks", IEEE Signal Processing Letters, Edition 10, Number 4, pp. 111-114, April 2003.

[3] Frederic Bimbot, Ewen Camberlein и Pierrick Philippe "Adaptive Filter Banks using Fixed Size MDCT and Subband Merging for Audio Coding - Comparison with the MPEG AAC Filter Banks", in Audio Engineering Society Convention 121, октябрь 2006 года, Audio Engineering Society.[3] Frederic Bimbot, Ewen Camberlein and Pierrick Philippe "Adaptive Filter Banks using Fixed Size MDCT and Subband Merging for Audio Coding - Comparison with the MPEG AAC Filter Banks", in Audio Engineering Society Convention 121, October 2006, Audio Engineering Society.

[4] N. Werner и B. Edler, "Nonuniform Orthogonal Filterbanks Based on MDCT Analysis/Synthesis and Time-Domain Aliasing Reduction", IEEE Signal Processing Letters, издание 24, номер 5, стр. 589-593, май 2017 года.[4] N. Werner and B. Edler, "Nonuniform Orthogonal Filterbanks Based on MDCT Analysis/Synthesis and Time-Domain Aliasing Reduction", IEEE Signal Processing Letters, Edition 24, Number 5, pp. 589-593, May 2017.

[5] Nils Werner и Bernd Edler "Perceptual Audio Coding with Adaptive Non-Uniform Time/Frequency Tilings using Subband Merging and Time Domain Aliasing Reduction", in 2019 IEEE International Conference on Acoustics, Speech and Signal Processing, 2019 год.[5] Nils Werner and Bernd Edler "Perceptual Audio Coding with Adaptive Non-Uniform Time/Frequency Tilings using Subband Merging and Time Domain Aliasing Reduction", in 2019 IEEE International Conference on Acoustics, Speech and Signal Processing, 2019.

[6] B. Edler "Codierung von Audiosignalen mit

Transformation und adaptiven Fensterfunktionen", Frequenz, издание 43, стр. 252-256, сентябрь 1989 года.[6] B. Edler "Codierung von Audiosignalen mit

Transformation und adaptiven Fensterfunktionen", Frequenz, edition 43, pp. 252-256, September 1989.

[7] G. D. T. Schuller и M. J. T. Smith "New framework for modulated perfect reconstruction filter banks", IEEE Transactions on Signal Processing, издание 44, номер 8, стр. 1941-1954, август 1996 года.[7] G. D. T. Schuller and M. J. T. Smith "New framework for modulated perfect reconstruction filter banks", IEEE Transactions on Signal Processing, Vol. 44, Number 8, pp. 1941-1954, August 1996.

[8] Gerald Schuller "Time-Varying Filter Banks With Variable System Delay", In IEEE International Conference on Acoustics, Speech and Signal Proecessing (ICASSP, 1997 год, стр. 21-24.[8] Gerald Schuller "Time-Varying Filter Banks With Variable System Delay", In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP, 1997, pp. 21-24.

[9] Carl Taswell "Empirical Tests for Evaluation of Multirate Filter Bank Parameters", in Wavelets in Signal and Image Analysis, Max A. Viergever, Arthur A. Petrosian and Franc¸ois G. Meyer, Eds., издание 19, стр. 111-139. Springer Netherlands, Dordrecht, 2001 год.[9] Carl Taswell "Empirical Tests for Evaluation of Multirate Filter Bank Parameters", in Wavelets in Signal and Image Analysis, Max A. Viergever, Arthur A. Petrosian and Francois G. Meyer, Eds., edition 19, p. 111-139. Springer Netherlands, Dordrecht, 2001.

[10] F. Schuh, S. Dick, R. Füg, C. R. Helmrich, N. Rettelbach и T. Schwegler "Efficient Multichannel Audio Tranform Coding with Low Delay and Complexity", Audio Engineering Society, сентябрь 2016 года [онлайн]. По адресу: http://www.aes.org/e-lib/browse.cfm? elib=18464[10] F. Schuh, S. Dick, R. Füg, C. R. Helmrich, N. Rettelbach, and T. Schwegler "Efficient Multichannel Audio Tranform Coding with Low Delay and Complexity", Audio Engineering Society, September 2016 [online]. At: http://www.aes.org/e-lib/browse.cfm? elib=18464

Claims

1. An audio processor (100) for processing an audio signal (102) in order to obtain a subband representation of an audio signal (102), wherein the audio processor (100) comprises:

a cascaded overlapped critically sampled transform (104) configured to perform a cascaded overlapped critically sampled transform on at least two partially overlapping blocks (108_1; 108_2) of discrete audio samples (102) to obtain sets (110_1,1; 110_1,2) subband samples based on the first block (108_1) of audio samples (102) and obtain sets (110_2,1; 110_2,2) of subband samples based on the second block (108_2) of audio samples (102);

the first cascade (105) of the frequency-time transformation, made with the ability to identify, if the sets (110_1,1; 110_1,2) of sub-band discrete samples, which are based on the first block (108_1) of discrete samples, represent different areas on the frequency-time plane compared to the subband sample sets (110_2.1; 110_2.2) that are based on the second block (108_2) of samples, one or more subband sample sets from the subband sample sets (110_1.1; 110_1.2) of subband samples , which are based on the first block of samples (108_1), and one or more sets of sub-band samples from the sets (110_2,1; 110_2,2) of sub-band samples that are based on the second block (108_2) of samples, which in combination represent the same region on the time-frequency plane, and perform a time-frequency transform of the identified one or more subsets banded discrete samples from sets (110_2,1; 110_2,2) subband samples that are based on the first block (108_1) of samples, and/or identified one or more sets of subband samples from sets (110_2,1; 110_2,2) of subband samples that are based on the second block (108_2) samples so as to obtain one or more time and frequency converted sub-band samples, each representing the same region on the time-frequency plane with respect to a corresponding one of the identified one or more sub-band samples or one or more their time-transformed and frequency-transformed versions; And

a time-domain aliasing reduction cascade (106) configured to perform a weighting combination of two respective sets of sub-band samples or their time- and frequency-transformed versions, one of which is derived from the first block (108_1) of audio samples (102 ) and one of them is obtained based on the second block (108_2) of discrete samples of the audio signal in order to obtain sub-band representations (112_1-112_2) with reduced aliasing of the audio signal (102).

2. The audio processor (100) of the preceding claim, wherein the time-frequency transform performed by the first time-frequency transform stage is an overlapped critically sampled transform.

3. The audio processor (100) according to one of the preceding claims, wherein the frequency-to-time conversion of the identified one or more sets of sub-band discrete samples from sets (110_2.1; 110_2.2) of sub-band discrete samples that are based on the second block (108_2) of discrete samples samples, and/or identified one or more sets of sub-band samples from sets (110_2,1; 110_2,2) of sub-band samples that are based on the second block (108_2) of discrete samples, performed by the time-frequency transform stage, corresponds to the transformation, described by the following formula:

where S(m) describes the transform, m describes the audio sample block index, T ₀ ...T _k describe the subband samples of the respective identified one or more sets of subband samples.

4. Audio processor (100) according to one of the preceding paragraphs,

wherein the cascaded overlapping critically sampled transform stage (104) is configured to process the first set (124_1) of interval bins derived from the first block (108_1) of discrete audio samples and the second set (124_2) of interval bins derived from the second block ( 124_2) discrete samples of the audio signal, using the second stage (126) overlapped critically sampled transform stage (104) cascaded overlapped critically sampled transform,

wherein the second stage (126) of the overlapped critically sampled transform is configured to perform, depending on the signal characteristics of the audio signal, the first overlapped critically sampled transforms with respect to the first set (124_1) of interval elements, in order to obtain sets (110_1,1; 110_1 ,2) subband samples that are based on the first block (108_1) of samples, and second overlapping critically sampled transforms with respect to the second set (124_2) of interval chips, so as to obtain sets of (110_2,1; 110_2,2) subband samples samples that are based on the second block (108_2) of discrete samples, wherein one or more first critically sampled transforms have different lengths compared to the second critically sampled transforms.

5. The audio processor (100) of the preceding claim, wherein the first time-frequency transform stage is configured to identify, in case one or more first critically sampled transforms have different lengths compared to the second critically sampled transforms, one or more sets of subband discrete samples from sets (110_1,1; 110_1,2) of sub-band discrete samples, which are based on the first block (108_1) of discrete samples, and one or more sets of sub-band discrete samples from sets (110_2,1; 110_2,2) of sub-band discrete samples, which are based on the second block (108_2) of discrete samples that represent the same region on the time-frequency plane of the audio signal.

6. Audio processor (100) according to one of the preceding paragraphs,

wherein the audio processor (100) comprises a second frequency-time conversion stage configured to perform a frequency-time conversion of the subband representation (112_1) with reduced aliasing of the audio signal (102),

wherein the time-frequency conversion applied by the second time-frequency conversion stage is inverse of the time-frequency conversion applied by the first time-frequency conversion stage.

7. The audio processor (100) according to one of the preceding claims, wherein the time domain de-aliasing performed by the time domain de-aliasing stage corresponds to the transformation described by the following formula:

where R(z, m) describes the transform, z describes the frame index in the z-domain, m describes the block index of audio samples, F' ₀ …F' _k describe modified versions of the pre-permutation/convolution matrices based on the NxN overlapped critically sampled transform.

8. Audio processor (100) according to one of the preceding paragraphs,

wherein the audio processor (100) is configured to provide a bitstream containing a STDAR parameter indicating whether the length of the identified one or more sets of sub-band samples corresponding to the first block of discrete samples or the second block of discrete samples is used in the aliasing reduction stage in time areas to obtain the corresponding sub-band representation (112_1) with reduced aliasing of the audio signal (102),

or wherein the audio processor (100) is configured to provide a bitstream containing MDCT length parameters indicating the lengths of the sets (110_1.1; 110_1.2; 110_2.1; 110_2.2) of subband discrete samples.

9. An audio processor (100) according to one of the preceding claims, wherein the audio processor (100) is configured to perform joint channel coding.

10. The audio processor (100) of the preceding claim, wherein the audio processor (100) is configured to perform M/S or MCT as combined channel processing.

11. The audio processor (100) according to one of the preceding claims, wherein the audio processor (100) is configured to provide a bit stream containing at least one STDAR parameter indicating the length of one or more time and frequency converted sub-band discrete samples corresponding to the first block discrete samples, and one or more time- and frequency-transformed sub-band samples corresponding to the second block of discrete samples, used in the time-domain de-aliasing stage to obtain the corresponding de-aliased sub-band representation (112_1) of the audio signal (102) or its encoded versions.

12. The audio processor (100) according to one of the preceding claims, wherein the cascaded overlapped critically sampled transform stage (104) comprises a first overlapped critically sampled transform stage (120) configured to perform overlapped critically sampled transforms on the first block (108_1) of discrete samples and the second block (108_2) of discrete samples from the mentioned at least two partially overlapping blocks (108_1; 108_2) of discrete samples of the audio signal (102) in order to obtain the first set (124_1) of interval elements for the first block (108_1) of discrete samples and the second set (124_2) of interval elements for the second block (108_2) of discrete samples.

13. The audio processor (100) of the preceding claim, wherein the cascaded overlapped critically sampled transform stage (104) further comprises a second overlapped critically sampled transform stage (126) configured to perform overlapped critically sampled transform on the segment (128_1,1) of the first bin set (124_1) and perform an overlap critically sampled transform on a segment (128_2,1) of a second bin set (124_2), each segment being associated with an audio subband (102) to obtain a set (110_1,1) subband discrete samples for the first set of interval elements and a set (110_2,1) subband discrete samples for the second set of interval elements.

14. An audio processor (200) for processing the subband representation of an audio signal to obtain an audio signal (102), wherein the subband representation of the audio signal comprises sets of subband discrete samples with reduced aliasing, wherein the audio processor (200) comprises:

a second inverse time-frequency conversion stage configured to perform time-frequency conversion of one or more de-aliased sub-band sample sets from the de-aliased sub-band sample sets corresponding to the first block of audio samples, and/or one or more of the sub-band de-aliased samples of the sub-band de-aliased samples corresponding to the second block of audio samples to obtain one or more time- and frequency-transformed de-aliased sub-band samples, each representing that the same region on the time-frequency plane relative to the corresponding one of one or more sub-band reduced-alias samples corresponding to another block of samples from the first block of discrete samples and the second block of discrete samples of the audio signal, or one or more of their time and frequency transformed versions,

a time-domain de-aliasing de-aliasing cascade (202) configured to perform weighted combinations of respective sets of de-aliased sub-band discrete samples, or their time- and frequency-transformed versions, to obtain a sub-band aliased representation,

a first time-frequency inverse transform stage configured to perform aliased sub-band frequency-to-time transformation to obtain sets (110_1.1; 110_1.2) of sub-band discrete samples corresponding to the first block (108_1) of discrete samples of the audio signal, and sets (110_2.1; 110_2.2) of sub-band discrete samples corresponding to the second block (108_1) of discrete samples of the audio signal, while the frequency-time transformation applied by the first stage of the inverse frequency-time transformation is inverse with respect to the frequency-time the transformation applied by the second stage of the inverse time-frequency transformation,

a cascaded inverse overlapped critically sampled transform (204) configured to perform a cascaded inverse overlapped critically sampled transform on sets (110_1.1; 110_2; 110_2.1; 110_2.2) of discrete samples to obtain a set (206_1, 1) samples associated with a block of audio samples (102).

15. A method (320) for processing an audio signal to obtain a subband representation of an audio signal, the method comprising:

performing (322) a cascaded overlapping critically sampled transform on at least two partially overlapping blocks (108_1; 108_2) of discrete samples of the audio signal (102) in order to obtain sets (110_1.1; 110_1.2) of sub-band discrete samples based on the first a block (108_1) of discrete audio samples (102) and obtain sets (110_2.1; 110_2.2) of subband discrete samples based on the second block (108_2) of discrete audio samples (102);

identify (324) if the sets (110_1,1; 110_1,2) of sub-band discrete samples, which are based on the first block (108_1) of discrete samples, represent different areas on the time-frequency plane compared to the sets (110_2,1; 110_2,2) sub-band discrete samples that are based on the second block (108_2) of discrete samples, one or more sets of sub-band discrete samples from sets (110_1,1; 110_1,2) of sub-band discrete samples that are based on the first block (108_1) of discrete samples, and one or more sets of sub-band samples from sets (110_2,1; 110_2,2) of sub-band samples, which are based on the second block (108_2) of samples, which in combination represent the same region of the frequency-time plane,

perform (326) frequency-time transformations in relation to the identified one or more sets of sub-band discrete samples from the sets (110_2,1; 110_2,2) sub-band discrete samples that are based on the first block (108_1) of discrete samples, and/or identified one or more sets of subband samples from sets (110_2,1; 110_2,2) of subband samples that are based on the second block (108_2) of samples, so as to obtain one or more time and frequency transformed subband samples, each of which represents the same region on the time-frequency plane with respect to a corresponding one of the identified one or more sub-band samples or one or more of their time-transformed and frequency-transformed versions; And

performing (328) a weighting combination of the two corresponding sets of sub-band samples or their time- and frequency-transformed versions, one of which is derived from the first block (108_1) of audio samples (102), and one of which is derived from the second block (108_2) discrete samples of the audio signal so as to obtain sub-band representations (112_1; 112_2) with reduced aliasing of the audio signal (102).

16. A method (420) for processing a subband representation of an audio signal to obtain an audio signal, wherein the subband representation of the audio signal comprises sets of subband discrete samples with reduced aliasing, the method comprising:

perform (422) frequency-time transformations on one or more sub-band de-aliased sample sets from the de-aliased sub-band sample sets corresponding to the first block of audio signal samples and/or one or more de-aliased sub-band samples. aliasing from the sets of de-aliased sub-band samples corresponding to the second block of audio samples so as to obtain one or more time- and frequency-transformed de-aliased sub-band samples, each representing the same region on the frequency time plane relative to the corresponding one of one or more sub-band reduced alias samples corresponding to another block of samples from the first block of samples and the second block of samples audio signal components, or one or more of their time-transformed and frequency-transformed versions,

performing (424) weighted combinations of the respective sets of de-aliased sub-band discrete samples, or time- and frequency-transformed versions thereof, to obtain a sub-band aliased representation,

performing (426) frequency-time transformations on the sub-band aliasing representation so as to obtain sets (110_1.1; 110_1.2) of sub-band discrete samples corresponding to the first block (108_1) of discrete samples of the audio signal, and sets (110_2.1 ; 110_2,2) sub-band discrete samples corresponding to the second block (108_1) of discrete samples of the audio signal, wherein the frequency-time transformations performed on one or more sets of sub-band discrete samples with reduced aliasing from the sets of sub-band discrete samples with reduced aliasing, corresponding to the first block of discrete samples of the audio signal, or one or more sets of subband samples with reduced aliasing from the sets of subband samples with reduced aliasing corresponding to the second block of discrete samples of the audio signal, are inverse with respect to the frequency-time transform iam performed on sub-band aliasing,

performing (428) a cascaded inverse overlap critically sampled transform on the sets (110_1,1; 110_2; 110_2.1; 110_2,2) of samples to obtain a set (206_1,1) of samples associated with a block of audio samples. (102).

17. A computer-readable storage medium on which a computer program code is stored, which, when executed in a computer, causes the computer to implement the method according to one of claims 15 and 16.