MX2008013753A

MX2008013753A - Control de ganancia de audio que utiliza deteccion de evento auditivo basado en intensidad acustica especifica.

Info

Publication number: MX2008013753A
Application number: MX2008013753A
Authority: MX
Inventors: Brett Graham Crockett; Alan Jeffrey Seefeldt
Original assignee: Dolby Lab Licensing Corp
Priority date: 2006-04-27
Filing date: 2007-03-30
Publication date: 2009-03-06
Also published as: US12301190B2; NO20180272A1; CN101432965A; NO20161295A1; US20170179909A1; CN102684628B; US12218642B2; NO20190002A1; NO20190022A1; US20170179906A1; CA2648237A1; KR101200615B1; NO20190018A1; KR20110022058A; NO342160B1; NO20161439A1; US20120321096A1; NO342157B1; AU2011201348B2; ATE493794T1

Abstract

En un aspecto descrito, las modificaciones de ganancia dinámica son aplicadas a una señal de audio, por lo menos parcialmente, en respuesta a los eventos auditivos y/o el grado de cambio en las características de señal asociadas con los límites de evento auditivo. En otro aspecto, una señal de audio es dividida en eventos auditivos mediante la comparación de la diferencia en intensidad acústica específica entre los bloques sucesivos de tiempo de la señal de audio. La figura más representativa de la invención es la número 3.

Description

CONTROL DE GANANCIA DE AUDIO QUE UTILIZA DETECCION DE EVENTO AUDITIVO BASADO EN INTENSIDAD ACUSTICA ESPECIFICA Campo Técnico La presente invención se refiere a métodos y aparatos de control de alcance de dinámica de audio en los cuales un dispositivo de procesamiento de audio analiza una señal de audio y cambia el intervalo del nivel, ganancia o dinámica del audio y todos o algunos parámetros del procesamiento de ganancia dinámica de audio son generados como una función de los eventos auditivos. La invención también se refiere a programas de computadora para la práctica de estos métodos o el control de estos aparatos. La presente invención también se refiere a métodos y aparatos que utilizan la detección basada en la intensidad acústica específica de eventos auditivos. La invención también se refiere a programas de computadora para la práctica de estos métodos o el control de estos aparatos.

Técnica Anterior Procesamiento de Dinámica de Audio Las técnicas de control de ganancia automática (AGC) y de control de intervalo de dinámica (DRC) son bien conocidas y son un elemento común de muchas vías de señal de audio. En un sentido abstracto, ambas técnicas miden el nivel de una señal de audio en algún modo y entonces, modifican la ganancia de la señal en una cantidad que está en función del nivel medido. En un sistema lineal de procesamiento de dinámica 1:1, el audio de entrada no es procesado y la señal de audio de salida normalmente se combina con la señal de audio de entrada. Además, si alguien tuviera un sistema de procesamiento de dinámica de audio que midiera en forma automática las características de la señal de entrada y utilizara esta medición para controlar la señal de salida, si la señal de entrada se elevara en un nivel de 6 dB y la señal de salida fuera procesada, de manera que sólo se eleve en un nivel de 3 dB, entonces, la señal de salida tendría que haber sido comprimida en una relación de 2:1 con respecto a la señal de entrada. La Publicación Internacional No. WO 2006/047600 Al ( "Calculating and Adjusting the Perceived Loudness and/o the Perceived Spectral Balance of an Audio Signal" de Alan Jeffrey Seefeldt) proporciona un panorama general detallado de los cinco tipos básicos de procesamiento de dinámica del audio: compresión, límite, control automático de ganancia (AGC) , expansión y desconexión cíclica. Eventos Auditivos y Detección de Evento Auditivo La división de los sonidos en unidades o segmentos percibidos como separados y distintos es en algunas ocasiones referida como un "análisis de evento auditivo" o "análisis de escena auditiva" (ASA) y los segmentos son referidos en algunas ocasiones como "eventos auditivos" o "eventos de audio" . Una discusión extensiva del análisis de escena auditiva es señalado por Albert S. Bregman en su libro Auditory Scene Analysis-The Perceptual Organization of Sound, Massachusetts Institute of Technology, 1991, Cuarta impresión, 2001, segunda edición económica MIT Press) . Además, la Patente de los Estados Unidos No. 6, 002,776 de Bhadkamkar et al, del 14 de Diciembre de 1999 cita las publicaciones con fecha anterior a 1976 como "trabajo de la técnica anterior relacionado con la separación del sonido a través del análisis de escena auditiva" . Sin embargo, la patente de Bhadkamkar et al, desaprueba el uso práctico del análisis de escena auditiva, concluyendo que "las [t] écnicas que involucran el análisis de escena auditiva, aunque interesantes a partir del punto de vista científico como modelos de procesamiento auditivo humano, en realidad están demasiado lejos de la demanda computacional y especializada para que sean consideradas técnicas prácticas para la separación de sonido hasta que sea realizado un progreso fundamental" . Una forma útil para identificar los eventos auditivos es señalada por Crockett and Crocket et al, en varias solicitudes de patente y cartas enlistadas más adelante de acuerdo con el título "Incorporación como Referencia". De acuerdo con estos documentos, una señal de audio es dividida en eventos auditivos, cada uno de los cuales tiende a ser percibido como separado y distinto, mediante la detección de cambios en la composición espectral (la amplitud como una función de la frecuencia) con respecto al tiempo. Esto podría ser realizado por ejemplo, calculando el contenido espectral de los bloques sucesivos de tiempo de la señal de audio, calculando la diferencia en el contenido espectral entre los bloques sucesivos de tiempo de la señal de audio e identificando el límite de evento auditivo como el límite entre los bloques sucesivos de tiempo cuando la diferencia en el contenido espectral entre estos bloques sucesivos de tiempo exceda un umbral. En forma alterna, los cambios de amplitud con respecto al tiempo podrían ser calculados en lugar o además de los cambios en la composición espectral con respecto al tiempo. En su implementación menos demandante en forma computacional , el proceso divide el audio en segmentos de tiempo mediante el análisis de la totalidad de la banda de frecuencia (el audio de ancho de banda completo) o de manera sustancial, la totalidad de la banda de frecuencia (en implementaciones prácticas, el filtrado límite de banda en los extremos del espectro es frecuentemente empleado) y proporcionando la ponderación más grande a los componentes de la señal de audio con la mayor intensidad acústica. Este procedimiento toma ventaja de un fenómeno psicoacústico en el cual en escalas más pequeñas de tiempo (20 milisegundos (ms) y menos) el oído podría tender a enfocarse en un evento auditivo único en un momento dado. Esto implica que mientras que múltiples eventos podrían estar sucediendo al mismo tiempo, un componente tiende a ser más prominente, de manera perceptual, y podría ser procesado en forma individual como si fuera el único evento que se está realizando. Al tomar ventaja de este efecto, también se permite que la detección de evento auditivo escale con la complejidad del audio que está siendo procesado. Por ejemplo, si la señal de audio de entrada que está siendo procesada fuera un instrumento único, los eventos de audio que son identificados probablemente serán notas individuales que están siendo tocadas. En forma similar para una señal de voz de entrada, los componentes individuales de la conversación, por ejemplo, las vocales y las consonantes, probablemente serán identificados como elementos individuales de audio. A medida que se incrementa la complejidad del audio, esta música con un ritmo de tambor o múltiples instrumentos y voz, la detección de evento auditivo identificaría el elemento de audio "más prominente" (es decir, el de mayor intensidad acústica) en cualquier momento dado. En el costo de una complejidad computacional más grande, el proceso también podría tomar en consideración cambios en la composición espectral con respecto al tiempo en subbandas de frecuencia discreta (fijas o determinadas en forma dinámica, o ambas subbandas fijas y determinadas en forma dinámica) más que el ancho de banda completo. Este procedimiento alternativo toma en cuenta más de un flujo de audio en diferentes subbandas de frecuencia más que suponer que sólo un flujo de audio es perceptible en un momento particular . La detección de evento auditivo podría ser implementada al dividir una forma de onda de audio de dominio de tiempo en intervalos o bloques de tiempo y posteriormente, al convertir los datos en cada bloque en el dominio de frecuencia, utilizando ya sea un banco de filtros o una transformación de frecuencia de tiempo, tal como una FFT. La amplitud del contenido espectral de cada bloque podría ser normalizada con el fin de eliminar o reducir el efecto de los cambios de amplitud. Cada representación resultante del dominio de frecuencia proporciona una indicación del contenido espectral del audio en el bloque particular. El contenido espectral de los bloques sucesivos es comparado y los cambios más grandes que un umbral podrían ser tomados para indicar el inicio temporal o la finalización temporal de un evento auditivo. De preferencia, los datos del dominio de frecuencia son normalizados, como se describe más adelante. El grado en el cual los datos de dominio de frecuencia necesitan ser normalizados, proporciona una indicación de amplitud. Por lo tanto, si el cambio en este grado excediera un umbral predeterminado en el que podría tomarse para indicar un evento auditivo. Los puntos de inicio y finalización del evento que se originan a partir de los cambios espectrales y de los cambios de amplitud podrían ser ORed juntos, de modo que sean identificados los límites de evento que se originan a partir de cualquier tipo de cambio. Aunque las técnicas descritas en las solicitudes y cartas de Crockett and Crockett et al son particularmente útiles en conexión con aspectos de la presente invención, otras técnicas para la identificación de los eventos auditivos y los límites de evento podrían ser empleadas en los aspectos de la presente invención.

Descripción de la Invención El procesamiento convencional de la dinámica de la técnica anterior del audio involucra la multiplicación del audio por una señal de control de variación de tiempo que ajusta la ganancia del audio produciendo el resultado deseado. El término "ganancia" es un factor de escala que escala la amplitud de audio. Esta señal de control podría ser generada en una base continua o a partir de bloques de datos de audio, aunque es generalmente derivada mediante alguna forma de medición del audio que está siendo procesado, y su velocidad de cambios determinada por un filtro de suavización, en algunas ocasiones con características fijas y en algunas ocasiones con características que podrían variar con la dinámica del audio. Por ejemplo, los tiempos de respuesta podrían ser ajustados de acuerdo con los cambios en la magnitud o la potencia del audio. Los métodos de la técnica anterior tales como el control automático de ganancia (AGC) y la compresión dinámica de intervalo (DRC) no evalúan ninguna forma basada en la psicoacústica en la que los intervalos de tiempo durante los cuales cambian la ganancia, podrían ser percibidos como perjudiciales y cuando puedan ser aplicados sin transmitir artefactos audibles, es decir, los efectos del procesamiento de dinámica pueden introducir cambios perceptibles no deseados en el audio. El análisis de escena auditiva identifica en forma perceptual los eventos auditivos discretos, con cada evento que sucede entre dos límites consecutivos de evento auditivo. Los deterioros audibles que son provocados por el cambio de ganancia pueden ser reducidos en gran medida garantizando que dentro de un evento auditivo la ganancia sea más cercanamente constante y confinando mucho del cambio a la proximidad de un límite de evento. En el contexto de los compresores o expansores, la respuesta al incremento en el nivel del audio (a menudo llamado el ataque) podría ser rápido, comparable o más corto que la duración mínima de los eventos auditivos, aunque la respuesta a una disminución (la liberación o recuperación) podría ser más lenta, de modo que los sonidos que deberían aparecer constantes o que declinen en forma gradual, podrían ser perturbados en forma auditiva. Bajo esas circunstancias, sería muy benéfico retrasar la recuperación de ganancia hasta el siguiente límite o la disminución de la velocidad del cambio de la ganancia durante un evento. Para aplicaciones de control automático de ganancia, en donde el nivel medio a largo plazo o la intensidad acústica del audio es normalizada y los tiempos de ataque y liberación podrían ser largos si se compara con la duración mínima de un evento auditivo, sería benéfico durante los eventos retrasar los cambios o disminuir las velocidades de cambio en la ganancia hasta el siguiente límite de evento tanto para incrementar como para disminuir las ganancias. De acuerdo con un aspecto de la presente invención, un sistema de procesamiento de audio recibe una señal de audio y analiza y altera la ganancia y/o las características de intervalo dinámico del audio. La modificación del intervalo dinámico del audio es frecuentemente controlado por parámetros de un sistema de procesamiento de dinámica (el tiempo de ataque y liberación, la relación de compresión, etc.) que tienen efectos significantes sobre los artefactos perceptuales introducidos por el procesamiento de dinámica. Los cambios en las características de señal con respecto al tiempo en la señal de audio son detectados e identificados como límites de evento auditivo, de manera que un segmento de audio entre límites consecutivos constituye un evento auditivo en la señal de audio. Las características de los eventos auditivos de interés podrían incluir características de los eventos, tales como la intensidad o duración perceptual . Algunos de uno o más de los parámetros de procesamiento de dinámica son generados, por lo menos parcialmente, en respuesta a los eventos auditivos y/o el grado de cambio en las características de la señal asociadas con los límites de evento auditivo. Normalmente, un evento auditivo es un segmento de audio que tiende a ser percibido como separado y distinto. Una medición que se utiliza de las características de señal incluye la medición del contenido espectral del audio, por ejemplo, como es descrito en los documentos citados de Crockett and Crockett et al . Todos o algunos de uno o más parámetros de procesamiento de dinámica podrían ser generados, por lo menos parcialmente, en respuesta a la presencia o ausencia y las características de uno o más eventos auditivos. Un límite de evento auditivo podría ser identificado como un cambio en las características de señal con respecto al tiempo que excede un umbral. En forma alterna, todos o algunos de uno o más de los parámetros podrían ser generados, por lo menos parcialmente, en respuesta a una medición continua del grado de cambio en las características de señal asociadas con los límites de evento auditivo. Aunque en principio los aspectos de la invención podrían ser implementados en los dominios analógico y/o digital, es probable que las implementaciones prácticas sean implementadas en el dominio digital en el cual cada una de las señales de audio es representada por muestras individuales o muestras dentro de bloques de datos. En este caso, las características de señal podrían ser el contenido espectral del audio dentro de un bloque, la detección de los cambios en las características de señal con respecto al tiempo podría ser la detección de los cambios en el contenido espectral del audio de bloque a bloque, y cada uno de los límites temporales de inicio y finalización del evento auditivo coincide con el límite de un bloque de datos. Debe observarse que para el caso más tradicional de realización de los cambios de ganancia dinámica en una base de muestra por muestra, que el análisis de escena auditiva descrito podría ser realizado en una base de bloque y la información resultante del evento auditivo es utilizada para efectuar los cambios de ganancia dinámica que son aplicados muestra por muestra . Al controlar los parámetros clave de procesamiento de dinámica de audio utilizando los resultados del análisis de escena auditiva, podría conseguirse una reducción dramática de los artefactos audibles introducidos por el procesamiento de dinámica. La presente invención presenta dos formas para realizar el análisis de escena auditiva. La primera efectúa el análisis espectral e identifica la ubicación de los eventos perceptibles de audio que son utilizados para controlar los parámetros de ganancia dinámica al identificar los cambios en el contenido espectral . La segunda forma cambia el audio en un dominio perceptual de intensidad acústica (que podría proporcionar una mayor información relevante en forma psicoacústica que la primera forma) e identifica la ubicación de los eventos auditivos que son subsecuentemente utilizados para controlar los parámetros de ganancia dinámica. Debe observarse que la segunda forma requiere que el procesamiento de audio se dé cuenta de los niveles absolutos de reproducción acústica, lo cual no podría ser posible en algunas implementaciones . La presentación de ambos métodos de análisis de escena auditiva permite las implementaciones de la modificación de ganancia dinámica controlada por ASA utilizando procesos o dispositivos que podrían o no ser calibrados para tomar en cuenta niveles absolutos de reproducción. Los aspectos de la presente invención son descritos en la presente en un entorno de procesamiento de dinámica de audio que incluye aspectos y otras invenciones. Estas otras invenciones son descritas en varias Solicitudes de Patente Internacional y de los Estados Unidos y Pendientes de Dolby Laboratories Licensing Corporation, el propietario de la presente solicitud, las aplicaciones son identificadas en este documento.

Breve Descripción de las Figuras La Figura 1 es un diagrama de flujo que muestra un ejemplo de las etapas de procesamiento para realizar el análisis de escena auditiva. La Figura 2 muestra un ejemplo del procesamiento de bloque, formación de ventana y realización de la DFT en el audio mientras se efectúa el análisis de escena auditiva. La Figura 3 es de la naturaleza de un diagrama de flujo o diagrama de bloque funcional, que muestra el procesamiento paralelo en el cual el audio es utilizado para identificar los eventos auditivos y para reconocer las características de los eventos auditivos, de manera que los eventos y sus características sean utilizados para modificar los parámetros de procesamiento de dinámica. La Figura 4 es de la naturaleza de un diagrama de flujo o diagrama de bloque funcional, que muestra el procesamiento en el cual el audio sólo es utilizado para identificar los eventos auditivos y las características de evento son determinadas a partir de la detección de evento auditivo, de manera que los eventos y sus características sean utilizados para modificar los parámetros de procesamiento de dinámica. La Figura 5 es de la naturaleza de un diagrama de flujo o diagrama de bloque funcional, que muestra el procesamiento en el cual el audio sólo es utilizado para identificar los eventos auditivos y las características de evento son determinadas a partir de la detección de evento auditivo y de manera que, sólo las características de los eventos auditivos sean utilizadas para modificar los parámetros de procesamiento de dinámica. La Figura 6 muestra un conjunto de respuestas idealizadas de la característica del filtro auditivo que se aproximan a la banda crítica de la escala ERB. La escala horizontal es la frecuencia en Hertzios y la escala vertical es el nivel en decibeles. La Figura 7 muestra los mismos contornos de intensidad acústica de ISO 226. La escala horizontal es la frecuencia en Hertzios (en una escala de base logarítmica de 10) y la escala vertical es el nivel de presión de sonido en decibeles . Las Figuras 8a-c muestran características idealizadas de entrada/ salida y las características de ganancia de entrada de un compresor de intervalo dinámico de audio .

Las Figuras 9a-f muestran un ejemplo del uso de los eventos auditivos para controlar el tiempo de liberación en una implementación digital de un Controlador de Intervalo Dinámico (DRC) tradicional en el cual el control de ganancia es derivado a partir de la potencia de la Media Cuadrática (RMS) de la señal. Las Figuras 10a- f muestran un ejemplo del uso de los eventos auditivos para controlar el tiempo de liberación en una implementación digital de un Controlador de Intervalo Dinámico (DRC) tradicional en el cual el control de ganancia es derivado a partir de la potencia de la Media Cuadrática (RMS) de la señal para una señal alterna que se utiliza en la Figura 9. La Figura 11 representa un conjunto adecuado de curvas idealizadas AGC y DRC para la aplicación de AGC seguido por DRC en un sistema de procesamiento de dinámica de dominio de intensidad acústica. El objetivo de la combinación es hacer que todo el audio procesado tenga aproximadamente la misma intensidad acústica percibida mientras que todavía mantiene al menos alguna de la dinámica del audio original.

El Mejor Modo para Realizar la Invención Análisis de Escena Auditiva (Método Original de Dominio sin Intensidad Acústica) De acuerdo con una modalidad de un aspecto de la presente invención, el análisis de escena auditiva podría ser compuesto de cuatro etapas generales de procesamiento como se muestra en una porción de la Figura 1. La primera etapa 1-1 ("Realizar Análisis Espectral") toma una señal de audio de dominio de tiempo, después la divide en bloques y calcula el perfil espectral o contenido espectral para cada uno de los bloques. El análisis espectral transforma la señal de audio en el dominio de frecuencia a corto plazo. Esto podría ser realizado utilizando cualquier banco de filtros, ya sea en base a las transformadas o bancos de filtros de paso de banda, y en un espacio de frecuencia lineal u oblicua (tal como la escala o banda crítica de Bark, que mejor se aproxima a las características del oído humano) . Con cualquier banco de filtros existe un intercambio entre el tiempo y la frecuencia. Una resolución más grande de tiempo y por lo tanto, intervalos más cortos de tiempo, conduce a una resolución más baja de frecuencia. Una resolución más grande de frecuencia y por lo tanto, subbandas más angostas, conduce a intervalos más largos de tiempo. La primera etapa, que se ilustra de manera conceptual en la Figura 1, calcula el contenido espectral de segmentos sucesivos de tiempo de la señal de audio. En una modalidad práctica, el tamaño de bloque ASA podría ser a partir de cualquier número de muestras de la señal de audio de entrada, aunque 512 muestras proporcionan un buen intercambio de resolución de tiempo y frecuencia. En la segunda etapa 1-2, las diferencias en el contenido espectral de bloque a bloque son determinadas ("realiza las mediciones de diferencia de perfil espectral"). De esta manera, la segunda etapa calcula la diferencia en el contenido espectral entre segmentos sucesivos de tiempo de la señal de audio. Como se discutió con anterioridad, un indicador poderoso del comienzo o finalización del evento auditivo percibido se cree que es un cambio en el contenido espectral. En la tercera etapa 1-3 ("identifica la ubicación de los límites de evento auditivo"), cuando la diferencia espectral entre un bloque de perfil espectral y el siguiente es más grande que un umbral, el límite del bloque es tomado para que sea un límite de evento auditivo. El segmento de audio entre los límites consecutivos constituye un evento auditivo. De esta manera, la tercera etapa establece un límite de evento auditivo entre los segmentos sucesivos de tiempo cuando la diferencia en el contenido de perfil espectral entre estos segmentos sucesivos de tiempo excede un umbral, de esta manera, se define en los eventos auditivos. En esta modalidad, los límites de evento auditivo definen los eventos auditivos que tienen una longitud que es un múltiplo integral de los bloques de perfil espectral con una longitud mínima de un bloque de perfil espectral (512 muestras en este ejemplo) . En principio, los límites de evento no necesitan ser restringidos de este modo.

Como una alternativa a las modalidades prácticas discutidas en la presente, el tamaño de bloque de entrada podría variar, por ejemplo, de modo que sea esencialmente el tamaño de un evento auditivo. En seguida de la identificación de los límites de evento, las características clave del evento auditivo son identificadas como se muestra en la etapa 1-4. Ya sea los segmentos de superposición o sin superposición del audio podrían ser formados en ventanas y utilizados para calcular los perfiles espectrales del audio de entrada. La superposición origina una resolución más fina en cuanto a la ubicación de los eventos auditivos y también, hace menos probable la pérdida de un evento, tal como un transitorio corto. Sin embargo, la superposición también incrementa la complejidad computacional . De esta manera, la superposición podría ser omitida. La Figura 2, muestra una representación conceptual de N bloques de muestra sin superposición que son colocados en ventanas y transformados en el dominio de frecuencia por la Transformada Discreta de Fourier (DFT) . Cada bloque podría ser formado en ventanas y transformado en el dominio de frecuencia, tal como mediante la utilización de la DFT, de preferencia, implementado como la Transformada Rápida de Fourier (FFT) para la velocidad. Las siguientes variables podrían ser utilizadas para calcular el perfil espectral del. bloque de entrada: M = número de muestras de ventana en un bloque que se utiliza para calcular el perfil espectral P = número de muestras de superposición de computación espectral. En general, cualquiera de los números enteros podría ser utilizado para las variables anteriores. No obstante, la implementación sería más eficiente si M fuera colocada igual a la potencia de 2 , de modo que las FFTs estándares podrían ser utilizadas para los cálculos del perfil espectral. En una modalidad práctica del proceso de análisis de escena auditiva, los parámetros enlistados podrían ser establecidos para : = 512 muestras (u 11.6 ms a 44.1 kHz) P = 0 muestras (sin superposición) . Los valores enlistados con anterioridad fueron determinados de manera experimental y se encontraron, de manera general, que identifican con exactitud suficiente de la ubicación y duración de los eventos auditivos. Sin embargo, el establecimiento del valor de P en 256 muestras (50% de superposición) más que cero muestras (sin superposición) ha sido encontrado que es útil para identificar algunos eventos difíciles de encontrar. Mientras que muchos tipos distintos de ventanas podrían ser utilizados para minimizar los artefactos espectrales debido a la formación de ventanas, la ventana utilizada en los cálculos de perfil espectral es un punto-M de Hannxng, Kaiser-Bessel u otra ventana adecuada, de preferencia, no rectangular. Los valores indicados con anterioridad y el tipo de ventana de Hanning fueron seleccionados después de un análisis experimental extensivo puesto que han mostrado el suministro de resultados excelentes a través de un intervalo amplio de material de audio. La formación de ventana no rectangular es preferida para el procesamiento de señales de audio, de manera predominante, con un bajo contenido de frecuencia. La formación de ventana rectangular produce artefactos espectrales que podrían provocar la detección incorrecta de eventos. A diferencia de ciertas aplicaciones de codificador/decodificador (codee) en donde un proceso completo de superposición/adición debe proporcionar un nivel constante, esta restricción no se aplica aquí y la ventana podría ser elegida por características tales como su resolución de tiempo/frecuencia y rechazo de banda de paro. En la etapa 1-1 (Figura 1) , el espectro de cada bloque de muestra-M podría ser calculado mediante la formación de ventana de los datos con el punto-M de Hanning, Kaiser-Bessel u otra ventana adecuada, convirtiéndola al dominio de frecuencia utilizando el punto-M de la Transformada Rápida de Fourier, y calculando la magnitud de los coeficientes complejos FFT. Los datos resultantes o normalizados, de manera que la magnitud más grande sea establecida en la unidad, y la serie normalizada de M números es convertida al dominio logarítmico. Los datos también podrían ser normalizados a través de algún otro valor métrico tal como el valor medio de magnitud o el valor medio de potencia de los datos. La serie no necesita ser convertida al dominio logarítmico, sino que la conversión simplifica el cálculo de la medición de diferencia en la etapa 1-2. Además, el dominio logarítmico coincide de manera más cercana con la naturaleza del sistema auditivo humano. Los valores resultantes de dominio logarítmico tienen un intervalo de menos infinito a cero. En una modalidad práctica, el límite inferior podría ser impuesto en base al intervalo de valores; el límite podría ser fijado por ejemplo, en -60 dB, o puede ser dependiente de la frecuencia para reflejar el grado de audición más bajo de los sonidos silenciosos en frecuencias bajas y muy altas. (Se observa que sería posible reducir el tamaño de la serie a M/2 porque la FFT representa frecuencias negativas, así como también, frecuencias positivas). La etapa 1-2 calcula la medición de la diferencia entre el espectro de bloques adyacentes. Para cada bloque, cada uno de los coeficientes espectrales M(log) de la etapa 1-1 es restado del coeficiente correspondiente para el bloque precedente, y la magnitud de la diferencia calculada (el signo es ignorado) . Entonces, estas M diferencias son sumadas con un número. Esta medición de diferencia también podría ser expresada como una diferencia promedio por coeficiente espectral al dividir la medición de diferencia entre el número de coeficientes espectrales utilizados en la suma (en este caso, M coeficientes) . La etapa 1-3 identifica las ubicaciones de los límites de evento auditivo mediante la aplicación de un umbral a la serie de medidas de diferencia de la etapa 1-2 con un valor de umbral. Cuando una medición de diferencia excede un umbral, el cambio en el espectro es considerado suficiente para señalar un nuevo evento y el número de bloques del cambio es registrado como un límite de evento. Para los valores de M y P dados con anterioridad y para los valores de dominio logarítmico (en la etapa 1-1) expresados en unidades de dB, el umbral podría ser establecido igual a 2500 si la totalidad de la FFT de magnitud (que incluye la parte de espejo) fuera comparada o sería de 1250 si fuera comparada la mitad de la FFT (como se observó con anterioridad, la FFT representa frecuencias negativas, así como también frecuencias positivas, para la magnitud de la FFT, una es la imagen espejo de la otra) . Este valor fue elegido de manera experimental y proporciona una buena detección del límite de evento auditivo. Este valor del parámetro podría ser cambiado para reducir (incrementar el umbral) o aumentar (disminuir el umbral) de la detección de eventos .

El proceso de la Figura 1 podría ser presentado, de manera más general, por los arreglos equivalentes de las Figuras 3 , 4 y 5. En la Figura 3 , una señal de audio es aplicada en paralelo a una función o etapa 3-1 "Identifica Eventos Auditivos" que divide la señal de audio en eventos auditivos, cada uno de los cuales tiende a ser percibido como separado y distinto en una función opcional o etapa 3-2 "Identifica las Características de los Eventos Auditivos" . El proceso de la Figura 1 podría ser empleado para dividir la señal de audio en eventos auditivos y sus características podrían ser identificadas o podría ser empleado algún otro proceso conveniente. La información del evento auditivo, que podría ser la identificación de los límites de evento auditivo, determinada por la función o etapa 3-1 es entonces utilizada para modificar los parámetros de procesamiento de dinámica de audio (tales como ataque, liberación, relación, etc.), como es deseado por una función o etapa 3-3 "Modifica Parámetros de Dinámica". La función o etapa 3-3 opcional "Identifica Características" también podría caracterizar algunos o la totalidad de los eventos auditivos a través de una o más características. Estas características podrían incluir la identificación de la subbanda dominante del evento auditivo, como se describe en conexión con el proceso de la Figura 1. Las características también podrían incluir una o más características de audio, que incluyen por ejemplo, la medición de la potencia del evento auditivo, la medición de la amplitud del evento auditivo, la medición de la planeidad espectral del evento auditivo y si el evento auditivo es de silencio, de manera sustancial, u otras características que ayuden a modificar los parámetros de dinámica, de manera que los artefactos audibles negativos del procesamiento sean reducidos o eliminados. Las características también podrían incluir otras características tales como si el evento auditivo comprendiera un transitorio. Las alternativas para el arreglo de la Figura 3 son mostradas en las Figuras 4 y 5. En la Figura 4 , la señal de entrada de audio no es directamente aplicada a la función o etapa 4-3 "Identifica Características", sino que recibe la información de la función o etapa 4-1 "Identifica Eventos Auditivos". El arreglo de la Figura 1 es un ejemplo específico de este arreglo. En la Figura 5, las funciones o etapas 5-1, 5-2 y 5-3 son situadas en series. Los detalles de esta modalidad práctica no son críticos. Podrían ser empleadas otras formas de cálculo del contenido espectral de los segmentos sucesivos de tiempo de la señal de audio, de cálculo de las diferencias entre los segmentos sucesivos de tiempo, y de establecimiento de los límites de evento auditivo en los respectivos límites entre los segmentos sucesivos de tiempo cuando la diferencia en el contenido espectral de perfil entre estos segmentos sucesivos de tiempo exceda un umbral. Análisis de Escena Auditiva (Nuevo Método de Dominio de Intensidad Acústica) La solicitud internacional de acuerdo con el Tratado de Cooperación de Patentes S.N. PCT/US2005/038579 , presentada el 25 de Octubre del 2005 publicada como Número de Publicación Internacional WO 2006/047600 Al y titulada "Calculating and Adjusting the Perceived Loudness and/o the Perceived Spectral Balance of an Audio Signal" de Alan Jeffrey Seefeldt, describe entre otras cosas, una medición objetivo de la intensidad acústica percibida en base a un modelo psicoacústico . Con lo cual, la solicitud es incorporada como referencia en su totalidad. Como se describe en la solicitud, a partir de una señal de audio, x[n] , una señal de excitación E[b,t] es calculada, la cual aproxima la distribución de energía a lo largo de la membrana basilar del oído interior en la banda crítica b durante el bloque de tiempo t. Esta excitación podría ser calculada a partir de la Transformada Discreta de Fourier de tiempo corto (STDFT) de la señal de audio como sigue: O) en donde X[k,t] representa la STDFT de x[n] en el bloque de tiempo t y la bandeja k. Se observa que en la Ecuación 1, t representa el tiempo en unidades discretas de bloques de transformada que es opuesto a la medición continua, tal como en segundos. T[k] representa la respuesta de frecuencia de un filtro que simula la transmisión de audio a través del oído exterior e intermedio, y Cb[k] representa la respuesta de frecuencia de la membrana basilar en la ubicación que corresponde con la banda crítica b. La Figura 6 representa un conjunto adecuado de respuestas de filtro de banda crítica en la cual 40 bandas se encuentran uniformemente separadas a lo largo de la escala de Ancho de Banda Rectangular Equivalente (ERB) , como es definido por Moore y Glasberg . Cada forma de filtro es descrita por la función exponencial redondeada y las bandas son distribuidas utilizando una separación de 1 ERB. Finalmente, la constante de tiempo de suavizamiento Xb en la Ecuación 1 podría ser elegida, de manera ventajosa, proporcionada al tiempo de integración de la percepción humana de intensidad acústica dentro de la banda b. Utilizando los mismos contornos de intensidad acústica, tales como aquellos representados en la Figura 7, la excitación en cada banda es transformada en un nivel de excitación que podría generar la misma intensidad acústica percibida a 1 kHz . La intensidad acústica específica, una medición de la intensidad acústica perceptual distribuida a través de la frecuencia y el tiempo, es entonces calculada a partir de la excitación transformada ElkHz[b,t], a través de una falta de linealidad compresiva. Una función adecuada para calcular la intensidad acústica específica N[b, t] es dada por: (2) en donde TQiknz es el umbral en silencio a 1 kHz y las constantes ß y a son elegidas para coincidir o combinar el crecimiento de los datos de intensidad acústica que son colectados a partir de los experimentos de escucha. En forma abstracta, esta transformación de la excitación a la intensidad acústica específica podría ser presentada por la función ?{ }, de manera que: N[b9t] = V{Elbtt]} Finalmente, la intensidad acústica total, L[t] representada en unidades de sonido, es calculada sumando la intensidad acústica específica a través de las bandas: £[í] = ?W>, b (3) La intensidad acústica específica N[b, t] es un significado de representación espectral para simular el modo en el cual el humano percibe el audio como una función de la frecuencia y el tiempo. Esta captura las variaciones en sensibilidad en distintas frecuencias, variaciones en sensibilidad de nivel y variaciones en la resolución de frecuencia. Como tal, esta es una representación espectral que es bien combinada con la detección de los eventos auditivos. A través de una comparación compleja más computacional , la diferencia de N[b,t] a través de las bandas entre los bloques sucesivos de tiempo podría en muchos casos originar una detección perceptual más precisa de los eventos auditivos en comparación con el uso directo de los espectros sucesivos FFT descritos con anterioridad. En la solicitud de patente, son descritas varias aplicaciones para modificar el audio en base al modelo de intensidad acústica psicoacústica . Entre estas se encuentran varios algoritmos de procesamiento de dinámica tales como AGC y DRC. Estos algoritmos descritos podrían beneficiarse del uso de los eventos auditivos para controlar varios parámetros asociados. Debido a que la intensidad acústica específica ya es calculada, ésta se encuentra fácilmente disponible para el propósito de detectar los eventos. Los detalles de una modalidad preferida son discutidos más adelante. Control de Parámetro de Procesamiento de Dinámica de Audio con Eventos Auditivos A continuación, dos ejemplos de modalidades de la invención son presentados. El primer ejemplo describe el uso de los eventos auditivos para controlar el tiempo de liberación en una implementación digital de un Controlador de Intervalo Dinámico (DRC) en el cual el control de ganancia es derivado de la potencia Media Cuadrática (RMS) de la señal. La segunda modalidad describe el uso de los eventos auditivos para controlar ciertos aspectos de una combinación más sofisticada de AGC y DRC implementada dentro del contexto del modelo de intensidad acústica psicoacústica descrito con anterioridad. Estas dos modalidades significan que sirven como ejemplos sólo de la invención, y debe entenderse que el uso de los eventos auditivos para controlar los parámetros del algoritmo de procesamiento de dinámica no es restringido a las modalidades específicas descritas más adelante. Control de Intervalo Dinámico La implementación digital descrita de un DRC divide una señal de audio x[n] en bloques de mitad de superposición de ventanas, y para cada bloque una ganancia de modificación es basada en la medición de la potencia local de la señal y es calculada la curva seleccionada de compresión. La ganancia es suavizada a través de los bloques, y posteriormente, es multiplicada con cada bloque. Los bloques modificados son finalmente agregados por superposición para generar la señal modificada de audio y[n] . Debe observarse, que mientras el análisis de escena auditiva y la implementación digital de DRC como se describió en la presente, divide la señal de audio de dominio de tiempo en bloques para realizar el análisis y procesamiento, el procesamiento DRC necesita ser efectuado utilizando la segmentación del bloque. Por ejemplo, el análisis de escena auditiva podría ser realizado utilizando la segmentación de bloque y el análisis espectral como se describió con anterioridad y las ubicaciones y características resultantes del evento auditivo podrían ser empleadas a fin de proporcionar la información de control a la implementación digital de una implementación tradicional DRC que normalmente opera en una base de muestra a muestra. No obstante, aquí la misma estructura de bloque utilizada para el análisis de escena auditiva es empleada para la DRC a fin de simplificar la descripción de su combinación. Procediendo con la descripción de una implementación DRC basada en bloque, los bloques de superposición de la señal de audio podrían ser representados como: MtnJx[n+/Af/2] Para 0 < n < M - l (4) en donde M es la longitud del bloque y el tamaño de salto es M/2, w[n] es la ventana, n es el índice de muestra dentro del bloque, y t es el índice de bloque (se observa que aquí, t es utilizado en el mismo modo que con STDFT en la Ecuación 1; representa el tiempo en unidades discretas de bloques más que como por ejemplo, segundos) . En forma ideal, la ventana w[n] disminuye hasta cero en ambos extremos y se suma a la unidad cuando es superpuesta la mitad con sí misma; la ventana de seno comúnmente utilizada cumple, por ejemplo, con estos criterios. Para cada bloque, se podría entonces calcular la potencia RMS para generar una medición de potencia P[t] en dB por bloque : (5) Como se mencionó con anterioridad, se podría suavizar esta medición de potencia con un ataque rápido y liberación lenta antes del procesamiento con una curva de compresión, aunque como una alternativa, la potencia instantánea P[t] es procesada y la ganancia resultante es suavizada. Este procedimiento alterno tiene la ventaja que una simple curva de compresión con puntos agudos de cambio de dirección podría ser utilizada, aunque las ganancias resultantes todavía son suaves a medida que la potencia se desplaza a través del punto de cambio de dirección. La representación de una curva de compresión como se muestra en la Figura 8c como una función F del nivel de señal que genera una ganancia, la ganancia de bloque G[t] es dada por: (6) Suponiendo que la curva de compresión aplique una atenuación más grande a medida que se incrementa el nivel de la señal, la ganancia estará disminuyendo cuando la señal se encuentre en el "modo de ataque" y estará aumentando cuando se encuentre en el "modo de liberación". Por lo tanto, la ganancia suavizada G[t] podría ser calculada de acuerdo con: G[í] = a[í · Gt-1]+(1-a[t^G[t] (7a) en donde (7b) y e/taire ^"^" ^attaoti C7c) Finalmente, la ganancia suavizada G[t] , que se encuentra en dB, es aplicada a cada bloque de la señal, y los bloques modificados son agregados por superposición a fin de producir el audio modificado: yin + tM/21 = (lO°w 20)«[ i,r]+(l0^-,,/¾)) »+M/2,/ - 1] > 0<n<Aá (8) Se observa que debido a que los bloques han sido multiplicados con una ventana de disminución, como se muestra en la Ecuación 4, la síntesis de adición por superposición mostrada con anterioridad, suavizada efectivamente las ganancias a través de las muestras de la señal procesada y[n] . De esta manera, la señal de control de ganancia recibe el suavizamiento además del que se muestra en la Ecuación 7a. En una implementación más tradicional de DRC que opera muestra por muestra, más que bloque por bloque, el suavizamiento de ganancia más sofisticado que un simple filtro de un polo mostrado en la Ecuación 7a podría ser necesario con el fin de evitar la distorsión audible en la señal procesada. Asimismo, el uso del procesamiento basado en bloque introduce un retraso inherente de M/2 muestras en el sistema, y con la condición que el tiempo de declinación asociado con attack se encuentre cercano a este retraso, la señal x[n] no necesita ser retrasada adicionalmente antes de la aplicación de las ganancias con el propósito de evitar el exceso de modulación. Las Figuras 9a- 9c representan el resultado de la aplicación del procesamiento descrito DRC a una señal de audio. Para esta implementación particular, una longitud de bloque de =512 es utilizada en una relación de muestreo de 44.1 kHz . Una curva de compresión similar a la mostrada en la Figura 8b es utilizada: por encima de -20dB con relación a la escala completa digital, la señal es atenuada con una relación de 5:1, y por debajo de -30dB la señal es amplificada con una relación de 5:1. La ganancia es suavizada con un coeficiente de ataque aattack que corresponde con el tiempo de declinación a la mitad de 10ms y un coeficiente de liberación orelease que corresponde con el tiempo de declinación a la mitad de 500ms. La señal de audio original que se representa en la Figura 9c consiste de seis cuerdas consecutivas de piano, con la cuerda final situada alrededor de la muestra 1.75xl05, declinando hacia el silencio. Examinando una gráfica de la ganancia G[t] en la Figura 9b, debe observarse que la ganancia permanece cercana a OdB mientras que las seis cuerdas son tocadas. Esto es debido a que la energía de la señal permanece durante la mayor parte del tiempo, entre -30 y -2 OdB, la región dentro de la cual la curva DRC no requiere de modificación. Sin embargo, después de golpear la última cuerda, la energía de señal cae por debajo de -30dB y la ganancia comienza a elevarse, de manera eventual más allá de 15dB a medida que la cuerda declina. La Figura 9c representa la señal de audio resultante que es modificada, y puede observarse que la cola de la cuerda final es aumentada de manera significante. En forma audible, este aumento del sonido de declinación de bajo nivel natural de la cuerda crea un resultado extremadamente no natural . El objetivo de la presente invención es evitar problemas de este tipo que son asociados con un procesador tradicional de dinámica.

Las Figuras 10a- 10c representan los resultados de aplicación del mismo sistema exacto DRC a una señal de audio diferente. En este caso, la primera mitad de la señal consiste de una pieza de música de paso o compás ascendente en un nivel alto, y posteriormente, en una muestra aproximadamente de lOxlO4, la señal cambia a una segunda pieza de música de compás ascendente, aunque en un nivel significativamente más bajo. Examinando la ganancia en la Figura 6b, se observa que la señal es atenuada aproximadamente en lOdB durante la primera mitad, y posteriormente, la ganancia regresa a OdB durante la segunda mitad cuando se está tocando la pieza más suave. En este caso, la ganancia se comporta como se desee. A una persona le gustaría que la segunda pieza sea ampliada con relación a la primera, y la ganancia tiene que incrementarse con rapidez después de la transición hacia la segunda pieza para que no sea obstructiva en forma audible. Se observa un comportamiento de ganancia que es similar al de la primera señal discutida, aunque aquí, el comportamiento es el deseable. Por lo tanto, a una persona le gustaría arreglar el primer caso sin afectar el segundo. El uso de eventos auditivos para controlar el tiempo de liberación de este sistema DRC proporciona esta solución. En la primera señal que fue examinada en la Figura 9, la amplificación de la primera declinación de la última cuerda parece no natural debido a que la cuerda y su declinación son percibidas como un evento auditivo único cuya integridad se espera que sea mantenida. No obstante, en el segundo caso sucede en muchos eventos auditivos mientras que la ganancia se incrementa, lo que significa que para cualquier evento individual, es transmitido un cambio pequeño. Por lo tanto, el cambio total de ganancia no puede ser objetable. Por lo tanto, se puede discutir que el cambio de ganancia sólo tiene que ser permitido en la proximidad casi temporal de un límite de evento auditivo. Se puede aplicar este principio a la ganancia mientras que se encuentre en cualquiera de los modos de ataque o liberación, aunque para la mayoría de implementaciones prácticas de una DRC, la ganancia se mueve tan rápidamente en el modo de ataque en comparación con la resolución temporal humana de la percepción de evento que ningún control es necesario. Por lo tanto, pueden utilizarse eventos para controlar el suavizamiento de la ganancia DRC sólo cuando se encuentre en el modo de liberación. A continuación, se describe un comportamiento adecuado del control de liberación. En términos cuantitativos, si fuera detectado un evento, la ganancia sería suavizada con la constante de liberación de tiempo como es especificado con anterioridad en la ecuación 7a. A medida que el tiempo evoluciona a través del evento detectado, y si no fueran detectados eventos subsiguientes, la constante de liberación de tiempo se incrementaría en forma continua, de modo que eventualmente la ganancia suavizada sería "congelada" en el lugar. Si fuera detectado otro evento, entonces, la constante de suavización de tiempo sería restablecida al valor original y el proceso se repetiría. Con el fin de modular el tiempo de liberación, se podría generar primero una señal de control en base a los límites detectados de evento. Como se discutió con anterioridad, los límites de evento podrían ser detectados buscando cambios en los espectros sucesivos de la señal de audio. En esta implementación particular, la DFT de cada bloque de superposición x[n, t] podría ser calculada para generar la STDFT de la señal de audio x[n] : (¾ A continuación, la diferencia entre los espectros normalizados de magnitud logarítmica de los bloques sucesivos podría ser calculada de acuerdo con: (10a) en donde (10b) Aquí, el máximo de \X[k,t] | a través de las bandejas k es utilizado para la normalización, aunque podrían emplearse otros factores de normalización; por ejemplo, el promedio de \x[k,t] | a través de las bandejas. Si la diferencia D[t] excediera un umbral Dmin, entonces el evento sería considerado que ha ocurrido. Además, podría asignarse una intensidad a este evento, que se sitúa entre cero y uno, en base del tamaño de D[t] en comparación con el umbral máximo Dmax. La señal intensa resultante del evento auditivo A[t] podría ser calculada como: Al asignar una intensidad al evento auditivo proporcional a la cantidad del cambio espectral asociado con este evento, es conseguido un control más grande con respecto al procesamiento de dinámica en comparación con la decisión del evento binario. Los inventores han encontrado que cambios más grandes de ganancia son aceptables durante eventos más intensos, y la señal en la Ecuación 11 permite este control variable .

La señal A[t] es una señal impulsiva con un impulso que sucede en la ubicación de un límite de evento. Con el propósito de controlar el tiempo de liberación, podría suavizarse la señal A[t] , de modo que decline en forma suave hasta cero después de la detección de un límite de evento. La señal suavizada de control de evento A[t] podría ser calculada a partir de A[t] de acuerdo con: [a8»??[* -1] de otro modo (12) Aquí, aevent controla el tiempo de declinación de la señal de control de evento. Las Figuras 9d y lOd representan la señal de control de evento A[t] para las dos correspondientes señales de audio, con la mitad de declinación de tiempo del establecimiento más suave en 250ms. En el primer caso, se observa que un límite de evento es detectado para cada una de las seis cuerdas del piano, y que la señal de control de evento declina en forma suave hacia cero después de cada evento. Para la segunda señal, son detectados muchos eventos muy cerca entre sí en el tiempo, y por lo tanto, la señal de control de evento nunca declina por completo hasta cero. A continuación, podría usarse la señal de control de evento A[t] para variar la constante de tiempo de liberación utilizada para suavizar la ganancia. Cuando la señal de control sea igual a uno, el coeficiente de suavizamiento a[t] de la Ecuación 7a es igual a areiease, del mismo modo que con anterioridad, y cuando la señal de control es igual a cero, el coeficiente es igual a uno, de modo que sea evitado el cambio de la ganancia suavizada. El coeficiente de suavizamiento es interpolado entre estos dos extremos utilizando la señal de control de acuerdo con: (13) Al interpolar el coeficiente de suavizamiento en forma continua como una función de la señal de control de evento, el tiempo de liberación es reajustado a un valor proporcionado a la intensidad de evento en el curso de un evento y posteriormente, se incrementa en forma suave hasta el infinito después de la ocurrencia de un evento. La velocidad de este incremento es impuesta por el coeficiente 3-event utilizado para generar la señal de control de evento suavizada . Las Figuras 9e y lOe muestran el efecto de suavizamiento de la ganancia con el coeficiente controlado por evento de la Ecuación 13 que es opuesto al coeficiente controlado sin evento de la Ecuación 7b. En el primer caso, la señal de control de evento cae a cero después de la última cuerda de piano, con lo cual se evita que la ganancia se mueva hacia arriba. Como resultado, el audio modificado correspondiente en la Figura 9f no experimenta un aumento no natural de la declinación de la cuerda. En el segundo caso, la señal de control de evento nunca se aproxima a cero, y por lo tanto, la señal de ganancia suavizada es impedida muy poco a través de la aplicación del control de evento. La trayectoria de la ganancia suavizada es casi idéntica a la ganancia controlada sin evento en la Figura 10b. Este es exactamente el efecto deseado. Intensidad Acústica Basada en AGC y DRC Como una alternativa a las técnicas tradicionales de procesamiento de dinámica, en donde las modificaciones de señal son una función directa de mediciones simples de señal tales como la potencia de pico o RMS, la solicitud de patente internacional S.N. PCT/US2005/038579 describe el uso del Modelo de intensidad acústica basado en la psicoacústica descrito con anterioridad como una estructura dentro de la cual se realiza el procesamiento de dinámica. Varias ventajas son citadas. En primer lugar, las mediciones y modificaciones son especificadas en unidades de sonido, la cual es una medición más exacta de la percepción de intensidad acústica que las mediciones más básicas como la potencia de pico o RMS. En segundo lugar, el audio podría ser modificado, de manera que el equilibrio espectral percibido del audio original sea mantenido a medida que es cambiada la intensidad acústica total. De este modo, los cambios en la intensidad acústica total se vuelven menos aparentes, en forma perceptual, en comparación con un procesador de dinámica que utiliza una ganancia de banda ancha, por ejemplo, para modificar el audio. Finalmente, el modelo psicoacústico es de múltiples bandas, de manera inherente, y por lo tanto, el sistema es configurado con facilidad para realizar el procesamiento de dinámica de múltiples bandas con el fin de aliviar los problemas de bombeo espectral cruzado bien conocidos que son asociados con el procesador de dinámica de banda ancha. Aunque la realización del procesamiento de dinámica en este dominio de intensidad acústica ya mantiene varias ventajas con respecto al procesamiento de dinámica más tradicional, la técnica podría ser adicionalmente mejorada a través del uso de eventos auditivos para controlar varios parámetros. Se considera el segmento de audio que contiene cuerdas de piano como se representa en 27a y el DRC asociado que se muestra en las Figuras 10b y 10c. Podría realizarse un DRC similar en el dominio de la intensidad acústica, y en este caso, cuando la intensidad acústica de la declinación de la cuerda final de piano sea aumentada, el aumento o ampliación sería menos aparente debido a que el equilibrio espectral de la nota de declinación sería mantenido a medida que es aplicado el aumento o ampliación. Sin embargo, una mejor solución es no aumentar la declinación en lo absoluto, y por lo tanto, podría ser ventajosa la aplicación del mismo principio de control de los tiempos de ataque y liberación con eventos auditivos en el dominio de intensidad acústica como se describió con anterioridad para el DRC tradicional . El sistema de procesamiento de dinámica de dominio de intensidad acústica que ahora es descrito, consiste de AGC seguido por DRC. El objetivo o meta de esta combinación es hacer que todo el audio procesado tenga aproximadamente la misma intensidad acústica percibida mientras que todavía mantiene al menos algunas de la dinámica del audio original . La Figura 11 representa un conjunto adecuado de curvas AGC y DRC para esta aplicación. Se observa que la entrada y la salida de ambas curvas son representadas en unidades de sonido debido a que el procesamiento es efectuado en el dominio de intensidad acústica. La curva AGC compite en llevar el audio de salida más cerca a algún nivel objetivo, y como se mencionó con anterioridad, lo hace con constantes de tiempo relativamente lentas. Podría pensarse que AGC que realiza la intensidad acústica a largo plazo del audio es igual al objetivo, aunque en una base a corto plazo, la intensidad acústica podría fluctuar de manera significativa alrededor de este objetivo. Por lo tanto, podría emplearse DRC de actuación más rápida para limitar estas fluctuaciones hasta algún alcance considerado aceptable para la aplicación particular. La Figura 11 muestra una curva DRC en donde el objetivo AGC cae dentro de la "banda nula" del DRC, la porción de la curva que se requiere para que no exista modificación. Con esta combinación de las curvas, el AGC pone la intensidad acústica a largo plazo del audio dentro de la banda nula de la curva DRC, de modo que necesitan ser aplicadas modificaciones mínimas DRC de actuación rápida. Si la intensidad acústica de plazo corto todavía fluctuara fuera de la banda nula, entonces, el DRC actuaría para mover la intensidad acústica del audio hacia esta banda nula. Como una nota general final, podría aplicarse el AGC de actuación lenta, de manera que todas las bandas del Modelo de intensidad acústica reciban la misma cantidad de modificación de intensidad acústica, con lo cual se mantiene el equilibrio espectral percibido, y podría aplicarse el DRC de actuación rápida en un modo que permita que la modificación de intensidad acústica varíe a través de las bandas con el propósito de aliviar el bombeo espectral cruzado que de otro modo pudiera originarse a partir de la modificación de intensidad acústica independiente de banda de actuación rápida . Los eventos auditivos podrían ser utilizados para controlar los tiempos de ataque y liberación, tanto de AGC como de DRC. En el caso de AGC, ambos de los tiempos de ataque y liberación son grandes en comparación con la resolución temporal de la percepción de evento, y por lo tanto, el control de evento podría ser empleado de manera ventajosa, en ambos casos, con el DRC, el tiempo de ataque es relativamente corto y por lo tanto, el control de evento sólo podría ser necesario para el tiempo de liberación del mismo modo que con el DRC tradicional descrito con anterioridad. Como se discutió con anterioridad, podría utilizarse el espectro de intensidad acústica específica asociado con el modelo empleado de intensidad acústica para los propósitos de detección de evento. Una señal de diferencia D[t] , similar a la de las Ecuaciones 10a y 10b podría ser calculada a partir de la intensidad acústica específica N[j , t] , definida en la Ecuación 2 como sigue: (14a) en donde (14b) Aquí, el máximo de |2V[j ,t] | a través de las bandas de frecuencia b es utilizado para la normalización, aunque podrían emplearse otros factores de normalización; por ejemplo, el promedio de |N[i_>, fc] | a través de las bandas de frecuencia. Si la diferencia D[t] excediera un umbral Dmin, entonces, se considera que el evento ha sucedido. Entonces, la señal de diferencia podría ser procesada en el mismo modo mostrado en las Ecuaciones 11 y 12 para generar una señal de control aun más suave A[t] utilizada para regular los tiempos de ataque y liberación. La curva AGC representada en la Figura 11 podría ser representada como una función que toma como su entrada la medición de intensidad acústica y genera la intensidad acústica salida deseada: (15a) La curva DRC podría ser representada en forma similar: (15b) .

Para el AGC, la intensidad acústica de entrada es una medición de la intensidad acústica a largo plazo del audio . Podría calcularse esta medición mediante la suavización de la intensidad acústica instantánea L[t], definida en la Ecuación 3, utilizando constantes de tiempo relativamente grandes (en el orden de varios segundos) . Se ha mostrado que para juzgar la intensidad acústica a largo plazo del segmento de audio, los humanos ponderan las porciones de mayor intensidad de manera más pesada que las más suaves, y podría utilizarse un tiempo más rápido de ataque que de liberación en la suavización para simular este efecto. Con la incorporación del control de evento para ambos tiempos de ataque y liberación, la intensidad acústica a largo plazo utilizada para determinar la modificación AGC, podría entonces ser calculada de acuerdo con: (16a) en aonae : (16b) Además, podría calcularse el espectro asociado de intensidad acústica específica a largo plazo que posteriormente será utilizado para el DRC de múltiples bandas : NAOC A -1]+0-aAac lWN[b,t] (16c) En la práctica, podrían elegirse los coeficientes de suavizamiento, de manera que el tiempo de ataque sea aproximadamente la mitad del tiempo de liberación. Dada la medición de intensidad acústica a largo plazo, entonces podría calcularse la escala de modificación de intensidad acústica asociada con el AGC como la relación de la intensidad acústica de salida con la intensidad acústica de entrada (17) La modificación DRC ahora podría ser calculada a partir de la intensidad acústica después de la aplicación de la escala AGC. Más que suavizar una medición de la intensidad acústica antes de la aplicación de la curva DRC, podría aplicarse en forma alterna la curva DRC a la intensidad acústica instantánea y después, suavizar de manera subsiguiente la modificación resultante. Esto es similar a la técnica descrita con anterioridad para suavizar la ganancia del DRC tradicional. Además, el DRC podría aplicarse en un modo de múltiples bandas, lo que significa que la modificación DRC es una función de la intensidad acústica específica N[b, fc] , en cada banda b, más que la intensidad acústica total L[t] . Sin embargo, con el fin de mantener el equilibrio espectral promedio del audio original, podría aplicarse DRC en cada banda, de manera que las modificaciones resultantes tengan el mismo efecto promedio que se originaría a partir de la aplicación de DRC a la intensidad acústica total . Esto podría ser conseguido mediante la escala de cada banda entre la relación de la intensidad acústica total a largo plazo (después de la aplicación de la escala AGC) con la intensidad acústica específica de largo plazo, y la utilización de este valor como el argumento para la función DRC. Entonces, el resultado puede volver a ser escalado por el inverso de la relación para producir la intensidad acústica específica de salida. De esta manera, la escala DRC en cada banda podría ser calculada de acuerdo con: Las modificaciones AGC y DCR podrían entonces ser combinadas para formar una escala total de intensidad acústica por banda: Srorib,'] (19) Esta escala total podría entonces ser suavizada a través del tiempo de manera independiente para cada banda con un modo rápido de ataque y modo lento de liberación y el control de evento aplicado sólo al modo de liberación. En forma ideal, el suavizamiento es realizado en base al logaritmo de la escala análoga en las ganancias del DCR tradicional que está siendo suavizado en su representación de decibel, aunque esto no es esencial. Para garantizar que la escala suavizada total se mueva en sincronía con la intensidad acústica específica en cada banda, los modos de ataque y liberación podrían ser determinados a través de suavizamiento simultáneo de la intensidad acústica específica por sí misma: (20b) . en donde (20c) Finalmente, podría calcularse la intensidad acústica específica objetivo en base a la escala suavizada que es aplicada a la intensidad acústica específica original i^r] = -WM]-V[ ] (21) y después, se resuelven las ganancias G[b,t] que cuando se aplicó al resultado original de excitación en la intensidad acústica específica es igual al objetivo: (22) Las ganancias podría ser aplicadas a cada banda del banco de filtros utilizado para calcular la excitación, y entonces, el audio modificado podría ser generado mediante la inversión del banco de filtros para producir una señal de audio modificada de dominio de tiempo. Control Adicional de Parámetro Mientras que la discusión anterior se ha enfocado en el control de los parámetros de ataque y liberación AGC y DRC por medio del análisis de escena auditiva y el audio que está siendo procesado, otros parámetros importantes también podrían beneficiarse al ser controlados por medio de los resultados ASA. Por ejemplo, la señal de control de evento A[t] de la Ecuación 12 podría ser utilizada para variar el valor del parámetro de relación DRC que es utilizado para ajustar en forma dinámica la ganancia del audio. El parámetro de relación, en forma similar a los parámetros de tiempo de ataque y liberación, podría construir de manera significativa a los artefactos perceptuales introducidos por los ajustes de ganancia dinámica. Implementación La invención podría ser implementada en hardware o software, o una combinación de ambos (por ejemplo, en series lógicas programables) . A menos que sea especificado de otro modo, los algoritmos incluidos como parte de la invención no están inherentemente relacionados con ninguna computadora particular u otro aparato. En particular, podrían emplearse varias máquinas de uso general con programas escritos de acuerdo con las enseñanzas en este documento, o podría ser más conveniente la construcción de aparatos más especializados (por ejemplo, circuitos integrados) para realizar las etapas requeridas de método. De esta manera, la invención podría ser implementada en uno o más programas de computadora que se ejecuten en uno o más sistemas programables de computadora, cada uno de los cuales comprende al menos un procesador, al menos un sistema de almacenamiento de datos (que incluye una memoria volátil y no volátil y/o elementos de almacenamiento) , al menos un dispositivo o puerto de entrada, y por lo menos un dispositivo o puerto de salida. El código de programa es aplicado a los datos de entrada para realizar las funciones descritas en la presente y para generar la información de salida. La información de salida es aplicada a uno o más dispositivos de salida en un modo conocido. Cada programa podría ser implementado en cualquier lenguaje deseado de computadora (que incluye lenguajes de programación de máquina, ensamble, o de alto nivel de procedimiento, lógico u orientado por objeto) para comunicarse con un sistema de computadora. En cualquier caso, el lenguaje podría ser un lenguaje compilado o interpretado. De preferencia, cada programa de computadora es almacenado o descargado en un medio o dispositivo de almacenamiento (por ejemplo, una memoria o medios de estado sólido, o medios magnéticos u ópticos) que pueda ser leído por una computadora programable de uso general o especial, para la configuración y operación de la computadora cuando los medios o dispositivo de almacenamiento sean leídos por el sistema de computadora a fin de realizar los procedimientos descritos en la presente. El sistema inventivo también podría ser considerado que es implementado como un medio de almacenamiento susceptible de ser leído por computadora, el cual es configurado con un programa de computadora, en donde el medio de almacenamiento configurado de este modo, provoca que el sistema de computadora opere en un modo específico y predefinido a fin de realizar las funciones descritas en este documento . Se ha descrito un número de modalidades de la invención. Sin embargo, se entenderá que podrían realizarse varias modificaciones sin apartarse del espíritu y alcance de la invención. Por ejemplo, algunas de las etapas descritas en la presente podrían ser de orden independiente, y de esta manera, podrían realizarse en un orden diferente del orden descrito. Debe entenderse que la implementación de otras variaciones y modificaciones de la invención y sus distintos aspectos serán aparentes para aquellas personas expertas en la técnica y que la invención no es limitada por estas modalidades específicas descritas. Por lo tanto, se contempla cubrir por medio de la presente invención cualquiera y todas las modificaciones, variaciones o equivalentes que caen dentro del verdadero espíritu y alcance de los principios subyacentes básicos que se describen y se reivindican en este documento .

Incorporación como Referencia Las siguientes patentes, solicitudes y publicaciones de patente son incorporadas como referencia, cada una en su totalidad. Procesamiento de Dinámica de Audio Audio Engineer's Reference Book, editado por Michael Talbot-Smith, 2a edición. Limiters and Compressors, Alan Tutton, 2-1492-165. Focal Press, Reed Educational and Professional Publishing, Ltd., 1999. Detección y Utilización de Eventos Auditivos La Patente de los Estados Unidos S.N. 10/474,387, "High Quality Time-Scaling and Pitch-Scaling of Audio Signáis" de Brett Graham Crockett et al, publicada el 24 de Junio del 2004 como US 2004/0122662 Al. La Patente de los Estados Unidos S.N. 101478,398, "Method for Time Aligning Audio Signáis Using Characterizations Based on Auditory Events" de Brett G.

Crockett et al. publicada el 29 de Julio del 2004 como US 2004/0148159 Al. La Patente de los Estados Unidos S.N. 10/478,538, "Segmenting Audio Signáis Into Auditory Events" de Brett G. Crockett, publicada el 26 de Agosto del 2004 como US 2004/0165730 Al. Los aspectos de la presente invención proporcionan una forma para detectar eventos auditivos además de aquellos descritos en la solicitud de Crockett.

La Patente de los Estados Unidos S.N. 10/478.397, "Comparing Audio Using Characterizations Based on Auditory Events" de Brett G. Crockett et al, publicada el 02 de Septiembre del 2004 como US 2004/0172240 Al. Solicitud Internacional de acuerdo con el Tratado de Patentes S.N. PCT/US05/24630 presentada el 13 de Julio del 2005, titulada "Method for Combining Audio Signáis Using Auditory Scene Analysis," de Michael John Smithers, publicada el 09 de Marzo del 2006 como WO 2006/026161. Solicitud Internacional de acuerdo con el Tratado de Patentes S.N. PCT/US 2004/016964, presentada el 27 de Mayo del 2004, titulada "Method, Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of an Audio Signal" de Alan Jeffiey Seefeldt et al., publicada el 23 de Diciembre del 2004 como WO 20041111994 A2. Solicitud Internacional de acuerdo con el Tratado de Patentes S.N. PCT/US2005/038579 , presentada el 25 de Octubre del 2005, titulada "Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal" de Alan Jeffiey Seefeldt y publicada como Número de Publicación Internacional WO 2006/047600. "A Method for Characterizing and Identifying Audio Based on Auditory Scene Analysis," de Brett Crockett y Michael Smithers, Audio Engineering Society Convention Paper 6416.1 18va Convención, Barcelona, 28-31 de Mayo del 2005.

Claims

REIVINDICACIONES 1. Un método de modificación de un parámetro de un procesador de dinámica de audio, caracterizado porque comprende detectar los cambios en las características espectrales con respecto al tiempo en una señal de audio, identificar como límites de evento auditivo cambios más grandes que un umbral en las características espectrales con respecto al tiempo en la señal de audio, en donde un segmento de audio entre límites consecutivos constituye un evento auditivo, generar una señal de control de modificación de parámetro en base a los límites identificados de evento, y modificar el parámetro del procesador de dinámica de audio como una función de la señal de control.
2. El método de conformidad con la reivindicación 1, caracterizado porque el parámetro es uno del tiempo de ataque, el tiempo de liberación y la relación.
3. El método de conformidad con la reivindicación 1, caracterizado porque el parámetro modificado es una constante de tiempo de suavizamiento de ganancia
4. El método de conformidad con la reivindicación 3, caracterizado porque la constante de tiempo de suavizamiento de ganancia es una constante de tiempo de ataque de suavizamiento de ganancia.
5. El método de conformidad con la reivindicación 3, caracterizado porque la constante de tiempo de suavizamiento de ganancia es una constante de tiempo de liberación de suavizamiento de ganancia.
6. El método de conformidad con cualquiera de las reivindicaciones 1-5, caracterizado porque la señal de control de modificación de parámetro está basada en la ubicación de los límites identificados de evento auditivo y el grado de cambio en las características espectrales asociadas con cada uno de los límites de evento auditivo.
7. El método de conformidad con la reivindicación 6, caracterizado porque la generación de un parámetro de modificación de señal de control comprende proporcionar un impulso en cada uno de los límites de evento auditivo, cada impulso tiene una amplitud proporcional al grado de los cambios en las características espectrales, y suavizar el tiempo de cada impulso, de manera que su amplitud decline en forma suave hacia cero.
8. El método de conformidad con cualquiera de las reivindicaciones 1-7, caracterizado porque los cambios en las características espectrales con respecto al tiempo son detectados mediante la comparación de las diferencias en la intensidad acústica específica.
9. El método de conformidad con la reivindicación 8, caracterizado porque la señal de audio es representada por una secuencia discreta de tiempo x[n] que ha sido muestreada a partir de una fuente de audio en una frecuencia de muestreo f3 y los cambios en las características espectrales con respecto al tiempo son calculadas mediante la comparación de la diferencia en la intensidad acústica específica N[b, t] a través de las bandas de frecuencia b entre los bloques sucesivos de tiempo t.
10. El método de conformidad con la reivindicación 9, caracterizado porque la diferencia en el contenido espectral entre los bloques sucesivos de tiempo de la señal de audio es calculada de acuerdo con en donde
11. El método de conformidad con la reivindicación 9, caracterizado porque la diferencia en el contenido espectral entre los bloques sucesivos de tiempo de la señal de audio es calculada de acuerdo con en donde N Tb n NORÍtí ''] avg {"[M} b
12. El aparato, caracterizado porque comprende medios adaptados para realizar el método de conformidad con cualquiera de las reivindicaciones 1-11.
13. El programa de computadora almacenado en un medio susceptible de ser leído por computadora, caracterizado porque provoca que la computadora realice el método de conformidad con cualquiera de las reivindicaciones 1-11.