ES2993990T3

ES2993990T3 - Method and apparatus for detecting spoofing conditions

Info

Publication number: ES2993990T3
Application number: ES18712052T
Authority: ES
Inventors: Elie Khoury; Parav Nagarsheth; Kailash PATIL; Matthew Garland
Original assignee: Pindrop Security Inc
Current assignee: Pindrop Security Inc
Priority date: 2017-03-03
Filing date: 2018-03-02
Publication date: 2025-01-15
Anticipated expiration: 2038-03-02
Also published as: EP3590113A1; US11488605B2; US10692502B2; EP3590113B1; AU2021277642A1; AU2018226844A1; AU2018226844B2; AU2021277642B2; CA3054063A1; US20200321009A1; WO2018160943A1; US20180254046A1

Abstract

Un sistema de verificación automática de hablantes (ASV) incorpora una primera red neuronal profunda para extraer características acústicas profundas, como características CQCC profundas, de una muestra de voz recibida. Las características acústicas profundas son procesadas por una segunda red neuronal profunda que clasifica las características acústicas profundas según una probabilidad determinada de incluir una condición de suplantación. A continuación, un clasificador binario clasifica la muestra de voz como genuina o suplantada. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCION

Método y aparato para detectar condiciones de suplantación

Esta divulgación reivindica la presentación nacional, según el 35 U.S.C. § 119, de la Solicitud Provisional de los Estados Unidos No. 62/466,911 presentada el 3 de marzo de 2017, titulada "Spoofing Detection".

Antecedentes

Los sistemas de módem son cada vez más centrados en la voz y, en muchos casos, dependen de enfoques de seguridad basados en la voz, como el Reconocimiento Automatizado de Voz (AVR) y similares, para asegurar que un hablante actual sea un usuario autorizado del sistema. Aunque varios enfoques logran un éxito moderado en asegurar que una muestra de audio recibida coincida con una muestra de audio previamente registrada o un modelo de voz correspondiente, los sistemas convencionales son vulnerables a ataques de "suplantación" en los que un usuario fraudulento puede emplear técnicas como la conversión de voz, la síntesis de voz y los ataques de reproducción para aproximarse sustancialmente al registro auténtico. Los ataques de repetición fraudulentos, por ejemplo, son fáciles de generar sin necesidad de experiencia en procesamiento del habla y aprendizaje automático. Con el uso de dispositivos de reproducción y grabación de alta calidad, es concebible realizar ataques de reproducción indistinguibles de un acceso genuino en sistemas convencionales.

Los Coeficientes Cepstrales Constantes Q (CQCCs) son características acústicas de análisis tiempo-frecuencia inspiradas perceptualmente que se han demostrado ser eficaces para detectar ataques de suplantación de voz, como la reproducción de audio, la conversión y la transformación de voz, y los ataques de síntesis de voz. (Ver, por ejemplo, Todisco y otros, "A New Feature for Automatic Speaker Verification Anti-Spoofing: Constant Q Cepstral Coefficients", Odyssey 2016). Sin embargo, las desventajas de la técnica convencional para obtener CQCCs incluyen altos costos en términos de uso de memoria y tiempo de procesamiento. Además, los sistemas convencionales emplean características CQCC que discriminan únicamente entre enunciados suplantados y no suplantados.

ZHANG CHUNLEI Y OTROS: "An Investigation of Deep-Learning Frameworks for Speaker Verification Antispoofing", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, IEEE, EE.UU., vol. 11, no. 4, 16 de enero de 2017 (16-01-2017), páginas 684-694, ISSN: 1932-4553, DOI: 10.1109/JSTSP.2016.2647199 divulga el uso de enfoques de aprendizaje profundo para la detección de suplantaciones en la verificación de hablantes. El documento tiene como objetivo investigar la capacidad discriminativa genuina-suplantación desde la etapa final, utilizando los avances recientes en la investigación de aprendizaje profundo. En este documento, se explotan arquitecturas de red alternativas para detectar el habla suplantada. Basándose en este análisis, se propone un sistema de detección de suplantación de identidad que emplea simultáneamente redes neuronales convolucionales (CNNs) y redes neuronales recurrentes (RNNs). En este marco, la CNN se trata como un extractor de características convolucionales aplicado a la entrada de voz. Además de la salida procesada por CNN, se utilizan redes recurrentes para capturar dependencias a largo plazo en el dominio temporal. Nuevas características, incluyendo el operador de energía de Teager, la autocorrelación de banda crítica y la envolvente perceptual de mínima distorsión de varianza, así como un espectrograma más general, también se investigan como entradas en nuestros marcos de aprendizaje profundo propuestos. Los experimentos realizados con el corpus ASVspoof2015 demuestran que el marco integrado CNN-RNN alcanza el rendimiento más avanzado en un solo sistema. La adición de la fusión a nivel de puntuación mejora aún más la robustez del sistema. Un análisis detallado muestra que nuestro enfoque propuesto tiene el potencial de compensar el problema debido a las breves duraciones de las frases de prueba, que también es un problema en el corpus de evaluación.

WU ZHIZHENG Y OTROS: "ASVspoof: "The Automatic Speaker Verification Spoofing and Countermeasures Challenge", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, IEEE, EE. UU., vol. 11, no. 4, 17 de febrero de 2017 (17-02-2017), páginas 588-604, XP011649191, ISSN: 1932-4553, DOI: 10.1109/JSTSP.2017.2671435 divulga la iniciativa de Engaño y Contramedidas de ASV (ASVspoof). A través de la provisión de un conjunto de datos común, protocolos y métricas, ASVspoof promueve una metodología de investigación sólida y fomenta el progreso tecnológico. Este documento también describe el conjunto de datos ASVspoof 2015, la evaluación y los resultados con análisis detallados. Una revisión de estudios de postevaluación realizados utilizando el mismo conjunto de datos ilustra el rápido progreso derivado de ASVspoof y destaca la necesidad de una investigación adicional.

MD JAHANGIR ALAM Y OTROS: "Spoofing Detection on the ASVspoof2015 Challenge Corpus Employing Deep Neural Networks", ODYSSEY 2016, vol. 2016, 21 de junio de 2016 (31-06-2016), páginas 270-276, XP055476292, ISSN: 2312-2846, DOI: 10.21437/Odyssey.2016-39 divulga la aplicación de redes neuronales profundas (DNN), entrenadas para discriminar entre señales de voz humana y suplantada, para mejorar el rendimiento de la detección de suplantación. En el documento, los autores utilizan características de nivel acústico basadas en amplitud, fase, residuo de predicción lineal y amplitud-fase combinada. Primero se entrena una DNN con los datos de entrenamiento del desafío de suplantación para discriminar entre señales de voz humana y suplantada. Se utilizan las características de espectros de filtro Delta (DFB), coeficientes cepstrales de frecuencia Mel delta más doble delta (DMCC), coeficientes cepstrales de predicción lineal delta más doble delta (DLPCC) y coeficientes cepstrales basados en el espectro del producto (DPSCC) como entradas a la DNN. Para cada característica, se generan posteriormente y características de cuello de botella (BNF) para todos los datos de desafío de suplantación utilizando la DNN entrenada. Los posteriores de DNN se utilizan directamente para decidir si una grabación de prueba es falsa o humana. Para la detección de suplantación con las características de nivel acústico y las características de cuello de botella se construye un clasificador de Modelo de Mezcla Gaussiana (GMM) estándar. Cuando se probaron en los ataques de suplantación (S1-S10) del corpus de evaluación del desafío ASVspoof2015, los sistemas DFB-BNF, DMCC-BNF, DLPCC-BNF, DPSCC-BNF y DpSCC-DNN proporcionaron tasas de error iguales (EERs) de 0,013 %, 0,007 %, 0,0 %, 0,022 % y 1,00 % respectivamente, en los ataques de suplantación S1-S9. En los diez ataques de suplantación (S1-S10), las<e>E<rs>obtenidas por estos cinco sistemas son 3,23 %, 2,15 %, 3,3 %, 3,28 % y 2,18 %, respectivamente.

MASSIMILIANO TODISCO Y OTROS: "A New Feature for Automatic Speaker Verification Anti-Spoofing: Constant Q Cepstral Coefficients", ODYSSEY 2016, vol. 2016, 21 de junio de 2016 (21-06-2016), páginas 283-290, XP055476497, ISSN: 2312-2846, DOI: 10.21437/Odyssey.2016-41 divulga que hay más beneficios en el estudio de características que en clasificadores, e introduce una nueva característica para la detección de suplantaciones basada en la transformada Q constante, una herramienta de análisis tiempo-frecuencia inspirada en la percepción y popular en el estudio de la música. Los resultados experimentales obtenidos utilizando la base de datos estándar ASVspoof 2015 muestran que, cuando se combinan con un clasificador basado en un modelo de mezcla gaussiana estándar, los coeficientes cepstrales Q constantes propuestos (CQCCs) superan con creces todos los resultados previamente reportados. En particular, aquellos para un subconjunto de ataques de suplantación de identidad desconocidos (para los cuales no se utilizó ningún dato de entrenamiento coincidente) es del 0,46 %, una mejora relativa del 72 % respecto a los mejores resultados previamente reportados.

PARAV NAGARSHETH Y OTROS: "Replay Attack Detection Using DNN for Channel Discrimination", INTERSPEECH 2017, 20 de agosto de 2017 (20-08-2017), páginas 97-101, XP055476190, ISCA, DOI: 10.21437/lnterspeech.2017-1377 aborda el problema proponiendo una arquitectura de aprendizaje profundo en conjunto con características cepstrales de bajo nivel. El documento investiga el uso de una red neuronal profunda (DNN) para discriminar entre las diferentes condiciones de canal disponibles en el conjunto de datos ASVSpoof 2017, a saber, grabación, reproducción y condiciones de sesión. Los vectores de características de alto nivel derivados de esta red se utilizan para discriminar entre audio genuino y suplantado. Se utilizan dos tipos de características de bajo nivel: los coeficientes cepstrales constantes-Q de última generación (CQCC) y nuestros propuestos coeficientes cepstrales de alta frecuencia (HFCC) que se derivan del espectro de alta frecuencia del audio. La fusión de ambas características demostró ser efectiva en generalizar bien a través de diversos ataques de reproducción vistos en la evaluación del desafío ASVSpoof 2017, con una tasa de error igual de 11,5 %, es decir, un 53 % mejor que el modelo de mezcla gaussiana (GMM) de referencia aplicado en CQCC.

Resumen

La presente divulgación se refiere a métodos y aparatos para su uso en, por ejemplo, un sistema de verificación automática de altavoces (ASV), para distinguir entre un hablante genuino y autorizado (por ejemplo, un llamante) y uno fraudulento, en particular aquel que emplea un ataque de reproducción, como se discute con más detalle a continuación.

La invención está definida en las reivindicaciones.

Si bien se divulgan múltiples realizaciones, aún pueden surgir otras realizaciones para aquellos expertos en la técnica a partir de la siguiente descripción detallada, que muestra y describe ejemplos ilustrativos de la invención. Como se comprenderá, la invención es susceptible de modificaciones en varios aspectos, todo ello sin salirse del ámbito de la presente invención. En consecuencia, los dibujos y la descripción detallada deben considerarse de naturaleza ilustrativa y no restrictiva.

Figuras

La Figura 1 es un diagrama de bloques que ilustra un aparato o sistema de verificación automática del habla (ASV) de acuerdo con una configuración general que no se encuentra dentro del ámbito de la invención,

La Figura 2 es un diagrama de bloques de una realización más específica según la invención, del aparato o sistema ilustrado en la Figura 1,

Las Figuras 3A-C son diagramas de flujo que detallan métodos para clasificar una muestra de voz como genuina o suplantada, según las respectivas realizaciones,

La Figura 4 ilustra un aparato que utiliza la fusión de puntuaciones según una realización,

La Figura 5 ilustra un aparato que utiliza la concatenación de características según una realización, la Figura 6 ilustra un proceso para extraer características de coeficientes cepstrales de subbanda, y

La Figura 7 es un diagrama de bloques de una segunda red neuronal profunda configurada para clasificar características de suplantación a partir de características en tándem, como se ilustra en la Figura 5, según una realización.

Las figuras anteriores pueden representar configuraciones ilustrativas para un aparato de la divulgación, lo cual se hace para ayudar a comprender las características y funcionalidades que se pueden incluir en las carcasas descritas en la presente memoria. El aparato no se limita a las arquitecturas o configuraciones ilustradas, sino que puede implementarse utilizando una variedad de arquitecturas y configuraciones alternativas. Además, aunque el aparato se describe anteriormente en términos de varias realizaciones y aplicaciones ilustrativas, se debe entender que las diversas características y funcionalidades descritas en una o más de las realizaciones individuales con las que se describen, no se limitan a esas realizaciones específicas, sino que pueden aplicarse, solas o en alguna combinación, a una o más de las otras realizaciones de la divulgación, ya sea que se describan o no dichas realizaciones y ya sea que se presenten o no dichas características como parte de una realización descrita. Por lo tanto, la amplitud y el alcance de la presente divulgación, especialmente en cualquier reivindicación siguiente, no deben limitarse por ninguno de los ejemplos de realizaciones descritas anteriormente.

Descripción detallada

La descripción detallada que se presenta a continuación en relación con los dibujos adjuntos tiene como objetivo ser una descripción de ejemplos de realizaciones de la presente divulgación y no pretende representar las únicas realizaciones en las que se puede practicar la presente divulgación. El término "ilustrativo", cuando se utiliza en esta descripción, significa: "que sirve como ejemplo, instancia o ilustración", y no necesariamente debe interpretarse como preferido o ventajoso sobre otras realizaciones, ya sea etiquetadas como "ilustrativas" o de otra manera. La descripción detallada incluye detalles específicos con el propósito de proporcionar una comprensión completa de las realizaciones de la divulgación. Será evidente para aquellos expertos en la técnica que las realizaciones de la divulgación pueden ser llevadas a cabo sin estos detalles específicos. En algunos casos, se pueden mostrar estructuras y dispositivos conocidos en forma de diagrama de bloques para evitar oscurecer la novedad de las realizaciones ilustrativas presentadas en la presente memoria.

La suplantación es una comunicación fraudulenta o maliciosa enviada desde una fuente desconocida y disfrazada como una fuente conocida por el receptor. Los sistemas ASV están siendo cada vez más desafiados por técnicas de suplantación como la conversión de voz, la síntesis de voz y los ataques de reproducción. Entre estos, los ataques de repetición, también conocidos como "ataques de presentación", han demostrado reducir la precisión de los sistemas ASV convencionales en gran medida. Por ejemplo, en las comunicaciones basadas en voz, un estafador puede imitar o reproducir la voz de un llamante conocido con la intención de engañar a un sistema de Verificación Automática de Voz (ASV). Los ataques de repetición son fáciles de generar, no requieren experiencia en procesamiento de voz y/o aprendizaje automático, y muy poca experiencia en cualquier caso. Por ejemplo, con dispositivos de grabación y reproducción de alta calidad, es concebible generar ataques de reproducción que son casi indistinguibles de un acceso genuino.

Los enfoques convencionales para abordar los ataques de reproducción y otros mecanismos de suplantación se han centrado con cada vez más éxito en los sistemas de verificación automática de habla independiente del texto. Los inventores han reconocido la necesidad de métodos y aparatos para detectar de manera efectiva ataques de reproducción y otros medios de suplantación de identidad de manera eficiente y rápida, tanto en sistemas ASV dependientes de texto como independientes de texto. (Ver Nagarsheth y otros, "Replay Attack Detection using DNN for Channel Discrimination", INTERSPEECH, agosto de 2017, incorporado aquí por referencia, en el cual los inventores discuten observaciones experimentales y sistemas resultantes en detalle.)

La Figura 1 es un diagrama de bloques que ilustra un aparato o sistema de verificación automática del habla (ASV) 100 según una configuración general que no forma parte de la invención.

Una fuente de voz 10 (por ejemplo, una persona o, típicamente de manera fraudulenta, una grabación de una persona) proporciona una muestra de voz 20 a través de un canal de audio (por ejemplo, línea telefónica, canal inalámbrico, canal de internet u otro similar) al aparato o sistema ASV 100. La muestra de voz es recibida por una unidad de extracción de características 110. La unidad de extracción de características 110 extrae del muestra de voz información estadística denominada "características acústicas" 115 y proporciona las características acústicas 115 a una unidad de clasificación de características 120. La unidad de clasificación de características 120 clasifica las características acústicas 115 en al menos una clasificación 125 entre dos o más clasificaciones correspondientes a las condiciones de suplantación respectivas que pueden representarse en las características extraídas. Un clasificador binario 130 puede comparar la clasificación resultante con una puntuación umbral predeterminado, lo que resulta en una determinación de que la muestra de voz o fuente de audio es "genuina" o "fraudulenta" (o significados similares). En algunos ejemplos, el clasificador binario 130 puede comparar la clasificación resultante con otra clasificación 135 de características de bajo nivel previamente almacenadas para un modelo de voz correspondiente a un usuario autorizado.

Se pueden generar uno o más modelos de inscripción para cada usuario autorizado en el momento de la inscripción del hablante y almacenarlos en una base de datos de inscripción 140. En algunos ejemplos, los modelos de entrenamiento 145, que incluyen modelos suplantados conocidos y modelos limpios conocidos, pueden almacenarse en una base de datos de entrenamiento, posiblemente ubicada junto a la base de datos de inscripción 140. Los modelos de entrenamiento pueden ser utilizados para entrenar la unidad de clasificación de características 120 para discriminar una o más condiciones de suplantación de un acceso genuino. En algunos ejemplos, los modelos de inscripción también pueden ser utilizados con el fin de identificar y/o verificar a un hablante. El término "modelo de inscripción" aquí incluye un modelo inicial generado en el momento de la inscripción, y cualquier actualización de dicho modelo basada en interacciones genuinas posteriores con el hablante genuino correspondiente.

En particular, los inventores han reconocido que un ataque de reproducción que proporciona una grabación de un hablante puede, en ciertas características de bajo nivel, incluir cualidades que se encuentran en una grabación reproducida que normalmente no están presentes en una expresión en vivo o no reproducida. Por ejemplo, la grabación de una muestra de audio puede introducir de manera consistente artefactos de audio relacionados con la frecuencia, el rango de frecuencia, el rango de potencia dinámica, la reverberación, los niveles de ruido en rangos de frecuencia específicos, y similares, al menos algunos de los cuales artefactos pueden ser imperceptibles sin el uso de técnicas de procesamiento de voz especializadas y/o equipos como los divulgados en la presente memoria.

Por ejemplo, un hablante genuino puede contactar de manera consistente el sistema ASV utilizando solo un número limitado de canales (por ejemplo, a través de una línea telefónica residencial específica y/o una línea de teléfono celular específica) que tienen características de audio de nivel bajo específicas, proporcionando así un modelo de inscripción con características de nivel bajo particulares y consistentes. En algunos ejemplos, el sistema ASV puede, como parte de, en lugar de o como modelo de inscripción, capturar y almacenar solo las características de bajo nivel para su uso posterior en la distinción entre accesos suplantados y genuinos.

El aparato o sistema ASV 100 puede incorporar uno o más procesadores programados o específicos de la aplicación, memoria asociada, terminales de entrada y salida, y similares, y puede implementarse en un único dispositivo monolítico o distribuido entre varios dispositivos próximos. En algunos ejemplos, los elementos de hardware pueden incorporar dispositivos ubicados de forma remota y configurados para comunicar datos utilizando una red de datos. En cada caso, el hardware puede incluir circuitos receptora o un circuito receptor (ilustrado solo implícitamente), tal como, pero no limitado a, circuitos de telefonía o comunicación de datos configurados para recibir la muestra de voz 20. En algunos ejemplos, las características del sistema ASV 100 pueden incluir instrucciones ejecutables por ordenador en un medio legible por ordenador no transitorio.

La Figura 2 es un diagrama de bloques que ilustra una realización más específica 200 que forma parte de la invención, del aparato o sistema 100 ilustrado en la Figura 1. El aparato o sistema ASV 200 incluye una red neuronal profunda (DNN) 210 (correspondiente a la unidad de extracción de características 110 en la Figura 1) configurada para extraer características acústicas profundas 215 (correspondientes a las características acústicas 115). Las características acústicas profundas 215 son recibidas por una segunda red neuronal profunda 220 (correspondiente a la unidad de clasificación de características 120) configurada para determinar (por ejemplo, calcular) a partir de las características acústicas profundas 215 una probabilidad 225 de que la muestra de voz 20 incluya una condición de suplantación. Un clasificador binario 230 (correspondiente al clasificador binario 130) puede comparar la probabilidad determinada o calculada 225 (por ejemplo, una puntuación de probabilidad correspondiente a la clasificación 125) con una puntuación umbral previamente determinado. El clasificador binario 230 puede así emitir una indicación de "genuino" o "suplantado" dependiendo de cómo la probabilidad determinada o calculada 225 se compare con la puntuación umbral.

En algunas realizaciones, el clasificador binario 230 puede comparar la probabilidad 225 con una probabilidad previamente determinada 235 (correspondiente a la clasificación 135) de que la condición de suplantación estuviera presente en una muestra de inscripción procesada previamente. En algunas realizaciones, el clasificador binario 230 puede emplear un umbral predeterminado (diferente), comparando la probabilidad calculada 225 (por ejemplo, una puntuación de probabilidad) dentro de una distancia o diferencia de umbral predeterminada de la probabilidad previamente determinada 235, la muestra de voz recibida 20 puede indicarse como genuina. De lo contrario, la muestra de voz recibida 20 puede ser indicada como suplantada.

El aparato o sistema ASV 200 puede incorporar uno o más procesadores programados o específicos de la aplicación, memoria asociada, terminales de entrada y salida, y similares, y puede implementarse en un único dispositivo monolítico o distribuido entre varios dispositivos próximos. En algunas realizaciones, los elementos de hardware pueden incorporar dispositivos ubicados de forma remota y configurados para comunicar datos utilizando una red de datos. En cada caso, el hardware puede incluir circuitos receptores o un circuito receptor (ilustrado solo implícitamente), como, pero no limitado a, circuitos de telefonía o comunicación de datos configurados para recibir la muestra de voz 20. En algunas realizaciones, las características del sistema ASV 100 pueden incluir instrucciones ejecutables por ordenador en un medio legible por ordenador no transitorio.

El primer DNN en cada realización divulgada en la presente descripción puede implementarse utilizando una red neuronal convolucional donde la entrada a la red neuronal convolucional es una señal de audio en bruto, y la salida son las características CQCC profunda deseadas. La función de pérdida utilizada durante el entrenamiento puede ser, pero no se limita a, el error cuadrático medio entre un CQCC "hecho a mano" (o convencional) y un CQCC normalizado. El error se utiliza luego para ajustar los valores en cada nodo de la red neuronal convolucional. Las iteraciones del entrenamiento tienen como objetivo minimizar el error hasta alcanzar un error mínimo predeterminado. Se pueden utilizar técnicas de normalización por lotes y de eliminación aleatoria, a pesar del costo computacional adicional y la memoria requerida para lo mismo.

La Figura 3A es un diagrama de flujo que detalla un método 300a para clasificar una muestra de voz como genuina o suplantada, por ejemplo, utilizando el ASV 200 de la Figura 2. En el paso S310, un aparato o sistema de verificación automática de voz (ASV) recibe una muestra de voz (por ejemplo, 20) de una fuente de voz (por ejemplo, 10). La muestra de voz puede ser recibida en una llamada telefónica desde un teléfono con cable o inalámbrico a través de un canal de telefonía convencional o especializado, un comando de voz capturado directamente desde una fuente de voz por un asistente personal inteligente electrónico y sensible a la voz (por ejemplo, AMAZON ECHO y similares) o una aplicación de teléfono sensible a la voz, o recibida por otros medios electrónicos. Una fuente de voz genuina suele ser una persona en vivo y preautorizada que habla directamente al ASV a través de un canal de señal transitoria (por ejemplo, una llamada telefónica en vivo), mientras que una fuente de voz "suplantada" puede incluir grabaciones intencionalmente fraudulentas de una voz genuina, en el caso de un ataque de reproducción, o en algunos casos puede incluir fuentes de voz no intencionales o accidentales, como un televisor o una radio de fondo (por ejemplo, en el caso de un asistente personal electrónico). Otras fuentes de voz suplantadas pueden incluir, como se sugirió anteriormente, la conversión de voz y la síntesis de voz, cada una de las cuales introduce sus propios artefactos acústicos y/o otras cualidades únicas distinguibles por una DNN adecuadamente entrenada.

En la operación S320, se extraen características acústicas profundas de la muestra de voz. Esto se puede lograr a través de una primera red neuronal profunda (DNN) (por ejemplo, DNN 210 en la Figura 2) que ha sido configurada o entrenada para dicha extracción. En algunas realizaciones, la primera DNN puede ser suministrada habiendo sido preentrenada. Por ejemplo, la disposición del circuito DNN puede haber sido especialmente configurada, o el código DNN puede haber sido configurado para su ejecución, desde un medio de almacenamiento, por uno o más procesadores, que ya han sido entrenados mediante el procesamiento iterativo de muestras de entrenamiento conocidas por incluir variaciones de cualidades acústicas de bajo nivel de interés. En algunas realizaciones, sin embargo, la primera DNN puede estar configurada para ser entrenada mediante dicho procesamiento iterativo.

En la operación S330, las características acústicas profundas extraídas pueden clasificarse en al menos una de dos o más clasificaciones correspondientes a condiciones de suplantación o de canal discernibles en las características acústicas profundas extraídas por una segunda DNN (por ejemplo, DNN 220 en la Figura 2). El segundo DNN puede, en algunos casos, ser entrenado para discriminar entre, por ejemplo, la presencia y ausencia de una condición de suplantación. En otras realizaciones, la segunda DNN puede estar configurada para discriminar entre cada una de una pluralidad de condiciones de suplantación. Por ejemplo, la segunda DNN puede estar configurada para discriminar entre características acústicas profundas para muestras que tienen características de nivel bajo correspondientes respectivamente a un ataque de reproducción, conversión de voz y síntesis de voz, y a su ausencia. En algunas realizaciones, la segunda DNN puede proporcionar una puntuación de probabilidad para uno o más tipos de suplantación. Por ejemplo, la segunda DNN puede proporcionar una puntuación de probabilidad para la presencia de características correspondientes a un ataque de reproducción, otra puntuación de probabilidad para la presencia de características correspondientes a la conversión de voz, y una tercera puntuación de probabilidad para la presencia de características correspondientes a la síntesis de voz. Una alta probabilidad puede corresponder a una categoría respectiva particular. Las puntuaciones de baja probabilidad para cada categoría pueden sugerir la ausencia de condiciones de suplantación, y por lo tanto pueden ser categorizadas como "genuinas". Del mismo modo, la segunda DNN puede ser entrenada para distinguir diferentes condiciones de canal. Por ejemplo, la segunda DNN puede distinguir una muestra de voz proveniente del exterior, de un tamaño de habitación específico; de un dispositivo en particular, o algo similar.

En algunas realizaciones, de acuerdo con la operación S340, una puntuación de probabilidad o clasificación puede ser clasificado adicionalmente por un clasificador binario (como el clasificador binario 230) como genuino o suplantado. El clasificador binario puede ser configurado o entrenado para discriminar entre la puntuación de probabilidad o categorización resultante de la operación S330 y una puntuación de probabilidad o categorización asociada con una muestra de inscripción previamente capturada de un usuario autorizado. En algunos casos, la puntuación de probabilidad o la categorización de la muestra de inscripción pueden ser predeterminados y almacenados en asociación con la muestra de inscripción, por ejemplo, en una base de datos de inscripción (por ejemplo, base de datos de inscripción 140). Alternativamente, la puntuación de probabilidad o la categorización para la muestra de inscripción pueden determinarse cuando se utilizan para la comparación. El clasificador binario puede incluir una simple comparación de la puntuación de probabilidad. Una diferencia absoluta entre una puntuación de probabilidad resultante de la operación S330 y una puntuación de probabilidad asociada con una muestra de inscripción capturada previamente, por ejemplo, puede compararse con una diferencia umbral. Por ejemplo, una diferencia absoluta menor o igual a la diferencia umbral puede indicar un acceso legítimo. La diferencia de umbral puede ser predeterminada y almacenada, o puede ser calculada en base a diversos factores. Por ejemplo, la diferencia de umbral puede variar dependiendo de factores como el género, la distancia de un usuario en el momento de la inscripción o en el momento de la prueba (determinado en otra operación), u otros factores que puedan afectar una puntuación de probabilidad. En otro ejemplo, los usuarios que tienen ciertas discapacidades vocales pueden utilizar rutinariamente una grabación o síntesis de voz para acceder a una cuenta, y por lo tanto pueden requerir un umbral diferente y más flexible para poder ser verificados.

Las características acústicas profundas extraídas en la operación S320 (por ejemplo, por la primera DNN 210) pueden ser los Coeficientes cepstrales Q constantes (CQCCs). Se reconoce que las características CQCC pueden obtenerse mediante otros medios distintos a DNN. Sin embargo, los inventores han reconocido un beneficio en términos de coste y eficiencia al utilizar una DNN para dicha extracción. Además, una DNN (como la primera DNN 210) puede ser entrenada para distinguir características que serían mucho más difíciles de tener en cuenta utilizando características "hechas a mano" de CQCC. Por ejemplo, las características convencionales de CQCC suelen derivarse de una transformada Q constanteinspirada perceptualmente y pueden clasificarse utilizando Modelado de Mezcla Gaussiana (GMM). (Ver, por ejemplo, Todisco, y otros, "A New Featurefor Automatic Speaker Verification Anti-spoofing: Constant Q Cepstral Coefficients", Odyssey 2016). Sin embargo, esa derivación requiere un uso muy alto de memoria y tiempo y recursos del procesador. En consecuencia, las características CQCC profunda (extraídas utilizando una DNN) son ventajosas porque su cálculo requiere comparativamente menos memoria y recursos del procesador. Esto se vuelve importante ya que los servicios que utilizan ASV desean que el proceso de ASV sea fluido y transparente para el usuario, con el menor costo posible, ya que los retrasos evidentes para el usuario resultan en insatisfacción del cliente.

Las condiciones de suplantación, como se mencionó brevemente anteriormente, pueden incluir condiciones de audio y/o condiciones de canal. Las condiciones de audio pueden incluir, pero no se limitan a, artefactos de grabación, artefactos de reproducción y/o artefactos que resultan de la síntesis de voz, la conversión de voz y/o la distorsión de voz. Por ejemplo, incluso equipos de reproducción muy sofisticados pueden introducir artefactos espectrales, temporales y/o más complejos que, aunque no necesariamente sean perceptibles auditivamente, pueden ser identificados por una red neuronal profunda entrenada adecuadamente. Los equipos de reproducción menos sofisticados naturalmente producen aún más artefactos acústicos. De manera similar, el equipo de grabación y/o el entorno pueden introducir artefactos acústicos tales como, pero no limitados a, ruido, zumbido, estiramiento temporal y/o limitaciones de frecuencia, además de artefactos más complejos como inconsistencias en el espectro de potencia, y otros similares.

En algunas realizaciones, las condiciones de audio pueden incluir artefactos de audio específicos de uno o más dispositivos de captura de audio no esperados. Por ejemplo, un usuario legítimo puede haber accedido al ASV utilizando un teléfono móvil específico en todas las comunicaciones anteriores. Una llamada de suplantación, utilizando un teléfono diferente, un micrófono de ordenador, un dispositivo de Internet de las Cosas (IoT) (por ejemplo, AMAZON ECHO, GOOGLE HOME y similares) u otro dispositivo de captura de audio inesperado, puede incluir artefactos específicos de un dispositivo en particular, y pueden ser diferentes de los artefactos introducidos por el dispositivo utilizado por el usuario legítimo en el momento de la inscripción y/o en las comunicaciones de voz posteriores.

Las condiciones del canal pueden incluir artefactos de bajo nivel introducidos por el canal que no sean por grabación o reproducción. Por ejemplo, una muestra de voz transmitida a través de un número de teléfono suplantado (no confundir con audio suplantado) puede incluir artefactos que no se esperan en una muestra de voz de un usuario legítimo, como, pero no limitado a ruido de cuantización, ruido de conmutación, desplazamiento de corriente continua, filtrado y otros artefactos espectrales y/o temporales que pueden diferir de los presentes en un modelo de inscripción, así como características de orden superior que solo pueden ser identificadas mediante el procesamiento de la muestra de voz, como características inesperadas en la densidad espectral de potencia y similares. Tales condiciones de suplantación pueden ser identificadas por una red neuronal profunda adecuadamente entrenada, como se describe anteriormente. El entrenamiento de dicha DNN puede incluir técnicas de entrenamiento convencionales, centrándose en discriminar entre condiciones de no suplantación y condiciones de suplantación conocidas.

Las Figuras 3B y 3C son diagramas de flujo que representan los métodos 300b y 300c para clasificar una muestra de voz como genuina o suplantada según otras realizaciones. Cada una de las Figuras 3B-3C ilustra el uso de un conjunto adicional de características acústicas extraídas en paralelo con las características acústicas profundas descritas anteriormente. La operación que tiene la misma etiqueta que en la Figura 3A tiene la función descrita anteriormente. En la Figura 3B, las características acústicas profundas y otras características acústicas se extraen por separado y se clasifican por separado en las operaciones S330 y S332, por ejemplo, utilizando segundas y terceras DNN independientes entrenadas para identificar características de bajo nivel representadas en las características extraídas. Las operaciones S330 y S332 pueden incluir además determinar o calcular una puntuación de probabilidad para cada conjunto de características extraídas que indique la probabilidad de que las características extraídas incluyan condiciones de suplantación. En la operación S335, las puntuaciones de probabilidad se "fusionan", por ejemplo, según técnicas convencionales de fusión de puntuaciones. El resultado de la puntuación de probabilidad fusionado puede ser clasificado en la operación S340 para indicar un acceso genuino o un acceso suplantado. En algunas realizaciones, la operación S340 puede incluir la comparación de la puntuación de probabilidad fusionado con un umbral predeterminado o contra una puntuación de probabilidad derivado de una muestra de inscripción previamente guardada para el usuario legítimo.

Volviendo a la Figura 3C, después de extraer las características acústicas profundas (por ejemplo, características CQCC profunda) y otras características acústicas, las características se combinan o se colocan en tándem para crear "características en tándem" en la operación S325. Las características en tándem se clasifican de la misma manera que se describe anteriormente para la operación S330 y la clasificación resultante o puntuación de probabilidad se utiliza, en la operación S340, para clasificar la muestra de voz (por ejemplo, muestra de voz 20) como auténtica o suplantada.

En algunas realizaciones, los elementos de los métodos 300a-300c pueden ser proporcionados como instrucciones ejecutables por ordenador almacenadas en uno o más medios legibles por ordenador no transitorios. En otras realizaciones, los elementos de los métodos 300a-300c pueden ser implementados en hardware o en una combinación de software/firmware y hardware, tal como se describe en la presente memoria. Por ejemplo, los métodos de las Figuras 3B-3C pueden implementarse como se describe a continuación.

Las figuras 4-5 ilustran aparatos o sistemas 400, 500 respectivamente configurados para incorporar los métodos en las figuras 3B-3C. Las características acústicas profundas correspondientes a las Figuras 3B-3C pueden ser, como se muestra en las Figuras 4-5, características CQCC profundas utilizadas en combinación (por ejemplo, "características en tándem") con otras características extraídas de la muestra de voz 20. Tanto en la Figura 4 como en la Figura 5, se recibe una muestra de voz 20 de una fuente de voz 10 tanto por un primer DNN 410, 510 (como se describe anteriormente con respecto al primer DNN 210, por ejemplo, configurado para extraer características profundas de CQCC) como por otro extractor de características 412, 512. El otro extractor de características 412, 512 puede estar configurado para extraer características convencionales, como los coeficientes de cepstrum de frecuencia de Mel (MFCCs), los coeficientes de cepstrum de baja frecuencia (LFCC), los coeficientes de cepstrum de subbanda (SBCCs, introducidos y descritos en detalle a continuación) u otros coeficientes conocidos por proporcionar características de bajo nivel útiles para su uso en la verificación automática de hablantes. La Figura 4 ilustra un aparato 400 que utiliza la fusión de puntuaciones para las puntuaciones de probabilidad generadas respectivamente para cada uno de los dos conjuntos de características extraídas según una realización. La Figura 5 ilustra un aparato 500 que utiliza la concatenación de características generadas respectivamente por la primera DNN 510 y otro extractor de características 512.

Dirigiéndonos primero a la Figura 4, las características 415 extraídas por la primera DNN 410 y las características 417 extraídas por el otro extractor de características 412 pueden ser procesadas de forma independiente, por ejemplo, por segundas y terceras redes neuronales profundas respectivas 420, 422, para generar puntuaciones de probabilidad respectivas que indican la probabilidad de que la muestra de voz 20 incluya una característica de bajo nivel representada en las características extraídas respectivas (415, 417). Las puntuaciones de probabilidad pueden ser "fusionadas" según técnicas convencionales en una unidad de fusión de puntuaciones o algoritmo 425 para que las puntuaciones fusionadas sean consideradas en conjunto por una unidad de decisión 430 (por ejemplo, un clasificador binario 230 configurado como se describe anteriormente) para indicar un acceso genuino o uno suplantado. En algunos casos, una o ambas puntuaciones de probabilidad pueden ajustarse según un algoritmo predeterminado, en algunos casos ponderando y/o desplazando al menos una de las puntuaciones de probabilidad para garantizar los mejores resultados.

Pasando ahora a la Figura 5, las características CQCC profundas extraídas 515 y las otras características acústicas extraídas 517 pueden ser concatenadas por una unidad o algoritmo de concatenación 518 o combinadas de otra manera antes de ser recibidas por una segunda DNN 520 (por ejemplo, correspondiente a la segunda DNN 220 en la Figura 2) para determinar una puntuación de probabilidad o categorización. Al igual que con la realización descrita con respecto a las Figuras 4, la puntuación de probabilidad o categorización puede ser recibida por una Unidad de Decisión 530, que puede corresponder a un clasificador binario, como el clasificador binario 230 en la Figura 2. Una clasificación de auténtico o suplantado puede basarse en una comparación de la puntuación de probabilidad con un umbral predeterminado y/o mediante la comparación con una puntuación de probabilidad de una muestra de inscripción previamente almacenada asociada a un usuario genuino para quien se pretende que la muestra de voz coincida.

Los aparatos o sistemas 400, 500 pueden incorporar cada uno o más procesadores programados o específicos de la aplicación, memoria asociada, terminales de entrada y salida, y similares, y pueden implementarse en un único dispositivo monolítico o distribuidos entre varios dispositivos próximos. En algunas realizaciones, los elementos de hardware pueden incorporar dispositivos ubicados de forma remota y configurados para comunicar datos utilizando una red de datos. En cada caso, el hardware puede incluir circuitos receptores o un circuito receptor (ilustrado solo implícitamente), como, pero no limitado a, circuitos de telefonía o comunicación de datos configurados para recibir la muestra de voz 20.

En algunas realizaciones, las "otras características" extraídas en asociación con las operaciones S322 en las Figuras 3B, 3C y los elementos 412, 512 de las Figuras 4 y 5 pueden incluir características de coeficientes cepstrales de subbanda (SBCC). Se han considerado muchas características de las muestras de voz, y los inventores reconocieron que existen diferencias espectrales entre el audio genuino y el suplantado (especialmente en los ataques de reproducción). Esas diferencias espectrales son particularmente pronunciadas, tanto en frecuencias más altas como más bajas, en un espectro tradicionalmente considerado con bajo contenido de habla. En la mayoría de los enfoques de modelado y clasificación, se sigue una transformada de Fourier de tiempo corto (STFT) seguida de la extracción cepstral como un vector de características de nivel bajo para tareas generales de procesamiento del habla. El espectro de potencia de la señal de habla enmarcada a menudo se transforma mediante un banco de filtros para reducir la dimensionalidad. Si bien un banco de filtros en escala Mel es el enfoque más popular para aplicaciones de reconocimiento de voz y verificación de hablantes, se ha descubierto que los filtros triangulares lineales o los filtros inversos gammatono son más adecuados para detectar artefactos de conversión de voz y suplantación de texto a voz. Al diseñar características SBCC para la detección de ataques de reproducción, los inventores razonaron que los dispositivos de grabación y reproducción diseñados para telefonía pueden presentar artefactos de canal en forma de atenuación o énfasis de ciertas frecuencias fuera de la banda de voz. (300-3400Hz). Estos artefactos son más pronunciados en dispositivos de grabación o reproducción de baja calidad, mientras que un par de dispositivos de grabación y reproducción de alta calidad tiende a tener una respuesta de frecuencia más plana.

La Figura 6 ilustra un proceso 600 para extraer características SBCC. Las características de SBCC pueden ser extraídas mediante, en la operación S610, filtrar la muestra de voz en subbandas antes de extraer las otras características de la muestra filtrada. En algunos ejemplos, la muestra de voz se filtra mediante un filtro pasa-alto, de modo que las características extraídas son los coeficientes cepstrales de alta frecuencia (HFCCs). En algunos casos, la frecuencia de corte y la pendiente del filtro pueden ajustarse dinámicamente para abordar diferentes tipos de suplantación, por ejemplo, cuando los tipos de suplantación ocurren en diferentes bandas de frecuencia. La extracción en sí puede comenzar en la operación de transformación S620, que incluye el cálculo de una transformada de Fourier de corto tiempo (STFT) en una trama de la muestra filtrada. Se calcula un espectro de potencia de la STFT en la operación S630. A continuación, en la operación S640, se calcula una amplitud de registro a partir del espectro de potencia, seguido en la operación S650 por el cálculo de una transformada de coseno discreta inversa (IDCT) de la amplitud de registro. Las características dinámicas se calculan a partir de la IDCT en la operación S660. El cálculo de las características dinámicas puede incluir el cálculo de las características delta y/o delta-delta (aceleración). En algunos casos, las características delta y delta-delta pueden calcularse utilizando un tamaño de ventana de 1.

Cada una de las primeras DNN (por ejemplo, 210 en la Figura 2) y la segunda DNN (por ejemplo, 220 en la Figura 2) puede incluir una capa de entrada, una o más capas ocultas, una o más capas completamente conectadas y una capa de salida. Cualquiera de las capas puede utilizar normalización por lotes. En algunos casos, la normalización por lotes puede aplicarse a todas las capas, al menos, de la primera DNN. Esto mitiga el sobreajuste. Experimentalmente, los inventores proporcionaron un fragmento de audio sin procesar (25,5 ms) a una capa de entrada de la primera DNN. Una señal de audio con una frecuencia de muestreo de 16 kHz corresponde a 408 muestras. Las capas ocultas consistían en un conjunto de capas convolucionales seguidas de una capa de agrupación máxima para agrupar en el tiempo, y luego otro conjunto de capas completamente conectadas. El número de unidades de la capa de salida se establece para que coincida con la dimensión de las características CQCC estándar (por ejemplo, "hechas a mano").

La Figura 7 es un diagrama de bloques de una segunda red neuronal profunda (DNN) 700, como la segunda DNN 520, configurada para clasificar características de suplantación a partir de características en tándem, como se ilustra en la Figura 5. Las características en tándem 710 ilustran la concatenación de las características SBCC con las características CQCC profunda. Aunque la Figura 7 ilustra un coeficiente CQCC profunda adjunto a un coeficiente SBCC, lo contrario también puede ser cierto (es decir, SBCC adjunto a CQCC profunda). Además, CQCC profunda puede combinarse con características extraídas que no sean SBCC. Las características resultantes en tándem son recibidas por el DNN 700, que puede incluir una pluralidad de capas convolucionales 720 seguidas de al menos una capa de agrupación máximo, una o más capas completamente conectadas 740 y condiciones del canal objetivo 750. En algunas realizaciones, la última capa de agrupación máxima 730 de la primera DNN puede estar configurada para extraer características de cuello de botella. Las características de cuello de botella son características del CQCC profunda que son sensibles a los artefactos de audio y/o canal. La mejora resulta en la capacidad de las características del cuello de botella de generalizar a condiciones de suplantación no vistas. Es decir, las realizaciones divulgadas en la actualidad pueden manejar condiciones de suplantación imprevistas de manera más precisa que los enfoques convencionales de antisuplantación.

El entrenamiento de una DNN puede tomar varios caminos. En la presente divulgación, la segunda DNN (por ejemplo, 220 en la Figura 2) puede ser entrenada mediante enfoques convencionales, con optimización realizada mediante impulso de gradiente y retropropagación. El segundo DNN puede ser entrenado para discriminar entre múltiples condiciones de canal. Por ejemplo, la segunda DNN clasificadora puede discriminar entre diferentes entornos de fondo (por ejemplo, hogar, oficina, restaurante, calle), entre diferentes dispositivos de adquisición (por ejemplo, laptops, teléfonos inteligentes, AMAZON ECHO) y/o diferentes infraestructuras de red (por ejemplo, línea fija, celular y VoIP).

Cualquiera de las características descritas en la presente descripción puede ser implementada en software o firmware ejecutado por un procesador programado con memoria, interfaces, etc., y puede proporcionar una salida que puede ser expresada visualmente (por ejemplo, a través de una indicación en una pantalla), auditivamente (por ejemplo, a través de un sonido específico) o mediante una acción (por ejemplo, finalizando una llamada, conectando a un operador en vivo a una llamada o solicitando información adicional al usuario). En algunos casos, una o ambas DNN pueden ser implementadas utilizando un procesador gráfico.

En la descripción detallada anterior, se presentan varios detalles específicos con el fin de proporcionar una comprensión de las mejoras para el reconocimiento de voz en un centro de llamadas, y describir los aparatos, técnicas, métodos, sistemas e instrucciones de software ejecutables por ordenador introducidos aquí. La descripción no debe considerarse como limitante del alcance de la invención, que está definido por las reivindicaciones.

La presente invención se refiere en general a un aparato para realizar las operaciones descritas en la presente memoria. Este aparato puede ser especialmente construido para los propósitos requeridos, como una unidad de procesamiento gráfico (GPU), un procesador de señal digital (DSP), un circuito integrado de aplicación específica (ASIC), una matriz de compuertas programable en campo (FPGA) o un circuito electrónico de propósito especial, o puede incluir una ordenador de propósito general activada o reconfigurada selectivamente por un programa informático almacenado en la ordenador. Un programa informático de este tipo puede almacenarse en un medio de almacenamiento legible por ordenador no transitorio, como, pero no limitado a, cualquier tipo de disco, incluyendo discos ópticos, CD-ROMs, discos magneto-ópticos, memorias de solo lectura (ROMs), memorias de acceso aleatorio (RAMs), EPROMs, EEPROMs, tarjetas magnéticas u ópticas, memoria integrada, almacenamiento en la "nube" o cualquier tipo de medio legible por ordenador adecuado para almacenar instrucciones electrónicas.

Los algoritmos y las visualizaciones presentadas aquí no están inherentemente relacionados con ningún ordenador o aparato en particular. Varios sistemas de propósito general pueden ser utilizados con programas de acuerdo con las enseñanzas aquí descritas, o puede resultar conveniente construir un aparato más especializado para llevar a cabo los pasos del método requerido. La estructura requerida para una variedad de estos sistemas aparecerá en la descripción aquí. Además, la presente invención no se describe con referencia a ningún lenguaje de programación en particular. Se apreciará que se pueden utilizar una variedad de lenguajes de programación para implementar las enseñanzas de la invención tal como se describen en la presente memoria.

Términos y frases utilizados en este documento, y sus variaciones, a menos que se indique expresamente lo contrario, deben interpretarse como abiertos en lugar de limitantes. Como ejemplos de lo anterior: el término "incluyendo" debe interpretarse como "incluyendo, sin limitación" o similar; el término "ejemplo" se utiliza para proporcionar instancias ilustrativas del elemento en discusión, no una lista exhaustiva o limitante del mismo; y adjetivos como "convencional", "tradicional", "estándar", "conocido" y términos de significado similar no deben interpretarse como limitantes del elemento descrito a un período de tiempo determinado o a un elemento disponible a partir de un momento dado, sino que deben interpretarse como abarcando tecnologías convencionales, tradicionales, normales o estándar que pueden estar disponibles o ser conocidas ahora o en cualquier momento en el futuro. Del mismo modo, un grupo de elementos vinculados con la conjunción "y" no debe interpretarse como que cada uno de esos elementos esté presente en el grupo, sino más bien como "y/o" a menos que se indique expresamente lo contrario. De manera similar, un grupo de elementos vinculados con la conjunción "o" no debe interpretarse como que requieren exclusividad mutua dentro de ese grupo, sino que también deben interpretarse como "y/o" a menos que se indique expresamente lo contrario.

Además, aunque los elementos, componentes o partes de la divulgación puedan ser descritos o reivindicados en singular, se contempla que el plural esté dentro de su ámbito, a menos que se indique explícitamente una limitación al singular. La presencia de palabras y frases amplias como "uno o más", "al menos", "pero no limitado a" u otras frases similares en algunos casos no debe interpretarse como que se pretende o se requiere el caso más estrecho en instancias donde dichas frases amplias pueden estar ausentes. Además, cuando se establece un rango, los límites superiores e inferiores del rango incluyen todas las unidades intermedias en él.

La descripción anterior de los ejemplos de realización divulgados se proporciona para permitir que cualquier persona experta en la técnica pueda fabricar o utilizar la presente invención. Varias modificaciones a estos ejemplos de realización serán fácilmente aparentes para aquellos expertos en la técnica.

Claims

REIVINDICACIONES

1 Un método para detectar una fuente de voz suplantada, el método que comprende:

recibir una muestra de voz (S310);

extraer al menos características acústicas profundas (S320) de la muestra de voz utilizando una primera red neuronal profunda, DNN, en donde la primera DNN comprende una capa de agrupación configurada para extraer al menos una característica sensible a artefactos de audio y/o canal de las características acústicas profundas;

calcular, a través de una segunda DNN que recibe las características acústicas profundas al menos extraídas, una primera probabilidad de que la muestra de voz incluya una condición de suplantación (S330) basada en parte en al menos una característica sensible a artefactos de audio y/o canal en las características acústicas profundas; y caracterizado por

clasificar la muestra de voz (S340), utilizando un clasificador binario, como genuina o suplantada basándose en la primera probabilidad de que la muestra de voz incluya la condición de suplantación de la segunda DNN y una segunda probabilidad de que una muestra de inscripción incluya la condición de suplantación.
2 El método según la reivindicación 1, en donde las características acústicas profundas son los coeficientes cepstrales Q constantes profundos, CQCC, y/o en donde las condiciones de suplantación incluyen al menos una de las condiciones del canal y las condiciones de audio y, opcionalmente, en donde las condiciones del canal incluyen artefactos del canal específicos de al menos uno de diferentes entornos de fondo, diferentes dispositivos de adquisición y diferentes infraestructuras de red.
3 El método según la reivindicación 1, que además comprende:

extraer otras características acústicas de la muestra de voz (S322);

combinar las características acústicas profundas (S325) con las demás características acústicas para proporcionar características en tándem; y

clasificar las características en tándem (S330) utilizando la segunda DNN, la segunda DNN configurada para determinar si las características en tándem incluyen una condición de no suplantación o al menos una condición de suplantación, en donde

dicha clasificación de al menos las características acústicas profundas forma parte de la clasificación de las características en tándem.
4 El método según la reivindicación 3, en donde las otras características acústicas son las características de coeficientes cepstrales de subbanda, SBCC, el método además comprende:

filtrar en subbandas (S610) la muestra de voz antes de extraer las otras características de la muestra filtrada, en donde dicha extracción de las otras características SBCC incluye:

calcular una transformada de Fourier de tiempo corto, STFT, (S620) en una trama de la muestra filtrada, calcular un espectro de potencia (S630) a partir de la STFT, calcular una amplitud de registro (S640) a partir del espectro de potencia,

calcular una transformada de coseno discreta inversa, IDCT, (S650) de la amplitud de registro, y calcular características dinámicas (S660) basadas en la IDCT.
5 El método según la reivindicación 4, en donde dicho filtrado de la muestra de audio incluye el uso de un filtro pasa alto, la muestra filtrada se limita a frecuencias por encima de una frecuencia de corte predeterminada, y/o en donde el cálculo de características dinámicas incluye el cálculo de al menos uno de características de aceleración delta y delta-delta.
6 El método según la reivindicación 1, en donde la segunda DNN está configurada para extraer características de múltiples clases a partir de al menos características acústicas profundas.
7 El método según la reivindicación 1, en donde la primera DNN y la segunda DNN incluyen al menos:

una capa de entrada,

capas ocultas, incluyendo una o más capas convolucionales (720) seguidas de una capa de agrupación máxima (S730),

una o más capas completamente conectadas (740), y

una capa de salida (750).
8 El método según la reivindicación 7, en donde la capa de agrupación máxima de la primera DNN está configurada para extraer características de cuello de botella de las características acústicas profundas, siendo las características de cuello de botella características que son sensibles al menos a un artefacto, y/o en donde se aplica normalización por lotes, para al menos uno de la primera DNN y la segunda DNN, a una o más de: la capa de entrada, las capas ocultas, la una o más capas completamente conectadas y la capa de salida.
9 El método según la reivindicación 1, en donde la segunda DNN se entrena mediante al menos uno de incremento de gradiente y retropropagación, y/o en donde la segunda DNN se implementa utilizando uno o más procesadores gráficos.
10. El método según la reivindicación 1, en donde la configuración de la segunda DNN resulta de entrenar la segunda DNN con una pluralidad de muestras de voz no suplantadas y suplantadas conocidas.
11. Un aparato para detectar una fuente de voz suplantada, el aparato comprende:

un circuito receptor configurado para recibir una muestra de voz (20);

una primera red neuronal profunda, DNN, (210) configurada para extraer al menos características acústicas profundas (215) de la muestra de voz, en donde la primera DNN comprende una capa de agrupación configurada para extraer al menos una característica sensible a artefactos de audio y/o canal a partir de las características acústicas profundas; y

una segunda DNN (220) configurada para calcular a partir de las características acústicas profundas (215) una primera probabilidad (225) de que la muestra de voz (20) incluya una condición de suplantación basada en parte en al menos una característica sensible a artefactos de audio y/o canal en las características acústicas profundas; y caracterizado por

un clasificador binario (230) configurado para clasificar la muestra de voz como genuina o suplantada en función de la primera probabilidad (225) de la segunda DNN y una segunda probabilidad (235) de que una muestra de inscripción incluya la condición de suplantación.
12. El aparato según la reivindicación 11, en donde las características acústicas profundas son los coeficientes cepstrales Q constantes profundos, CQCC, y/o en donde las condiciones de suplantación incluyen al menos una de las condiciones del canal y las condiciones de audio y, opcionalmente, en donde las condiciones del canal incluyen artefactos del canal específicos de al menos uno de los diferentes entornos de fondo, diferentes dispositivos de adquisición y diferentes infraestructuras de red.
13. El aparato según la reivindicación 11, que además comprende:

circuitos (512) configurados para extraer otras características acústicas (517) de la muestra de voz; y un dispositivo de concatenación de características (518) configurado para combinar las características acústicas profundas (515) con las otras características acústicas (517) para proporcionar características en tándem, en donde

la segunda DNN (520) está configurada además para clasificar las características en tándem y determinar si las características en tándem incluyen una condición de no suplantación o al menos una condición de suplantación, y

la configuración para clasificar al menos las características acústicas profundas está incluida en dicha configuración para clasificar las características en tándem.