+

ES2993990T3 - Method and apparatus for detecting spoofing conditions - Google Patents

Method and apparatus for detecting spoofing conditions Download PDF

Info

Publication number
ES2993990T3
ES2993990T3 ES18712052T ES18712052T ES2993990T3 ES 2993990 T3 ES2993990 T3 ES 2993990T3 ES 18712052 T ES18712052 T ES 18712052T ES 18712052 T ES18712052 T ES 18712052T ES 2993990 T3 ES2993990 T3 ES 2993990T3
Authority
ES
Spain
Prior art keywords
features
dnn
deep
sample
spoofing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18712052T
Other languages
English (en)
Inventor
Elie Khoury
Parav Nagarsheth
Kailash PATIL
Matthew Garland
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pindrop Security Inc
Original Assignee
Pindrop Security Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pindrop Security Inc filed Critical Pindrop Security Inc
Application granted granted Critical
Publication of ES2993990T3 publication Critical patent/ES2993990T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Un sistema de verificación automática de hablantes (ASV) incorpora una primera red neuronal profunda para extraer características acústicas profundas, como características CQCC profundas, de una muestra de voz recibida. Las características acústicas profundas son procesadas por una segunda red neuronal profunda que clasifica las características acústicas profundas según una probabilidad determinada de incluir una condición de suplantación. A continuación, un clasificador binario clasifica la muestra de voz como genuina o suplantada. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCION
Método y aparato para detectar condiciones de suplantación
Esta divulgación reivindica la presentación nacional, según el 35 U.S.C. § 119, de la Solicitud Provisional de los Estados Unidos No. 62/466,911 presentada el 3 de marzo de 2017, titulada "Spoofing Detection".
Antecedentes
Los sistemas de módem son cada vez más centrados en la voz y, en muchos casos, dependen de enfoques de seguridad basados en la voz, como el Reconocimiento Automatizado de Voz (AVR) y similares, para asegurar que un hablante actual sea un usuario autorizado del sistema. Aunque varios enfoques logran un éxito moderado en asegurar que una muestra de audio recibida coincida con una muestra de audio previamente registrada o un modelo de voz correspondiente, los sistemas convencionales son vulnerables a ataques de "suplantación" en los que un usuario fraudulento puede emplear técnicas como la conversión de voz, la síntesis de voz y los ataques de reproducción para aproximarse sustancialmente al registro auténtico. Los ataques de repetición fraudulentos, por ejemplo, son fáciles de generar sin necesidad de experiencia en procesamiento del habla y aprendizaje automático. Con el uso de dispositivos de reproducción y grabación de alta calidad, es concebible realizar ataques de reproducción indistinguibles de un acceso genuino en sistemas convencionales.
Los Coeficientes Cepstrales Constantes Q (CQCCs) son características acústicas de análisis tiempo-frecuencia inspiradas perceptualmente que se han demostrado ser eficaces para detectar ataques de suplantación de voz, como la reproducción de audio, la conversión y la transformación de voz, y los ataques de síntesis de voz. (Ver, por ejemplo, Todisco y otros, "A New Feature for Automatic Speaker Verification Anti-Spoofing: Constant Q Cepstral Coefficients", Odyssey 2016). Sin embargo, las desventajas de la técnica convencional para obtener CQCCs incluyen altos costos en términos de uso de memoria y tiempo de procesamiento. Además, los sistemas convencionales emplean características CQCC que discriminan únicamente entre enunciados suplantados y no suplantados.
ZHANG CHUNLEI Y OTROS: "An Investigation of Deep-Learning Frameworks for Speaker Verification Antispoofing", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, IEEE, EE.UU., vol. 11, no. 4, 16 de enero de 2017 (16-01-2017), páginas 684-694, ISSN: 1932-4553, DOI: 10.1109/JSTSP.2016.2647199 divulga el uso de enfoques de aprendizaje profundo para la detección de suplantaciones en la verificación de hablantes. El documento tiene como objetivo investigar la capacidad discriminativa genuina-suplantación desde la etapa final, utilizando los avances recientes en la investigación de aprendizaje profundo. En este documento, se explotan arquitecturas de red alternativas para detectar el habla suplantada. Basándose en este análisis, se propone un sistema de detección de suplantación de identidad que emplea simultáneamente redes neuronales convolucionales (CNNs) y redes neuronales recurrentes (RNNs). En este marco, la CNN se trata como un extractor de características convolucionales aplicado a la entrada de voz. Además de la salida procesada por CNN, se utilizan redes recurrentes para capturar dependencias a largo plazo en el dominio temporal. Nuevas características, incluyendo el operador de energía de Teager, la autocorrelación de banda crítica y la envolvente perceptual de mínima distorsión de varianza, así como un espectrograma más general, también se investigan como entradas en nuestros marcos de aprendizaje profundo propuestos. Los experimentos realizados con el corpus ASVspoof2015 demuestran que el marco integrado CNN-RNN alcanza el rendimiento más avanzado en un solo sistema. La adición de la fusión a nivel de puntuación mejora aún más la robustez del sistema. Un análisis detallado muestra que nuestro enfoque propuesto tiene el potencial de compensar el problema debido a las breves duraciones de las frases de prueba, que también es un problema en el corpus de evaluación.
WU ZHIZHENG Y OTROS: "ASVspoof: "The Automatic Speaker Verification Spoofing and Countermeasures Challenge", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, IEEE, EE. UU., vol. 11, no. 4, 17 de febrero de 2017 (17-02-2017), páginas 588-604, XP011649191, ISSN: 1932-4553, DOI: 10.1109/JSTSP.2017.2671435 divulga la iniciativa de Engaño y Contramedidas de ASV (ASVspoof). A través de la provisión de un conjunto de datos común, protocolos y métricas, ASVspoof promueve una metodología de investigación sólida y fomenta el progreso tecnológico. Este documento también describe el conjunto de datos ASVspoof 2015, la evaluación y los resultados con análisis detallados. Una revisión de estudios de postevaluación realizados utilizando el mismo conjunto de datos ilustra el rápido progreso derivado de ASVspoof y destaca la necesidad de una investigación adicional.
MD JAHANGIR ALAM Y OTROS: "Spoofing Detection on the ASVspoof2015 Challenge Corpus Employing Deep Neural Networks", ODYSSEY 2016, vol. 2016, 21 de junio de 2016 (31-06-2016), páginas 270-276, XP055476292, ISSN: 2312-2846, DOI: 10.21437/Odyssey.2016-39 divulga la aplicación de redes neuronales profundas (DNN), entrenadas para discriminar entre señales de voz humana y suplantada, para mejorar el rendimiento de la detección de suplantación. En el documento, los autores utilizan características de nivel acústico basadas en amplitud, fase, residuo de predicción lineal y amplitud-fase combinada. Primero se entrena una DNN con los datos de entrenamiento del desafío de suplantación para discriminar entre señales de voz humana y suplantada. Se utilizan las características de espectros de filtro Delta (DFB), coeficientes cepstrales de frecuencia Mel delta más doble delta (DMCC), coeficientes cepstrales de predicción lineal delta más doble delta (DLPCC) y coeficientes cepstrales basados en el espectro del producto (DPSCC) como entradas a la DNN. Para cada característica, se generan posteriormente y características de cuello de botella (BNF) para todos los datos de desafío de suplantación utilizando la DNN entrenada. Los posteriores de DNN se utilizan directamente para decidir si una grabación de prueba es falsa o humana. Para la detección de suplantación con las características de nivel acústico y las características de cuello de botella se construye un clasificador de Modelo de Mezcla Gaussiana (GMM) estándar. Cuando se probaron en los ataques de suplantación (S1-S10) del corpus de evaluación del desafío ASVspoof2015, los sistemas DFB-BNF, DMCC-BNF, DLPCC-BNF, DPSCC-BNF y DpSCC-DNN proporcionaron tasas de error iguales (EERs) de 0,013 %, 0,007 %, 0,0 %, 0,022 % y 1,00 % respectivamente, en los ataques de suplantación S1-S9. En los diez ataques de suplantación (S1-S10), las<e>E<rs>obtenidas por estos cinco sistemas son 3,23 %, 2,15 %, 3,3 %, 3,28 % y 2,18 %, respectivamente.
MASSIMILIANO TODISCO Y OTROS: "A New Feature for Automatic Speaker Verification Anti-Spoofing: Constant Q Cepstral Coefficients", ODYSSEY 2016, vol. 2016, 21 de junio de 2016 (21-06-2016), páginas 283-290, XP055476497, ISSN: 2312-2846, DOI: 10.21437/Odyssey.2016-41 divulga que hay más beneficios en el estudio de características que en clasificadores, e introduce una nueva característica para la detección de suplantaciones basada en la transformada Q constante, una herramienta de análisis tiempo-frecuencia inspirada en la percepción y popular en el estudio de la música. Los resultados experimentales obtenidos utilizando la base de datos estándar ASVspoof 2015 muestran que, cuando se combinan con un clasificador basado en un modelo de mezcla gaussiana estándar, los coeficientes cepstrales Q constantes propuestos (CQCCs) superan con creces todos los resultados previamente reportados. En particular, aquellos para un subconjunto de ataques de suplantación de identidad desconocidos (para los cuales no se utilizó ningún dato de entrenamiento coincidente) es del 0,46 %, una mejora relativa del 72 % respecto a los mejores resultados previamente reportados.
PARAV NAGARSHETH Y OTROS: "Replay Attack Detection Using DNN for Channel Discrimination", INTERSPEECH 2017, 20 de agosto de 2017 (20-08-2017), páginas 97-101, XP055476190, ISCA, DOI: 10.21437/lnterspeech.2017-1377 aborda el problema proponiendo una arquitectura de aprendizaje profundo en conjunto con características cepstrales de bajo nivel. El documento investiga el uso de una red neuronal profunda (DNN) para discriminar entre las diferentes condiciones de canal disponibles en el conjunto de datos ASVSpoof 2017, a saber, grabación, reproducción y condiciones de sesión. Los vectores de características de alto nivel derivados de esta red se utilizan para discriminar entre audio genuino y suplantado. Se utilizan dos tipos de características de bajo nivel: los coeficientes cepstrales constantes-Q de última generación (CQCC) y nuestros propuestos coeficientes cepstrales de alta frecuencia (HFCC) que se derivan del espectro de alta frecuencia del audio. La fusión de ambas características demostró ser efectiva en generalizar bien a través de diversos ataques de reproducción vistos en la evaluación del desafío ASVSpoof 2017, con una tasa de error igual de 11,5 %, es decir, un 53 % mejor que el modelo de mezcla gaussiana (GMM) de referencia aplicado en CQCC.
Resumen
La presente divulgación se refiere a métodos y aparatos para su uso en, por ejemplo, un sistema de verificación automática de altavoces (ASV), para distinguir entre un hablante genuino y autorizado (por ejemplo, un llamante) y uno fraudulento, en particular aquel que emplea un ataque de reproducción, como se discute con más detalle a continuación.
La invención está definida en las reivindicaciones.
Si bien se divulgan múltiples realizaciones, aún pueden surgir otras realizaciones para aquellos expertos en la técnica a partir de la siguiente descripción detallada, que muestra y describe ejemplos ilustrativos de la invención. Como se comprenderá, la invención es susceptible de modificaciones en varios aspectos, todo ello sin salirse del ámbito de la presente invención. En consecuencia, los dibujos y la descripción detallada deben considerarse de naturaleza ilustrativa y no restrictiva.
Figuras
La Figura 1 es un diagrama de bloques que ilustra un aparato o sistema de verificación automática del habla (ASV) de acuerdo con una configuración general que no se encuentra dentro del ámbito de la invención,
La Figura 2 es un diagrama de bloques de una realización más específica según la invención, del aparato o sistema ilustrado en la Figura 1,
Las Figuras 3A-C son diagramas de flujo que detallan métodos para clasificar una muestra de voz como genuina o suplantada, según las respectivas realizaciones,
La Figura 4 ilustra un aparato que utiliza la fusión de puntuaciones según una realización,
La Figura 5 ilustra un aparato que utiliza la concatenación de características según una realización, la Figura 6 ilustra un proceso para extraer características de coeficientes cepstrales de subbanda, y
La Figura 7 es un diagrama de bloques de una segunda red neuronal profunda configurada para clasificar características de suplantación a partir de características en tándem, como se ilustra en la Figura 5, según una realización.
Las figuras anteriores pueden representar configuraciones ilustrativas para un aparato de la divulgación, lo cual se hace para ayudar a comprender las características y funcionalidades que se pueden incluir en las carcasas descritas en la presente memoria. El aparato no se limita a las arquitecturas o configuraciones ilustradas, sino que puede implementarse utilizando una variedad de arquitecturas y configuraciones alternativas. Además, aunque el aparato se describe anteriormente en términos de varias realizaciones y aplicaciones ilustrativas, se debe entender que las diversas características y funcionalidades descritas en una o más de las realizaciones individuales con las que se describen, no se limitan a esas realizaciones específicas, sino que pueden aplicarse, solas o en alguna combinación, a una o más de las otras realizaciones de la divulgación, ya sea que se describan o no dichas realizaciones y ya sea que se presenten o no dichas características como parte de una realización descrita. Por lo tanto, la amplitud y el alcance de la presente divulgación, especialmente en cualquier reivindicación siguiente, no deben limitarse por ninguno de los ejemplos de realizaciones descritas anteriormente.
Descripción detallada
La descripción detallada que se presenta a continuación en relación con los dibujos adjuntos tiene como objetivo ser una descripción de ejemplos de realizaciones de la presente divulgación y no pretende representar las únicas realizaciones en las que se puede practicar la presente divulgación. El término "ilustrativo", cuando se utiliza en esta descripción, significa: "que sirve como ejemplo, instancia o ilustración", y no necesariamente debe interpretarse como preferido o ventajoso sobre otras realizaciones, ya sea etiquetadas como "ilustrativas" o de otra manera. La descripción detallada incluye detalles específicos con el propósito de proporcionar una comprensión completa de las realizaciones de la divulgación. Será evidente para aquellos expertos en la técnica que las realizaciones de la divulgación pueden ser llevadas a cabo sin estos detalles específicos. En algunos casos, se pueden mostrar estructuras y dispositivos conocidos en forma de diagrama de bloques para evitar oscurecer la novedad de las realizaciones ilustrativas presentadas en la presente memoria.
La suplantación es una comunicación fraudulenta o maliciosa enviada desde una fuente desconocida y disfrazada como una fuente conocida por el receptor. Los sistemas ASV están siendo cada vez más desafiados por técnicas de suplantación como la conversión de voz, la síntesis de voz y los ataques de reproducción. Entre estos, los ataques de repetición, también conocidos como "ataques de presentación", han demostrado reducir la precisión de los sistemas ASV convencionales en gran medida. Por ejemplo, en las comunicaciones basadas en voz, un estafador puede imitar o reproducir la voz de un llamante conocido con la intención de engañar a un sistema de Verificación Automática de Voz (ASV). Los ataques de repetición son fáciles de generar, no requieren experiencia en procesamiento de voz y/o aprendizaje automático, y muy poca experiencia en cualquier caso. Por ejemplo, con dispositivos de grabación y reproducción de alta calidad, es concebible generar ataques de reproducción que son casi indistinguibles de un acceso genuino.
Los enfoques convencionales para abordar los ataques de reproducción y otros mecanismos de suplantación se han centrado con cada vez más éxito en los sistemas de verificación automática de habla independiente del texto. Los inventores han reconocido la necesidad de métodos y aparatos para detectar de manera efectiva ataques de reproducción y otros medios de suplantación de identidad de manera eficiente y rápida, tanto en sistemas ASV dependientes de texto como independientes de texto. (Ver Nagarsheth y otros, "Replay Attack Detection using DNN for Channel Discrimination", INTERSPEECH, agosto de 2017, incorporado aquí por referencia, en el cual los inventores discuten observaciones experimentales y sistemas resultantes en detalle.)
La Figura 1 es un diagrama de bloques que ilustra un aparato o sistema de verificación automática del habla (ASV) 100 según una configuración general que no forma parte de la invención.
Una fuente de voz 10 (por ejemplo, una persona o, típicamente de manera fraudulenta, una grabación de una persona) proporciona una muestra de voz 20 a través de un canal de audio (por ejemplo, línea telefónica, canal inalámbrico, canal de internet u otro similar) al aparato o sistema ASV 100. La muestra de voz es recibida por una unidad de extracción de características 110. La unidad de extracción de características 110 extrae del muestra de voz información estadística denominada "características acústicas" 115 y proporciona las características acústicas 115 a una unidad de clasificación de características 120. La unidad de clasificación de características 120 clasifica las características acústicas 115 en al menos una clasificación 125 entre dos o más clasificaciones correspondientes a las condiciones de suplantación respectivas que pueden representarse en las características extraídas. Un clasificador binario 130 puede comparar la clasificación resultante con una puntuación umbral predeterminado, lo que resulta en una determinación de que la muestra de voz o fuente de audio es "genuina" o "fraudulenta" (o significados similares). En algunos ejemplos, el clasificador binario 130 puede comparar la clasificación resultante con otra clasificación 135 de características de bajo nivel previamente almacenadas para un modelo de voz correspondiente a un usuario autorizado.
Se pueden generar uno o más modelos de inscripción para cada usuario autorizado en el momento de la inscripción del hablante y almacenarlos en una base de datos de inscripción 140. En algunos ejemplos, los modelos de entrenamiento 145, que incluyen modelos suplantados conocidos y modelos limpios conocidos, pueden almacenarse en una base de datos de entrenamiento, posiblemente ubicada junto a la base de datos de inscripción 140. Los modelos de entrenamiento pueden ser utilizados para entrenar la unidad de clasificación de características 120 para discriminar una o más condiciones de suplantación de un acceso genuino. En algunos ejemplos, los modelos de inscripción también pueden ser utilizados con el fin de identificar y/o verificar a un hablante. El término "modelo de inscripción" aquí incluye un modelo inicial generado en el momento de la inscripción, y cualquier actualización de dicho modelo basada en interacciones genuinas posteriores con el hablante genuino correspondiente.
En particular, los inventores han reconocido que un ataque de reproducción que proporciona una grabación de un hablante puede, en ciertas características de bajo nivel, incluir cualidades que se encuentran en una grabación reproducida que normalmente no están presentes en una expresión en vivo o no reproducida. Por ejemplo, la grabación de una muestra de audio puede introducir de manera consistente artefactos de audio relacionados con la frecuencia, el rango de frecuencia, el rango de potencia dinámica, la reverberación, los niveles de ruido en rangos de frecuencia específicos, y similares, al menos algunos de los cuales artefactos pueden ser imperceptibles sin el uso de técnicas de procesamiento de voz especializadas y/o equipos como los divulgados en la presente memoria.
Por ejemplo, un hablante genuino puede contactar de manera consistente el sistema ASV utilizando solo un número limitado de canales (por ejemplo, a través de una línea telefónica residencial específica y/o una línea de teléfono celular específica) que tienen características de audio de nivel bajo específicas, proporcionando así un modelo de inscripción con características de nivel bajo particulares y consistentes. En algunos ejemplos, el sistema ASV puede, como parte de, en lugar de o como modelo de inscripción, capturar y almacenar solo las características de bajo nivel para su uso posterior en la distinción entre accesos suplantados y genuinos.
El aparato o sistema ASV 100 puede incorporar uno o más procesadores programados o específicos de la aplicación, memoria asociada, terminales de entrada y salida, y similares, y puede implementarse en un único dispositivo monolítico o distribuido entre varios dispositivos próximos. En algunos ejemplos, los elementos de hardware pueden incorporar dispositivos ubicados de forma remota y configurados para comunicar datos utilizando una red de datos. En cada caso, el hardware puede incluir circuitos receptora o un circuito receptor (ilustrado solo implícitamente), tal como, pero no limitado a, circuitos de telefonía o comunicación de datos configurados para recibir la muestra de voz 20. En algunos ejemplos, las características del sistema ASV 100 pueden incluir instrucciones ejecutables por ordenador en un medio legible por ordenador no transitorio.
La Figura 2 es un diagrama de bloques que ilustra una realización más específica 200 que forma parte de la invención, del aparato o sistema 100 ilustrado en la Figura 1. El aparato o sistema ASV 200 incluye una red neuronal profunda (DNN) 210 (correspondiente a la unidad de extracción de características 110 en la Figura 1) configurada para extraer características acústicas profundas 215 (correspondientes a las características acústicas 115). Las características acústicas profundas 215 son recibidas por una segunda red neuronal profunda 220 (correspondiente a la unidad de clasificación de características 120) configurada para determinar (por ejemplo, calcular) a partir de las características acústicas profundas 215 una probabilidad 225 de que la muestra de voz 20 incluya una condición de suplantación. Un clasificador binario 230 (correspondiente al clasificador binario 130) puede comparar la probabilidad determinada o calculada 225 (por ejemplo, una puntuación de probabilidad correspondiente a la clasificación 125) con una puntuación umbral previamente determinado. El clasificador binario 230 puede así emitir una indicación de "genuino" o "suplantado" dependiendo de cómo la probabilidad determinada o calculada 225 se compare con la puntuación umbral.
En algunas realizaciones, el clasificador binario 230 puede comparar la probabilidad 225 con una probabilidad previamente determinada 235 (correspondiente a la clasificación 135) de que la condición de suplantación estuviera presente en una muestra de inscripción procesada previamente. En algunas realizaciones, el clasificador binario 230 puede emplear un umbral predeterminado (diferente), comparando la probabilidad calculada 225 (por ejemplo, una puntuación de probabilidad) dentro de una distancia o diferencia de umbral predeterminada de la probabilidad previamente determinada 235, la muestra de voz recibida 20 puede indicarse como genuina. De lo contrario, la muestra de voz recibida 20 puede ser indicada como suplantada.
El aparato o sistema ASV 200 puede incorporar uno o más procesadores programados o específicos de la aplicación, memoria asociada, terminales de entrada y salida, y similares, y puede implementarse en un único dispositivo monolítico o distribuido entre varios dispositivos próximos. En algunas realizaciones, los elementos de hardware pueden incorporar dispositivos ubicados de forma remota y configurados para comunicar datos utilizando una red de datos. En cada caso, el hardware puede incluir circuitos receptores o un circuito receptor (ilustrado solo implícitamente), como, pero no limitado a, circuitos de telefonía o comunicación de datos configurados para recibir la muestra de voz 20. En algunas realizaciones, las características del sistema ASV 100 pueden incluir instrucciones ejecutables por ordenador en un medio legible por ordenador no transitorio.
El primer DNN en cada realización divulgada en la presente descripción puede implementarse utilizando una red neuronal convolucional donde la entrada a la red neuronal convolucional es una señal de audio en bruto, y la salida son las características CQCC profunda deseadas. La función de pérdida utilizada durante el entrenamiento puede ser, pero no se limita a, el error cuadrático medio entre un CQCC "hecho a mano" (o convencional) y un CQCC normalizado. El error se utiliza luego para ajustar los valores en cada nodo de la red neuronal convolucional. Las iteraciones del entrenamiento tienen como objetivo minimizar el error hasta alcanzar un error mínimo predeterminado. Se pueden utilizar técnicas de normalización por lotes y de eliminación aleatoria, a pesar del costo computacional adicional y la memoria requerida para lo mismo.
La Figura 3A es un diagrama de flujo que detalla un método 300a para clasificar una muestra de voz como genuina o suplantada, por ejemplo, utilizando el ASV 200 de la Figura 2. En el paso S310, un aparato o sistema de verificación automática de voz (ASV) recibe una muestra de voz (por ejemplo, 20) de una fuente de voz (por ejemplo, 10). La muestra de voz puede ser recibida en una llamada telefónica desde un teléfono con cable o inalámbrico a través de un canal de telefonía convencional o especializado, un comando de voz capturado directamente desde una fuente de voz por un asistente personal inteligente electrónico y sensible a la voz (por ejemplo, AMAZON ECHO y similares) o una aplicación de teléfono sensible a la voz, o recibida por otros medios electrónicos. Una fuente de voz genuina suele ser una persona en vivo y preautorizada que habla directamente al ASV a través de un canal de señal transitoria (por ejemplo, una llamada telefónica en vivo), mientras que una fuente de voz "suplantada" puede incluir grabaciones intencionalmente fraudulentas de una voz genuina, en el caso de un ataque de reproducción, o en algunos casos puede incluir fuentes de voz no intencionales o accidentales, como un televisor o una radio de fondo (por ejemplo, en el caso de un asistente personal electrónico). Otras fuentes de voz suplantadas pueden incluir, como se sugirió anteriormente, la conversión de voz y la síntesis de voz, cada una de las cuales introduce sus propios artefactos acústicos y/o otras cualidades únicas distinguibles por una DNN adecuadamente entrenada.
En la operación S320, se extraen características acústicas profundas de la muestra de voz. Esto se puede lograr a través de una primera red neuronal profunda (DNN) (por ejemplo, DNN 210 en la Figura 2) que ha sido configurada o entrenada para dicha extracción. En algunas realizaciones, la primera DNN puede ser suministrada habiendo sido preentrenada. Por ejemplo, la disposición del circuito DNN puede haber sido especialmente configurada, o el código DNN puede haber sido configurado para su ejecución, desde un medio de almacenamiento, por uno o más procesadores, que ya han sido entrenados mediante el procesamiento iterativo de muestras de entrenamiento conocidas por incluir variaciones de cualidades acústicas de bajo nivel de interés. En algunas realizaciones, sin embargo, la primera DNN puede estar configurada para ser entrenada mediante dicho procesamiento iterativo.
En la operación S330, las características acústicas profundas extraídas pueden clasificarse en al menos una de dos o más clasificaciones correspondientes a condiciones de suplantación o de canal discernibles en las características acústicas profundas extraídas por una segunda DNN (por ejemplo, DNN 220 en la Figura 2). El segundo DNN puede, en algunos casos, ser entrenado para discriminar entre, por ejemplo, la presencia y ausencia de una condición de suplantación. En otras realizaciones, la segunda DNN puede estar configurada para discriminar entre cada una de una pluralidad de condiciones de suplantación. Por ejemplo, la segunda DNN puede estar configurada para discriminar entre características acústicas profundas para muestras que tienen características de nivel bajo correspondientes respectivamente a un ataque de reproducción, conversión de voz y síntesis de voz, y a su ausencia. En algunas realizaciones, la segunda DNN puede proporcionar una puntuación de probabilidad para uno o más tipos de suplantación. Por ejemplo, la segunda DNN puede proporcionar una puntuación de probabilidad para la presencia de características correspondientes a un ataque de reproducción, otra puntuación de probabilidad para la presencia de características correspondientes a la conversión de voz, y una tercera puntuación de probabilidad para la presencia de características correspondientes a la síntesis de voz. Una alta probabilidad puede corresponder a una categoría respectiva particular. Las puntuaciones de baja probabilidad para cada categoría pueden sugerir la ausencia de condiciones de suplantación, y por lo tanto pueden ser categorizadas como "genuinas". Del mismo modo, la segunda DNN puede ser entrenada para distinguir diferentes condiciones de canal. Por ejemplo, la segunda DNN puede distinguir una muestra de voz proveniente del exterior, de un tamaño de habitación específico; de un dispositivo en particular, o algo similar.
En algunas realizaciones, de acuerdo con la operación S340, una puntuación de probabilidad o clasificación puede ser clasificado adicionalmente por un clasificador binario (como el clasificador binario 230) como genuino o suplantado. El clasificador binario puede ser configurado o entrenado para discriminar entre la puntuación de probabilidad o categorización resultante de la operación S330 y una puntuación de probabilidad o categorización asociada con una muestra de inscripción previamente capturada de un usuario autorizado. En algunos casos, la puntuación de probabilidad o la categorización de la muestra de inscripción pueden ser predeterminados y almacenados en asociación con la muestra de inscripción, por ejemplo, en una base de datos de inscripción (por ejemplo, base de datos de inscripción 140). Alternativamente, la puntuación de probabilidad o la categorización para la muestra de inscripción pueden determinarse cuando se utilizan para la comparación. El clasificador binario puede incluir una simple comparación de la puntuación de probabilidad. Una diferencia absoluta entre una puntuación de probabilidad resultante de la operación S330 y una puntuación de probabilidad asociada con una muestra de inscripción capturada previamente, por ejemplo, puede compararse con una diferencia umbral. Por ejemplo, una diferencia absoluta menor o igual a la diferencia umbral puede indicar un acceso legítimo. La diferencia de umbral puede ser predeterminada y almacenada, o puede ser calculada en base a diversos factores. Por ejemplo, la diferencia de umbral puede variar dependiendo de factores como el género, la distancia de un usuario en el momento de la inscripción o en el momento de la prueba (determinado en otra operación), u otros factores que puedan afectar una puntuación de probabilidad. En otro ejemplo, los usuarios que tienen ciertas discapacidades vocales pueden utilizar rutinariamente una grabación o síntesis de voz para acceder a una cuenta, y por lo tanto pueden requerir un umbral diferente y más flexible para poder ser verificados.
Las características acústicas profundas extraídas en la operación S320 (por ejemplo, por la primera DNN 210) pueden ser los Coeficientes cepstrales Q constantes (CQCCs). Se reconoce que las características CQCC pueden obtenerse mediante otros medios distintos a DNN. Sin embargo, los inventores han reconocido un beneficio en términos de coste y eficiencia al utilizar una DNN para dicha extracción. Además, una DNN (como la primera DNN 210) puede ser entrenada para distinguir características que serían mucho más difíciles de tener en cuenta utilizando características "hechas a mano" de CQCC. Por ejemplo, las características convencionales de CQCC suelen derivarse de una transformada Q constanteinspirada perceptualmente y pueden clasificarse utilizando Modelado de Mezcla Gaussiana (GMM). (Ver, por ejemplo, Todisco, y otros, "A New Featurefor Automatic Speaker Verification Anti-spoofing: Constant Q Cepstral Coefficients", Odyssey 2016). Sin embargo, esa derivación requiere un uso muy alto de memoria y tiempo y recursos del procesador. En consecuencia, las características CQCC profunda (extraídas utilizando una DNN) son ventajosas porque su cálculo requiere comparativamente menos memoria y recursos del procesador. Esto se vuelve importante ya que los servicios que utilizan ASV desean que el proceso de ASV sea fluido y transparente para el usuario, con el menor costo posible, ya que los retrasos evidentes para el usuario resultan en insatisfacción del cliente.
Las condiciones de suplantación, como se mencionó brevemente anteriormente, pueden incluir condiciones de audio y/o condiciones de canal. Las condiciones de audio pueden incluir, pero no se limitan a, artefactos de grabación, artefactos de reproducción y/o artefactos que resultan de la síntesis de voz, la conversión de voz y/o la distorsión de voz. Por ejemplo, incluso equipos de reproducción muy sofisticados pueden introducir artefactos espectrales, temporales y/o más complejos que, aunque no necesariamente sean perceptibles auditivamente, pueden ser identificados por una red neuronal profunda entrenada adecuadamente. Los equipos de reproducción menos sofisticados naturalmente producen aún más artefactos acústicos. De manera similar, el equipo de grabación y/o el entorno pueden introducir artefactos acústicos tales como, pero no limitados a, ruido, zumbido, estiramiento temporal y/o limitaciones de frecuencia, además de artefactos más complejos como inconsistencias en el espectro de potencia, y otros similares.
En algunas realizaciones, las condiciones de audio pueden incluir artefactos de audio específicos de uno o más dispositivos de captura de audio no esperados. Por ejemplo, un usuario legítimo puede haber accedido al ASV utilizando un teléfono móvil específico en todas las comunicaciones anteriores. Una llamada de suplantación, utilizando un teléfono diferente, un micrófono de ordenador, un dispositivo de Internet de las Cosas (IoT) (por ejemplo, AMAZON ECHO, GOOGLE HOME y similares) u otro dispositivo de captura de audio inesperado, puede incluir artefactos específicos de un dispositivo en particular, y pueden ser diferentes de los artefactos introducidos por el dispositivo utilizado por el usuario legítimo en el momento de la inscripción y/o en las comunicaciones de voz posteriores.
Las condiciones del canal pueden incluir artefactos de bajo nivel introducidos por el canal que no sean por grabación o reproducción. Por ejemplo, una muestra de voz transmitida a través de un número de teléfono suplantado (no confundir con audio suplantado) puede incluir artefactos que no se esperan en una muestra de voz de un usuario legítimo, como, pero no limitado a ruido de cuantización, ruido de conmutación, desplazamiento de corriente continua, filtrado y otros artefactos espectrales y/o temporales que pueden diferir de los presentes en un modelo de inscripción, así como características de orden superior que solo pueden ser identificadas mediante el procesamiento de la muestra de voz, como características inesperadas en la densidad espectral de potencia y similares. Tales condiciones de suplantación pueden ser identificadas por una red neuronal profunda adecuadamente entrenada, como se describe anteriormente. El entrenamiento de dicha DNN puede incluir técnicas de entrenamiento convencionales, centrándose en discriminar entre condiciones de no suplantación y condiciones de suplantación conocidas.
Las Figuras 3B y 3C son diagramas de flujo que representan los métodos 300b y 300c para clasificar una muestra de voz como genuina o suplantada según otras realizaciones. Cada una de las Figuras 3B-3C ilustra el uso de un conjunto adicional de características acústicas extraídas en paralelo con las características acústicas profundas descritas anteriormente. La operación que tiene la misma etiqueta que en la Figura 3A tiene la función descrita anteriormente. En la Figura 3B, las características acústicas profundas y otras características acústicas se extraen por separado y se clasifican por separado en las operaciones S330 y S332, por ejemplo, utilizando segundas y terceras DNN independientes entrenadas para identificar características de bajo nivel representadas en las características extraídas. Las operaciones S330 y S332 pueden incluir además determinar o calcular una puntuación de probabilidad para cada conjunto de características extraídas que indique la probabilidad de que las características extraídas incluyan condiciones de suplantación. En la operación S335, las puntuaciones de probabilidad se "fusionan", por ejemplo, según técnicas convencionales de fusión de puntuaciones. El resultado de la puntuación de probabilidad fusionado puede ser clasificado en la operación S340 para indicar un acceso genuino o un acceso suplantado. En algunas realizaciones, la operación S340 puede incluir la comparación de la puntuación de probabilidad fusionado con un umbral predeterminado o contra una puntuación de probabilidad derivado de una muestra de inscripción previamente guardada para el usuario legítimo.
Volviendo a la Figura 3C, después de extraer las características acústicas profundas (por ejemplo, características CQCC profunda) y otras características acústicas, las características se combinan o se colocan en tándem para crear "características en tándem" en la operación S325. Las características en tándem se clasifican de la misma manera que se describe anteriormente para la operación S330 y la clasificación resultante o puntuación de probabilidad se utiliza, en la operación S340, para clasificar la muestra de voz (por ejemplo, muestra de voz 20) como auténtica o suplantada.
En algunas realizaciones, los elementos de los métodos 300a-300c pueden ser proporcionados como instrucciones ejecutables por ordenador almacenadas en uno o más medios legibles por ordenador no transitorios. En otras realizaciones, los elementos de los métodos 300a-300c pueden ser implementados en hardware o en una combinación de software/firmware y hardware, tal como se describe en la presente memoria. Por ejemplo, los métodos de las Figuras 3B-3C pueden implementarse como se describe a continuación.
Las figuras 4-5 ilustran aparatos o sistemas 400, 500 respectivamente configurados para incorporar los métodos en las figuras 3B-3C. Las características acústicas profundas correspondientes a las Figuras 3B-3C pueden ser, como se muestra en las Figuras 4-5, características CQCC profundas utilizadas en combinación (por ejemplo, "características en tándem") con otras características extraídas de la muestra de voz 20. Tanto en la Figura 4 como en la Figura 5, se recibe una muestra de voz 20 de una fuente de voz 10 tanto por un primer DNN 410, 510 (como se describe anteriormente con respecto al primer DNN 210, por ejemplo, configurado para extraer características profundas de CQCC) como por otro extractor de características 412, 512. El otro extractor de características 412, 512 puede estar configurado para extraer características convencionales, como los coeficientes de cepstrum de frecuencia de Mel (MFCCs), los coeficientes de cepstrum de baja frecuencia (LFCC), los coeficientes de cepstrum de subbanda (SBCCs, introducidos y descritos en detalle a continuación) u otros coeficientes conocidos por proporcionar características de bajo nivel útiles para su uso en la verificación automática de hablantes. La Figura 4 ilustra un aparato 400 que utiliza la fusión de puntuaciones para las puntuaciones de probabilidad generadas respectivamente para cada uno de los dos conjuntos de características extraídas según una realización. La Figura 5 ilustra un aparato 500 que utiliza la concatenación de características generadas respectivamente por la primera DNN 510 y otro extractor de características 512.
Dirigiéndonos primero a la Figura 4, las características 415 extraídas por la primera DNN 410 y las características 417 extraídas por el otro extractor de características 412 pueden ser procesadas de forma independiente, por ejemplo, por segundas y terceras redes neuronales profundas respectivas 420, 422, para generar puntuaciones de probabilidad respectivas que indican la probabilidad de que la muestra de voz 20 incluya una característica de bajo nivel representada en las características extraídas respectivas (415, 417). Las puntuaciones de probabilidad pueden ser "fusionadas" según técnicas convencionales en una unidad de fusión de puntuaciones o algoritmo 425 para que las puntuaciones fusionadas sean consideradas en conjunto por una unidad de decisión 430 (por ejemplo, un clasificador binario 230 configurado como se describe anteriormente) para indicar un acceso genuino o uno suplantado. En algunos casos, una o ambas puntuaciones de probabilidad pueden ajustarse según un algoritmo predeterminado, en algunos casos ponderando y/o desplazando al menos una de las puntuaciones de probabilidad para garantizar los mejores resultados.
Pasando ahora a la Figura 5, las características CQCC profundas extraídas 515 y las otras características acústicas extraídas 517 pueden ser concatenadas por una unidad o algoritmo de concatenación 518 o combinadas de otra manera antes de ser recibidas por una segunda DNN 520 (por ejemplo, correspondiente a la segunda DNN 220 en la Figura 2) para determinar una puntuación de probabilidad o categorización. Al igual que con la realización descrita con respecto a las Figuras 4, la puntuación de probabilidad o categorización puede ser recibida por una Unidad de Decisión 530, que puede corresponder a un clasificador binario, como el clasificador binario 230 en la Figura 2. Una clasificación de auténtico o suplantado puede basarse en una comparación de la puntuación de probabilidad con un umbral predeterminado y/o mediante la comparación con una puntuación de probabilidad de una muestra de inscripción previamente almacenada asociada a un usuario genuino para quien se pretende que la muestra de voz coincida.
Los aparatos o sistemas 400, 500 pueden incorporar cada uno o más procesadores programados o específicos de la aplicación, memoria asociada, terminales de entrada y salida, y similares, y pueden implementarse en un único dispositivo monolítico o distribuidos entre varios dispositivos próximos. En algunas realizaciones, los elementos de hardware pueden incorporar dispositivos ubicados de forma remota y configurados para comunicar datos utilizando una red de datos. En cada caso, el hardware puede incluir circuitos receptores o un circuito receptor (ilustrado solo implícitamente), como, pero no limitado a, circuitos de telefonía o comunicación de datos configurados para recibir la muestra de voz 20.
En algunas realizaciones, las "otras características" extraídas en asociación con las operaciones S322 en las Figuras 3B, 3C y los elementos 412, 512 de las Figuras 4 y 5 pueden incluir características de coeficientes cepstrales de subbanda (SBCC). Se han considerado muchas características de las muestras de voz, y los inventores reconocieron que existen diferencias espectrales entre el audio genuino y el suplantado (especialmente en los ataques de reproducción). Esas diferencias espectrales son particularmente pronunciadas, tanto en frecuencias más altas como más bajas, en un espectro tradicionalmente considerado con bajo contenido de habla. En la mayoría de los enfoques de modelado y clasificación, se sigue una transformada de Fourier de tiempo corto (STFT) seguida de la extracción cepstral como un vector de características de nivel bajo para tareas generales de procesamiento del habla. El espectro de potencia de la señal de habla enmarcada a menudo se transforma mediante un banco de filtros para reducir la dimensionalidad. Si bien un banco de filtros en escala Mel es el enfoque más popular para aplicaciones de reconocimiento de voz y verificación de hablantes, se ha descubierto que los filtros triangulares lineales o los filtros inversos gammatono son más adecuados para detectar artefactos de conversión de voz y suplantación de texto a voz. Al diseñar características SBCC para la detección de ataques de reproducción, los inventores razonaron que los dispositivos de grabación y reproducción diseñados para telefonía pueden presentar artefactos de canal en forma de atenuación o énfasis de ciertas frecuencias fuera de la banda de voz. (300-3400Hz). Estos artefactos son más pronunciados en dispositivos de grabación o reproducción de baja calidad, mientras que un par de dispositivos de grabación y reproducción de alta calidad tiende a tener una respuesta de frecuencia más plana.
La Figura 6 ilustra un proceso 600 para extraer características SBCC. Las características de SBCC pueden ser extraídas mediante, en la operación S610, filtrar la muestra de voz en subbandas antes de extraer las otras características de la muestra filtrada. En algunos ejemplos, la muestra de voz se filtra mediante un filtro pasa-alto, de modo que las características extraídas son los coeficientes cepstrales de alta frecuencia (HFCCs). En algunos casos, la frecuencia de corte y la pendiente del filtro pueden ajustarse dinámicamente para abordar diferentes tipos de suplantación, por ejemplo, cuando los tipos de suplantación ocurren en diferentes bandas de frecuencia. La extracción en sí puede comenzar en la operación de transformación S620, que incluye el cálculo de una transformada de Fourier de corto tiempo (STFT) en una trama de la muestra filtrada. Se calcula un espectro de potencia de la STFT en la operación S630. A continuación, en la operación S640, se calcula una amplitud de registro a partir del espectro de potencia, seguido en la operación S650 por el cálculo de una transformada de coseno discreta inversa (IDCT) de la amplitud de registro. Las características dinámicas se calculan a partir de la IDCT en la operación S660. El cálculo de las características dinámicas puede incluir el cálculo de las características delta y/o delta-delta (aceleración). En algunos casos, las características delta y delta-delta pueden calcularse utilizando un tamaño de ventana de 1.
Cada una de las primeras DNN (por ejemplo, 210 en la Figura 2) y la segunda DNN (por ejemplo, 220 en la Figura 2) puede incluir una capa de entrada, una o más capas ocultas, una o más capas completamente conectadas y una capa de salida. Cualquiera de las capas puede utilizar normalización por lotes. En algunos casos, la normalización por lotes puede aplicarse a todas las capas, al menos, de la primera DNN. Esto mitiga el sobreajuste. Experimentalmente, los inventores proporcionaron un fragmento de audio sin procesar (25,5 ms) a una capa de entrada de la primera DNN. Una señal de audio con una frecuencia de muestreo de 16 kHz corresponde a 408 muestras. Las capas ocultas consistían en un conjunto de capas convolucionales seguidas de una capa de agrupación máxima para agrupar en el tiempo, y luego otro conjunto de capas completamente conectadas. El número de unidades de la capa de salida se establece para que coincida con la dimensión de las características CQCC estándar (por ejemplo, "hechas a mano").
La Figura 7 es un diagrama de bloques de una segunda red neuronal profunda (DNN) 700, como la segunda DNN 520, configurada para clasificar características de suplantación a partir de características en tándem, como se ilustra en la Figura 5. Las características en tándem 710 ilustran la concatenación de las características SBCC con las características CQCC profunda. Aunque la Figura 7 ilustra un coeficiente CQCC profunda adjunto a un coeficiente SBCC, lo contrario también puede ser cierto (es decir, SBCC adjunto a CQCC profunda). Además, CQCC profunda puede combinarse con características extraídas que no sean SBCC. Las características resultantes en tándem son recibidas por el DNN 700, que puede incluir una pluralidad de capas convolucionales 720 seguidas de al menos una capa de agrupación máximo, una o más capas completamente conectadas 740 y condiciones del canal objetivo 750. En algunas realizaciones, la última capa de agrupación máxima 730 de la primera DNN puede estar configurada para extraer características de cuello de botella. Las características de cuello de botella son características del CQCC profunda que son sensibles a los artefactos de audio y/o canal. La mejora resulta en la capacidad de las características del cuello de botella de generalizar a condiciones de suplantación no vistas. Es decir, las realizaciones divulgadas en la actualidad pueden manejar condiciones de suplantación imprevistas de manera más precisa que los enfoques convencionales de antisuplantación.
El entrenamiento de una DNN puede tomar varios caminos. En la presente divulgación, la segunda DNN (por ejemplo, 220 en la Figura 2) puede ser entrenada mediante enfoques convencionales, con optimización realizada mediante impulso de gradiente y retropropagación. El segundo DNN puede ser entrenado para discriminar entre múltiples condiciones de canal. Por ejemplo, la segunda DNN clasificadora puede discriminar entre diferentes entornos de fondo (por ejemplo, hogar, oficina, restaurante, calle), entre diferentes dispositivos de adquisición (por ejemplo, laptops, teléfonos inteligentes, AMAZON ECHO) y/o diferentes infraestructuras de red (por ejemplo, línea fija, celular y VoIP).
Cualquiera de las características descritas en la presente descripción puede ser implementada en software o firmware ejecutado por un procesador programado con memoria, interfaces, etc., y puede proporcionar una salida que puede ser expresada visualmente (por ejemplo, a través de una indicación en una pantalla), auditivamente (por ejemplo, a través de un sonido específico) o mediante una acción (por ejemplo, finalizando una llamada, conectando a un operador en vivo a una llamada o solicitando información adicional al usuario). En algunos casos, una o ambas DNN pueden ser implementadas utilizando un procesador gráfico.
En la descripción detallada anterior, se presentan varios detalles específicos con el fin de proporcionar una comprensión de las mejoras para el reconocimiento de voz en un centro de llamadas, y describir los aparatos, técnicas, métodos, sistemas e instrucciones de software ejecutables por ordenador introducidos aquí. La descripción no debe considerarse como limitante del alcance de la invención, que está definido por las reivindicaciones.
La presente invención se refiere en general a un aparato para realizar las operaciones descritas en la presente memoria. Este aparato puede ser especialmente construido para los propósitos requeridos, como una unidad de procesamiento gráfico (GPU), un procesador de señal digital (DSP), un circuito integrado de aplicación específica (ASIC), una matriz de compuertas programable en campo (FPGA) o un circuito electrónico de propósito especial, o puede incluir una ordenador de propósito general activada o reconfigurada selectivamente por un programa informático almacenado en la ordenador. Un programa informático de este tipo puede almacenarse en un medio de almacenamiento legible por ordenador no transitorio, como, pero no limitado a, cualquier tipo de disco, incluyendo discos ópticos, CD-ROMs, discos magneto-ópticos, memorias de solo lectura (ROMs), memorias de acceso aleatorio (RAMs), EPROMs, EEPROMs, tarjetas magnéticas u ópticas, memoria integrada, almacenamiento en la "nube" o cualquier tipo de medio legible por ordenador adecuado para almacenar instrucciones electrónicas.
Los algoritmos y las visualizaciones presentadas aquí no están inherentemente relacionados con ningún ordenador o aparato en particular. Varios sistemas de propósito general pueden ser utilizados con programas de acuerdo con las enseñanzas aquí descritas, o puede resultar conveniente construir un aparato más especializado para llevar a cabo los pasos del método requerido. La estructura requerida para una variedad de estos sistemas aparecerá en la descripción aquí. Además, la presente invención no se describe con referencia a ningún lenguaje de programación en particular. Se apreciará que se pueden utilizar una variedad de lenguajes de programación para implementar las enseñanzas de la invención tal como se describen en la presente memoria.
Términos y frases utilizados en este documento, y sus variaciones, a menos que se indique expresamente lo contrario, deben interpretarse como abiertos en lugar de limitantes. Como ejemplos de lo anterior: el término "incluyendo" debe interpretarse como "incluyendo, sin limitación" o similar; el término "ejemplo" se utiliza para proporcionar instancias ilustrativas del elemento en discusión, no una lista exhaustiva o limitante del mismo; y adjetivos como "convencional", "tradicional", "estándar", "conocido" y términos de significado similar no deben interpretarse como limitantes del elemento descrito a un período de tiempo determinado o a un elemento disponible a partir de un momento dado, sino que deben interpretarse como abarcando tecnologías convencionales, tradicionales, normales o estándar que pueden estar disponibles o ser conocidas ahora o en cualquier momento en el futuro. Del mismo modo, un grupo de elementos vinculados con la conjunción "y" no debe interpretarse como que cada uno de esos elementos esté presente en el grupo, sino más bien como "y/o" a menos que se indique expresamente lo contrario. De manera similar, un grupo de elementos vinculados con la conjunción "o" no debe interpretarse como que requieren exclusividad mutua dentro de ese grupo, sino que también deben interpretarse como "y/o" a menos que se indique expresamente lo contrario.
Además, aunque los elementos, componentes o partes de la divulgación puedan ser descritos o reivindicados en singular, se contempla que el plural esté dentro de su ámbito, a menos que se indique explícitamente una limitación al singular. La presencia de palabras y frases amplias como "uno o más", "al menos", "pero no limitado a" u otras frases similares en algunos casos no debe interpretarse como que se pretende o se requiere el caso más estrecho en instancias donde dichas frases amplias pueden estar ausentes. Además, cuando se establece un rango, los límites superiores e inferiores del rango incluyen todas las unidades intermedias en él.
La descripción anterior de los ejemplos de realización divulgados se proporciona para permitir que cualquier persona experta en la técnica pueda fabricar o utilizar la presente invención. Varias modificaciones a estos ejemplos de realización serán fácilmente aparentes para aquellos expertos en la técnica.

Claims (13)

  1. REIVINDICACIONES
    1 Un método para detectar una fuente de voz suplantada, el método que comprende:
    recibir una muestra de voz (S310);
    extraer al menos características acústicas profundas (S320) de la muestra de voz utilizando una primera red neuronal profunda, DNN, en donde la primera DNN comprende una capa de agrupación configurada para extraer al menos una característica sensible a artefactos de audio y/o canal de las características acústicas profundas;
    calcular, a través de una segunda DNN que recibe las características acústicas profundas al menos extraídas, una primera probabilidad de que la muestra de voz incluya una condición de suplantación (S330) basada en parte en al menos una característica sensible a artefactos de audio y/o canal en las características acústicas profundas; y caracterizado por
    clasificar la muestra de voz (S340), utilizando un clasificador binario, como genuina o suplantada basándose en la primera probabilidad de que la muestra de voz incluya la condición de suplantación de la segunda DNN y una segunda probabilidad de que una muestra de inscripción incluya la condición de suplantación.
  2. 2 El método según la reivindicación 1, en donde las características acústicas profundas son los coeficientes cepstrales Q constantes profundos, CQCC, y/o en donde las condiciones de suplantación incluyen al menos una de las condiciones del canal y las condiciones de audio y, opcionalmente, en donde las condiciones del canal incluyen artefactos del canal específicos de al menos uno de diferentes entornos de fondo, diferentes dispositivos de adquisición y diferentes infraestructuras de red.
  3. 3 El método según la reivindicación 1, que además comprende:
    extraer otras características acústicas de la muestra de voz (S322);
    combinar las características acústicas profundas (S325) con las demás características acústicas para proporcionar características en tándem; y
    clasificar las características en tándem (S330) utilizando la segunda DNN, la segunda DNN configurada para determinar si las características en tándem incluyen una condición de no suplantación o al menos una condición de suplantación, en donde
    dicha clasificación de al menos las características acústicas profundas forma parte de la clasificación de las características en tándem.
  4. 4 El método según la reivindicación 3, en donde las otras características acústicas son las características de coeficientes cepstrales de subbanda, SBCC, el método además comprende:
    filtrar en subbandas (S610) la muestra de voz antes de extraer las otras características de la muestra filtrada, en donde dicha extracción de las otras características SBCC incluye:
    calcular una transformada de Fourier de tiempo corto, STFT, (S620) en una trama de la muestra filtrada, calcular un espectro de potencia (S630) a partir de la STFT, calcular una amplitud de registro (S640) a partir del espectro de potencia,
    calcular una transformada de coseno discreta inversa, IDCT, (S650) de la amplitud de registro, y calcular características dinámicas (S660) basadas en la IDCT.
  5. 5 El método según la reivindicación 4, en donde dicho filtrado de la muestra de audio incluye el uso de un filtro pasa alto, la muestra filtrada se limita a frecuencias por encima de una frecuencia de corte predeterminada, y/o en donde el cálculo de características dinámicas incluye el cálculo de al menos uno de características de aceleración delta y delta-delta.
  6. 6 El método según la reivindicación 1, en donde la segunda DNN está configurada para extraer características de múltiples clases a partir de al menos características acústicas profundas.
  7. 7 El método según la reivindicación 1, en donde la primera DNN y la segunda DNN incluyen al menos:
    una capa de entrada,
    capas ocultas, incluyendo una o más capas convolucionales (720) seguidas de una capa de agrupación máxima (S730),
    una o más capas completamente conectadas (740), y
    una capa de salida (750).
  8. 8 El método según la reivindicación 7, en donde la capa de agrupación máxima de la primera DNN está configurada para extraer características de cuello de botella de las características acústicas profundas, siendo las características de cuello de botella características que son sensibles al menos a un artefacto, y/o en donde se aplica normalización por lotes, para al menos uno de la primera DNN y la segunda DNN, a una o más de: la capa de entrada, las capas ocultas, la una o más capas completamente conectadas y la capa de salida.
  9. 9 El método según la reivindicación 1, en donde la segunda DNN se entrena mediante al menos uno de incremento de gradiente y retropropagación, y/o en donde la segunda DNN se implementa utilizando uno o más procesadores gráficos.
  10. 10. El método según la reivindicación 1, en donde la configuración de la segunda DNN resulta de entrenar la segunda DNN con una pluralidad de muestras de voz no suplantadas y suplantadas conocidas.
  11. 11. Un aparato para detectar una fuente de voz suplantada, el aparato comprende:
    un circuito receptor configurado para recibir una muestra de voz (20);
    una primera red neuronal profunda, DNN, (210) configurada para extraer al menos características acústicas profundas (215) de la muestra de voz, en donde la primera DNN comprende una capa de agrupación configurada para extraer al menos una característica sensible a artefactos de audio y/o canal a partir de las características acústicas profundas; y
    una segunda DNN (220) configurada para calcular a partir de las características acústicas profundas (215) una primera probabilidad (225) de que la muestra de voz (20) incluya una condición de suplantación basada en parte en al menos una característica sensible a artefactos de audio y/o canal en las características acústicas profundas; y caracterizado por
    un clasificador binario (230) configurado para clasificar la muestra de voz como genuina o suplantada en función de la primera probabilidad (225) de la segunda DNN y una segunda probabilidad (235) de que una muestra de inscripción incluya la condición de suplantación.
  12. 12. El aparato según la reivindicación 11, en donde las características acústicas profundas son los coeficientes cepstrales Q constantes profundos, CQCC, y/o en donde las condiciones de suplantación incluyen al menos una de las condiciones del canal y las condiciones de audio y, opcionalmente, en donde las condiciones del canal incluyen artefactos del canal específicos de al menos uno de los diferentes entornos de fondo, diferentes dispositivos de adquisición y diferentes infraestructuras de red.
  13. 13. El aparato según la reivindicación 11, que además comprende:
    circuitos (512) configurados para extraer otras características acústicas (517) de la muestra de voz; y un dispositivo de concatenación de características (518) configurado para combinar las características acústicas profundas (515) con las otras características acústicas (517) para proporcionar características en tándem, en donde
    la segunda DNN (520) está configurada además para clasificar las características en tándem y determinar si las características en tándem incluyen una condición de no suplantación o al menos una condición de suplantación, y
    la configuración para clasificar al menos las características acústicas profundas está incluida en dicha configuración para clasificar las características en tándem.
ES18712052T 2017-03-03 2018-03-02 Method and apparatus for detecting spoofing conditions Active ES2993990T3 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201762466911P 2017-03-03 2017-03-03
PCT/US2018/020624 WO2018160943A1 (en) 2017-03-03 2018-03-02 Method and apparatus for detecting spoofing conditions

Publications (1)

Publication Number Publication Date
ES2993990T3 true ES2993990T3 (en) 2025-01-15

Family

ID=63355275

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18712052T Active ES2993990T3 (en) 2017-03-03 2018-03-02 Method and apparatus for detecting spoofing conditions

Country Status (6)

Country Link
US (2) US10692502B2 (es)
EP (1) EP3590113B1 (es)
AU (2) AU2018226844B2 (es)
CA (1) CA3054063A1 (es)
ES (1) ES2993990T3 (es)
WO (1) WO2018160943A1 (es)

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
WO2018148298A1 (en) * 2017-02-07 2018-08-16 Pindrop Security, Inc. Age compensation in biometric systems using time-interval, gender, and age
CA3054063A1 (en) * 2017-03-03 2018-09-07 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
GB2578386B (en) 2017-06-27 2021-12-01 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
US10896673B1 (en) * 2017-09-21 2021-01-19 Wells Fargo Bank, N.A. Authentication of impaired voices
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201719734D0 (en) * 2017-10-30 2018-01-10 Cirrus Logic Int Semiconductor Ltd Speaker identification
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801661D0 (en) 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
GB201801659D0 (en) * 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US10657971B1 (en) * 2017-12-15 2020-05-19 NortonLifeLock Inc. Systems and methods for detecting suspicious voice calls
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
KR102531654B1 (ko) * 2018-05-04 2023-05-11 삼성전자주식회사 음성 입력 인증 디바이스 및 그 방법
US10529356B2 (en) 2018-05-15 2020-01-07 Cirrus Logic, Inc. Detecting unwanted audio signal components by comparing signals processed with differing linearity
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
CN109377983A (zh) * 2018-10-18 2019-02-22 深圳壹账通智能科技有限公司 一种基于语音交互的骚扰电话拦截方法及相关设备
CN109300479A (zh) * 2018-10-31 2019-02-01 桂林电子科技大学 一种回放语音的声纹识别方法、装置及存储介质
CN109243487B (zh) * 2018-11-30 2022-12-27 宁波大学 一种归一化常q倒谱特征的回放语音检测方法
CN109801638B (zh) * 2019-01-24 2023-10-13 平安科技(深圳)有限公司 语音验证方法、装置、计算机设备及存储介质
US11289098B2 (en) * 2019-03-08 2022-03-29 Samsung Electronics Co., Ltd. Method and apparatus with speaker recognition registration
US12015637B2 (en) * 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
CN110298150B (zh) * 2019-05-29 2021-11-26 上海拍拍贷金融信息服务有限公司 一种基于语音识别的身份验证方法及系统
CN110232928B (zh) * 2019-06-13 2021-05-25 思必驰科技股份有限公司 文本无关说话人验证方法和装置
CN110232927B (zh) * 2019-06-13 2021-08-13 思必驰科技股份有限公司 说话人验证反欺骗方法和装置
CN110223676A (zh) * 2019-06-14 2019-09-10 苏州思必驰信息科技有限公司 欺骗录音检测神经网络模型的优化方法及系统
CN110211604A (zh) * 2019-06-17 2019-09-06 广东技术师范大学 一种用于语音变形检测的深度残差网络结构
CN114041184A (zh) 2019-06-28 2022-02-11 日本电气株式会社 欺骗检测装置、欺骗检测方法和计算机可读存储介质
CN110491391B (zh) * 2019-07-02 2021-09-17 厦门大学 一种基于深度神经网络的欺骗语音检测方法
CN112447187B (zh) * 2019-09-02 2024-09-06 富士通株式会社 声音事件的识别装置和方法
US11158329B2 (en) * 2019-09-11 2021-10-26 Artificial Intelligence Foundation, Inc. Identification of fake audio content
CN110689885B (zh) * 2019-09-18 2023-05-23 平安科技(深圳)有限公司 机器合成语音识别方法、装置、存储介质及电子设备
CN110797031A (zh) * 2019-09-19 2020-02-14 厦门快商通科技股份有限公司 语音变音检测方法、系统、移动终端及存储介质
CN112598107A (zh) * 2019-10-01 2021-04-02 创鑫智慧股份有限公司 数据处理系统及其数据处理方法
US11039205B2 (en) 2019-10-09 2021-06-15 Sony Interactive Entertainment Inc. Fake video detection using block chain
EP4049174A4 (en) * 2019-10-21 2024-01-03 Sony Interactive Entertainment Inc. FAKE VIDEO DETECTION
US11551474B2 (en) 2019-10-21 2023-01-10 Sony Interactive Entertainment Inc. Fake video detection
CN110827798B (zh) * 2019-11-12 2020-09-11 广州欢聊网络科技有限公司 一种音频信号处理的方法及装置
CN110782877A (zh) * 2019-11-19 2020-02-11 合肥工业大学 基于Fisher混合特征和神经网络的语音鉴别方法和系统
WO2021126444A1 (en) * 2019-12-20 2021-06-24 Eduworks Corporation Real-time voice phishing detection
WO2021137754A1 (en) * 2019-12-31 2021-07-08 National University Of Singapore Feedback-controlled voice conversion
CN111243621A (zh) * 2020-01-14 2020-06-05 四川大学 一种用于合成语音检测的gru-svm深度学习模型的构造方法
AU2021212621B2 (en) * 2020-01-27 2024-02-22 Pindrop Security, Inc. Robust spoofing detection system using deep residual neural networks
CN111292754B (zh) * 2020-02-17 2025-03-25 平安科技(深圳)有限公司 语音信号处理方法、装置及设备
US11527245B2 (en) * 2020-04-29 2022-12-13 Rovi Guides, Inc. Systems and methods for avoiding inadvertently triggering a voice assistant
CN111835784B (zh) * 2020-07-22 2022-05-13 思必驰科技股份有限公司 用于重放攻击检测系统的数据泛化方法及系统
WO2022029044A1 (en) * 2020-08-03 2022-02-10 Sony Group Corporation Method and electronic device
WO2022040524A1 (en) 2020-08-21 2022-02-24 Pindrop Security, Inc. Improving speaker recognition with quality indicators
CN112102808A (zh) * 2020-08-25 2020-12-18 上海红阵信息科技有限公司 用于伪造语音的深度神经网络的构建方法及系统
JP2023547808A (ja) * 2020-10-16 2023-11-14 ピンドロップ セキュリティー、インコーポレイテッド 視聴覚型ディープフェイク検出
US11756572B2 (en) * 2020-12-02 2023-09-12 Google Llc Self-supervised speech representations for fake audio detection
CN112735381B (zh) * 2020-12-29 2022-09-27 四川虹微技术有限公司 一种模型更新方法及装置
CN112927694B (zh) * 2021-03-08 2022-09-13 中国地质大学(武汉) 一种基于融合声纹特征的语音指令合法性判别方法
CN115083419A (zh) * 2021-03-16 2022-09-20 京东科技控股股份有限公司 说话人识别方法及装置、设备、存储介质
EP4327323A4 (en) * 2021-04-21 2024-11-13 Microsoft Technology Licensing, LLC SYNTHETIC SPEECH DETECTION
US11483427B1 (en) 2021-04-28 2022-10-25 Zoom Video Communications, Inc. Call recording authentication
CN113436646B (zh) * 2021-06-10 2022-09-23 杭州电子科技大学 一种采用联合特征与随机森林的伪装语音检测方法
WO2023283823A1 (zh) * 2021-07-14 2023-01-19 东莞理工学院 语音对抗样本检测方法、装置、设备及计算机可读存储介质
CN113284508B (zh) * 2021-07-21 2021-11-09 中国科学院自动化研究所 基于层级区分的生成音频检测系统
CN113299315B (zh) * 2021-07-27 2021-10-15 中国科学院自动化研究所 一种无需原始数据存储的持续性学习生成语音特征的方法
CN113314148B (zh) * 2021-07-29 2021-11-09 中国科学院自动化研究所 基于原始波形的轻量级神经网络生成语音鉴别方法和系统
US12273331B2 (en) 2021-07-30 2025-04-08 Zoom Communications, Inc. Call recording authentication using distributed transaction ledgers
CN113488027A (zh) * 2021-09-08 2021-10-08 中国科学院自动化研究所 一种层级分类的生成音频溯源方法及存储介质、计算机设备
CN113488070B (zh) * 2021-09-08 2021-11-16 中国科学院自动化研究所 篡改音频的检测方法、装置、电子设备及存储介质
CN113851147B (zh) * 2021-10-19 2025-05-13 北京百度网讯科技有限公司 音频识别方法、音频识别模型训练方法、装置、电子设备
CN114420133B (zh) * 2022-02-16 2024-10-29 平安科技(深圳)有限公司 欺诈语音检测方法、装置、计算机设备以及可读存储介质
CN114898758A (zh) * 2022-05-27 2022-08-12 平安普惠企业管理有限公司 攻击语音检测方法、装置、设备及介质
US12236944B2 (en) * 2022-05-27 2025-02-25 Accenture Global Solutions Limited Systems and methods to improve trust in conversations with deep learning models
CN115083423B (zh) * 2022-07-21 2022-11-15 中国科学院自动化研究所 语音鉴别的数据处理方法和装置
KR20240088457A (ko) * 2022-12-13 2024-06-20 삼성전자주식회사 합성 음성을 식별하는 전자 장치 및 그 제어 방법
US20250022472A1 (en) * 2023-07-11 2025-01-16 Daon Technology Methods and systems for creating a synthetic speech detection algorithm and enhancing detection of fraudulent audio data using the algorithm
CN117393000B (zh) * 2023-11-09 2024-04-16 南京邮电大学 一种基于神经网络和特征融合的合成语音检测方法
US12189712B1 (en) * 2024-01-29 2025-01-07 Reality Defender, Inc. Audio spoof detection using attention-based contrastive learning
US12210606B1 (en) * 2024-04-08 2025-01-28 Daon Technology Methods and systems for enhancing the detection of synthetic speech
CN118038890B (zh) * 2024-04-11 2024-06-18 西北工业大学 基于特征融合和联合神经网络的细粒度水声目标识别方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100632400B1 (ko) 2005-11-11 2006-10-11 한국전자통신연구원 음성 인식을 이용한 입출력 장치 및 그 방법
US20150112682A1 (en) 2008-12-10 2015-04-23 Agnitio Sl Method for verifying the identity of a speaker and related computer readable medium and computer
US9767806B2 (en) 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
US8145562B2 (en) 2009-03-09 2012-03-27 Moshe Wasserblat Apparatus and method for fraud prevention
KR101070527B1 (ko) 2009-04-24 2011-10-05 서울대학교산학협력단 빛 퍼짐을 이용한 상호작용깊이 측정장치, 측정방법 및 이를 이용한 양전자 방출 단층촬영장치
US8831760B2 (en) * 2009-10-01 2014-09-09 (CRIM) Centre de Recherche Informatique de Montreal Content based audio copy detection
US9502038B2 (en) 2013-01-28 2016-11-22 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
US9372976B2 (en) 2013-03-20 2016-06-21 Dror Bukai Automatic learning multi-modal fraud prevention (LMFP) system
US20160293167A1 (en) 2013-10-10 2016-10-06 Google Inc. Speaker recognition using neural networks
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US10476872B2 (en) 2015-02-20 2019-11-12 Sri International Joint speaker authentication and key phrase identification
US11823658B2 (en) * 2015-02-20 2023-11-21 Sri International Trial-based calibration for audio-based identification, recognition, and detection system
US9721559B2 (en) * 2015-04-17 2017-08-01 International Business Machines Corporation Data augmentation method based on stochastic feature mapping for automatic speech recognition
KR102446392B1 (ko) 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
CN105450965B (zh) 2015-12-09 2019-07-19 北京小鸟看看科技有限公司 一种视频转换方法、装置和系统
US10366687B2 (en) 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
US10235994B2 (en) * 2016-03-04 2019-03-19 Microsoft Technology Licensing, Llc Modular deep learning model
US10460747B2 (en) * 2016-05-10 2019-10-29 Google Llc Frequency based audio analysis using neural networks
US9824692B1 (en) * 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
CA3179080A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10360494B2 (en) * 2016-11-30 2019-07-23 Altumview Systems Inc. Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules
US10140980B2 (en) * 2016-12-21 2018-11-27 Google LCC Complex linear projection for acoustic modeling
CA3054063A1 (en) * 2017-03-03 2018-09-07 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
CN107068167A (zh) * 2017-03-13 2017-08-18 广东顺德中山大学卡内基梅隆大学国际联合研究院 融合多种端到端神经网络结构的说话人感冒症状识别方法
US10311872B2 (en) * 2017-07-25 2019-06-04 Google Llc Utterance classifier
US10963781B2 (en) * 2017-08-14 2021-03-30 Microsoft Technology Licensing, Llc Classification of audio segments using a classification network
US10418957B1 (en) * 2018-06-29 2019-09-17 Amazon Technologies, Inc. Audio event detection
US11257503B1 (en) * 2021-03-10 2022-02-22 Vikram Ramesh Lakkavalli Speaker recognition using domain independent embedding

Also Published As

Publication number Publication date
EP3590113A1 (en) 2020-01-08
US11488605B2 (en) 2022-11-01
US10692502B2 (en) 2020-06-23
EP3590113B1 (en) 2024-05-29
AU2021277642A1 (en) 2021-12-23
AU2018226844A1 (en) 2019-09-19
AU2018226844B2 (en) 2021-11-18
AU2021277642B2 (en) 2023-06-15
CA3054063A1 (en) 2018-09-07
US20200321009A1 (en) 2020-10-08
WO2018160943A1 (en) 2018-09-07
US20180254046A1 (en) 2018-09-06

Similar Documents

Publication Publication Date Title
ES2993990T3 (en) Method and apparatus for detecting spoofing conditions
Chen et al. Who is real bob? adversarial attacks on speaker recognition systems
US8589167B2 (en) Speaker liveness detection
Gomez-Alanis et al. A gated recurrent convolutional neural network for robust spoofing detection
WO2021139425A1 (zh) 语音端点检测方法、装置、设备及存储介质
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
Chen et al. Towards understanding and mitigating audio adversarial examples for speaker recognition
Janicki et al. An assessment of automatic speaker verification vulnerabilities to replay spoofing attacks
Sriskandaraja et al. Front-end for antispoofing countermeasures in speaker verification: Scattering spectral decomposition
GB2541466A (en) Replay attack detection
Kons et al. Voice transformation-based spoofing of text-dependent speaker verification systems.
Nandyal et al. MFCC based text-dependent speaker identification using BPNN
Singh et al. Usefulness of linear prediction residual for replay attack detection
Kumari et al. Comparison of LPCC and MFCC features and GMM and GMM-UBM modeling for limited data speaker verification
Weng et al. The SYSU system for the interspeech 2015 automatic speaker verification spoofing and countermeasures challenge
Dişken Complementary regional energy features for spoofed speech detection
Li et al. Cross-domain audio deepfake detection: Dataset and analysis
Soni et al. Novel Subband Autoencoder Features for Detection of Spoofed Speech.
Fang et al. Transforming acoustic characteristics to deceive playback spoofing countermeasures of speaker verification systems
Impedovo et al. An Investigation on Voice Mimicry Attacks to a Speaker Recognition System.
Smiatacz Playback attack detection: the search for the ultimate set of antispoof features
Shi et al. Anti-replay: A fast and lightweight voice replay attack detection system
Tak End-to-end modeling for speech spoofing and deepfake detection
Feng et al. SHNU anti-spoofing systems for asvspoof 2019 challenge
Aziz et al. Experimental studies for improving the performance of children's speaker verification system using short utterances
点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载