ES2993990T3 - Method and apparatus for detecting spoofing conditions - Google Patents
Method and apparatus for detecting spoofing conditions Download PDFInfo
- Publication number
- ES2993990T3 ES2993990T3 ES18712052T ES18712052T ES2993990T3 ES 2993990 T3 ES2993990 T3 ES 2993990T3 ES 18712052 T ES18712052 T ES 18712052T ES 18712052 T ES18712052 T ES 18712052T ES 2993990 T3 ES2993990 T3 ES 2993990T3
- Authority
- ES
- Spain
- Prior art keywords
- features
- dnn
- deep
- sample
- spoofing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000012795 verification Methods 0.000 abstract description 15
- 230000015654 memory Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000665848 Isca Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
Un sistema de verificación automática de hablantes (ASV) incorpora una primera red neuronal profunda para extraer características acústicas profundas, como características CQCC profundas, de una muestra de voz recibida. Las características acústicas profundas son procesadas por una segunda red neuronal profunda que clasifica las características acústicas profundas según una probabilidad determinada de incluir una condición de suplantación. A continuación, un clasificador binario clasifica la muestra de voz como genuina o suplantada. (Traducción automática con Google Translate, sin valor legal)
Description
DESCRIPCION
Método y aparato para detectar condiciones de suplantación
Esta divulgación reivindica la presentación nacional, según el 35 U.S.C. § 119, de la Solicitud Provisional de los Estados Unidos No. 62/466,911 presentada el 3 de marzo de 2017, titulada "Spoofing Detection".
Antecedentes
Los sistemas de módem son cada vez más centrados en la voz y, en muchos casos, dependen de enfoques de seguridad basados en la voz, como el Reconocimiento Automatizado de Voz (AVR) y similares, para asegurar que un hablante actual sea un usuario autorizado del sistema. Aunque varios enfoques logran un éxito moderado en asegurar que una muestra de audio recibida coincida con una muestra de audio previamente registrada o un modelo de voz correspondiente, los sistemas convencionales son vulnerables a ataques de "suplantación" en los que un usuario fraudulento puede emplear técnicas como la conversión de voz, la síntesis de voz y los ataques de reproducción para aproximarse sustancialmente al registro auténtico. Los ataques de repetición fraudulentos, por ejemplo, son fáciles de generar sin necesidad de experiencia en procesamiento del habla y aprendizaje automático. Con el uso de dispositivos de reproducción y grabación de alta calidad, es concebible realizar ataques de reproducción indistinguibles de un acceso genuino en sistemas convencionales.
Los Coeficientes Cepstrales Constantes Q (CQCCs) son características acústicas de análisis tiempo-frecuencia inspiradas perceptualmente que se han demostrado ser eficaces para detectar ataques de suplantación de voz, como la reproducción de audio, la conversión y la transformación de voz, y los ataques de síntesis de voz. (Ver, por ejemplo, Todisco y otros, "A New Feature for Automatic Speaker Verification Anti-Spoofing: Constant Q Cepstral Coefficients", Odyssey 2016). Sin embargo, las desventajas de la técnica convencional para obtener CQCCs incluyen altos costos en términos de uso de memoria y tiempo de procesamiento. Además, los sistemas convencionales emplean características CQCC que discriminan únicamente entre enunciados suplantados y no suplantados.
ZHANG CHUNLEI Y OTROS: "An Investigation of Deep-Learning Frameworks for Speaker Verification Antispoofing", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, IEEE, EE.UU., vol. 11, no. 4, 16 de enero de 2017 (16-01-2017), páginas 684-694, ISSN: 1932-4553, DOI: 10.1109/JSTSP.2016.2647199 divulga el uso de enfoques de aprendizaje profundo para la detección de suplantaciones en la verificación de hablantes. El documento tiene como objetivo investigar la capacidad discriminativa genuina-suplantación desde la etapa final, utilizando los avances recientes en la investigación de aprendizaje profundo. En este documento, se explotan arquitecturas de red alternativas para detectar el habla suplantada. Basándose en este análisis, se propone un sistema de detección de suplantación de identidad que emplea simultáneamente redes neuronales convolucionales (CNNs) y redes neuronales recurrentes (RNNs). En este marco, la CNN se trata como un extractor de características convolucionales aplicado a la entrada de voz. Además de la salida procesada por CNN, se utilizan redes recurrentes para capturar dependencias a largo plazo en el dominio temporal. Nuevas características, incluyendo el operador de energía de Teager, la autocorrelación de banda crítica y la envolvente perceptual de mínima distorsión de varianza, así como un espectrograma más general, también se investigan como entradas en nuestros marcos de aprendizaje profundo propuestos. Los experimentos realizados con el corpus ASVspoof2015 demuestran que el marco integrado CNN-RNN alcanza el rendimiento más avanzado en un solo sistema. La adición de la fusión a nivel de puntuación mejora aún más la robustez del sistema. Un análisis detallado muestra que nuestro enfoque propuesto tiene el potencial de compensar el problema debido a las breves duraciones de las frases de prueba, que también es un problema en el corpus de evaluación.
WU ZHIZHENG Y OTROS: "ASVspoof: "The Automatic Speaker Verification Spoofing and Countermeasures Challenge", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, IEEE, EE. UU., vol. 11, no. 4, 17 de febrero de 2017 (17-02-2017), páginas 588-604, XP011649191, ISSN: 1932-4553, DOI: 10.1109/JSTSP.2017.2671435 divulga la iniciativa de Engaño y Contramedidas de ASV (ASVspoof). A través de la provisión de un conjunto de datos común, protocolos y métricas, ASVspoof promueve una metodología de investigación sólida y fomenta el progreso tecnológico. Este documento también describe el conjunto de datos ASVspoof 2015, la evaluación y los resultados con análisis detallados. Una revisión de estudios de postevaluación realizados utilizando el mismo conjunto de datos ilustra el rápido progreso derivado de ASVspoof y destaca la necesidad de una investigación adicional.
MD JAHANGIR ALAM Y OTROS: "Spoofing Detection on the ASVspoof2015 Challenge Corpus Employing Deep Neural Networks", ODYSSEY 2016, vol. 2016, 21 de junio de 2016 (31-06-2016), páginas 270-276, XP055476292, ISSN: 2312-2846, DOI: 10.21437/Odyssey.2016-39 divulga la aplicación de redes neuronales profundas (DNN), entrenadas para discriminar entre señales de voz humana y suplantada, para mejorar el rendimiento de la detección de suplantación. En el documento, los autores utilizan características de nivel acústico basadas en amplitud, fase, residuo de predicción lineal y amplitud-fase combinada. Primero se entrena una DNN con los datos de entrenamiento del desafío de suplantación para discriminar entre señales de voz humana y suplantada. Se utilizan las características de espectros de filtro Delta (DFB), coeficientes cepstrales de frecuencia Mel delta más doble delta (DMCC), coeficientes cepstrales de predicción lineal delta más doble delta (DLPCC) y coeficientes cepstrales basados en el espectro del producto (DPSCC) como entradas a la DNN. Para cada característica, se generan posteriormente y características de cuello de botella (BNF) para todos los datos de desafío de suplantación utilizando la DNN entrenada. Los posteriores de DNN se utilizan directamente para decidir si una grabación de prueba es falsa o humana. Para la detección de suplantación con las características de nivel acústico y las características de cuello de botella se construye un clasificador de Modelo de Mezcla Gaussiana (GMM) estándar. Cuando se probaron en los ataques de suplantación (S1-S10) del corpus de evaluación del desafío ASVspoof2015, los sistemas DFB-BNF, DMCC-BNF, DLPCC-BNF, DPSCC-BNF y DpSCC-DNN proporcionaron tasas de error iguales (EERs) de 0,013 %, 0,007 %, 0,0 %, 0,022 % y 1,00 % respectivamente, en los ataques de suplantación S1-S9. En los diez ataques de suplantación (S1-S10), las<e>E<rs>obtenidas por estos cinco sistemas son 3,23 %, 2,15 %, 3,3 %, 3,28 % y 2,18 %, respectivamente.
MASSIMILIANO TODISCO Y OTROS: "A New Feature for Automatic Speaker Verification Anti-Spoofing: Constant Q Cepstral Coefficients", ODYSSEY 2016, vol. 2016, 21 de junio de 2016 (21-06-2016), páginas 283-290, XP055476497, ISSN: 2312-2846, DOI: 10.21437/Odyssey.2016-41 divulga que hay más beneficios en el estudio de características que en clasificadores, e introduce una nueva característica para la detección de suplantaciones basada en la transformada Q constante, una herramienta de análisis tiempo-frecuencia inspirada en la percepción y popular en el estudio de la música. Los resultados experimentales obtenidos utilizando la base de datos estándar ASVspoof 2015 muestran que, cuando se combinan con un clasificador basado en un modelo de mezcla gaussiana estándar, los coeficientes cepstrales Q constantes propuestos (CQCCs) superan con creces todos los resultados previamente reportados. En particular, aquellos para un subconjunto de ataques de suplantación de identidad desconocidos (para los cuales no se utilizó ningún dato de entrenamiento coincidente) es del 0,46 %, una mejora relativa del 72 % respecto a los mejores resultados previamente reportados.
PARAV NAGARSHETH Y OTROS: "Replay Attack Detection Using DNN for Channel Discrimination", INTERSPEECH 2017, 20 de agosto de 2017 (20-08-2017), páginas 97-101, XP055476190, ISCA, DOI: 10.21437/lnterspeech.2017-1377 aborda el problema proponiendo una arquitectura de aprendizaje profundo en conjunto con características cepstrales de bajo nivel. El documento investiga el uso de una red neuronal profunda (DNN) para discriminar entre las diferentes condiciones de canal disponibles en el conjunto de datos ASVSpoof 2017, a saber, grabación, reproducción y condiciones de sesión. Los vectores de características de alto nivel derivados de esta red se utilizan para discriminar entre audio genuino y suplantado. Se utilizan dos tipos de características de bajo nivel: los coeficientes cepstrales constantes-Q de última generación (CQCC) y nuestros propuestos coeficientes cepstrales de alta frecuencia (HFCC) que se derivan del espectro de alta frecuencia del audio. La fusión de ambas características demostró ser efectiva en generalizar bien a través de diversos ataques de reproducción vistos en la evaluación del desafío ASVSpoof 2017, con una tasa de error igual de 11,5 %, es decir, un 53 % mejor que el modelo de mezcla gaussiana (GMM) de referencia aplicado en CQCC.
Resumen
La presente divulgación se refiere a métodos y aparatos para su uso en, por ejemplo, un sistema de verificación automática de altavoces (ASV), para distinguir entre un hablante genuino y autorizado (por ejemplo, un llamante) y uno fraudulento, en particular aquel que emplea un ataque de reproducción, como se discute con más detalle a continuación.
La invención está definida en las reivindicaciones.
Si bien se divulgan múltiples realizaciones, aún pueden surgir otras realizaciones para aquellos expertos en la técnica a partir de la siguiente descripción detallada, que muestra y describe ejemplos ilustrativos de la invención. Como se comprenderá, la invención es susceptible de modificaciones en varios aspectos, todo ello sin salirse del ámbito de la presente invención. En consecuencia, los dibujos y la descripción detallada deben considerarse de naturaleza ilustrativa y no restrictiva.
Figuras
La Figura 1 es un diagrama de bloques que ilustra un aparato o sistema de verificación automática del habla (ASV) de acuerdo con una configuración general que no se encuentra dentro del ámbito de la invención,
La Figura 2 es un diagrama de bloques de una realización más específica según la invención, del aparato o sistema ilustrado en la Figura 1,
Las Figuras 3A-C son diagramas de flujo que detallan métodos para clasificar una muestra de voz como genuina o suplantada, según las respectivas realizaciones,
La Figura 4 ilustra un aparato que utiliza la fusión de puntuaciones según una realización,
La Figura 5 ilustra un aparato que utiliza la concatenación de características según una realización, la Figura 6 ilustra un proceso para extraer características de coeficientes cepstrales de subbanda, y
La Figura 7 es un diagrama de bloques de una segunda red neuronal profunda configurada para clasificar características de suplantación a partir de características en tándem, como se ilustra en la Figura 5, según una realización.
Las figuras anteriores pueden representar configuraciones ilustrativas para un aparato de la divulgación, lo cual se hace para ayudar a comprender las características y funcionalidades que se pueden incluir en las carcasas descritas en la presente memoria. El aparato no se limita a las arquitecturas o configuraciones ilustradas, sino que puede implementarse utilizando una variedad de arquitecturas y configuraciones alternativas. Además, aunque el aparato se describe anteriormente en términos de varias realizaciones y aplicaciones ilustrativas, se debe entender que las diversas características y funcionalidades descritas en una o más de las realizaciones individuales con las que se describen, no se limitan a esas realizaciones específicas, sino que pueden aplicarse, solas o en alguna combinación, a una o más de las otras realizaciones de la divulgación, ya sea que se describan o no dichas realizaciones y ya sea que se presenten o no dichas características como parte de una realización descrita. Por lo tanto, la amplitud y el alcance de la presente divulgación, especialmente en cualquier reivindicación siguiente, no deben limitarse por ninguno de los ejemplos de realizaciones descritas anteriormente.
Descripción detallada
La descripción detallada que se presenta a continuación en relación con los dibujos adjuntos tiene como objetivo ser una descripción de ejemplos de realizaciones de la presente divulgación y no pretende representar las únicas realizaciones en las que se puede practicar la presente divulgación. El término "ilustrativo", cuando se utiliza en esta descripción, significa: "que sirve como ejemplo, instancia o ilustración", y no necesariamente debe interpretarse como preferido o ventajoso sobre otras realizaciones, ya sea etiquetadas como "ilustrativas" o de otra manera. La descripción detallada incluye detalles específicos con el propósito de proporcionar una comprensión completa de las realizaciones de la divulgación. Será evidente para aquellos expertos en la técnica que las realizaciones de la divulgación pueden ser llevadas a cabo sin estos detalles específicos. En algunos casos, se pueden mostrar estructuras y dispositivos conocidos en forma de diagrama de bloques para evitar oscurecer la novedad de las realizaciones ilustrativas presentadas en la presente memoria.
La suplantación es una comunicación fraudulenta o maliciosa enviada desde una fuente desconocida y disfrazada como una fuente conocida por el receptor. Los sistemas ASV están siendo cada vez más desafiados por técnicas de suplantación como la conversión de voz, la síntesis de voz y los ataques de reproducción. Entre estos, los ataques de repetición, también conocidos como "ataques de presentación", han demostrado reducir la precisión de los sistemas ASV convencionales en gran medida. Por ejemplo, en las comunicaciones basadas en voz, un estafador puede imitar o reproducir la voz de un llamante conocido con la intención de engañar a un sistema de Verificación Automática de Voz (ASV). Los ataques de repetición son fáciles de generar, no requieren experiencia en procesamiento de voz y/o aprendizaje automático, y muy poca experiencia en cualquier caso. Por ejemplo, con dispositivos de grabación y reproducción de alta calidad, es concebible generar ataques de reproducción que son casi indistinguibles de un acceso genuino.
Los enfoques convencionales para abordar los ataques de reproducción y otros mecanismos de suplantación se han centrado con cada vez más éxito en los sistemas de verificación automática de habla independiente del texto. Los inventores han reconocido la necesidad de métodos y aparatos para detectar de manera efectiva ataques de reproducción y otros medios de suplantación de identidad de manera eficiente y rápida, tanto en sistemas ASV dependientes de texto como independientes de texto. (Ver Nagarsheth y otros, "Replay Attack Detection using DNN for Channel Discrimination", INTERSPEECH, agosto de 2017, incorporado aquí por referencia, en el cual los inventores discuten observaciones experimentales y sistemas resultantes en detalle.)
La Figura 1 es un diagrama de bloques que ilustra un aparato o sistema de verificación automática del habla (ASV) 100 según una configuración general que no forma parte de la invención.
Una fuente de voz 10 (por ejemplo, una persona o, típicamente de manera fraudulenta, una grabación de una persona) proporciona una muestra de voz 20 a través de un canal de audio (por ejemplo, línea telefónica, canal inalámbrico, canal de internet u otro similar) al aparato o sistema ASV 100. La muestra de voz es recibida por una unidad de extracción de características 110. La unidad de extracción de características 110 extrae del muestra de voz información estadística denominada "características acústicas" 115 y proporciona las características acústicas 115 a una unidad de clasificación de características 120. La unidad de clasificación de características 120 clasifica las características acústicas 115 en al menos una clasificación 125 entre dos o más clasificaciones correspondientes a las condiciones de suplantación respectivas que pueden representarse en las características extraídas. Un clasificador binario 130 puede comparar la clasificación resultante con una puntuación umbral predeterminado, lo que resulta en una determinación de que la muestra de voz o fuente de audio es "genuina" o "fraudulenta" (o significados similares). En algunos ejemplos, el clasificador binario 130 puede comparar la clasificación resultante con otra clasificación 135 de características de bajo nivel previamente almacenadas para un modelo de voz correspondiente a un usuario autorizado.
Se pueden generar uno o más modelos de inscripción para cada usuario autorizado en el momento de la inscripción del hablante y almacenarlos en una base de datos de inscripción 140. En algunos ejemplos, los modelos de entrenamiento 145, que incluyen modelos suplantados conocidos y modelos limpios conocidos, pueden almacenarse en una base de datos de entrenamiento, posiblemente ubicada junto a la base de datos de inscripción 140. Los modelos de entrenamiento pueden ser utilizados para entrenar la unidad de clasificación de características 120 para discriminar una o más condiciones de suplantación de un acceso genuino. En algunos ejemplos, los modelos de inscripción también pueden ser utilizados con el fin de identificar y/o verificar a un hablante. El término "modelo de inscripción" aquí incluye un modelo inicial generado en el momento de la inscripción, y cualquier actualización de dicho modelo basada en interacciones genuinas posteriores con el hablante genuino correspondiente.
En particular, los inventores han reconocido que un ataque de reproducción que proporciona una grabación de un hablante puede, en ciertas características de bajo nivel, incluir cualidades que se encuentran en una grabación reproducida que normalmente no están presentes en una expresión en vivo o no reproducida. Por ejemplo, la grabación de una muestra de audio puede introducir de manera consistente artefactos de audio relacionados con la frecuencia, el rango de frecuencia, el rango de potencia dinámica, la reverberación, los niveles de ruido en rangos de frecuencia específicos, y similares, al menos algunos de los cuales artefactos pueden ser imperceptibles sin el uso de técnicas de procesamiento de voz especializadas y/o equipos como los divulgados en la presente memoria.
Por ejemplo, un hablante genuino puede contactar de manera consistente el sistema ASV utilizando solo un número limitado de canales (por ejemplo, a través de una línea telefónica residencial específica y/o una línea de teléfono celular específica) que tienen características de audio de nivel bajo específicas, proporcionando así un modelo de inscripción con características de nivel bajo particulares y consistentes. En algunos ejemplos, el sistema ASV puede, como parte de, en lugar de o como modelo de inscripción, capturar y almacenar solo las características de bajo nivel para su uso posterior en la distinción entre accesos suplantados y genuinos.
El aparato o sistema ASV 100 puede incorporar uno o más procesadores programados o específicos de la aplicación, memoria asociada, terminales de entrada y salida, y similares, y puede implementarse en un único dispositivo monolítico o distribuido entre varios dispositivos próximos. En algunos ejemplos, los elementos de hardware pueden incorporar dispositivos ubicados de forma remota y configurados para comunicar datos utilizando una red de datos. En cada caso, el hardware puede incluir circuitos receptora o un circuito receptor (ilustrado solo implícitamente), tal como, pero no limitado a, circuitos de telefonía o comunicación de datos configurados para recibir la muestra de voz 20. En algunos ejemplos, las características del sistema ASV 100 pueden incluir instrucciones ejecutables por ordenador en un medio legible por ordenador no transitorio.
La Figura 2 es un diagrama de bloques que ilustra una realización más específica 200 que forma parte de la invención, del aparato o sistema 100 ilustrado en la Figura 1. El aparato o sistema ASV 200 incluye una red neuronal profunda (DNN) 210 (correspondiente a la unidad de extracción de características 110 en la Figura 1) configurada para extraer características acústicas profundas 215 (correspondientes a las características acústicas 115). Las características acústicas profundas 215 son recibidas por una segunda red neuronal profunda 220 (correspondiente a la unidad de clasificación de características 120) configurada para determinar (por ejemplo, calcular) a partir de las características acústicas profundas 215 una probabilidad 225 de que la muestra de voz 20 incluya una condición de suplantación. Un clasificador binario 230 (correspondiente al clasificador binario 130) puede comparar la probabilidad determinada o calculada 225 (por ejemplo, una puntuación de probabilidad correspondiente a la clasificación 125) con una puntuación umbral previamente determinado. El clasificador binario 230 puede así emitir una indicación de "genuino" o "suplantado" dependiendo de cómo la probabilidad determinada o calculada 225 se compare con la puntuación umbral.
En algunas realizaciones, el clasificador binario 230 puede comparar la probabilidad 225 con una probabilidad previamente determinada 235 (correspondiente a la clasificación 135) de que la condición de suplantación estuviera presente en una muestra de inscripción procesada previamente. En algunas realizaciones, el clasificador binario 230 puede emplear un umbral predeterminado (diferente), comparando la probabilidad calculada 225 (por ejemplo, una puntuación de probabilidad) dentro de una distancia o diferencia de umbral predeterminada de la probabilidad previamente determinada 235, la muestra de voz recibida 20 puede indicarse como genuina. De lo contrario, la muestra de voz recibida 20 puede ser indicada como suplantada.
El aparato o sistema ASV 200 puede incorporar uno o más procesadores programados o específicos de la aplicación, memoria asociada, terminales de entrada y salida, y similares, y puede implementarse en un único dispositivo monolítico o distribuido entre varios dispositivos próximos. En algunas realizaciones, los elementos de hardware pueden incorporar dispositivos ubicados de forma remota y configurados para comunicar datos utilizando una red de datos. En cada caso, el hardware puede incluir circuitos receptores o un circuito receptor (ilustrado solo implícitamente), como, pero no limitado a, circuitos de telefonía o comunicación de datos configurados para recibir la muestra de voz 20. En algunas realizaciones, las características del sistema ASV 100 pueden incluir instrucciones ejecutables por ordenador en un medio legible por ordenador no transitorio.
El primer DNN en cada realización divulgada en la presente descripción puede implementarse utilizando una red neuronal convolucional donde la entrada a la red neuronal convolucional es una señal de audio en bruto, y la salida son las características CQCC profunda deseadas. La función de pérdida utilizada durante el entrenamiento puede ser, pero no se limita a, el error cuadrático medio entre un CQCC "hecho a mano" (o convencional) y un CQCC normalizado. El error se utiliza luego para ajustar los valores en cada nodo de la red neuronal convolucional. Las iteraciones del entrenamiento tienen como objetivo minimizar el error hasta alcanzar un error mínimo predeterminado. Se pueden utilizar técnicas de normalización por lotes y de eliminación aleatoria, a pesar del costo computacional adicional y la memoria requerida para lo mismo.
La Figura 3A es un diagrama de flujo que detalla un método 300a para clasificar una muestra de voz como genuina o suplantada, por ejemplo, utilizando el ASV 200 de la Figura 2. En el paso S310, un aparato o sistema de verificación automática de voz (ASV) recibe una muestra de voz (por ejemplo, 20) de una fuente de voz (por ejemplo, 10). La muestra de voz puede ser recibida en una llamada telefónica desde un teléfono con cable o inalámbrico a través de un canal de telefonía convencional o especializado, un comando de voz capturado directamente desde una fuente de voz por un asistente personal inteligente electrónico y sensible a la voz (por ejemplo, AMAZON ECHO y similares) o una aplicación de teléfono sensible a la voz, o recibida por otros medios electrónicos. Una fuente de voz genuina suele ser una persona en vivo y preautorizada que habla directamente al ASV a través de un canal de señal transitoria (por ejemplo, una llamada telefónica en vivo), mientras que una fuente de voz "suplantada" puede incluir grabaciones intencionalmente fraudulentas de una voz genuina, en el caso de un ataque de reproducción, o en algunos casos puede incluir fuentes de voz no intencionales o accidentales, como un televisor o una radio de fondo (por ejemplo, en el caso de un asistente personal electrónico). Otras fuentes de voz suplantadas pueden incluir, como se sugirió anteriormente, la conversión de voz y la síntesis de voz, cada una de las cuales introduce sus propios artefactos acústicos y/o otras cualidades únicas distinguibles por una DNN adecuadamente entrenada.
En la operación S320, se extraen características acústicas profundas de la muestra de voz. Esto se puede lograr a través de una primera red neuronal profunda (DNN) (por ejemplo, DNN 210 en la Figura 2) que ha sido configurada o entrenada para dicha extracción. En algunas realizaciones, la primera DNN puede ser suministrada habiendo sido preentrenada. Por ejemplo, la disposición del circuito DNN puede haber sido especialmente configurada, o el código DNN puede haber sido configurado para su ejecución, desde un medio de almacenamiento, por uno o más procesadores, que ya han sido entrenados mediante el procesamiento iterativo de muestras de entrenamiento conocidas por incluir variaciones de cualidades acústicas de bajo nivel de interés. En algunas realizaciones, sin embargo, la primera DNN puede estar configurada para ser entrenada mediante dicho procesamiento iterativo.
En la operación S330, las características acústicas profundas extraídas pueden clasificarse en al menos una de dos o más clasificaciones correspondientes a condiciones de suplantación o de canal discernibles en las características acústicas profundas extraídas por una segunda DNN (por ejemplo, DNN 220 en la Figura 2). El segundo DNN puede, en algunos casos, ser entrenado para discriminar entre, por ejemplo, la presencia y ausencia de una condición de suplantación. En otras realizaciones, la segunda DNN puede estar configurada para discriminar entre cada una de una pluralidad de condiciones de suplantación. Por ejemplo, la segunda DNN puede estar configurada para discriminar entre características acústicas profundas para muestras que tienen características de nivel bajo correspondientes respectivamente a un ataque de reproducción, conversión de voz y síntesis de voz, y a su ausencia. En algunas realizaciones, la segunda DNN puede proporcionar una puntuación de probabilidad para uno o más tipos de suplantación. Por ejemplo, la segunda DNN puede proporcionar una puntuación de probabilidad para la presencia de características correspondientes a un ataque de reproducción, otra puntuación de probabilidad para la presencia de características correspondientes a la conversión de voz, y una tercera puntuación de probabilidad para la presencia de características correspondientes a la síntesis de voz. Una alta probabilidad puede corresponder a una categoría respectiva particular. Las puntuaciones de baja probabilidad para cada categoría pueden sugerir la ausencia de condiciones de suplantación, y por lo tanto pueden ser categorizadas como "genuinas". Del mismo modo, la segunda DNN puede ser entrenada para distinguir diferentes condiciones de canal. Por ejemplo, la segunda DNN puede distinguir una muestra de voz proveniente del exterior, de un tamaño de habitación específico; de un dispositivo en particular, o algo similar.
En algunas realizaciones, de acuerdo con la operación S340, una puntuación de probabilidad o clasificación puede ser clasificado adicionalmente por un clasificador binario (como el clasificador binario 230) como genuino o suplantado. El clasificador binario puede ser configurado o entrenado para discriminar entre la puntuación de probabilidad o categorización resultante de la operación S330 y una puntuación de probabilidad o categorización asociada con una muestra de inscripción previamente capturada de un usuario autorizado. En algunos casos, la puntuación de probabilidad o la categorización de la muestra de inscripción pueden ser predeterminados y almacenados en asociación con la muestra de inscripción, por ejemplo, en una base de datos de inscripción (por ejemplo, base de datos de inscripción 140). Alternativamente, la puntuación de probabilidad o la categorización para la muestra de inscripción pueden determinarse cuando se utilizan para la comparación. El clasificador binario puede incluir una simple comparación de la puntuación de probabilidad. Una diferencia absoluta entre una puntuación de probabilidad resultante de la operación S330 y una puntuación de probabilidad asociada con una muestra de inscripción capturada previamente, por ejemplo, puede compararse con una diferencia umbral. Por ejemplo, una diferencia absoluta menor o igual a la diferencia umbral puede indicar un acceso legítimo. La diferencia de umbral puede ser predeterminada y almacenada, o puede ser calculada en base a diversos factores. Por ejemplo, la diferencia de umbral puede variar dependiendo de factores como el género, la distancia de un usuario en el momento de la inscripción o en el momento de la prueba (determinado en otra operación), u otros factores que puedan afectar una puntuación de probabilidad. En otro ejemplo, los usuarios que tienen ciertas discapacidades vocales pueden utilizar rutinariamente una grabación o síntesis de voz para acceder a una cuenta, y por lo tanto pueden requerir un umbral diferente y más flexible para poder ser verificados.
Las características acústicas profundas extraídas en la operación S320 (por ejemplo, por la primera DNN 210) pueden ser los Coeficientes cepstrales Q constantes (CQCCs). Se reconoce que las características CQCC pueden obtenerse mediante otros medios distintos a DNN. Sin embargo, los inventores han reconocido un beneficio en términos de coste y eficiencia al utilizar una DNN para dicha extracción. Además, una DNN (como la primera DNN 210) puede ser entrenada para distinguir características que serían mucho más difíciles de tener en cuenta utilizando características "hechas a mano" de CQCC. Por ejemplo, las características convencionales de CQCC suelen derivarse de una transformada Q constanteinspirada perceptualmente y pueden clasificarse utilizando Modelado de Mezcla Gaussiana (GMM). (Ver, por ejemplo, Todisco, y otros, "A New Featurefor Automatic Speaker Verification Anti-spoofing: Constant Q Cepstral Coefficients", Odyssey 2016). Sin embargo, esa derivación requiere un uso muy alto de memoria y tiempo y recursos del procesador. En consecuencia, las características CQCC profunda (extraídas utilizando una DNN) son ventajosas porque su cálculo requiere comparativamente menos memoria y recursos del procesador. Esto se vuelve importante ya que los servicios que utilizan ASV desean que el proceso de ASV sea fluido y transparente para el usuario, con el menor costo posible, ya que los retrasos evidentes para el usuario resultan en insatisfacción del cliente.
Las condiciones de suplantación, como se mencionó brevemente anteriormente, pueden incluir condiciones de audio y/o condiciones de canal. Las condiciones de audio pueden incluir, pero no se limitan a, artefactos de grabación, artefactos de reproducción y/o artefactos que resultan de la síntesis de voz, la conversión de voz y/o la distorsión de voz. Por ejemplo, incluso equipos de reproducción muy sofisticados pueden introducir artefactos espectrales, temporales y/o más complejos que, aunque no necesariamente sean perceptibles auditivamente, pueden ser identificados por una red neuronal profunda entrenada adecuadamente. Los equipos de reproducción menos sofisticados naturalmente producen aún más artefactos acústicos. De manera similar, el equipo de grabación y/o el entorno pueden introducir artefactos acústicos tales como, pero no limitados a, ruido, zumbido, estiramiento temporal y/o limitaciones de frecuencia, además de artefactos más complejos como inconsistencias en el espectro de potencia, y otros similares.
En algunas realizaciones, las condiciones de audio pueden incluir artefactos de audio específicos de uno o más dispositivos de captura de audio no esperados. Por ejemplo, un usuario legítimo puede haber accedido al ASV utilizando un teléfono móvil específico en todas las comunicaciones anteriores. Una llamada de suplantación, utilizando un teléfono diferente, un micrófono de ordenador, un dispositivo de Internet de las Cosas (IoT) (por ejemplo, AMAZON ECHO, GOOGLE HOME y similares) u otro dispositivo de captura de audio inesperado, puede incluir artefactos específicos de un dispositivo en particular, y pueden ser diferentes de los artefactos introducidos por el dispositivo utilizado por el usuario legítimo en el momento de la inscripción y/o en las comunicaciones de voz posteriores.
Las condiciones del canal pueden incluir artefactos de bajo nivel introducidos por el canal que no sean por grabación o reproducción. Por ejemplo, una muestra de voz transmitida a través de un número de teléfono suplantado (no confundir con audio suplantado) puede incluir artefactos que no se esperan en una muestra de voz de un usuario legítimo, como, pero no limitado a ruido de cuantización, ruido de conmutación, desplazamiento de corriente continua, filtrado y otros artefactos espectrales y/o temporales que pueden diferir de los presentes en un modelo de inscripción, así como características de orden superior que solo pueden ser identificadas mediante el procesamiento de la muestra de voz, como características inesperadas en la densidad espectral de potencia y similares. Tales condiciones de suplantación pueden ser identificadas por una red neuronal profunda adecuadamente entrenada, como se describe anteriormente. El entrenamiento de dicha DNN puede incluir técnicas de entrenamiento convencionales, centrándose en discriminar entre condiciones de no suplantación y condiciones de suplantación conocidas.
Las Figuras 3B y 3C son diagramas de flujo que representan los métodos 300b y 300c para clasificar una muestra de voz como genuina o suplantada según otras realizaciones. Cada una de las Figuras 3B-3C ilustra el uso de un conjunto adicional de características acústicas extraídas en paralelo con las características acústicas profundas descritas anteriormente. La operación que tiene la misma etiqueta que en la Figura 3A tiene la función descrita anteriormente. En la Figura 3B, las características acústicas profundas y otras características acústicas se extraen por separado y se clasifican por separado en las operaciones S330 y S332, por ejemplo, utilizando segundas y terceras DNN independientes entrenadas para identificar características de bajo nivel representadas en las características extraídas. Las operaciones S330 y S332 pueden incluir además determinar o calcular una puntuación de probabilidad para cada conjunto de características extraídas que indique la probabilidad de que las características extraídas incluyan condiciones de suplantación. En la operación S335, las puntuaciones de probabilidad se "fusionan", por ejemplo, según técnicas convencionales de fusión de puntuaciones. El resultado de la puntuación de probabilidad fusionado puede ser clasificado en la operación S340 para indicar un acceso genuino o un acceso suplantado. En algunas realizaciones, la operación S340 puede incluir la comparación de la puntuación de probabilidad fusionado con un umbral predeterminado o contra una puntuación de probabilidad derivado de una muestra de inscripción previamente guardada para el usuario legítimo.
Volviendo a la Figura 3C, después de extraer las características acústicas profundas (por ejemplo, características CQCC profunda) y otras características acústicas, las características se combinan o se colocan en tándem para crear "características en tándem" en la operación S325. Las características en tándem se clasifican de la misma manera que se describe anteriormente para la operación S330 y la clasificación resultante o puntuación de probabilidad se utiliza, en la operación S340, para clasificar la muestra de voz (por ejemplo, muestra de voz 20) como auténtica o suplantada.
En algunas realizaciones, los elementos de los métodos 300a-300c pueden ser proporcionados como instrucciones ejecutables por ordenador almacenadas en uno o más medios legibles por ordenador no transitorios. En otras realizaciones, los elementos de los métodos 300a-300c pueden ser implementados en hardware o en una combinación de software/firmware y hardware, tal como se describe en la presente memoria. Por ejemplo, los métodos de las Figuras 3B-3C pueden implementarse como se describe a continuación.
Las figuras 4-5 ilustran aparatos o sistemas 400, 500 respectivamente configurados para incorporar los métodos en las figuras 3B-3C. Las características acústicas profundas correspondientes a las Figuras 3B-3C pueden ser, como se muestra en las Figuras 4-5, características CQCC profundas utilizadas en combinación (por ejemplo, "características en tándem") con otras características extraídas de la muestra de voz 20. Tanto en la Figura 4 como en la Figura 5, se recibe una muestra de voz 20 de una fuente de voz 10 tanto por un primer DNN 410, 510 (como se describe anteriormente con respecto al primer DNN 210, por ejemplo, configurado para extraer características profundas de CQCC) como por otro extractor de características 412, 512. El otro extractor de características 412, 512 puede estar configurado para extraer características convencionales, como los coeficientes de cepstrum de frecuencia de Mel (MFCCs), los coeficientes de cepstrum de baja frecuencia (LFCC), los coeficientes de cepstrum de subbanda (SBCCs, introducidos y descritos en detalle a continuación) u otros coeficientes conocidos por proporcionar características de bajo nivel útiles para su uso en la verificación automática de hablantes. La Figura 4 ilustra un aparato 400 que utiliza la fusión de puntuaciones para las puntuaciones de probabilidad generadas respectivamente para cada uno de los dos conjuntos de características extraídas según una realización. La Figura 5 ilustra un aparato 500 que utiliza la concatenación de características generadas respectivamente por la primera DNN 510 y otro extractor de características 512.
Dirigiéndonos primero a la Figura 4, las características 415 extraídas por la primera DNN 410 y las características 417 extraídas por el otro extractor de características 412 pueden ser procesadas de forma independiente, por ejemplo, por segundas y terceras redes neuronales profundas respectivas 420, 422, para generar puntuaciones de probabilidad respectivas que indican la probabilidad de que la muestra de voz 20 incluya una característica de bajo nivel representada en las características extraídas respectivas (415, 417). Las puntuaciones de probabilidad pueden ser "fusionadas" según técnicas convencionales en una unidad de fusión de puntuaciones o algoritmo 425 para que las puntuaciones fusionadas sean consideradas en conjunto por una unidad de decisión 430 (por ejemplo, un clasificador binario 230 configurado como se describe anteriormente) para indicar un acceso genuino o uno suplantado. En algunos casos, una o ambas puntuaciones de probabilidad pueden ajustarse según un algoritmo predeterminado, en algunos casos ponderando y/o desplazando al menos una de las puntuaciones de probabilidad para garantizar los mejores resultados.
Pasando ahora a la Figura 5, las características CQCC profundas extraídas 515 y las otras características acústicas extraídas 517 pueden ser concatenadas por una unidad o algoritmo de concatenación 518 o combinadas de otra manera antes de ser recibidas por una segunda DNN 520 (por ejemplo, correspondiente a la segunda DNN 220 en la Figura 2) para determinar una puntuación de probabilidad o categorización. Al igual que con la realización descrita con respecto a las Figuras 4, la puntuación de probabilidad o categorización puede ser recibida por una Unidad de Decisión 530, que puede corresponder a un clasificador binario, como el clasificador binario 230 en la Figura 2. Una clasificación de auténtico o suplantado puede basarse en una comparación de la puntuación de probabilidad con un umbral predeterminado y/o mediante la comparación con una puntuación de probabilidad de una muestra de inscripción previamente almacenada asociada a un usuario genuino para quien se pretende que la muestra de voz coincida.
Los aparatos o sistemas 400, 500 pueden incorporar cada uno o más procesadores programados o específicos de la aplicación, memoria asociada, terminales de entrada y salida, y similares, y pueden implementarse en un único dispositivo monolítico o distribuidos entre varios dispositivos próximos. En algunas realizaciones, los elementos de hardware pueden incorporar dispositivos ubicados de forma remota y configurados para comunicar datos utilizando una red de datos. En cada caso, el hardware puede incluir circuitos receptores o un circuito receptor (ilustrado solo implícitamente), como, pero no limitado a, circuitos de telefonía o comunicación de datos configurados para recibir la muestra de voz 20.
En algunas realizaciones, las "otras características" extraídas en asociación con las operaciones S322 en las Figuras 3B, 3C y los elementos 412, 512 de las Figuras 4 y 5 pueden incluir características de coeficientes cepstrales de subbanda (SBCC). Se han considerado muchas características de las muestras de voz, y los inventores reconocieron que existen diferencias espectrales entre el audio genuino y el suplantado (especialmente en los ataques de reproducción). Esas diferencias espectrales son particularmente pronunciadas, tanto en frecuencias más altas como más bajas, en un espectro tradicionalmente considerado con bajo contenido de habla. En la mayoría de los enfoques de modelado y clasificación, se sigue una transformada de Fourier de tiempo corto (STFT) seguida de la extracción cepstral como un vector de características de nivel bajo para tareas generales de procesamiento del habla. El espectro de potencia de la señal de habla enmarcada a menudo se transforma mediante un banco de filtros para reducir la dimensionalidad. Si bien un banco de filtros en escala Mel es el enfoque más popular para aplicaciones de reconocimiento de voz y verificación de hablantes, se ha descubierto que los filtros triangulares lineales o los filtros inversos gammatono son más adecuados para detectar artefactos de conversión de voz y suplantación de texto a voz. Al diseñar características SBCC para la detección de ataques de reproducción, los inventores razonaron que los dispositivos de grabación y reproducción diseñados para telefonía pueden presentar artefactos de canal en forma de atenuación o énfasis de ciertas frecuencias fuera de la banda de voz. (300-3400Hz). Estos artefactos son más pronunciados en dispositivos de grabación o reproducción de baja calidad, mientras que un par de dispositivos de grabación y reproducción de alta calidad tiende a tener una respuesta de frecuencia más plana.
La Figura 6 ilustra un proceso 600 para extraer características SBCC. Las características de SBCC pueden ser extraídas mediante, en la operación S610, filtrar la muestra de voz en subbandas antes de extraer las otras características de la muestra filtrada. En algunos ejemplos, la muestra de voz se filtra mediante un filtro pasa-alto, de modo que las características extraídas son los coeficientes cepstrales de alta frecuencia (HFCCs). En algunos casos, la frecuencia de corte y la pendiente del filtro pueden ajustarse dinámicamente para abordar diferentes tipos de suplantación, por ejemplo, cuando los tipos de suplantación ocurren en diferentes bandas de frecuencia. La extracción en sí puede comenzar en la operación de transformación S620, que incluye el cálculo de una transformada de Fourier de corto tiempo (STFT) en una trama de la muestra filtrada. Se calcula un espectro de potencia de la STFT en la operación S630. A continuación, en la operación S640, se calcula una amplitud de registro a partir del espectro de potencia, seguido en la operación S650 por el cálculo de una transformada de coseno discreta inversa (IDCT) de la amplitud de registro. Las características dinámicas se calculan a partir de la IDCT en la operación S660. El cálculo de las características dinámicas puede incluir el cálculo de las características delta y/o delta-delta (aceleración). En algunos casos, las características delta y delta-delta pueden calcularse utilizando un tamaño de ventana de 1.
Cada una de las primeras DNN (por ejemplo, 210 en la Figura 2) y la segunda DNN (por ejemplo, 220 en la Figura 2) puede incluir una capa de entrada, una o más capas ocultas, una o más capas completamente conectadas y una capa de salida. Cualquiera de las capas puede utilizar normalización por lotes. En algunos casos, la normalización por lotes puede aplicarse a todas las capas, al menos, de la primera DNN. Esto mitiga el sobreajuste. Experimentalmente, los inventores proporcionaron un fragmento de audio sin procesar (25,5 ms) a una capa de entrada de la primera DNN. Una señal de audio con una frecuencia de muestreo de 16 kHz corresponde a 408 muestras. Las capas ocultas consistían en un conjunto de capas convolucionales seguidas de una capa de agrupación máxima para agrupar en el tiempo, y luego otro conjunto de capas completamente conectadas. El número de unidades de la capa de salida se establece para que coincida con la dimensión de las características CQCC estándar (por ejemplo, "hechas a mano").
La Figura 7 es un diagrama de bloques de una segunda red neuronal profunda (DNN) 700, como la segunda DNN 520, configurada para clasificar características de suplantación a partir de características en tándem, como se ilustra en la Figura 5. Las características en tándem 710 ilustran la concatenación de las características SBCC con las características CQCC profunda. Aunque la Figura 7 ilustra un coeficiente CQCC profunda adjunto a un coeficiente SBCC, lo contrario también puede ser cierto (es decir, SBCC adjunto a CQCC profunda). Además, CQCC profunda puede combinarse con características extraídas que no sean SBCC. Las características resultantes en tándem son recibidas por el DNN 700, que puede incluir una pluralidad de capas convolucionales 720 seguidas de al menos una capa de agrupación máximo, una o más capas completamente conectadas 740 y condiciones del canal objetivo 750. En algunas realizaciones, la última capa de agrupación máxima 730 de la primera DNN puede estar configurada para extraer características de cuello de botella. Las características de cuello de botella son características del CQCC profunda que son sensibles a los artefactos de audio y/o canal. La mejora resulta en la capacidad de las características del cuello de botella de generalizar a condiciones de suplantación no vistas. Es decir, las realizaciones divulgadas en la actualidad pueden manejar condiciones de suplantación imprevistas de manera más precisa que los enfoques convencionales de antisuplantación.
El entrenamiento de una DNN puede tomar varios caminos. En la presente divulgación, la segunda DNN (por ejemplo, 220 en la Figura 2) puede ser entrenada mediante enfoques convencionales, con optimización realizada mediante impulso de gradiente y retropropagación. El segundo DNN puede ser entrenado para discriminar entre múltiples condiciones de canal. Por ejemplo, la segunda DNN clasificadora puede discriminar entre diferentes entornos de fondo (por ejemplo, hogar, oficina, restaurante, calle), entre diferentes dispositivos de adquisición (por ejemplo, laptops, teléfonos inteligentes, AMAZON ECHO) y/o diferentes infraestructuras de red (por ejemplo, línea fija, celular y VoIP).
Cualquiera de las características descritas en la presente descripción puede ser implementada en software o firmware ejecutado por un procesador programado con memoria, interfaces, etc., y puede proporcionar una salida que puede ser expresada visualmente (por ejemplo, a través de una indicación en una pantalla), auditivamente (por ejemplo, a través de un sonido específico) o mediante una acción (por ejemplo, finalizando una llamada, conectando a un operador en vivo a una llamada o solicitando información adicional al usuario). En algunos casos, una o ambas DNN pueden ser implementadas utilizando un procesador gráfico.
En la descripción detallada anterior, se presentan varios detalles específicos con el fin de proporcionar una comprensión de las mejoras para el reconocimiento de voz en un centro de llamadas, y describir los aparatos, técnicas, métodos, sistemas e instrucciones de software ejecutables por ordenador introducidos aquí. La descripción no debe considerarse como limitante del alcance de la invención, que está definido por las reivindicaciones.
La presente invención se refiere en general a un aparato para realizar las operaciones descritas en la presente memoria. Este aparato puede ser especialmente construido para los propósitos requeridos, como una unidad de procesamiento gráfico (GPU), un procesador de señal digital (DSP), un circuito integrado de aplicación específica (ASIC), una matriz de compuertas programable en campo (FPGA) o un circuito electrónico de propósito especial, o puede incluir una ordenador de propósito general activada o reconfigurada selectivamente por un programa informático almacenado en la ordenador. Un programa informático de este tipo puede almacenarse en un medio de almacenamiento legible por ordenador no transitorio, como, pero no limitado a, cualquier tipo de disco, incluyendo discos ópticos, CD-ROMs, discos magneto-ópticos, memorias de solo lectura (ROMs), memorias de acceso aleatorio (RAMs), EPROMs, EEPROMs, tarjetas magnéticas u ópticas, memoria integrada, almacenamiento en la "nube" o cualquier tipo de medio legible por ordenador adecuado para almacenar instrucciones electrónicas.
Los algoritmos y las visualizaciones presentadas aquí no están inherentemente relacionados con ningún ordenador o aparato en particular. Varios sistemas de propósito general pueden ser utilizados con programas de acuerdo con las enseñanzas aquí descritas, o puede resultar conveniente construir un aparato más especializado para llevar a cabo los pasos del método requerido. La estructura requerida para una variedad de estos sistemas aparecerá en la descripción aquí. Además, la presente invención no se describe con referencia a ningún lenguaje de programación en particular. Se apreciará que se pueden utilizar una variedad de lenguajes de programación para implementar las enseñanzas de la invención tal como se describen en la presente memoria.
Términos y frases utilizados en este documento, y sus variaciones, a menos que se indique expresamente lo contrario, deben interpretarse como abiertos en lugar de limitantes. Como ejemplos de lo anterior: el término "incluyendo" debe interpretarse como "incluyendo, sin limitación" o similar; el término "ejemplo" se utiliza para proporcionar instancias ilustrativas del elemento en discusión, no una lista exhaustiva o limitante del mismo; y adjetivos como "convencional", "tradicional", "estándar", "conocido" y términos de significado similar no deben interpretarse como limitantes del elemento descrito a un período de tiempo determinado o a un elemento disponible a partir de un momento dado, sino que deben interpretarse como abarcando tecnologías convencionales, tradicionales, normales o estándar que pueden estar disponibles o ser conocidas ahora o en cualquier momento en el futuro. Del mismo modo, un grupo de elementos vinculados con la conjunción "y" no debe interpretarse como que cada uno de esos elementos esté presente en el grupo, sino más bien como "y/o" a menos que se indique expresamente lo contrario. De manera similar, un grupo de elementos vinculados con la conjunción "o" no debe interpretarse como que requieren exclusividad mutua dentro de ese grupo, sino que también deben interpretarse como "y/o" a menos que se indique expresamente lo contrario.
Además, aunque los elementos, componentes o partes de la divulgación puedan ser descritos o reivindicados en singular, se contempla que el plural esté dentro de su ámbito, a menos que se indique explícitamente una limitación al singular. La presencia de palabras y frases amplias como "uno o más", "al menos", "pero no limitado a" u otras frases similares en algunos casos no debe interpretarse como que se pretende o se requiere el caso más estrecho en instancias donde dichas frases amplias pueden estar ausentes. Además, cuando se establece un rango, los límites superiores e inferiores del rango incluyen todas las unidades intermedias en él.
La descripción anterior de los ejemplos de realización divulgados se proporciona para permitir que cualquier persona experta en la técnica pueda fabricar o utilizar la presente invención. Varias modificaciones a estos ejemplos de realización serán fácilmente aparentes para aquellos expertos en la técnica.
Claims (13)
- REIVINDICACIONES1 Un método para detectar una fuente de voz suplantada, el método que comprende:recibir una muestra de voz (S310);extraer al menos características acústicas profundas (S320) de la muestra de voz utilizando una primera red neuronal profunda, DNN, en donde la primera DNN comprende una capa de agrupación configurada para extraer al menos una característica sensible a artefactos de audio y/o canal de las características acústicas profundas;calcular, a través de una segunda DNN que recibe las características acústicas profundas al menos extraídas, una primera probabilidad de que la muestra de voz incluya una condición de suplantación (S330) basada en parte en al menos una característica sensible a artefactos de audio y/o canal en las características acústicas profundas; y caracterizado porclasificar la muestra de voz (S340), utilizando un clasificador binario, como genuina o suplantada basándose en la primera probabilidad de que la muestra de voz incluya la condición de suplantación de la segunda DNN y una segunda probabilidad de que una muestra de inscripción incluya la condición de suplantación.
- 2 El método según la reivindicación 1, en donde las características acústicas profundas son los coeficientes cepstrales Q constantes profundos, CQCC, y/o en donde las condiciones de suplantación incluyen al menos una de las condiciones del canal y las condiciones de audio y, opcionalmente, en donde las condiciones del canal incluyen artefactos del canal específicos de al menos uno de diferentes entornos de fondo, diferentes dispositivos de adquisición y diferentes infraestructuras de red.
- 3 El método según la reivindicación 1, que además comprende:extraer otras características acústicas de la muestra de voz (S322);combinar las características acústicas profundas (S325) con las demás características acústicas para proporcionar características en tándem; yclasificar las características en tándem (S330) utilizando la segunda DNN, la segunda DNN configurada para determinar si las características en tándem incluyen una condición de no suplantación o al menos una condición de suplantación, en dondedicha clasificación de al menos las características acústicas profundas forma parte de la clasificación de las características en tándem.
- 4 El método según la reivindicación 3, en donde las otras características acústicas son las características de coeficientes cepstrales de subbanda, SBCC, el método además comprende:filtrar en subbandas (S610) la muestra de voz antes de extraer las otras características de la muestra filtrada, en donde dicha extracción de las otras características SBCC incluye:calcular una transformada de Fourier de tiempo corto, STFT, (S620) en una trama de la muestra filtrada, calcular un espectro de potencia (S630) a partir de la STFT, calcular una amplitud de registro (S640) a partir del espectro de potencia,calcular una transformada de coseno discreta inversa, IDCT, (S650) de la amplitud de registro, y calcular características dinámicas (S660) basadas en la IDCT.
- 5 El método según la reivindicación 4, en donde dicho filtrado de la muestra de audio incluye el uso de un filtro pasa alto, la muestra filtrada se limita a frecuencias por encima de una frecuencia de corte predeterminada, y/o en donde el cálculo de características dinámicas incluye el cálculo de al menos uno de características de aceleración delta y delta-delta.
- 6 El método según la reivindicación 1, en donde la segunda DNN está configurada para extraer características de múltiples clases a partir de al menos características acústicas profundas.
- 7 El método según la reivindicación 1, en donde la primera DNN y la segunda DNN incluyen al menos:una capa de entrada,capas ocultas, incluyendo una o más capas convolucionales (720) seguidas de una capa de agrupación máxima (S730),una o más capas completamente conectadas (740), yuna capa de salida (750).
- 8 El método según la reivindicación 7, en donde la capa de agrupación máxima de la primera DNN está configurada para extraer características de cuello de botella de las características acústicas profundas, siendo las características de cuello de botella características que son sensibles al menos a un artefacto, y/o en donde se aplica normalización por lotes, para al menos uno de la primera DNN y la segunda DNN, a una o más de: la capa de entrada, las capas ocultas, la una o más capas completamente conectadas y la capa de salida.
- 9 El método según la reivindicación 1, en donde la segunda DNN se entrena mediante al menos uno de incremento de gradiente y retropropagación, y/o en donde la segunda DNN se implementa utilizando uno o más procesadores gráficos.
- 10. El método según la reivindicación 1, en donde la configuración de la segunda DNN resulta de entrenar la segunda DNN con una pluralidad de muestras de voz no suplantadas y suplantadas conocidas.
- 11. Un aparato para detectar una fuente de voz suplantada, el aparato comprende:un circuito receptor configurado para recibir una muestra de voz (20);una primera red neuronal profunda, DNN, (210) configurada para extraer al menos características acústicas profundas (215) de la muestra de voz, en donde la primera DNN comprende una capa de agrupación configurada para extraer al menos una característica sensible a artefactos de audio y/o canal a partir de las características acústicas profundas; yuna segunda DNN (220) configurada para calcular a partir de las características acústicas profundas (215) una primera probabilidad (225) de que la muestra de voz (20) incluya una condición de suplantación basada en parte en al menos una característica sensible a artefactos de audio y/o canal en las características acústicas profundas; y caracterizado porun clasificador binario (230) configurado para clasificar la muestra de voz como genuina o suplantada en función de la primera probabilidad (225) de la segunda DNN y una segunda probabilidad (235) de que una muestra de inscripción incluya la condición de suplantación.
- 12. El aparato según la reivindicación 11, en donde las características acústicas profundas son los coeficientes cepstrales Q constantes profundos, CQCC, y/o en donde las condiciones de suplantación incluyen al menos una de las condiciones del canal y las condiciones de audio y, opcionalmente, en donde las condiciones del canal incluyen artefactos del canal específicos de al menos uno de los diferentes entornos de fondo, diferentes dispositivos de adquisición y diferentes infraestructuras de red.
- 13. El aparato según la reivindicación 11, que además comprende:circuitos (512) configurados para extraer otras características acústicas (517) de la muestra de voz; y un dispositivo de concatenación de características (518) configurado para combinar las características acústicas profundas (515) con las otras características acústicas (517) para proporcionar características en tándem, en dondela segunda DNN (520) está configurada además para clasificar las características en tándem y determinar si las características en tándem incluyen una condición de no suplantación o al menos una condición de suplantación, yla configuración para clasificar al menos las características acústicas profundas está incluida en dicha configuración para clasificar las características en tándem.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762466911P | 2017-03-03 | 2017-03-03 | |
PCT/US2018/020624 WO2018160943A1 (en) | 2017-03-03 | 2018-03-02 | Method and apparatus for detecting spoofing conditions |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2993990T3 true ES2993990T3 (en) | 2025-01-15 |
Family
ID=63355275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES18712052T Active ES2993990T3 (en) | 2017-03-03 | 2018-03-02 | Method and apparatus for detecting spoofing conditions |
Country Status (6)
Country | Link |
---|---|
US (2) | US10692502B2 (es) |
EP (1) | EP3590113B1 (es) |
AU (2) | AU2018226844B2 (es) |
CA (1) | CA3054063A1 (es) |
ES (1) | ES2993990T3 (es) |
WO (1) | WO2018160943A1 (es) |
Families Citing this family (89)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10397398B2 (en) | 2017-01-17 | 2019-08-27 | Pindrop Security, Inc. | Authentication using DTMF tones |
WO2018148298A1 (en) * | 2017-02-07 | 2018-08-16 | Pindrop Security, Inc. | Age compensation in biometric systems using time-interval, gender, and age |
CA3054063A1 (en) * | 2017-03-03 | 2018-09-07 | Pindrop Security, Inc. | Method and apparatus for detecting spoofing conditions |
GB2578386B (en) | 2017-06-27 | 2021-12-01 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
US10896673B1 (en) * | 2017-09-21 | 2021-01-19 | Wells Fargo Bank, N.A. | Authentication of impaired voices |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201719734D0 (en) * | 2017-10-30 | 2018-01-10 | Cirrus Logic Int Semiconductor Ltd | Speaker identification |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801661D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB201801659D0 (en) * | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
US10657971B1 (en) * | 2017-12-15 | 2020-05-19 | NortonLifeLock Inc. | Systems and methods for detecting suspicious voice calls |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
KR102531654B1 (ko) * | 2018-05-04 | 2023-05-11 | 삼성전자주식회사 | 음성 입력 인증 디바이스 및 그 방법 |
US10529356B2 (en) | 2018-05-15 | 2020-01-07 | Cirrus Logic, Inc. | Detecting unwanted audio signal components by comparing signals processed with differing linearity |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
CN109377983A (zh) * | 2018-10-18 | 2019-02-22 | 深圳壹账通智能科技有限公司 | 一种基于语音交互的骚扰电话拦截方法及相关设备 |
CN109300479A (zh) * | 2018-10-31 | 2019-02-01 | 桂林电子科技大学 | 一种回放语音的声纹识别方法、装置及存储介质 |
CN109243487B (zh) * | 2018-11-30 | 2022-12-27 | 宁波大学 | 一种归一化常q倒谱特征的回放语音检测方法 |
CN109801638B (zh) * | 2019-01-24 | 2023-10-13 | 平安科技(深圳)有限公司 | 语音验证方法、装置、计算机设备及存储介质 |
US11289098B2 (en) * | 2019-03-08 | 2022-03-29 | Samsung Electronics Co., Ltd. | Method and apparatus with speaker recognition registration |
US12015637B2 (en) * | 2019-04-08 | 2024-06-18 | Pindrop Security, Inc. | Systems and methods for end-to-end architectures for voice spoofing detection |
CN110298150B (zh) * | 2019-05-29 | 2021-11-26 | 上海拍拍贷金融信息服务有限公司 | 一种基于语音识别的身份验证方法及系统 |
CN110232928B (zh) * | 2019-06-13 | 2021-05-25 | 思必驰科技股份有限公司 | 文本无关说话人验证方法和装置 |
CN110232927B (zh) * | 2019-06-13 | 2021-08-13 | 思必驰科技股份有限公司 | 说话人验证反欺骗方法和装置 |
CN110223676A (zh) * | 2019-06-14 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 欺骗录音检测神经网络模型的优化方法及系统 |
CN110211604A (zh) * | 2019-06-17 | 2019-09-06 | 广东技术师范大学 | 一种用于语音变形检测的深度残差网络结构 |
CN114041184A (zh) | 2019-06-28 | 2022-02-11 | 日本电气株式会社 | 欺骗检测装置、欺骗检测方法和计算机可读存储介质 |
CN110491391B (zh) * | 2019-07-02 | 2021-09-17 | 厦门大学 | 一种基于深度神经网络的欺骗语音检测方法 |
CN112447187B (zh) * | 2019-09-02 | 2024-09-06 | 富士通株式会社 | 声音事件的识别装置和方法 |
US11158329B2 (en) * | 2019-09-11 | 2021-10-26 | Artificial Intelligence Foundation, Inc. | Identification of fake audio content |
CN110689885B (zh) * | 2019-09-18 | 2023-05-23 | 平安科技(深圳)有限公司 | 机器合成语音识别方法、装置、存储介质及电子设备 |
CN110797031A (zh) * | 2019-09-19 | 2020-02-14 | 厦门快商通科技股份有限公司 | 语音变音检测方法、系统、移动终端及存储介质 |
CN112598107A (zh) * | 2019-10-01 | 2021-04-02 | 创鑫智慧股份有限公司 | 数据处理系统及其数据处理方法 |
US11039205B2 (en) | 2019-10-09 | 2021-06-15 | Sony Interactive Entertainment Inc. | Fake video detection using block chain |
EP4049174A4 (en) * | 2019-10-21 | 2024-01-03 | Sony Interactive Entertainment Inc. | FAKE VIDEO DETECTION |
US11551474B2 (en) | 2019-10-21 | 2023-01-10 | Sony Interactive Entertainment Inc. | Fake video detection |
CN110827798B (zh) * | 2019-11-12 | 2020-09-11 | 广州欢聊网络科技有限公司 | 一种音频信号处理的方法及装置 |
CN110782877A (zh) * | 2019-11-19 | 2020-02-11 | 合肥工业大学 | 基于Fisher混合特征和神经网络的语音鉴别方法和系统 |
WO2021126444A1 (en) * | 2019-12-20 | 2021-06-24 | Eduworks Corporation | Real-time voice phishing detection |
WO2021137754A1 (en) * | 2019-12-31 | 2021-07-08 | National University Of Singapore | Feedback-controlled voice conversion |
CN111243621A (zh) * | 2020-01-14 | 2020-06-05 | 四川大学 | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 |
AU2021212621B2 (en) * | 2020-01-27 | 2024-02-22 | Pindrop Security, Inc. | Robust spoofing detection system using deep residual neural networks |
CN111292754B (zh) * | 2020-02-17 | 2025-03-25 | 平安科技(深圳)有限公司 | 语音信号处理方法、装置及设备 |
US11527245B2 (en) * | 2020-04-29 | 2022-12-13 | Rovi Guides, Inc. | Systems and methods for avoiding inadvertently triggering a voice assistant |
CN111835784B (zh) * | 2020-07-22 | 2022-05-13 | 思必驰科技股份有限公司 | 用于重放攻击检测系统的数据泛化方法及系统 |
WO2022029044A1 (en) * | 2020-08-03 | 2022-02-10 | Sony Group Corporation | Method and electronic device |
WO2022040524A1 (en) | 2020-08-21 | 2022-02-24 | Pindrop Security, Inc. | Improving speaker recognition with quality indicators |
CN112102808A (zh) * | 2020-08-25 | 2020-12-18 | 上海红阵信息科技有限公司 | 用于伪造语音的深度神经网络的构建方法及系统 |
JP2023547808A (ja) * | 2020-10-16 | 2023-11-14 | ピンドロップ セキュリティー、インコーポレイテッド | 視聴覚型ディープフェイク検出 |
US11756572B2 (en) * | 2020-12-02 | 2023-09-12 | Google Llc | Self-supervised speech representations for fake audio detection |
CN112735381B (zh) * | 2020-12-29 | 2022-09-27 | 四川虹微技术有限公司 | 一种模型更新方法及装置 |
CN112927694B (zh) * | 2021-03-08 | 2022-09-13 | 中国地质大学(武汉) | 一种基于融合声纹特征的语音指令合法性判别方法 |
CN115083419A (zh) * | 2021-03-16 | 2022-09-20 | 京东科技控股股份有限公司 | 说话人识别方法及装置、设备、存储介质 |
EP4327323A4 (en) * | 2021-04-21 | 2024-11-13 | Microsoft Technology Licensing, LLC | SYNTHETIC SPEECH DETECTION |
US11483427B1 (en) | 2021-04-28 | 2022-10-25 | Zoom Video Communications, Inc. | Call recording authentication |
CN113436646B (zh) * | 2021-06-10 | 2022-09-23 | 杭州电子科技大学 | 一种采用联合特征与随机森林的伪装语音检测方法 |
WO2023283823A1 (zh) * | 2021-07-14 | 2023-01-19 | 东莞理工学院 | 语音对抗样本检测方法、装置、设备及计算机可读存储介质 |
CN113284508B (zh) * | 2021-07-21 | 2021-11-09 | 中国科学院自动化研究所 | 基于层级区分的生成音频检测系统 |
CN113299315B (zh) * | 2021-07-27 | 2021-10-15 | 中国科学院自动化研究所 | 一种无需原始数据存储的持续性学习生成语音特征的方法 |
CN113314148B (zh) * | 2021-07-29 | 2021-11-09 | 中国科学院自动化研究所 | 基于原始波形的轻量级神经网络生成语音鉴别方法和系统 |
US12273331B2 (en) | 2021-07-30 | 2025-04-08 | Zoom Communications, Inc. | Call recording authentication using distributed transaction ledgers |
CN113488027A (zh) * | 2021-09-08 | 2021-10-08 | 中国科学院自动化研究所 | 一种层级分类的生成音频溯源方法及存储介质、计算机设备 |
CN113488070B (zh) * | 2021-09-08 | 2021-11-16 | 中国科学院自动化研究所 | 篡改音频的检测方法、装置、电子设备及存储介质 |
CN113851147B (zh) * | 2021-10-19 | 2025-05-13 | 北京百度网讯科技有限公司 | 音频识别方法、音频识别模型训练方法、装置、电子设备 |
CN114420133B (zh) * | 2022-02-16 | 2024-10-29 | 平安科技(深圳)有限公司 | 欺诈语音检测方法、装置、计算机设备以及可读存储介质 |
CN114898758A (zh) * | 2022-05-27 | 2022-08-12 | 平安普惠企业管理有限公司 | 攻击语音检测方法、装置、设备及介质 |
US12236944B2 (en) * | 2022-05-27 | 2025-02-25 | Accenture Global Solutions Limited | Systems and methods to improve trust in conversations with deep learning models |
CN115083423B (zh) * | 2022-07-21 | 2022-11-15 | 中国科学院自动化研究所 | 语音鉴别的数据处理方法和装置 |
KR20240088457A (ko) * | 2022-12-13 | 2024-06-20 | 삼성전자주식회사 | 합성 음성을 식별하는 전자 장치 및 그 제어 방법 |
US20250022472A1 (en) * | 2023-07-11 | 2025-01-16 | Daon Technology | Methods and systems for creating a synthetic speech detection algorithm and enhancing detection of fraudulent audio data using the algorithm |
CN117393000B (zh) * | 2023-11-09 | 2024-04-16 | 南京邮电大学 | 一种基于神经网络和特征融合的合成语音检测方法 |
US12189712B1 (en) * | 2024-01-29 | 2025-01-07 | Reality Defender, Inc. | Audio spoof detection using attention-based contrastive learning |
US12210606B1 (en) * | 2024-04-08 | 2025-01-28 | Daon Technology | Methods and systems for enhancing the detection of synthetic speech |
CN118038890B (zh) * | 2024-04-11 | 2024-06-18 | 西北工业大学 | 基于特征融合和联合神经网络的细粒度水声目标识别方法 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100632400B1 (ko) | 2005-11-11 | 2006-10-11 | 한국전자통신연구원 | 음성 인식을 이용한 입출력 장치 및 그 방법 |
US20150112682A1 (en) | 2008-12-10 | 2015-04-23 | Agnitio Sl | Method for verifying the identity of a speaker and related computer readable medium and computer |
US9767806B2 (en) | 2013-09-24 | 2017-09-19 | Cirrus Logic International Semiconductor Ltd. | Anti-spoofing |
US8145562B2 (en) | 2009-03-09 | 2012-03-27 | Moshe Wasserblat | Apparatus and method for fraud prevention |
KR101070527B1 (ko) | 2009-04-24 | 2011-10-05 | 서울대학교산학협력단 | 빛 퍼짐을 이용한 상호작용깊이 측정장치, 측정방법 및 이를 이용한 양전자 방출 단층촬영장치 |
US8831760B2 (en) * | 2009-10-01 | 2014-09-09 | (CRIM) Centre de Recherche Informatique de Montreal | Content based audio copy detection |
US9502038B2 (en) | 2013-01-28 | 2016-11-22 | Tencent Technology (Shenzhen) Company Limited | Method and device for voiceprint recognition |
US9372976B2 (en) | 2013-03-20 | 2016-06-21 | Dror Bukai | Automatic learning multi-modal fraud prevention (LMFP) system |
US20160293167A1 (en) | 2013-10-10 | 2016-10-06 | Google Inc. | Speaker recognition using neural networks |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US10476872B2 (en) | 2015-02-20 | 2019-11-12 | Sri International | Joint speaker authentication and key phrase identification |
US11823658B2 (en) * | 2015-02-20 | 2023-11-21 | Sri International | Trial-based calibration for audio-based identification, recognition, and detection system |
US9721559B2 (en) * | 2015-04-17 | 2017-08-01 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
KR102446392B1 (ko) | 2015-09-23 | 2022-09-23 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
CN105450965B (zh) | 2015-12-09 | 2019-07-19 | 北京小鸟看看科技有限公司 | 一种视频转换方法、装置和系统 |
US10366687B2 (en) | 2015-12-10 | 2019-07-30 | Nuance Communications, Inc. | System and methods for adapting neural network acoustic models |
US10235994B2 (en) * | 2016-03-04 | 2019-03-19 | Microsoft Technology Licensing, Llc | Modular deep learning model |
US10460747B2 (en) * | 2016-05-10 | 2019-10-29 | Google Llc | Frequency based audio analysis using neural networks |
US9824692B1 (en) * | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
CA3179080A1 (en) * | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
US10360494B2 (en) * | 2016-11-30 | 2019-07-23 | Altumview Systems Inc. | Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules |
US10140980B2 (en) * | 2016-12-21 | 2018-11-27 | Google LCC | Complex linear projection for acoustic modeling |
CA3054063A1 (en) * | 2017-03-03 | 2018-09-07 | Pindrop Security, Inc. | Method and apparatus for detecting spoofing conditions |
CN107068167A (zh) * | 2017-03-13 | 2017-08-18 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 融合多种端到端神经网络结构的说话人感冒症状识别方法 |
US10311872B2 (en) * | 2017-07-25 | 2019-06-04 | Google Llc | Utterance classifier |
US10963781B2 (en) * | 2017-08-14 | 2021-03-30 | Microsoft Technology Licensing, Llc | Classification of audio segments using a classification network |
US10418957B1 (en) * | 2018-06-29 | 2019-09-17 | Amazon Technologies, Inc. | Audio event detection |
US11257503B1 (en) * | 2021-03-10 | 2022-02-22 | Vikram Ramesh Lakkavalli | Speaker recognition using domain independent embedding |
-
2018
- 2018-03-02 CA CA3054063A patent/CA3054063A1/en active Pending
- 2018-03-02 ES ES18712052T patent/ES2993990T3/es active Active
- 2018-03-02 US US15/910,387 patent/US10692502B2/en active Active
- 2018-03-02 EP EP18712052.2A patent/EP3590113B1/en active Active
- 2018-03-02 AU AU2018226844A patent/AU2018226844B2/en active Active
- 2018-03-02 WO PCT/US2018/020624 patent/WO2018160943A1/en active Application Filing
-
2020
- 2020-06-22 US US16/907,951 patent/US11488605B2/en active Active
-
2021
- 2021-11-30 AU AU2021277642A patent/AU2021277642B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP3590113A1 (en) | 2020-01-08 |
US11488605B2 (en) | 2022-11-01 |
US10692502B2 (en) | 2020-06-23 |
EP3590113B1 (en) | 2024-05-29 |
AU2021277642A1 (en) | 2021-12-23 |
AU2018226844A1 (en) | 2019-09-19 |
AU2018226844B2 (en) | 2021-11-18 |
AU2021277642B2 (en) | 2023-06-15 |
CA3054063A1 (en) | 2018-09-07 |
US20200321009A1 (en) | 2020-10-08 |
WO2018160943A1 (en) | 2018-09-07 |
US20180254046A1 (en) | 2018-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2993990T3 (en) | Method and apparatus for detecting spoofing conditions | |
Chen et al. | Who is real bob? adversarial attacks on speaker recognition systems | |
US8589167B2 (en) | Speaker liveness detection | |
Gomez-Alanis et al. | A gated recurrent convolutional neural network for robust spoofing detection | |
WO2021139425A1 (zh) | 语音端点检测方法、装置、设备及存储介质 | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
Chen et al. | Towards understanding and mitigating audio adversarial examples for speaker recognition | |
Janicki et al. | An assessment of automatic speaker verification vulnerabilities to replay spoofing attacks | |
Sriskandaraja et al. | Front-end for antispoofing countermeasures in speaker verification: Scattering spectral decomposition | |
GB2541466A (en) | Replay attack detection | |
Kons et al. | Voice transformation-based spoofing of text-dependent speaker verification systems. | |
Nandyal et al. | MFCC based text-dependent speaker identification using BPNN | |
Singh et al. | Usefulness of linear prediction residual for replay attack detection | |
Kumari et al. | Comparison of LPCC and MFCC features and GMM and GMM-UBM modeling for limited data speaker verification | |
Weng et al. | The SYSU system for the interspeech 2015 automatic speaker verification spoofing and countermeasures challenge | |
Dişken | Complementary regional energy features for spoofed speech detection | |
Li et al. | Cross-domain audio deepfake detection: Dataset and analysis | |
Soni et al. | Novel Subband Autoencoder Features for Detection of Spoofed Speech. | |
Fang et al. | Transforming acoustic characteristics to deceive playback spoofing countermeasures of speaker verification systems | |
Impedovo et al. | An Investigation on Voice Mimicry Attacks to a Speaker Recognition System. | |
Smiatacz | Playback attack detection: the search for the ultimate set of antispoof features | |
Shi et al. | Anti-replay: A fast and lightweight voice replay attack detection system | |
Tak | End-to-end modeling for speech spoofing and deepfake detection | |
Feng et al. | SHNU anti-spoofing systems for asvspoof 2019 challenge | |
Aziz et al. | Experimental studies for improving the performance of children's speaker verification system using short utterances |