+

IT202100017513A1 - Metodo di elaborazione di un flusso audio per il riconoscimento di voci e/o suoni di sottofondo e relativo sistema - Google Patents

Metodo di elaborazione di un flusso audio per il riconoscimento di voci e/o suoni di sottofondo e relativo sistema Download PDF

Info

Publication number
IT202100017513A1
IT202100017513A1 IT102021000017513A IT202100017513A IT202100017513A1 IT 202100017513 A1 IT202100017513 A1 IT 202100017513A1 IT 102021000017513 A IT102021000017513 A IT 102021000017513A IT 202100017513 A IT202100017513 A IT 202100017513A IT 202100017513 A1 IT202100017513 A1 IT 202100017513A1
Authority
IT
Italy
Prior art keywords
frames
voice
background sound
audio
signal
Prior art date
Application number
IT102021000017513A
Other languages
English (en)
Inventor
Presti Gaetano Lo
Fabio Vincenzo Colacino
Ilaria Iannicola
Original Assignee
Pragma Etimos S R L
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pragma Etimos S R L filed Critical Pragma Etimos S R L
Priority to IT102021000017513A priority Critical patent/IT202100017513A1/it
Priority to US17/856,146 priority patent/US20230005479A1/en
Publication of IT202100017513A1 publication Critical patent/IT202100017513A1/it

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

DESCRIZIONE
Campo di applicazione
La presente invenzione fa riferimento ad un metodo di elaborazione di un flusso audio e ad un relativo sistema.
L'invenzione riguarda in particolare, ma non esclusivamente, un metodo di elaborazione di un flusso audio per il riconoscimento di voci e/o suoni di sottofondo e la descrizione che segue ? fatta con riferimento a questo campo di applicazione con il solo scopo di semplificarne l'esposizione.
Arte nota
Come ? ben noto, la biometria vocale ? una tecnologia che consente di riconoscere le persone attraverso la voce.
Tale tecnologia sta trovando sempre pi? largo impiego grazie ai pi? recenti sviluppi nell?elaborazione dei dati multimediali, che hanno portato alla creazione di strumenti hardware e software in grado di gestire grandi quantit? di tali dati in tempi molto rapidi.
In particolare, di grande interesse sono in quest?ambito i cosiddetti ?sistemi conversazionali intelligenti? in grado di ottenere informazioni a partire da un contatto telefonico grazie al riconoscimento biometrico della voce ed alla conseguente identificazione delle persone tramite la voce.
? possibile utilizzare una tale identificazione tramite la voce in ambito commerciale per accrescere il livello di personalizzazione dei servizi erogati telefonicamente, ad esempio tramite i cosiddetti call o contact center, riducendo i tempi che normalmente vengono spesi all?inizio del contatto per raccogliere i dati del chiamante, migliorando in tal modo l?esperienza dei clienti nel suo complesso.
La biometria vocale pu? essere altres? utilizzata in ambito ?security? per facilitare l?accesso fisico a varchi, ad esempio di siti controllati come un commissariato di polizia, oppure per consentire l?accesso informatico a programmi o piattaforme Internet, per creare firme vocali con cui sottoscrivere documenti o autorizzare transazioni finanziarie o anche per consentire l?accesso a dati personali quali dati sanitari o relativi a informazioni riservate presso la pubblica amministrazione, con garanzia della sicurezza di accesso e con il rispetto della privacy dei dati degli utenti coinvolti. Il vantaggio principale della biometria vocale consiste nel fatto che risulta difficile effettuarne una contraffazione e che pu? essere facilmente combinata con altri fattori di riconoscimento, aumentando cos? il livello di sicurezza ottenibile.
Lo sviluppo di soluzioni utilizzanti l?identificazione di una persona tramite la voce in cos? diversi campi ha messo altres? a disposizione sempre pi? sofisticati software di elaborazione e trattamento di dati multimediali, in particolare comprendenti suoni, indicati anche come file o flussi audio.
Alcuni di tali software sono anche impiegati in ambito legale per la gestione delle intercettazioni, telefoniche o ambientali, che risentono tuttavia fortemente dell?assenza di nitidezza dei suoni raccolti e della presenza dei suoni di sottofondo.
Il problema tecnico della presente invenzione ? quello di escogitare un metodo di elaborazione di un flusso audio, avente caratteristiche strutturali e funzionali tali da consentire di riconoscere correttamente le voci e/o i suoni di sottofondo contenuti in tale flusso audio, superando le limitazioni e gli inconvenienti che tuttora affliggono i metodi realizzati secondo l'arte nota.
Sommario dell'invenzione
L'idea di soluzione che sta alla base della presente invenzione ? quella di predisporre almeno un database di voci classificate ed almeno un database di suoni di sottofondo classificati e di operare un confronto tra tali voci e suoni di sottofondo classificati e le voci e i suoni estrapolati da un flusso audio opportunamente rielaborato cos? da individuare eventuali corrispondenze.
Sulla base di tale idea di soluzione il problema tecnico ? risolto da un metodo di elaborazione di un flusso audio comprendente le fasi di:
- ricezione di un segnale di flusso audio;
- predisposizione di almeno un database comprendente modelli di voci e/o di suoni di sottofondo classificati sulla base di almeno un parametro caratteristico di segnali modello;
- elaborazione del segnale di flusso audio suddividendolo in una pluralit? di frame audio classificati in una pluralit? di frame di voce e in una pluralit? di frame di suono di sottofondo;
- estrazione del parametro caratteristico dalla pluralit? di frame di voce e dalla pluralit? di frame di suono di sottofondo;
- confronto dei parametri caratteristici di tali frame di voce e frame di suono di sottofondo contenuti nel segnale di flusso audio con i modelli di voce e/o modelli di suono di sottofondo classificati contenuti nel database; e
- generazione di un risultato comprendente almeno una percentuale di corrispondenza dei frame di voce e dei frame di suono di sottofondo con uno o pi? modelli di voce e/o modelli di suono di sottofondo del database.
Pi? in particolare, l?invenzione comprende le seguenti caratteristiche supplementari e facoltative, prese singolarmente o all?occorrenza in combinazione.
Secondo un aspetto dell?invenzione, la fase di elaborazione di segnale di flusso audio pu? utilizzare almeno un algoritmo di riconoscimento vocale per classificare i frame di voce e i frame di suono di sottofondo, un frame contenente sia voce sia suono di sottofondo essendo preferibilmente classificato come frame di voce.
Ulteriormente, secondo un altro aspetto dell?invenzione, il parametro caratteristico estratto dai frame pu? essere il MEL e la fase di estrazione genera array numerici corrispondenti ai frame di voce e ai frame di suono di sottofondo estratti dal segnale di flusso audio, i quali vengono confrontati con corrispondenti array numerici dei modelli di voce e modelli di suono di sottofondo classificati memorizzati nel database.
Secondo un altro aspetto dell?invenzione, il metodo pu? comprendere ulteriormente una fase di generazione di un segnale di uscita successiva alla fase di generazione del risultato, tale segnale di uscita comprendendo preferibilmente una rappresentazione grafica dell?almeno una percentuale di compatibilit? compresa nel risultato ed eventualmente i frame audio che sono stati estratti ed eventualmente elaborati dal segnale di flusso audio.
Il metodo pu? altres? comprendere ulteriormente una fase di pre-trattamento del segnale di flusso audio, preferibilmente atta a normalizzare tale segnale uniformandone il volume, con opportuni aumenti e decrementi in base all?ampiezza del segnale stesso, tale fase di pre-trattamento precedendo la fase di elaborazione e suddivisione in frame del segnale di flusso audio.
Ulteriormente, il metodo pu? comprendere una fase di posttrattamento dei frame di voce e dei frame di suono di sottofondo estratti dal segnale di flusso audio in cui le frequenze dei frame di suono di sottofondo sono sottratte dai frame di voce, tale fase di post-trattamento precedendo la fase di estrazione del parametro caratteristico.
Secondo un altro aspetto dell?invenzione, la fase di predisposizione di almeno un database pu? comprendere a sua volta le fasi di:
- ricezione di un segnale audio modello, relativo ad una voce oppure ad un suono di sottofondo di interesse;
- separazione del segnale audio modello in una pluralit? di frame di voce oppure di frame di suono di sottofondo;
- eliminazione di frame non compatibili con tale segnale audio modello;
- estrazione del parametro caratteristico dei frame individuati e creazione del modello di voce oppure del modello di suono di sottofondo classificato ; e
- memorizzazione del modello classificato nell?almeno un database.
Secondo un altro aspetto dell?invenzione, la fase di creazione di un modello di voce oppure di suono di sottofondo pu? essere realizzata mediante un modello neuronale.
Ulteriormente, il metodo pu? utilizzare una piattaforma di Machine Learning e un modello di riconoscimento vocale che viene addestrato sulla base di caratteristiche dei segnali modello sottoposti a training.
Il problema tecnico ? altres? risolto da un sistema di elaborazione di un flusso audio del tipo comprendente:
- un blocco di separazione atto a ricevere un segnale di flusso audio e a suddividerlo in una pluralit? di frame audio classificati come frame di voce e frame di suono di sottofondo, opportunamente distinti;
- un blocco di predizione e classificazione atto a ricevere i frame di voce e i frame di suono di sottofondo e ad estrarre da essi almeno un parametro caratteristico; e
- un sistema di memorizzazione di modelli di segnali audio classificati, comprendente almeno un database atto a memorizzare modelli di voce e/o modelli di suono di sottofondo classificati,
tale sistema di memorizzazione essendo connesso al blocco di predizione e classificazione che effettua un confronto dei parametri caratteristici dei frame di voce e dei frame di suono di sottofondo contenuti nel segnale di flusso audio con i modelli di voce e/o modelli di suono di sottofondo classificati memorizzati nel database e genera un risultato comprendente almeno una percentuale di corrispondenza dei frame di voce e/o dei frame di suono di sottofondo con uno o pi? modelli di voce e/o modelli di suono di sottofondo del database.
Secondo un aspetto dell?invenzione, il blocco di separazione pu? utilizzare almeno un algoritmo di riconoscimento vocale per classificare i frame di voce e i frame di suono di sottofondo, un frame contenente sia voce sia suono di sottofondo essendo preferibilmente classificato come frame di voce.
Ulteriormente, il blocco di predizione e classificazione pu? estrarre il parametro caratteristico MEL dai frame di voce e dai frame di suono di sottofondo e generare array numerici corrispondenti ai frame di voce e ai frame di suono di sottofondo e i modelli di voce e/o modelli di suono di sottofondo di detto database possono comprendere corrispondenti array numerici relativi al parametro caratteristico MEL di segnali modello utilizzati per creare i modelli di voce e/o modelli di suono di sottofondo.
Il sistema pu? altres? comprendere un blocco di generazione di un segnale di uscita, comprendente una rappresentazione grafica dell?almeno una percentuale di compatibilit? compresa nel risultato ed eventualmente i frame audio che sono stati estratti ed eventualmente elaborati dal segnale di flusso audio.
Secondo un altro aspetto dell?invenzione, il sistema pu? ulteriormente comprendere un blocco di pre-trattamento del segnale di flusso audio atto a normalizzare tale segnale di flusso audio per uniformarne il volume, con opportuni aumenti e decrementi in base all?ampiezza del segnale stesso, prima di fornirlo al blocco di separazione.
Secondo un altro aspetto dell?invenzione, il sistema pu? ulteriormente comprendere un blocco di post-trattamento dei frame di voce e dei frame di suono di sottofondo estratti dal segnale di flusso audio dal blocco di separazione, tale blocco di post-trattamento sottraendo dai frame di voce le frequenze dei frame di suono di sottofondo prima di fornire detti frame al blocco di predizione e classificazione.
Ulteriormente, secondo un altro aspetto dell?invenzione, il sistema pu? comprendere un sistema di riconoscimento e classificazione di almeno un segnale audio modello, relativo ad una voce oppure ad un suono di sottofondo di interesse, a sua volta includente:
- un blocco di elaborazione, che riceve il segnale audio modello e lo scompone in una pluralit? di frame di voce oppure di frame di suono di sottofondo, eliminando i frame non compatibili con il segnale audio modello; e
- un blocco di modellizzazione atto ad estrarre il parametro caratteristico dai frame generati dal blocco di elaborazione e a creare il modello di voce oppure il modello di suono di sottofondo classificato, da memorizzare nel database.
Secondo tale aspetto dell?invenzione, il blocco di modellizzazione del sistema di riconoscimento e classificazione pu? essere basato su un modello neuronale.
Ulteriormente, tale blocco di modellizzazione del sistema di riconoscimento e classificazione pu? estrarre il parametro caratteristico MEL e generare un modello di voce o di suono di sottofondo classificato nella forma di un array di valori numerici, elaborato grazie ad algoritmi di Machine Learning.
Il sistema di riconoscimento e classificazione pu? altres? comprendere un blocco di pre-trattamento, che riceve il segnale audio modello e ne effettua la normalizzazione uniformandone il volume prima di fornirlo al blocco di elaborazione.
Infine, secondo un altro aspetto ancora dell?invenzione, il segnale di flusso audio pu? essere ottenuto mediante una intercettazione ambientale.
Le caratteristiche ed i vantaggi del metodo e del sistema secondo l'invenzione risulteranno dalla descrizione, fatta qui di seguito, di un suo esempio di realizzazione dato a titolo indicativo e non limitativo con riferimento ai disegni allegati.
Breve descrizione dei disegni
In tali disegni:
- la Figura 1: mostra schematicamente una possibile applicazione ad una intercettazione ambientale di un sistema di elaborazione di un flusso audio secondo la presente invenzione;
- la Figura 2: mostra un sistema di elaborazione di un flusso audio che implementa il metodo secondo la presente invenzione utilizzato nell?applicazione di Figura 1; e
- le Figure 3A e 3B: mostrano sistemi di riconoscimento e classificazione per la creazione di database comprendenti voci e suoni di sottofondo classificati, rispettivamente, utilizzati dal sistema di Figura 2.
Descrizione dettagliata
Con riferimento a tali figure, ed in particolare alla Figura 1, con 10 ? complessivamente indicato un sistema di elaborazione di un flusso audio secondo la presente invenzione, nel caso esemplificativo di una applicazione ad una intercettazione ambientale.
? opportuno notare che le figure rappresentano viste schematiche del sistema secondo l?invenzione e dei suoi componenti e non sono disegnate in scala, ma sono invece disegnate in modo da enfatizzare le caratteristiche importanti dell?invenzione.
Inoltre, gli elementi che compongono il sistema illustrato sono mostrati solamente in modo schematico.
Infine, i diversi aspetti dell?invenzione rappresentati a titolo esemplificativo nelle figure sono ovviamente combinabili tra loro ed intercambiabili da una forma di realizzazione ad un?altra.
In particolare, nella Figura 1, viene mostrato l?utilizzo del sistema 10 di elaborazione di un flusso audio quando un segnale di flusso audio FA ? derivato da una intercettazione ambientale. In tal caso, il segnale di flusso audio FA comprende i suoni presenti in un ambiente 2, quale una stanza come illustrato in figura, e viene rilevato grazie ad un sistema 3 di rilevazione audio che genera un segnale di flusso audio FA.
Nell?esempio illustrato in Figura 1, il sistema 3 di rilevazione audio comprende una pluralit? di microdispositivi 4 di rilevazione audio disposti all?interno dell?ambiente 2, quali microfoni miniaturizzati, in particolare opportunamente nascosti e/o posizionati in punti acusticamente di interesse. Il sistema 3 di rilevazione audio pu? altres? comprendere uno o pi? dispositivi di rilevazione audio da remoto, quale un microfono direzionale 5, opportunamente disposto per rilevare suoni dall?ambiente 2, come mostrato in Figura 1.
Ovviamente, ? parimenti possibile considerare un sistema 3 di rilevazione audio comprendente diversi dispositivi di rilevazione audio, scelti ad esempio tra un telefono, fisso o cellulare, o un microfono in esso integrato, una videocamera dotata di microfono, un microfono integrato in un computer o in un altro dispositivo hardware quale un tablet o un dispositivo PDA, un impianto di intrattenimento per una casa o un?automobile, altri tipi di microfono che possono essere disposti nell?ambiente 2 oppure in grado di effettuare rilevazioni da remoto, comunque generando un segnale di flusso audio FA.
Allo stesso modo, ? possibile utilizzare il sistema 10 di elaborazione di un flusso audio su un segnale di flusso audio FA rilevato da un ambiente 2 diverso da una stanza, quale un altro luogo chiuso privato, come un intero appartamento, una rimessa o un ambiente di lavoro, un luogo chiuso pubblico, come un edificio pubblico, un hotel o un museo, oppure un luogo aperto, pubblico o privato, quale un giardino, una strada, una piazza o un parcheggio, solo per nominarne alcuni.
Opportunamente secondo la presente invenzione, il segnale di flusso audio FA viene trasmesso, mediante un dispositivo 6 di ricetrasmissione di segnali, quale un router, al sistema 10 di elaborazione di un flusso audio, atto ad opportunamente elaborare il segnale di flusso audio FA, come verr? descritto nel seguito in maggior dettaglio con riferimento alla Figura 2.
Il dispositivo 6 di ricetrasmissione di segnali pu? altres? comprendere mezzi di memorizzazione 7 atti a memorizzare uno o pi? segnali di flusso audio FA prima della loro trasmissione ed eventualmente mezzi di temporizzazione 8, in grado di sincronizzare la trasmissione del o dei segnali di flusso audio FA memorizzati, ad esempio secondo tempistiche prestabilite ed eventualmente modificabili.
Facendo riferimento alla Figura 2, il sistema 10 di elaborazione di un flusso audio riceve in ingresso un segnale di flusso audio FA da trattare, indicato anche come segnale di ingresso IN. Tale segnale di flusso audio FA pu? derivare ad esempio da una intercettazione ambientale, come nel caso illustrato in Figura 1.
Il sistema 10 di elaborazione di un flusso audio comprende almeno un primo blocco 11 di pre-trattamento del segnale di flusso audio FA ricevuto in ingresso, atto a generare un segnale di flusso audio pre-trattato FAPRE. In particolare, il primo blocco 11 di pre-trattamento ? atto a normalizzare il segnale di flusso audio FA per uniformare il volume dello stesso, con aumenti e decrementi in base all?ampiezza del segnale, riportando eventuali picchi ad una stessa unit? di misura e rendendo cos? pi? intellegibili le voci o suono di sottofondo in esso contenuti.
E? possibile anche utilizzare il primo blocco 11 di pretrattamento per effettuare altre elaborazioni del segnale di flusso audio FA, ad esempio operazioni di filtraggio per eliminare eventuali frequenze non di interesse. Tali operazioni di pre-trattamento del segnale di flusso audio FA, pur estremamente utili, possono essere evitate, ad esempio, nel caso di segnali con volume costante, e sono quindi opzionali.
Opportunamente, il sistema 10 di elaborazione di un flusso audio comprende inoltre un secondo blocco 12 di separazione del segnale di flusso audio FA, atto a ricevere il segnale pre-trattato FAPRE e a suddividerlo in una pluralit? di unit? elementari o frame audio; tale secondo blocco 12 di separazione individuando inoltre quali frame appartengono ad un segnale voce e quali ad un segnale di suono di sottofondo, classificandoli come frame di voce V* e frame di suono di sottofondo SF*, opportunamente distinti. Ovviamente, nel caso in cui il segnale di flusso audio FA non venisse pre-trattato, il secondo blocco 12 di separazione ? in grado di operare direttamente su tale segnale di flusso audio FA, opportunamente fornitogli in ingresso, ottenendo comunque distinti frame di voce V* e frame di suono di sottofondo SF*.
Tale secondo blocco 12 di separazione utilizza almeno un algoritmo di riconoscimento vocale per l?individuazione dei frame di voce V* e dei frame di suono di sottofondo SF*. Convenzionalmente, un frame audio che contiene sia voce sia suono di sottofondo viene classificato come frame di voce V*, che sostanzialmente prevale sul suono di sottofondo.
Opportunamente, il secondo blocco 12 di separazione pu? altres? eliminare i frame di silenzio, ovvero non comprendenti n? voce n? suono di sottofondo, ottimizzando il processo nel suo complesso. In particolare, i frame di silenzio sono classificati tali quando il suono di sottofondo, normalmente sempre presente, ? al di sotto di una prefissata soglia.
Il sistema 10 di elaborazione di un flusso audio comprende inoltre un terzo blocco 13 di post-trattamento dei frame di voce V* e dei frame di suono di sottofondo SF* ricevuti dal secondo blocco 12 di separazione, tale terzo blocco 13 di post-trattamento essendo atto a generare corrispondenti pluralit? di frame di voce V e di frame di suono di sottofondo SF ulteriormente elaborati.
In particolare, il terzo blocco 13 di post-trattamento effettua una sottrazione delle frequenze dei frame di suono di sottofondo SF* da quelli che sono i frame di voce V*, ripulendo cos? i frame di voce dai suoni di sottofondo eventualmente presenti, in una fase comunemente indicata come Noise Reduction. Tale operazione di post-trattamento risulta essere facoltativa, il sistema potendo non comprendere alcun terzo blocco 13 di post-trattamento nel caso ad esempio di un segnale di flusso audio FA con suono di sottofondo di valore molto ridotto, come potrebbe essere il caso di registrazioni effettuate in ambienti silenziosi.
Vantaggiosamente secondo la presente invenzione, il sistema 10 di elaborazione di un flusso audio comprende altres? un blocco 14 di predizione e classificazione, connesso al terzo blocco 13 di posttrattamento da cui riceve i frame di voce V e i frame di suono di sottofondo SF ulteriormente elaborati, in particolare ripuliti come sopra spiegato. Opportunamente, nel caso in cui non venisse effettuata alcuna operazione di post-trattamento, il blocco 14 di predizione e classificazione riceverebbe i frame di voce V* ed i frame di suono di sottofondo SF* direttamente dal secondo blocco 12 di separazione.
Il blocco 14 di predizione e classificazione effettua inizialmente l?estrazione di almeno un parametro caratteristico di frame audio, preferibilmente il cosiddetto MEL (Spectrogram Frequency), in particolare un array di valori ottenuti dalla trasformazione di un frame audio dalla scala del tempo alla scala della frequenza, tramite la formula matematica della trasformata di Fourier.
In particolare, il blocco 14 di predizione e classificazione ? connesso ad un sistema 20 di memorizzazione di modelli di segnali audio classificati, comprendente almeno un primo database DB1 atto a memorizzare una pluralit? di array numerici, corrispondenti ad una serie di parametri caratteristici di opportuni segnali voce modello o campione, indicati come modelli di voce classificati VCLm, ed un secondo database DB2 atto a memorizzare una pluralit? di array numerici, corrispondenti ad una serie di parametri caratteristici di opportuni segnali di suono di sottofondo modello o campione, indicati come modelli di suono di sottofondo classificati SFCLm, come sar? meglio descritto in seguito; tali modelli di voce classificati VCLm e modelli di suono di sottofondo classificati SFCLm vengono opportunamente inviati al blocco 14 di predizione e classificazione.
Preferibilmente, il primo database DB1 ed il secondo database DB2 comprendono array numerici con i valori di MEL dei rispettivi segnali modello.
Il blocco 14 di predizione e classificazione effettua quindi un confronto tra array di valori numerici corrispondenti alla pluralit? di frame di voce V*, V e di frame di suono di sottofondo SF*, SF rilevati ed eventualmente rielaborati a partire dal segnale di flusso audio FA, come sopra spiegato, con array di valori numerici corrispondenti a modelli di voce classificati VCLm e modelli di suono di sottofondo classificati SFCLm fornendo una percentuale di corrispondenza (o score), che permette di predire le corrispondenze pi? probabili tra i segnali coinvolti.
In tal modo, il blocco 14 di predizione e classificazione ? in grado di verificare i frame di voce V*, V e di suono di sottofondo SF*, SF estratti dal segnale di flusso audio FA ed eventualmente elaborati per individuare una corrispondenza con modelli presenti nei database DB1 e DB2 e fornire un risultato RES, ovvero le voci e i suoni individuati nel segnale di flusso audio FA con le percentuali di probabilit? di corrispondenza con rispettivi modelli, oltre ai file audio rielaborati comprendenti i frame sulla base dei quali ? stato generato il risultato RES.
Infine, il sistema 10 di elaborazione di un flusso audio comprende un quinto blocco 15 di generazione di un segnale di uscita REPORT, comprendente in forma grafica le percentuali di compatibilit? tra le voci e i suoni di sottofondo individuati nel segnale di flusso audio FA trattato e quelli memorizzati sulla base di segnali modello o campione, allegando eventualmente anche i file audio rielaborati.
Il segnale di uscita REPORT pu? comprendere ad esempio tutte le voci individuate con le loro percentuali oppure solo il rilevamento di una o pi? voci di interesse, oppure anche un raggruppamento di voci in base ad un suono di sottofondo di interesse. In particolare, vantaggiosamente secondo la presente invenzione, avendo classificato i segnali di suono di sottofondo, ? possibile utilizzarli per individuare gruppi di voci che hanno uno stesso segnale di suono di sottofondo; ulteriormente, grazie alla classificazione dei segnali di suono di sottofondo, ? anche possibile effettuare una sorta di geolocalizzazione di segnali voce proprio sulla base di tali segnali di suono di sottofondo.
I modelli di voce classificati VCLm e i modelli di suono di sottofondo classificati SFCLm sono ottenuti grazie ad un sistema 30 di riconoscimento e classificazione, illustrato schematicamente nelle Figure 3A e 3B, rispettivamente per i segnali di voce e di suoni di sottofondo. Opportunamente, le diverse elaborazioni a cui sono sottoposti i segnali modello corrispondono essenzialmente a quelle applicate al segnale di flusso audio FA da trattare, cos? da poter ottenere parametri caratteristici, in particolare array di valori numerici, effettivamente comparabili tra loro.
In una forma preferita di realizzazione dell?invenzione, il sistema 30 di riconoscimento e classificazione ? basato su un modello neuronale.
Opportunamente, come illustrato in Figura 3A, il sistema 30 di riconoscimento e classificazione di voci pu? ricevere un segnale audio modello o campione SA1m, in particolare relativo ad una voce di interesse.
Il sistema 30 di riconoscimento e classificazione comprende un primo blocco 31 di pre-trattamento, che riceve il segnale audio modello SA1m e ne effettua la normalizzazione, fornendo un segnale pre-trattato SA1mPRE ad un secondo blocco 32 di elaborazione, che lo scompone in una pluralit? di frame audio e separa i frame di voce e i frame di suono di sottofondo, oltre eventualmente ai frame di silenzio; opportunamente, i frame di suono di sottofondo ed eventualmente i frame di silenzio sono quindi eliminati, cos? da filtrare dati superflui. Il flusso audio viene quindi suddiviso in una pluralit? di frame di uguale durata, ad esempio pari a 3 secondi, ottenendo una pluralit? di frame di voce, indicati come segnale SAVm. Anche in tal caso, le operazioni di pre-trattamento del segnale audio modello SA1m possono essere facoltative, il secondo blocco 32 di elaborazione potendo scomporre direttamente tale segnale audio modello SA1m.
Opportunamente, il sistema 30 di riconoscimento e classificazione comprende ulteriormente un terzo blocco 33 di modellizzazione, in grado di estrarre un parametro caratteristico dai frame presenti nel segnale SAVm, in particolare il parametro MEL. In tal modo, il terzo blocco 33 di modellizzazione ottiene un array di valori numerici, che costituiscono di fatto il modello voce classificato VCLm, elaborato grazie ad algoritmi di Machine Learning.
Ulteriormente, il terzo blocco 33 di modellizzazione memorizza il modello voce classificato VCLm nel primo database DB1 del sistema 20 di memorizzazione di segnali audio classificati.
Analogamente, come illustrato in Figura 3B, il sistema 30 di riconoscimento e classificazione di voci pu? ricevere un segnale audio modello o campione SA2m relativo ad un suono di sottofondo.
In tal caso, il primo blocco 31 di pre-trattamento (comunque opzionale) effettua la normalizzazione del segnale audio modello SA2m e fornisce un segnale elaborato SA2mPRE al secondo blocco 32 di elaborazione, che a sua volta lo scompone in una pluralit? di frame audio e separa i frame di voce e i frame di suono di sottofondo, oltre ai frame di silenzio; opportunamente, i frame di voce e i frame di silenzio sono quindi eliminati, cos? da filtrare dati superflui e ottenere una pluralit? di frame di suono di sottofondo, indicati come segnale SASFm, per il terzo blocco 33 di modellizzazione.
Ulteriormente, il terzo blocco 33 di modellizzazione rielabora il segnale SASFm, in particolare estraendo sempre il parametro MEL dei frame che lo compongono, ed ottiene un modello di suono di sottofondo classificato SFCLm atto ad essere memorizzato nel secondo database DB2 del sistema 20 di memorizzazione di segnali audio classificati.
Opportunamente, il sistema 10 di elaborazione di un flusso audio ? cos? in grado di riconoscere una voce o un suono di sottofondo confrontandolo con un modello neuronale classificato di voci e suoni di sottofondo.
La presente invenzione fa altres? riferimento ad un metodo di elaborazione di un flusso audio atto ad ottenere una classificazione dei suoni in esso contenuti, implementato dal sistema 10 di elaborazione di un flusso audio sopra descritto.
In particolare, tale metodo di elaborazione di un flusso audio comprende le fasi di:
- ricezione di un segnale di flusso audio FA;
- predisposizione di almeno un database DB1, DB2 comprendente modelli di voci VCLm e/o modelli di suoni di sottofondo SFCLm classificati sulla base di almeno un parametro caratteristico di segnali modello;
- elaborazione del segnale di flusso audio FA suddividendo lo stesso in una pluralit? di frame audio classificati in una pluralit? di frame di voce V*, V e in una pluralit? di frame di suono di sottofondo SF*, SF;
- estrazione di detto parametro caratteristico dalla pluralit? di frame di voce V*, V e dalla pluralit? di frame di suono di sottofondo SF*, SF;
- confronto dei parametri caratteristici dei frame di voce V*, V e dei frame di suono di sottofondo SF*, SF contenuti nel segnale di flusso audio FA elaborato con i modelli di voci VCLm o di suoni di sottofondo SFCLm classificati contenuti nel database DB1, DB2; e
- generazione di un risultato RES comprendente una percentuale di corrispondenza dei frame di voce V*, V e dei frame di suono di sottofondo SF*, SF con uno o pi? modelli di voce VCLm e/o modelli di suono di sottofondo SFCLm classificati.
Opportunamente, la fase di elaborazione del segnale di flusso audio FA utilizza almeno un algoritmo di riconoscimento vocale per la classificazione dei frame di voce V*, V e dei frame di suono di sottofondo SF*, SF. Preferibilmente, quando un frame contiene sia voce sia suono di sottofondo, lo stesso viene comunque classificato come frame di voce V*, V.
In una forma preferita di realizzazione, il parametro caratteristico estratto dai segnali ? il MEL e la fase di estrazione genera array numerici corrispondenti ai frame di voce V*, V e ai frame di suono di sottofondo SF*, SF, i quali vengono confrontati con corrispondenti array numerici dei modelli memorizzati nei database DB1, DB2, tali array di valori essendo ottenuti dalla trasformazione di un frame audio dalla scala del tempo alla scala della frequenza, tramite la formula matematica della trasformata di Fourier.
Opportunamente, il metodo pu? comprendere anche una fase finale di generazione di un segnale di uscita REPORT comprendente una rappresentazione grafica delle percentuali di compatibilit? comprese nel risultato RES ed eventualmente i frame audio che sono stati estratti ed elaborati dal segnale di flusso audio FA. Il segnale di uscita REPORT pu? comprendere altre modalit? di aggregazione dei valori compresi nel risultato RES, ad esempio fornire solo il modello per voce o suono di sottofondo che ha la percentuale pi? alta, oppure tutti i modelli che hanno una percentuale al di sopra di una soglia prestabilita.
Opportunamente, il metodo di elaborazione di un flusso audio pu? altres? comprendere almeno una fase di pre-trattamento del segnale di flusso audio FA, preferibilmente atta a normalizzare tale segnale di flusso audio FA uniformandone il volume, con opportuni aumenti e decrementi in base all?ampiezza del segnale stesso, tale fase di pretrattamento precedendo la fase di elaborazione e suddivisione in frame del segnale di flusso audio FA.
Il metodo di elaborazione di un flusso audio pu? comprendere anche una fase di post-trattamento dei frame di voce V*, V e dei frame di suono di sottofondo SF*, SF estratti dal segnale di flusso audio FA, nella quale le frequenze dei frame di suono di sottofondo SF*, SF sono sottratte dai frame di voce V*, V, ottenendo una ripulitura dei frame di voce V* in una operazione cosiddetta di Noise Reduction.
Opportunamente, la fase di predisposizione di almeno un database DB1, DB2 comprende in particolare le seguenti fasi di:
- ricezione di un segnale audio modello SA1m, SA2m, relativo ad una voce oppure ad un suono di sottofondo di interesse;
- separazione del segnale audio modello SA1m, SA2m in una pluralit? di frame di voce oppure suono di sottofondo;
- eliminazione dei frame non compatibili con il segnale audio modello SA1m, SA2m, ovvero eliminazione dei frame di suono di sottofondo nel caso di un segnale audio modello SA1m relativo ad una voce ed eliminazione dei frame di voce nel caso di un segnale audio modello SA2m relativo ad un segnale di suono di sottofondo;
- estrazione di un parametro caratteristico dai frame individuati e creazione di un modello di voce oppure un modello di suono di sottofondo VCLm, SFCLm classificato ; e
- memorizzazione del modello classificato VCLm, SFCLm in un database DB1, DB2.
In una forma preferita di realizzazione, la fase di creazione di un modello voce oppure di suono di sottofondo ? realizzata mediante un modello neuronale.
Opportunamente, la fase di estrazione del parametro caratteristico dai frame individuati nel segnale modello comprende una fase di estrazione del parametro MEL e la fase di creazione del modello comprende la creazione di un array di valori numerici.
Ulteriormente, ? possibile prevedere una fase di pretrattamento del segnale modello prima della sua separazione in frame, ad esempio una normalizzazione di tale segnale modello rendendo uniforme il suo volume.
Come sopra spiegato, tali modelli di voce VCLm e modelli di suono di sottofondo SFCLm classificati presenti nel database DB1, DB2 vengono utilizzati nella fase di confronto dei frame di voce V*, V o di suoni di sottofondo SF*, SF contenuti nel segnale di flusso audio FA nel metodo di elaborazione di un flusso audio secondo la presente invenzione.
In una forma di realizzazione preferita, il metodo utilizza una piattaforma di Machine Learning ed un modello sulla quale si attua il riconoscimento che viene addestrato sulla base delle caratteristiche dei campioni sottoposti al training.
Pi? in particolare, viene previsto un campionamento audio con frame di durata minima prefissata (pari ad esempio ad un minuto) effettuato su voci o suoni di sottofondo di interesse.
E? inoltre possibile utilizzare come parametro caratteristico estratto dai frame per il confronto tramite librerie di trattamento audio uno o pi? dei seguenti parametri:
- MFCC (Mel Frequency Cepstral Coefficient) features extraction: il calcolo in funzione del tempo della potenza dello spettro vocale;
- Chroma: le classi di intonazione dei suoni;
- Contrasto fonetico: la minima distinzione fonetica tra una pronuncia e l?altra (tipo P e B) nel linguaggio; e
- Tonnetz: lo spazio tonale dei suoni.
Vantaggiosamente, quindi, grazie al sistema di elaborazione di un flusso audio secondo la presente invenzione, se nel segnale audio modello o campione ? presente la registrazione di una voce campione ovvero una voce di interesse, la stessa verr? individuata ogni volta che si processer? un segnale di flusso audio FA comprendente quella voce.
Analogamente, vantaggiosamente il sistema di elaborazione di un flusso audio secondo la presente invenzione consente di estendere il riconoscimento a tutte le voci che hanno in comune un determinato suono di sottofondo, individuato sempre sulla base di un segnale audio modello o campione relativo a tale suono di sottofondo.
Si sottolinea come, vantaggiosamente nel metodo e nel sistema secondo la presente invenzione, il suono di sottofondo, normalmente eliminato dai segnali di flusso audio nelle attuali tecniche di riconoscimento vocale ? invece utilizzato come unit? di informazione aggiuntiva che consente ad esempio di aggregare voci anche non presenti nei modelli voce campione grazie alla presenza di un suono di sottofondo invece riconosciuto.
Ovviamente al metodo e al sistema sopra descritti un tecnico del ramo, allo scopo di soddisfare esigenze contingenti e specifiche, potr? apportare numerose modifiche e varianti, tutte comprese nell'ambito di protezione dell'invenzione quale definito dalle rivendicazioni.
? ad esempio possibile utilizzare il metodo e il sistema per analizzare file audio rilevati in tempo reale oppure applicare gli stessi a file precedentemente registrati.
Ulteriormente, ? possibile prevedere ulteriori classi di intonazione, ad esempio per distinguere rumori ripetitivi da rumori casuali o da eventuali disturbi della linea di ricetrasmissione del segnale di flusso audio da analizzare.
Infine, ? possibile utilizzare il metodo per analizzare una pluralit? di segnali di flusso audio, contemporaneamente o in modo sequenziale, ottenendo un unico segnale di uscita che illustri complessivamente i risultati di tale analisi.

Claims (20)

RIVENDICAZIONI
1. Metodo di elaborazione di un flusso audio comprendente le fasi di:
- ricezione di un segnale di flusso audio (FA);
- predisposizione di almeno un database (DB1, DB2) comprendente modelli di voci (VCLm) e/o di suoni di sottofondo (SFCLm) classificati sulla base di almeno un parametro caratteristico di segnali modello;
- elaborazione di detto segnale di flusso audio (FA) suddividendolo in una pluralit? di frame audio classificati in una pluralit? di frame di voce (V*, V) e in una pluralit? di frame di suono di sottofondo (SF*, SF);
- estrazione di detto parametro caratteristico da detta pluralit? di frame di voce (V*, V) e da detta pluralit? di frame di suono di sottofondo (SF*, SF);
- confronto di detti parametri caratteristici di detti frame di voce (V*, V) e di detti frame di suono di sottofondo (SF*, SF) contenuti in detto segnale di flusso audio (FA) con detti modelli di voce (VCLm) e/o modelli di suono di sottofondo (SFCLm) classificati contenuti in detto database (DB1, DB2); e
- generazione di un risultato (RES) comprendente almeno una percentuale di corrispondenza di detti frame di voce (V*, V) e di detti frame di suono di sottofondo (SF*, SF) con uno o pi? modelli di voce (VCLm) e/o modelli di suono di sottofondo (SFCLm) di detto database (DB1, DB2).
2. Metodo secondo la rivendicazione 1, in cui detta fase di elaborazione di segnale di flusso audio (FA) utilizza almeno un algoritmo di riconoscimento vocale per classificare detti frame di voce (V*, V) e detti frame di suono di sottofondo (SF*, SF), un frame contenente sia voce sia suono di sottofondo essendo preferibilmente classificato come frame di voce (V*, V).
3. Metodo secondo la rivendicazione 1, in cui detto parametro caratteristico estratto da detti frame ? il MEL e in cui detta fase di estrazione genera array numerici corrispondenti a detti frame di voce (V*, V) e a detti frame di suono di sottofondo (SF*, SF) estratti da detto segnale di flusso audio (FA), i quali vengono confrontati con corrispondenti array numerici di detti modelli di voce (VCLm) e modelli di suono di sottofondo (SFCLm) classificati memorizzati in detto database (DB1, DB2).
4. Metodo secondo la rivendicazione 1, ulteriormente comprendente una fase di generazione di un segnale di uscita (REPORT) successiva a detta fase di generazione di detto risultato (RES), detto segnale di uscita (REPORT) comprendendo preferibilmente una rappresentazione grafica di detta almeno una percentuale di compatibilit? compresa in detto risultato (RES) ed eventualmente detti frame audio (V*, V, SF*. SF) che sono stati estratti ed eventualmente elaborati da detto segnale di flusso audio (FA).
5. Metodo secondo la rivendicazione 1, ulteriormente comprendente una fase di pre-trattamento di detto segnale di flusso audio (FA), preferibilmente atta a normalizzare detto segnale uniformandone il volume, con opportuni aumenti e decrementi in base all?ampiezza del segnale stesso, detta fase di pre-trattamento precedendo detta fase di elaborazione e suddivisione in frame di detto segnale di flusso audio (FA).
6. Metodo secondo la rivendicazione 1, ulteriormente comprendente una fase di post-trattamento di detti frame di voce (V*) e di detti frame di suono di sottofondo (SF*) estratti da detto segnale di flusso audio (FA) in cui le frequenze di detti frame di suono di sottofondo (SF*) sono sottratte dai frame di voce (V*), detta fase di posttrattamento precedendo detta fase di estrazione di detto parametro caratteristico.
7. Metodo secondo la rivendicazione 1, in cui detta fase di predisposizione di almeno un database (DB1, DB2) comprende a sua volta le fasi di:
- ricezione di un segnale audio modello (SA1m, SA2m), relativo ad una voce oppure ad un suono di sottofondo di interesse;
- separazione di detto segnale audio modello (SA1m, SA2m) in una pluralit? di frame di voce oppure di frame di suono di sottofondo;
- eliminazione di frame non compatibili con detto segnale audio modello (SA1m, SA2m);
- estrazione di detto parametro caratteristico di detti frame individuati e creazione di detto modello di voce oppure di detto modello di suono di sottofondo (VCLm, SFCLm) classificato ; e
- memorizzazione di detto modello (VCLm, SFCLm) classificato in detto almeno un database (DB1, DB2).
8. Metodo secondo la rivendicazione 7, in cui detta fase di creazione di un modello di voce oppure di suono di sottofondo ? realizzata mediante un modello neuronale.
9. Metodo secondo la rivendicazione 7, utilizzante una piattaforma di Machine Learning e un modello di riconoscimento vocale che viene addestrato sulla base di caratteristiche di detti segnali modello sottoposti a training.
10. Sistema di elaborazione di un flusso audio del tipo comprendente:
- un blocco di separazione (12) atto a ricevere un segnale di flusso audio (FA) e a suddividerlo in una pluralit? di frame audio classificati come frame di voce (V*, V) e frame di suono di sottofondo (SF*, SF), opportunamente distinti;
- un blocco di predizione e classificazione (14) atto a ricevere detti frame di voce (V*, V) e frame di suono di sottofondo (SF*, SF) e ad estrarre da essi almeno un parametro caratteristico; e
- un sistema di memorizzazione (20) di modelli di segnali audio classificati (VCLm, SFCLm), comprendente almeno un database (DB1, DB2) atto a memorizzare modelli di voce (VCLm) e/o modelli di suono di sottofondo (SFCLm) classificati,
detto sistema di memorizzazione (20) essendo connesso a detto blocco di predizione e classificazione (14) che effettua un confronto di detti parametri caratteristici di detti frame di voce (V*, V) e di detti frame di suono di sottofondo (SF*, SF) contenuti in detto segnale di flusso audio (FA) con detti modelli di voce (VCLm) e/o modelli di suono di sottofondo (SFCLm) classificati memorizzati in detto database (DB1, DB2) e genera un risultato (RES) comprendente almeno una percentuale di corrispondenza di detti frame di voce (V*, V) e/o di detti frame di suono di sottofondo (SF*, SF) con uno o pi? modelli di voce (VCLm) e/o modelli di suono di sottofondo (SFCLm) di detto database (DB1, DB2).
11. Sistema secondo la rivendicazione 10, in cui detto blocco di separazione (12) utilizza almeno un algoritmo di riconoscimento vocale per classificare detti frame di voce (V*, V) e detti frame di suono di sottofondo (SF*, SF), un frame contenente sia voce sia suono di sottofondo essendo preferibilmente classificato come frame di voce (V*, V).
12. Sistema secondo la rivendicazione 10, in cui detto blocco di predizione e classificazione (14) estrae detto parametro caratteristico MEL da detti frame di voce (V*, V) e frame di suono di sottofondo (SF*, SF) e genera array numerici corrispondenti a detti frame di voce (V*, V) e a detti frame di suono di sottofondo (SF*, SF) e in cui detti modelli di voce (VCLm) e/o modelli di suono di sottofondo (SFCLm) di detto database (DB1, DB2) comprendono corrispondenti array numerici relativi a detto parametro caratteristico MEL di segnali modello utilizzati per creare detti modelli di voce (VCLm) e/o modelli di suono di sottofondo (SFCLm).
13. Sistema secondo la rivendicazione 10, ulteriormente comprendente un blocco di generazione (15) di un segnale di uscita (REPORT), comprendente una rappresentazione grafica di detta almeno una percentuale di compatibilit? compresa in detto risultato (RES) ed eventualmente detti frame audio che sono stati estratti ed eventualmente elaborati da detto segnale di flusso audio (FA).
14. Sistema secondo la rivendicazione 10, ulteriormente comprendente un blocco di pre-trattamento (11) di detto segnale di flusso audio (FA) atto a normalizzare detto segnale di flusso audio (FA) per uniformarne il volume, con opportuni aumenti e decrementi in base all?ampiezza del segnale stesso, prima di fornirlo a detto blocco di separazione (12).
15. Sistema secondo la rivendicazione 10, ulteriormente comprendente un blocco di post-trattamento (13) di detti frame di voce (V*) e di detti frame di suono di sottofondo (SF*) estratti da detto segnale di flusso audio (FA) da detto blocco di separazione (12), detto blocco di post-trattamento (13) sottraendo da detti frame di voce (V*) le frequenze di detti frame di suono di sottofondo (SF*) prima di fornire detti frame (V, SF) a detto blocco di predizione e classificazione (14).
16. Sistema secondo la rivendicazione 10, ulteriormente comprendente un sistema di riconoscimento e classificazione (30) di almeno un segnale audio modello (SA1m, SA2m), relativo ad una voce oppure ad un suono di sottofondo di interesse, a sua volta includente:
- un blocco di elaborazione (32), che riceve detto segnale audio modello (SA1m, SA2m) e lo scompone in una pluralit? di frame di voce oppure di frame di suono di sottofondo, eliminando i frame non compatibili con detto segnale audio modello (SA1m, SA2m); e
- un blocco di modellizzazione (33) atto ad estrarre detto parametro caratteristico dai frame generati da detto blocco di elaborazione (32) e a creare detto modello di voce oppure detto modello di suono di sottofondo (VCLm, SFCLm) classificato, da memorizzare in detto database (DB1, DB2).
17. Sistema secondo la rivendicazione 16, in cui detto blocco di modellizzazione (33) di detto sistema di riconoscimento e classificazione (30) ? basato su un modello neuronale.
18. Sistema secondo la rivendicazione 16, in cui detto blocco di modellizzazione (33) di detto sistema di riconoscimento e classificazione (30) estrae il parametro caratteristico MEL e genera un modello di voce o di suono di sottofondo classificato (VCLm, SFCLm) nella forma di un array di valori numerici, elaborato grazie ad algoritmi di Machine Learning.
19. Sistema secondo la rivendicazione 16, in cui detto sistema di riconoscimento e classificazione (30) comprende ulteriormente un blocco di pre-trattamento (31), che riceve detto segnale audio modello (SA1m, SA2m) e ne effettua la normalizzazione uniformandone il volume prima di fornirlo a detto blocco di elaborazione (32).
20. Sistema secondo la rivendicazione 10, in cui detto segnale di flusso audio (FA) ? ottenuto mediante una intercettazione ambientale.
IT102021000017513A 2021-07-02 2021-07-02 Metodo di elaborazione di un flusso audio per il riconoscimento di voci e/o suoni di sottofondo e relativo sistema IT202100017513A1 (it)

Priority Applications (2)

Application Number Priority Date Filing Date Title
IT102021000017513A IT202100017513A1 (it) 2021-07-02 2021-07-02 Metodo di elaborazione di un flusso audio per il riconoscimento di voci e/o suoni di sottofondo e relativo sistema
US17/856,146 US20230005479A1 (en) 2021-07-02 2022-07-01 Method for processing an audio stream and corresponding system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT102021000017513A IT202100017513A1 (it) 2021-07-02 2021-07-02 Metodo di elaborazione di un flusso audio per il riconoscimento di voci e/o suoni di sottofondo e relativo sistema

Publications (1)

Publication Number Publication Date
IT202100017513A1 true IT202100017513A1 (it) 2023-01-02

Family

ID=77910944

Family Applications (1)

Application Number Title Priority Date Filing Date
IT102021000017513A IT202100017513A1 (it) 2021-07-02 2021-07-02 Metodo di elaborazione di un flusso audio per il riconoscimento di voci e/o suoni di sottofondo e relativo sistema

Country Status (2)

Country Link
US (1) US20230005479A1 (it)
IT (1) IT202100017513A1 (it)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160217792A1 (en) * 2015-01-26 2016-07-28 Verint Systems Ltd. Word-level blind diarization of recorded calls with arbitrary number of speakers

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5708759A (en) * 1996-11-19 1998-01-13 Kemeny; Emanuel S. Speech recognition using phoneme waveform parameters
FR2808917B1 (fr) * 2000-05-09 2003-12-12 Thomson Csf Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
JP4868999B2 (ja) * 2006-09-22 2012-02-01 富士通株式会社 音声認識方法、音声認識装置及びコンピュータプログラム
US8762144B2 (en) * 2010-07-21 2014-06-24 Samsung Electronics Co., Ltd. Method and apparatus for voice activity detection
US8913882B2 (en) * 2012-12-31 2014-12-16 Eldon Technology Limited Auto catch-up
US9892758B2 (en) * 2013-12-20 2018-02-13 Nokia Technologies Oy Audio information processing
US20160292801A1 (en) * 2015-04-02 2016-10-06 Unrapp LLC System and Method for Creating, Managing, and Searching Real Estate Listings
EP3563521B1 (en) * 2016-12-30 2025-05-28 INTEL Corporation Service provision to iot devices
CN108877778B (zh) * 2018-06-13 2019-09-17 百度在线网络技术(北京)有限公司 语音端点检测方法及设备
JP7167554B2 (ja) * 2018-08-29 2022-11-09 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法
JP2022512233A (ja) * 2018-12-10 2022-02-02 インタラクティブ-エーアイ,エルエルシー 多言語スタイル依存音声言語処理のためのニューラル調整コード

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160217792A1 (en) * 2015-01-26 2016-07-28 Verint Systems Ltd. Word-level blind diarization of recorded calls with arbitrary number of speakers

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIE LU ET AL: "Content analysis for audio classification and segmentation", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING., vol. 10, no. 7, 1 October 2002 (2002-10-01), US, pages 504 - 516, XP055900619, ISSN: 1063-6676, Retrieved from the Internet <URL:https://ieeexplore.ieee.org/stampPDF/getPDF.jsp?tp=&arnumber=1045282&ref=aHR0cHM6Ly9pZWVleHBsb3JlLmllZWUub3JnL2Fic3RyYWN0L2RvY3VtZW50LzEwNDUyODI=> DOI: 10.1109/TSA.2002.804546 *
TONG ZHANG ET AL: "Video content parsing based on combined audio and visual information", PROCEEDINGS OF SPIE, vol. 3846, 24 August 1999 (1999-08-24), XP055153132, ISSN: 0277-786X, DOI: 10.1117/12.360413 *
ZHU LIU ET AL: "Audio feature extraction and analysis for scene classification", MULTIMEDIA SIGNAL PROCESSING, 1997., IEEE FIRST WORKSHOP ON PRINCETON, NJ, USA 23-25 JUNE 1997, NEW YORK, NY, USA,IEEE, US, 23 June 1997 (1997-06-23), pages 343 - 348, XP010233847, ISBN: 978-0-7803-3780-0, DOI: 10.1109/MMSP.1997.602659 *

Also Published As

Publication number Publication date
US20230005479A1 (en) 2023-01-05

Similar Documents

Publication Publication Date Title
US11538472B2 (en) Processing speech signals in voice-based profiling
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
US20110320202A1 (en) Location verification system using sound templates
Thakur et al. Speech recognition using euclidean distance
CN106778186A (zh) 一种用于虚拟现实交互设备的身份识别方法及装置
Zhang et al. Speech emotion recognition using combination of features
Gupta et al. Gender-based speaker recognition from speech signals using GMM model
Sharma et al. Study of robust feature extraction techniques for speech recognition system
Hidayat et al. Wavelet detail coefficient as a novel wavelet-mfcc features in text-dependent speaker recognition system
Aliaskar et al. Human voice identification based on the detection of fundamental harmonics
Chamoli et al. Detection of emotion in analysis of speech using linear predictive coding techniques (LPC)
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Singh et al. Speaker Recognition and Fast Fourier Transform
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
IT202100017513A1 (it) Metodo di elaborazione di un flusso audio per il riconoscimento di voci e/o suoni di sottofondo e relativo sistema
Nguyen et al. Vietnamese speaker authentication using deep models
Jadhav et al. Speech recognition to distinguish gender and a review and related terms
Sukor et al. Speaker identification system using MFCC procedure and noise reduction method
Islam et al. A Novel Approach for Text-Independent Speaker Identification Using Artificial Neural Network
Bozilovic et al. Text-independent speaker recognition using two-dimensional information entropy
Jin et al. Speech emotion recognition based on hyper-prosodic features
PEDROZA et al. Limited-data automatic speaker verification algorithm using band-limitedphase-only correlation function
Narendra et al. Classification of Pitch Disguise Level with Artificial Neural Networks
Samudre Text-independent speaker identification using vector quantization
Komlen et al. Text independent speaker recognition using LBG vector quantization
点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载