+

KR101475724B1 - 오디오 신호 품질 향상 장치 및 방법 - Google Patents

오디오 신호 품질 향상 장치 및 방법 Download PDF

Info

Publication number
KR101475724B1
KR101475724B1 KR1020080053695A KR20080053695A KR101475724B1 KR 101475724 B1 KR101475724 B1 KR 101475724B1 KR 1020080053695 A KR1020080053695 A KR 1020080053695A KR 20080053695 A KR20080053695 A KR 20080053695A KR 101475724 B1 KR101475724 B1 KR 101475724B1
Authority
KR
South Korea
Prior art keywords
gain
audio signal
pitch
signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
KR1020080053695A
Other languages
English (en)
Other versions
KR20090127625A (ko
Inventor
김중회
박호종
오은미
Original Assignee
삼성전자주식회사
광운대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 광운대학교 산학협력단 filed Critical 삼성전자주식회사
Priority to KR1020080053695A priority Critical patent/KR101475724B1/ko
Priority to US12/479,009 priority patent/US8315862B2/en
Publication of KR20090127625A publication Critical patent/KR20090127625A/ko
Application granted granted Critical
Publication of KR101475724B1 publication Critical patent/KR101475724B1/ko
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

오디오 신호 품질 향상 장치 및 방법이 제공된다. 본 발명의 장치는 오디오 신호의 피치 주기를 추출하는 피치 계산부, 상기 오디오 신호를 주파수 도메인으로 변환하는 주파수 도메인 변환부, 상기 추출된 피치 주기에 기초하여 상기 변환된 오디오 신호를 복수의 주파수 대역들로 분할하는 주파수 대역 분할부, 및 상기 변환된 오디오 신호의 크기에 기초하여 이득을 결정하고, 상기 분할된 주파수 대역들 각각에 대하여 상기 변환된 오디오 신호에 상기 결정된 이득을 곱하여 출력 신호를 생성하는 피치 강조부를 포함하며, 이를 통해 오디오 신호의 품질을 향상시킬 수 있다.
음성 품질 향상, 피치 강조, temporal envelope

Description

오디오 신호 품질 향상 장치 및 방법 {AUDIO SIGNAL QUALITY ENHANCEMENT APPARATUS AND METHOD}
본 발명은 디지털 통신 분야에서 오디오 신호의 품질을 향상시키는 장치 및 방법에 관한 것으로, 보다 상세하게는 주변 잡음이 강한 환경에서 오디오 신호의 품질을 향상시키는 장치 및 방법에 관한 것이다.
무선 통신 기술의 발전으로 사용자는 모바일 단말기를 이용하여 자신의 위치에서 편리하게 상대방과 통화할 수 있다. 모바일 단말기의 사용자는 매우 다양한 주변 환경에서 통화를 할 수 있으므로, 주변 환경에 따라 사용자가 느끼는 음성 통화의 품질이 영향 받을 수 있다. 음성 통화의 품질에 영향을 주는 요인으로는 주변 환경의 잡음을 들 수 있다.
주변 환경의 잡음이 커져 상대방의 음성을 식별하지 못하는 경우 사용자는 스피커(speaker)의 볼륨(volume)을 크게 하는 것이 일반적이다. 이 때 스피커의 볼륨을 증가시키면 음성 신호의 볼륨뿐만 아니라 잡음의 볼륨도 커지므로 품질을 개선하는 효과가 감소할 수 있다.
따라서 단순히 음성 신호의 볼륨을 크게 하는 것이 아니라 신호 대 잡음 비(Signal to Noise Ratio, SNR)를 개선하는 것이 음성 통화의 품질을 향상시키는 주요한 과제가 되었다.
음성 신호에서 명료도에 중요한 역할을 하는 중요 주파수 대역을 개선하는 필터를 사용하여 개선하는 시도도 있어왔다. 특히 음성이 압축/복원되는 과정에서 손실된 신호로 인해 명료도가 떨어지는 경우에는 손실된 신호를 보상해주는 과정이 필요하다.
또한 신호를 시간 도메인(domain)에서 처리하는 기술과 이를 주파수 도메인으로 변환하여 주파수 도메인에서 처리하는 기술이 음성 신호의 처리 과정에서 디지털 통신 기술과 결합되어 이용되고 있다.
본 발명의 실시예들에 따르면 주변 잡음이 상대적으로 큰 환경에서도 음성 통화의 명료도(intelligibility)를 높일 수 있다. 본 발명의 실시예들에 따르면 시간 도메인에서의 신호 처리 및 주파수 도메인에서의 신호 처리를 함께 수행함으로써 음성 통화의 명료도를 높일 수 있다.
본 발명의 실시예들에 따르면 사용자의 볼륨 제어(volume control)에 따라 adaptive하게 음성 통화의 명료도를 개선할 수 있다. 본 발명의 실시예들에 따르면 사용자의 볼륨 제어에 따라 최적화된 품질의 출력 신호를 제공할 수 있으며, 사용자에 의해 입력된 볼륨 제어 신호가 변하는 상황에서도 일정한 레벨의 품질을 유지할 수 있다.
본 발명의 일 실시예에 따른 장치는 오디오 신호의 피치 주기를 추출하는 피치 계산부, 상기 오디오 신호를 주파수 도메인으로 변환하는 주파수 도메인 변환부, 상기 추출된 피치 주기에 기초하여 전체 주파수 대역을 복수의 주파수 대역들로 분할하고, 상기 변환된 오디오 신호를 상기 분할된 주파수 대역들 각각에 대응하는 오디오 신호들로 분리하는 주파수 대역 분할부, 및 상기 변환된 오디오 신호의 크기에 기초하여 이득을 결정하고, 상기 분할된 주파수 대역들 각각에 대하여 상기 분리된 오디오 신호에 상기 결정된 이득을 곱하여 출력 신호를 생성하는 피치 강조부를 포함할 수 있다.
본 발명의 다른 실시예에 따른 장치는 오디오 신호를 주파수 도메인으로 변환하는 주파수 도메인 변환부, 상기 주파수 도메인으로 변환된 오디오 신호를 복수 의 주파수 대역들 각각에 대응하는 오디오 신호들로 분리하는 주파수 대역 분할부, 상기 분리된 오디오 신호들 각각을 시간 도메인으로 변환하는 시간 도메인 변환부, 및 상기 시간 도메인으로 변환된 오디오 신호들 각각의 시간에 따른 변화량에 기초하여 이득을 결정하고, 상기 시간 도메인으로 변환된 오디오 신호들 각각에 상기 결정된 이득을 곱하여 주파수 대역 별 출력 신호를 생성하는 시간적 포락선 강조부를 포함할 수 있다.
본 발명의 또 다른 실시예에 따른 신호 품질 향상 방법은 오디오 신호의 피치 주기를 추출하는 단계, 상기 오디오 신호를 주파수 도메인으로 변환하는 단계, 상기 추출된 피치 주기에 기초하여 상기 변환된 오디오 신호를 복수의 주파수 대역들 각각에 대응하는 오디오 신호들로 분리하는 단계, 상기 분리된 오디오 신호의 크기에 기초하여 이득을 결정하는 단계, 및 상기 복수의 주파수 대역들 각각에 대하여 상기 분리된 오디오 신호에 상기 결정된 이득을 곱하여 출력 신호를 생성하는 단계를 포함할 수 있다.
본 발명의 또 다른 실시예에 따른 신호 품질 향상 방법은 오디오 신호를 주파수 도메인으로 변환하는 단계, 상기 주파수 도메인으로 변환된 오디오 신호를 복수의 주파수 대역들 각각에 대응하는 오디오 신호들로 분리하는 단계, 상기 분리된 오디오 신호들 각각을 시간 도메인으로 변환하는 단계, 상기 시간 도메인으로 변환된 오디오 신호들 각각의 시간에 따른 변화량에 기초하여 이득을 결정하는 단계, 및 상기 시간 도메인으로 변환된 오디오 신호들 각각에 상기 결정된 이득을 곱하여 주파수 대역 별 출력 신호를 생성하는 단계를 포함할 수 있다.
이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일 실시예에 따른 장치(100)를 도시하는 도면이다.
도 1을 참조하면, 장치(100)는 피치 강조 장치 (pitch enhancement apparatus) (110) 및 시간적 포락선 강조 장치 (temporal envelope enhancement apparatus) (120)을 포함한다.
피치 강조 장치(110)는 오디오 신호를 입력 받고, 사용자로부터 입력 받은 volume control 신호에 따라 피치가 강조된 오디오 신호를 생성하고, 상기 생성된 피치가 강조된 오디오 신호를 시간적 포락선 강조 장치(120)로 전달한다.
시간적 포락선 강조 장치(120)는 피치 강조 장치(110)로부터 상기 피치가 강조된 오디오 신호를 수신하고, 사용자로부터 입력 받은 envelope enhancement control 신호에 따라 출력 신호를 생성한다.
장치(100)가 처리하는 오디오 신호는 인간의 음성 신호뿐만 아니라 음악 신호 또는 음향 효과 신호 등을 포함할 수 있다.
실시예에 따라서는 장치(100)는 휴대용 이동 통신 단말기에 적용되어 통화 중 인간의 음성 신호의 품질을 향상시킬 수 있다. 실시예에 따라서는 장치(100)는 오디오 단말기 또는 mp3 플레이어 등에 적용되어 음악 신호 또는 음향 효과 신호의 품질을 향상시킬 수 있다.
도 2는 도 1의 피치 강조 장치(110)의 일 예를 도시하는 도면이다.
도 2를 참조하면, 피치 강조 장치(110)는 피치 계산부(210), 주파수 도메인 변환부(220), 유성음 판정부(230), 주파수 대역(frequency band) 분할부(240) 및 피치 강조부(250)를 포함할 수 있고, 무성음 강조부(260) 및 레벨 정규화기(level normalizer)(270)를 더 포함할 수 있다.
실시예에 따라서는 피치 강조 장치(110)는 휴대용 이동 통신 단말기에 적용될 수 있다. 이 때 피치 강조 장치(110)는 통화 중 수신된 인간의 음성 신호의 피치를 강조할 수 있다.
피치 계산부(210)는 상기 수신된 음성 신호의 피치 주기를 추출한다. 피치 계산부(210)는 상기 수신된 음성 신호의 상관 계수(correlation coefficient)를 계산할 수 있다. 피치 계산부(210)는 상기 계산된 상관 계수에 기초하여 상기 수신된 음성 신호의 피치 주기를 계산할 수 있다.
주파수 도메인 변환부(220)는 상기 수신된 음성 신호를 주파수 도메인(frequency domain)으로 변환한다. 주파수 도메인 변환부(220)는 푸리에 변환(Fourier Transform), 빠른 푸리에 변환(Fast Fourier Transform) 또는 디지털 푸리에 변환(Digital Fourier Transform) 등의 기법을 이용하여 시간 도메인에서 표현된 상기 수신된 음성 신호를 주파수 도메인에서 표현 가능한 형태로 변환할 수 있다.
유성음 판정부(230)는 상기 수신된 음성 신호가 유성음인지 무성음인지 판정하고, 상기 주파수 도메인으로 변환된 음성 신호 중 유성음 신호를 분리할 수 있 다. 피치 계산부(210)가 상관 계수를 이용하여 상기 수신된 음성 신호의 피치 주기를 계산하는 경우, 유성음 판정부(230)는 피치 계산부(210)의 계산 결과에 기초하여 상기 수신된 음성 신호가 유성음인지 무성음인지 판정할 수 있다. 피치 계산부(210)의 계산 결과 상기 수신된 음성 신호가 피치 성분을 가지면 유성음 판정부(230)는 상기 수신된 음성 신호를 유성음으로 판정할 수 있다.
실시예에 따라서는 피치 강조 장치(110)가 처리하는 오디오 신호가 인간의 음성 신호가 아닌 경우, 피치 계산부(210) 및 유성음 판정부(230)는 입력된 오디오 신호의 피치를 계산할 수 있고, 계산된 피치에 기초하여 상기 입력된 오디오 신호가 피치를 가지는 신호인지 피치를 가지지 않는 신호인지 판정할 수 있다. 유성음 판정부(230)는 상기 입력된 오디오 신호가 피치를 가지는 신호이면 상기 입력된 오디오 신호를 유성음 신호와 동일한 방법으로 처리할 수 있다.
피치 계산부(210)는 상기 수신된 음성 신호를 시간 프레임들로 분할할 수 있고, 상기 분할된 시간 프레임들 각각에 대하여 피치 주기를 계산할 수 있다. 유성음 판정부(230)는 상기 분할된 시간 프레임들 각각에 대하여 상기 계산된 피치 주기에 기초하여 유성음 프레임 및 무성음 프레임을 구분할 수 있다.
주파수 대역 분할부(240)는 상기 추출된 피치 주기에 기초하여 전체 주파수 대역을 복수의 주파수 대역들로 분할할 수 있다. 주파수 대역 분할부(240)는 상기 주파수 도메인으로 변환된 음성 신호 중 유성음 신호를 상기 분할된 주파수 대역들 각각에 대응하는 유성음 신호들로 분리한다. 예를 들어 피치 주기가 f0이면 주파수 대역 분할부(240)는 [0.5 x f0, 1,5 x f0], [1.5 x f0, 2.5 x f0] 등의 주파수 대역들을 이용하여 상기 주파수 도메인으로 변환된 음성 신호를 분리할 수 있다.
피치 강조부(250)는 상기 분리된 음성 신호의 크기에 기초하여 이득을 결정할 수 있다. 피치 강조부(250)는 상기 분할된 주파수 대역들 각각에 대하여 상기 분리된 음성 신호에 상기 결정된 이득을 곱하여 상기 피치가 강조된 음성 신호를 생성할 수 있다.
도 3은 도 2의 피치 강조부(250)의 일 예를 도시하는 도면이다.
도 3을 참조하면, 피치 강조부(250)는 주파수 계수 정규화기(frequency coefficient normalizer)(310), 벨리 이득 계산기(valley gain calculator)(320), 피크 이득 계산기(peak gain calculator)(330), 전체 이득 계산기(total gain calculator)(340), 및 피치 강조기(pitch enhancer)(350)를 포함할 수 있다.
주파수 계수 정규화기(310)는 상기 분할된 주파수 대역들 각각에 대하여, 상기 분할된 주파수 대역들 각각 내의 주파수 계수들을 정규화할 수 있다. 디지털 푸리에 변환(Digital Fourier Transform)에 의하여 음성 신호를 변환하면 이산적인 주파수 계수(discrete frequency coefficient)를 결과로 얻을 수 있다. 이산적인 주파수 계수들 각각은 주파수에서의 음성 신호의 크기를 나타낸다.
분할된 주파수 대역의 인덱스를 b라 하면 b번째 대역에 포함되는 주파수 계수들 중 k번째 주파수 계수를 X[b][k]로 나타낼 수 있다. 주파수 계수 정규화기(310)는 b번째 대역에 포함되는 주파수 계수들의 최대값 및 최소값을 구하고, 상기 최대값 및 최소값에 기초하여 b번째 대역에 포함되는 주파수 계수들 각각을 정규화할 수 있다. b번째 대역에 포함되는 주파수 계수들의 최대값을 max [b], 최소 값을 min [b]라 하면 정규화된 주파수 계수 Xr[b][k]는 하기 수학식 1과 같이 나타내어질 수 있다.
[수학식 1]
Figure 112008040972824-pat00001
이 때 Xr[b][k]는 0보다 크거나 같고 1보다 작거나 같을 수 있다.
실시예에 따라서는 피치 강조부(250)는 상기 분리된 음성 신호의 크기에 기초하여 상기 분리된 음성 신호를 피치 피크 영역(pitch peak area), 중간 영역, 피치 벨리 영역(pitch valley area)으로 분할할 수 있다. 이 때 피치 강조부(250)는 정규화된 주파수 계수를 이용하여 상기 분리된 음성 신호의 영역을 결정할 수 있다. 예를 들어 피치 강조부(250)는 정규화된 주파수 계수 Xr[b][k]가 0.8 이상이고 1 이하이면 상기 정규화된 주파수 계수를 피치 피크 영역에 할당할 수 있다. 피치 강조부(250)는 정규화된 주파수 계수 Xr[b][k]가 0 이상이고 0.6 이하이면 상기 정규화된 주파수 계수를 피치 벨리 영역에 할당할 수 있다. 피치 강조부(250)는 정규화된 주파수 계수 Xr[b][k]가 0.6 이상이고 0.8 이하이면 상기 정규화된 주파수 계수를 중간 영역에 할당할 수 있다.
벨리 이득 계산기(320)는 피치 계산기(210)로부터 상관 계수(correlation coefficient)를 수신하고, 상기 수신된 상관 계수에 기초하여 피치 벨리 영역에 할당된 정규화된 주파수 계수들의 이득을 결정할 수 있다. 본 명세서에서는 설명의 편의 상 상기 피치 벨리 영역에 할당된 정규화된 주파수 계수들의 이득을 벨리 이득(valley gain)이라 명명하기로 한다.
도 6은 도 3의 벨리 이득 계산기(320)의 동작의 일 예를 도시하는 도면이다.
도 6을 참조하면, 벨리 이득 계산기(320)는 상관 계수 및 벨리 이득 간의 관계를 도시한다. 벨리 이득 계산기(320)는 0.9 이상의 상관 계수를 가지는 주파수 대역의 벨리 이득을 0.001로 결정할 수 있다. 벨리 이득 계산기(320)는 0.75 이상 0.9 이하의 상관 계수를 가지는 주파수 대역의 벨리 이득이 상관 계수에 반비례하도록 벨리 이득을 결정할 수 있다.
다시 도 3을 참조하면, 벨리 이득 계산기(320)는 주파수 대역에 따라 벨리 이득을 결정할 수도 있다. 예를 들어 벨리 이득 계산기(320)는 첫번째 주파수 대역 내지 b1 번째 주파수 대역까지의 벨리 이득을 0.001로 결정할 수 있다. 이 때 벨리 이득 계산기(320)는 하기 수학식 2와 같이 b번째 주파수 대역의 벨리 이득 L[b]을 결정할 수 있다.
[수학식 2]
L[b] = 0.001 ( 1 ≤ b ≤ b1 )
벨리 이득 계산기(320)는 b2 이상의 인덱스를 가지는 주파수 대역의 벨리 이득을 1 또는 1에 가까운 값으로 결정할 수 있다. 예를 들어 벨리 이득 계산기(320)는 하기 수학식 3과 같이 b번째 주파수 대역의 벨리 이득 L[b]을 결정할 수 있다.
[수학식 3]
L[b] = 1 ( b ≥ b2 )
벨리 이득 계산기(320)는 하기 수학식 4와 같이 b ( b1 < b < b2 )번째 주파수 대역의 벨리 이득 L[b]을 결정할 수 있다.
[수학식 4]
L[b] = L[b-1] + (1.0 - L[b-1])/2 ( b1 < b < b2 )
이 때 b1 번째 주파수 대역은 3 kHz 보다 낮은 주파수에 대응하고, b2 번째 주파수 대역은 4 kHz 보다 높은 주파수에 대응할 수 있다.
벨리 이득 계산기(320)는 주파수 대역에 따라 벨리 이득을 조정함으로써 피치가 강조되는 정도를 조정할 수 있다. 벨리 이득 계산기(320)는 가장 낮은 2개의 포먼트(formant)들을 강조하거나 가장 낮은 3개의 포먼트들을 강조할 수 있다.
벨리 이득 계산기(320)는 수신된 음성 신호의 피치 강도에 기초하여 벨리 이득을 결정할 수 있다. 벨리 이득 계산기(320)는 수신된 음성 신호의 피치 강도가 클수록 작은 벨리 이득을 설정하여 피치 강조 정도를 증가시킬 수 있다.
피크 이득 계산기(330)는 사용자로부터 볼륨 제어 신호를 입력 받아 피치 피크 영역에 할당된 상기 정규화된 주파수 계수에 대한 이득을 결정할 수 있다. 본 명세서에서는 설명의 편의 상 피치 피크 영역에 할당된 상기 정규화된 주파수 계수에 대한 이득을 피크 이득(peak gain)이라 명명하기로 한다.
피크 이득 계산기(330)는 정상 상태(steady state)에서 b번째 대역의 피크 이득 U[b]를 1.0으로 결정할 수 있다. 피크 이득 계산기(330)는 사용자가 볼륨을 증가시키면 볼륨 제어 신호에 응답하여 피크 이득을 증가시키고, 사용자가 볼륨을 감소시키면 볼륨 제어 신호에 응답하여 피크 이득을 감소시킬 수 있다.
피치 강조부(250)는 사용자의 볼륨 제어 신호에 응답하여 피크 이득을 변경하지만 벨리 이득은 변경하지 않을 수 있다. 피치 강조부(250)는 사용자가 볼륨을 변경하더라도 주파수 대역에 포함되는 신호의 에너지가 일정하도록 유지함으로써 명료도(intelligibility)의 개선 정도를 일정하게 유지할 수 있다. 피치 강조부(250)는 사용자의 볼륨 제어 신호에 응답하여 적응적으로 명료도를 개선할 수 있다.
피치 강조부(250)는 주파수 대역의 주파수가 높을수록 피크 이득 및 벨리 이득의 비율이 작도록 이득을 결정할 수 있다. 예를 들어 U[1]/L[1] = 1000 이고, U[10]/L[10] = 10 일 수 있다.
전체 이득 계산기(340)는 주파수 대역의 피크 이득 및 벨리 이득에 기초하여 중간 영역의 이득을 결정할 수 있다.
도 5는 도 3의 전체 이득 계산기(340)의 동작의 일 예를 도시하는 도면이다.
도 5를 참조하면, 정규화된 주파수 계수 및 이득 간의 관계가 도시된다.
피치 강조부(250)는 0 이상 0.6 이하의 크기를 가지는 정규화된 주파수 계수를 벨리 영역(510)에 할당할 수 있다. 벨리 이득 계산기(320)는 벨리 영역(510)의 벨리 이득을 0.001로 결정할 수 있다.
피치 강조부(250)는 0.8 이상 1.0 이하의 크기를 가지는 정규화된 주파수 계 수를 피크 영역(530)에 할당할 수 있다. 피크 이득 계산기(330)는 피크 영역(530)의 피크 이득을 1.0으로 결정할 수 있다.
피치 강조부(250)는 0.6보다 크고 0.8보다 작은 크기를 가지는 정규화된 주파수 계수를 중간 영역(520)에 할당할 수 있다. 전체 이득 계산기(340)는 중간 영역(520)에 포함되는 정규화된 주파수 계수의 이득이 벨리 이득 0.001 및 피크 이득 1.0을 연결하는 그래프에 대응하도록 전체 이득을 결정할 수 있다.
피치 강조기(350)는 b번째 대역의 k번째 주파수 계수 X[b][k]에 이득을 곱하여 새로운 주파수 계수 Xnew[b][k]를 계산할 수 있다. 새로운 주파수 계수는 피치가 강조된 주파수 계수이다.
도 4는 도 2의 무성음 강조부(260)의 일 예를 도시하는 도면이다.
도 4를 참조하면, 무성음 강조부(260)는 주파수 계수 정규화기(410) 및 무성음 강조기(420)를 포함한다.
주파수 계수 정규화기(410)는 전체 주파수 구간을 하나의 주파수 대역으로 설정하고 상기 수학식 1과 같이 주파수 계수를 정규화할 수 있다. 주파수 계수 정규화기(410)는 벨리 이득을 결정하고, 사용자로부터 입력 받은 볼륨 제어 신호에 응답하여 피크 이득을 결정하고, 중간 영역에 대한 이득을 결정할 수 있다.
무성음 강조기(420)는 주파수 계수에 상기 결정된 이득을 곱하여 새로운 주파수 계수를 생성할 수 있다.
레벨 정규화기(270)는 피치 강조 후의 주파수 대역들 각각의 에너지 레벨이 피치 강조 전의 주파수 대역들 각각의 에너지 레벨과 동일하도록 주파수 계수들을 정규화할 수 있다.
도 7은 도 1의 시간적 포락선 강조 장치(120)의 일 예를 도시하는 도면이다. 시간적 포락선 강조장치(120)에서는 적절한 시간/주파수 분해능을 가지도록 입력 오디오 신호를 변환해야 한다. 구체적인 구현 방법으로는 도 7과 같이 부분 역 변환기 (partial inverse transformer)를 적용할 수 있으며 일반적인 Quadrature Mirror Filter를 적용할 수 있다. QMF는 오디오 압축 방식인 SBR (Spectral Band Replication, ISO/IEC 14496-3 )에서 적용하고 있는 Complex-valued QMF를 동일하게 적용할 수 있다.
도 7을 참조하면, 시간적 포락선 강조 장치(120)는 Hilbert 변환기 (transformer) (710), 부분 역 변환기 (partial inverse transformer) (720), N개의 대역 포락선(envelope) 강조부 (731 내지 734) 및 합성기(synthesizer)(740)를 포함할 수 있다.
Hilbert 변환기(710)는 피치가 강조된 주파수 계수 Xnew[b][k]에 대한 Hilbert 변환을 수행하여 XHnew[b][k]를 생성할 수 있다.
부분 역 변환기(720)는 임계 대역(critical band)에 포함되는 주파수 계수들 Xnew[b][k] 및 XHnew[b][k]에 대한 역변환을 수행하여 임계 대역들 각각에 대응하는 시간 도메인 신호 x[c][n] 및 xH[c][n]을 생성할 수 있다. 여기서 c는 임계 대역의 인덱스로서 앞에서 설명된 주파수 대역의 인덱스 b와는 다른 것이고, n은 시간 프레임의 인덱스일 수 있다. c는 1 부터 N까지의 양의 정수 중 하나일 수 있다.
대역 (1) 포락선 강조부(731)는 제1 임계 대역에 대응하는 시간 도메인 신호에 대하여 포락선 강조 과정을 수행하고, 대역 (2) 포락선 강조부(732)는 제2 임계 대역에 대응하는 시간 도메인 신호에 대하여 포락선 강조 과정을 수행할 수 있다.
대역 (N-1) 포락선 강조부(733)는 제(N-1) 임계 대역에 대응하는 시간 도메인 신호에 대하여 포락선 강조 과정을 수행하고, 대역 (N) 포락선 강조부(734)는 제N 임계 대역에 대응하는 시간 도메인 신호에 대하여 포락선 강조 과정을 수행할 수 있다.
N개의 대역 포락선 강조부(731 내지 734)들 각각은 포락선 강조 제어 신호를 사용자로부터 입력 받아 포락선 강조 정도를 결정할 수 있다.
도 8은 대역 (1) 포락선 강조부(731)의 일 예를 도시하는 도면이다.
도 8을 참조하면, 대역 (1) 포락선 강조부(731)는 대역 (1) 포락선 계산기 (810), 대역 (1) 포락선 변화량 계산기(820), 대역 (1) 강조 함수 결정기(830), 및 대역 (1) 포락선 강조기(840)를 포함할 수 있다.
하기 수학식 5는 c번째 임계 대역에 대응하는 n번째 시간 프레임의 포락선 a[c][n]에 대한 계산 과정을 나타낼 수 있다.
[수학식 5]
a[c][n] = sqrt [ (x[c][n])2 + (xH[c][n])2 ]
대역 (1) 포락선 계산기(810)는 상기 수학식 5에 c=1을 대입함으로써 제1 임계 대역에 대응하는 신호의 포락선을 계산할 수 있다.
대역 (1) 포락선 변화량 계산기(820)는 제1 임계 대역에 대응하는 신호의 시간 도메인에서의 포락선 변화량을 계산할 수 있다.
하기 수학식 6은 c번째 임계 대역에 대응하는 n번째 시간 프레임의 포락선 변화량 D[c][n]에 대한 계산 과정의 일 예를 나타낼 수 있다.
[수학식 6]
D[c][n] = ( a[c][n] ) / ( a[c][n-1] )
대역 (1) 포락선 변화량 계산기(820)는 상기 수학식 6에 c=1을 대입함으로써 제1 임계 대역에서의 포락선 변화량을 계산할 수 있다.
대역 (1) 강조 함수 결정기(830)는 포락선 강조 제어 신호에 응답하여 포락선 강조 함수 g1( )를 결정할 수 있다. 실시예에 따라서는 c번째 임계 대역에 대응하는 포락선 강조 함수 gc(x)는 xp (p ≥ 1.0)로 나타내어질 수 있다. 대역 (1) 강조 함수 결정기(830)는 포락선 강조 제어 신호에 응답하여 p를 결정할 수 있다.
대역 (1) 포락선 강조기(840)는 포락선 강조 함수를 이용하여 포락선 이득을 결정할 수 있고, 포락선 이득을 시간 도메인 신호에 곱하여 새로운 시간 도메인 신호를 생성할 수 있다.
c번째 임계 대역의 n번째 시간 프레임에서의 포락선 이득은 ( anew[c][n] / a[c][n] )로 주어질 수 있고, 새로운 포락선 anew[c][n]은 하기 수학식 7과 같이 나타내어질 수 있다.
[수학식 7]
anew[c][n] = anew[c][n-1] x gc( D[c][n] )
c번째 임계 대역의 n번째 시간 프레임의 새로운 시간 도메인 신호 xnew[c][n]은 하기 수학식 8과 같이 나타내어질 수 있다.
[수학식 8]
xnew[c][n] = x[c][n] x ( anew[c][n] / a[c][n] )
다시 도 7을 참조하면, 합성기(750)는 N개의 임계 대역들에 대응하는 새로운 시간 도메인 신호들 xnew[c][n] ( 1 ≤ c ≤ N )을 합성하여 출력 신호를 생성할 수 있다.
시간적 포락선 강조 장치(120)는 수신된 음성 신호가 전달되는 과정에서 발생할 수 있는 smoothing의 영향을 제거하기 위하여 시간적 포락선의 변화량을 강조할 수 있다. 수신된 음성 신호의 포락선이 증가할 때 시간적 포락선 강조 장치(120)는 포락선의 증가를 가속하고, 수신된 음성 신호의 포락선이 감소할 때 시간적 포락선 강조 장치(120)는 포락선의 감소를 가속할 수 있다.
시간적 포락선 강조 장치(120)는 임계 대역들 각각에 대하여 강조 함수를 선택함으로써 임계 대역들 각각에 대한 포락선 강조 정도를 선택할 수 있다.
시간적 포락선 강조 장치(120)는 주변 잡음이 크면 강조 함수의 지수(exponent) p를 크게 설정할 수 있다.
도 9는 도 7의 부분 역 변환기(720)의 동작의 일 예를 도시하는 도면이다.
도 9를 참조하면 주파수에 따른 디지털 푸리에 변환 계수가 도시된다.
부분 역 디지털 푸리에 변환기(Inverse Digital Fourier Transformer) (1) (940)는 제1 임계 대역(910)에 대응하는 주파수 계수들에 대하여 부분 역 디지털 푸리에 변환(IDFT)를 수행하여 밴드 통과 신호(1)를 생성할 수 있다.
부분 역 디지털 푸리에 변환기 (2) (950)는 제2 임계 대역(920)에 대응하는 주파수 계수들에 대하여 부분 IDFT를 수행하여 밴드 통과 신호(2)를 생성할 수 있다.
부분 역 디지털 푸리에 변환기 (3) (960)는 제3 임계 대역(930)에 대응하는 주파수 계수들에 대하여 부분 IDFT를 수행하여 밴드 통과 신호(3)를 생성할 수 있다.
부분 역 변환기(720)가 임계 대역에 대응하는 주파수 계수에 대해서 IDFT를 수행하는 과정에서 다른 대역에 대응하는 주파수 계수는 0이므로 부분 역 변환기(720)는 IDFT를 위한 계산 과정을 줄일 수 있다.
부분 역 변환기(720)는 IDFT를 이용함으로써 밴드 통과 필터(band pass filter)를 이용하는 경우보다 높은 주파수 해상도를 얻을 수 있다. 장치(100)는 높은 주파수 해상도를 이용하여 피치 피크 및 피치 벨리를 식별할 수 있다.
도 10은 본 발명의 다른 실시예에 따른 신호 품질 향상 방법을 도시하는 도면이다.
도 10을 참조하면, 신호 품질 향상 방법은 수신된 음성 신호의 피치를 추출한다(S1010).
신호 품질 향상 방법은 상기 수신된 음성 신호를 주파수 도메인으로 변환한다(S1020).
신호 품질 향상 방법은 상기 수신된 음성 신호가 유성음인지 여부를 판정한다(S1030).
신호 품질 향상 방법은 상기 수신된 음성 신호가 유성음이면 상기 추출된 피치 주기에 기초하여 상기 변환된 음성 신호를 복수의 주파수 대역들 각각에 대응하는 음성 신호들로 분리한다(S1040).
신호 품질 향상 방법은 상기 분리된 음성 신호의 크기에 기초하여 이득을 결정한다(S1050).
신호 품질 향상 방법은 상기 복수의 주파수 대역들 각각에 대하여 상기 변환된 음성 신호에 단계(S1050)에서 결정된 이득을 곱한다(S1060).
신호 품질 향상 방법은 상기 수신된 음성 신호가 유성음이 아니면 상기 변환된 음성 신호의 크기에 기초하여 이득을 결정한다(S1070).
신호 품질 향상 방법은 상기 변환된 음성 신호에 단계(S1070) 결정된 이득을 곱한다(S1080).
도 10은 음성 신호를 수신하여 처리하는 실시예를 도시하고 있으나 실시예에 따라서는 음성 신호뿐만 아니라 음악 신호 또는 음향 효과 신호를 처리하여 오디오 신호의 품질을 향상시킬 수 있다. 또한 실시예에 따라서는 오디오 신호를 수신할 수 있을 뿐만 아니라 mp3 플레이어 또는 저장 장치에 저장된 오디오 파일을 읽고, 읽은 파일로부터 오디오 신호를 입력 받아 처리할 수도 있다.
실시예에 따라서는 신호 품질 향상 방법은 인간의 음성 신호가 아닌 음악 신호 또는 음향 효과 신호를 처리할 수 있다. 이 때 단계(S1030)는 오디오 신호의 피치(단계(S1010)에서 추출된 피치)에 기초하여 오디오 신호가 피치를 가지는 신호인지 피치를 가지지 않는 신호인지 판정할 수 있다. 오디오 신호가 피치를 가지는 신호이면 신호 품질 향상 방법은 유성음 신호를 처리하는 방법과 동일한 방법으로 오디오 신호를 처리할 수 있다.
도 11은 본 발명의 또 다른 실시예에 따른 신호 품질 향상 방법을 도시하는 도면이다.
도 11을 참조하면, 신호 품질 향상 방법은 수신된 음성 신호를 주파수 도메인으로 변환한다(S1110).
신호 품질 향상 방법은 전체 주파수 대역을 복수의 주파수 대역들로 분할한다(S1120).
신호 품질 향상 방법은 상기 분할된 주파수 대역들 각각에 대하여 상기 주파수 도메인으로 변환된 음성 신호를 분리한다(S1130).
신호 품질 향상 방법은 상기 분리된 음성 신호들 각각을 시간 도메인으로 변환한다(S1140).
신호 품질 향상 방법은 상기 시간 도메인으로 변환된 음성 신호들 각각의 시간에 따른 변화량에 기초하여 이득을 결정한다(S1150).
신호 품질 향상 방법은 상기 시간 도메인으로 변화된 음성 신호들 각각에 상기 결정된 이득을 곱하여 주파수 대역 별 출력 신호를 생성한다(S1160).
도 11은 음성 신호를 수신하여 처리하는 실시예를 도시하고 있으나 실시예에 따라서는 음성 신호뿐만 아니라 음악 신호 또는 음향 효과 신호를 처리하여 오디오 신호의 품질을 향상시킬 수 있다. 또한 실시예에 따라서는 오디오 신호를 수신할 수 있을 뿐만 아니라 mp3 플레이어 또는 저장 장치에 저장된 오디오 파일을 읽고, 읽은 파일로부터 오디오 신호를 입력 받아 처리할 수도 있다.
도 12는 본 발명의 또 다른 실시예에 따른 장치(1200)를 도시하는 도면이다.
도 12를 참조하면, 장치(1200)는 주파수 도메인 변환부(1210), 주파수 대역 분할부(1220), N개의 시간 도메인 변환부(1231 내지 1234) 및 N개의 시간적 포락선 강조부(1241 내지 1244)를 포함할 수 있다. 장치(1200)는 오디오 신호를 입력 받고, 상기 오디오 신호의 시간적 포락선(temporal envelope)을 강조할 수 있다.
주파수 도메인 변환부(1210)는 상기 오디오 신호를 주파수 도메인으로 변환한다.
주파수 대역 분할부(1220)는 전체 주파수 대역을 복수의 주파수 대역들로 분할할 수 있다. 주파수 대역 분할부(1220)는 상기 주파수 도메인으로 변환된 오디오 신호를 복수의 주파수 대역들 각각에 대응하는 오디오 신호들로 분리할 수 있다.
시간 도메인 변환부 (1) (1231)는 제1 대역에 대응하는 오디오 신호를 시간 도메인으로 변환할 수 있다. 시간적 포락선 강조부 (1) (1241)는 제1 대역에 대응하는 오디오 신호로서 시간 도메인으로 변환된 오디오 신호의 변화량에 기초하여 이득을 결정할 수 있다. 시간적 포락선 강조부 (1) (1241)는 제1 대역에 대응하는 오디오 신호로서 시간 도메인으로 변환된 오디오 신호에 상기 결정된 이득을 곱하여 제1 대역의 출력 신호를 생성할 수 있다.
마찬가지로, 시간 도메인 변환부 (2) (1232)는 제2 대역에 대응하는 오디오 신호를 시간 도메인으로 변환할 수 있다. 시간적 포락선 강조부 (2) (1242)는 제2 대역에 대응하는 오디오 신호로서 시간 도메인으로 변환된 오디오 신호의 변화량에 기초하여 이득을 결정할 수 있다. 시간적 포락선 강조부 (2) (1242)는 제2 대역에 대응하는 오디오 신호로서 시간 도메인으로 변환된 오디오 신호에 상기 결정된 이득을 곱하여 제2 대역의 출력 신호를 생성할 수 있다.
마찬가지로, 시간 도메인 변환부 (N) (1234)는 제N 대역에 대응하는 오디오 신호를 시간 도메인으로 변환할 수 있다. 시간적 포락선 강조부 (N) (1244)는 제N 대역에 대응하는 오디오 신호로서 시간 도메인으로 변환된 오디오 신호의 변화량에 기초하여 이득을 결정할 수 있다. 시간적 포락선 강조부 (N) (1244)는 제N 대역에 대응하는 오디오 신호로서 시간 도메인으로 변환된 오디오 신호에 상기 결정된 이득을 곱하여 제N 대역의 출력 신호를 생성할 수 있다.
합성기(1250)는 제1 대역 내지 제N 대역의 출력 신호를 합성하여 출력 신호를 생성할 수 있다.
도 13은 도 12의 시간적 포락선 강조부 (1) (1241)의 일 예를 도시하는 도면이다.
도 13을 참조하면, 시간적 포락선 강조부 (1) (1241)는 프레임 분할부(1310), 시간적 포락선 계산기(1320), 시간적 포락선 변화량 계산기(1330), 이득 결정기(1340) 및 시간적 포락선 강조기(1350)를 포함할 수 있다.
프레임 분할부(1310)는 제1 대역에 대응하는 오디오 신호로서 시간 도메인으로 변환된 오디오 신호를 복수의 시간 프레임들에 따라 분할할 수 있다.
시간적 포락선 계산기(1320)는 상기 시간 프레임들에 따라 분할된 오디오 신호들 각각의 시간적 포락선 (temporal envelope)을 계산할 수 있다. 시간적 포락선 계산기(1320)는 Hilbert 변환을 이용하여 temporal envelope를 계산할 수 있다.
시간적 포락선 변화량 계산기(1330)는 다음 프레임에 대응하는 오디오 신호의 시간적 포락선 및 이전 프레임에 대응하는 오디오 신호의 시간적 포락선의 비율에 기초하여 시간적 포락선의 변화량을 계산할 수 있다.
이득 결정기(1340)는 시간적 포락선의 변화량 및 사용자로부터의 입력에 기초하여 이득을 결정할 수 있다. 이득 결정기(1340)는 주파수 대역 및 시간 프레임 각각에 대하여 이득을 결정할 수 있다.
시간적 포락선 강조기(1350)는 상기 결정된 이득을 상기 시간 프레임들에 따라 분할된 오디오 신호들에 곱하여 주파수 대역 및 시간 프레임 각각에 대응하는 출력 신호를 생성할 수 있다.
시간적 포락선 강조부 (1) (1241)는 시간 프레임 각각에 대응하는 출력 신호를 합성하여 제1 대역의 출력 신호를 생성할 수 있다.
도 13은 설명의 편의 상 시간적 포락선 강조부 (1) (1241)에 대하여 설명되었으나 시간적 포락선 강조부 (2) (1242), 시간적 포락선 강조부 (N-1)(1243) 또는 시간적 포락선 강조부 (N)(1244)에 적용될 수 있다.
본 발명의 실시예들에 따른 신호 품질 향상 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해 져야 한다.
도 1은 본 발명의 일 실시예에 따른 장치(100)를 도시하는 도면이다.
도 2는 도 1의 피치 강조 장치(110)의 일 예를 도시하는 도면이다.
도 3은 도 2의 피치 강조부(250)의 일 예를 도시하는 도면이다.
도 4는 도 2의 무성음 강조부(260)의 일 예를 도시하는 도면이다.
도 5는 도 3의 전체 이득 계산기(340)의 동작의 일 예를 도시하는 도면이다.
도 6은 도 3의 벨리 이득 계산기(320)의 동작의 일 예를 도시하는 도면이다.
도 7은 도 1의 시간적 포락선 강조 장치(120)의 일 예를 도시하는 도면이다.
도 8은 대역 (1) 포락선 강조부(731)의 일 예를 도시하는 도면이다.
도 9는 도 7의 부분 역 변환기(720)의 동작의 일 예를 도시하는 도면이다.
도 10은 본 발명의 다른 실시예에 따른 신호 품질 향상 방법을 도시하는 도면이다.
도 11은 본 발명의 또 다른 실시예에 따른 신호 품질 향상 방법을 도시하는 도면이다.
도 12는 본 발명의 또 다른 실시예에 따른 장치(1200)를 도시하는 도면이다.
도 13은 도 12의 시간적 포락선 강조부 (1) (1241)의 일 예를 도시하는 도면이다.
<도면의 주요 부분에 대한 부호의 설명>
110: pitch enhancement apparatus
120: temporal envelope enhancement apparatus

Claims (25)

  1. 오디오 신호의 피치 주기를 추출하는 피치 계산부;
    상기 오디오 신호를 주파수 도메인으로 변환하는 주파수 도메인 변환부;
    상기 추출된 피치 주기에 기초하여 전체 주파수 대역을 복수의 주파수 대역들로 분할하고, 상기 변환된 오디오 신호를 상기 분할된 주파수 대역들 각각에 대응하는 오디오 신호들로 분리하는 주파수 대역 분할부; 및
    상기 변환된 오디오 신호의 크기에 기초하여 이득을 결정하고, 상기 분할된 주파수 대역들 각각에 대하여 상기 분리된 오디오 신호에 상기 결정된 이득을 곱하여 출력 신호를 생성하는 피치 강조부
    를 포함하는 장치.
  2. 제1항에 있어서,
    상기 피치 강조부는
    상기 분리된 오디오 신호의 크기에 기초하여 상기 분리된 오디오 신호를 피치 피크 영역, 중간 영역 및 피치 벨리 영역으로 분할하고, 상기 분할된 영역에 따라 상기 이득을 결정하는 장치.
  3. 제1항에 있어서,
    상기 피치 강조부는
    상기 분리된 오디오 신호의 크기가 작을수록 상기 이득이 작도록 상기 이득을 결정하는 장치.
  4. 제1항에 있어서,
    상기 오디오 신호가 유성음인지 무성음인지 판정하고 상기 변환된 오디오 신호 중 유성음 신호를 분리하는 유성음 판정부
    를 더 포함하고,
    상기 주파수 대역 분할부는
    상기 분리된 유성음 신호를 상기 분할된 주파수 대역들 각각에 대응하는 유성음 신호들로 분할하는 장치.
  5. 제1항에 있어서,
    상기 피치 강조부는
    상기 분할된 주파수 대역들 각각에 대하여 상기 이득을 조정하는 장치.
  6. 제1항에 있어서,
    상기 피치 강조부는
    상기 분할된 주파수 대역들 각각의 주파수가 높을수록 상기 이득의 최대값 및 최소값의 비율이 작도록 상기 이득을 조정하는 장치.
  7. 제1항에 있어서,
    상기 피치 강조부는
    사용자로부터 입력된 출력 신호의 볼륨 제어 신호에 기초하여 상기 이득을 조정하는 장치.
  8. 제1항에 있어서,
    상기 피치 강조부는
    상기 분할된 주파수 대역들 각각에 대하여 상기 분리된 오디오 신호의 최대값 및 최소값을 계산하고, 상기 계산된 최대값 및 최소값에 기초하여 상기 변환된 오디오 신호를 정규화하고, 상기 정규화된 오디오 신호에 상기 결정된 이득을 곱하여 상기 출력 신호를 생성하는 장치.
  9. 오디오 신호를 주파수 도메인으로 변환하는 주파수 도메인 변환부;
    상기 주파수 도메인으로 변환된 오디오 신호를 복수의 주파수 대역들 각각에 대응하는 오디오 신호들로 분리하는 주파수 대역 분할부;
    상기 분리된 오디오 신호들 각각을 시간 도메인으로 변환하는 시간 도메인 변환부;
    상기 시간 도메인으로 변환된 오디오 신호들 각각을 복수의 시간 프레임들에 따라 분할하는 프레임 분할부; 및
    다음 프레임에 포함된 오디오 신호 및 이전 프레임에 포함된 오디오 신호의 비율에 기초하여 이득을 결정하고는, 상기 시간 도메인으로 변환된 오디오 신호들 각각에 상기 결정된 이득을 곱하여 주파수 대역 별 출력 신호를 생성하는 시간적 포락선 강조부
    를 포함하는 장치.
  10. 제9항에 있어서,
    상기 시간적 포락선 강조부는
    상기 시간 도메인으로 변환된 오디오 신호들 각각의 시간에 따른 변화량이 클수록 상기 이득이 크도록 상기 이득을 결정하는 장치.
  11. 삭제
  12. 제9항에 있어서,
    상기 시간적 포락선 강조부는
    사용자로부터 입력된 강조 제어 신호에 기초하여 상기 이득을 조정하는 장치.
  13. 제9항에 있어서,
    상기 시간적 포락선 강조부는
    상기 복수의 주파수 대역들 각각에 대하여 상기 이득을 조정하는 장치.
  14. 제9항에 있어서,
    상기 주파수 도메인 변환부는
    상기 오디오 신호를 디지털 푸리에 변환(DFT)을 이용하여 주파수 도메인으로 변환하고,
    상기 시간 도메인 변환부는
    상기 분리된 오디오 신호들 각각을 역 디지털 푸리에 변환(IDFT)을 이용하여 시간 도메인으로 변환하는 장치.
  15. 오디오 신호의 피치 주기를 계산하고, 상기 계산된 피치 주기에 기초하여 상기 오디오 신호의 주파수 도메인 신호를 분리하는 피치 대역 분할부;
    상기 분리된 신호들 각각의 크기에 기초하여 이득을 결정하고, 상기 결정된 이득을 상기 분리된 신호들 각각에 곱하여 피치 강조 신호를 생성하는 피치 강조부; 및
    상기 생성된 피치 강조 신호의 시간에 따른 변화량에 기초하여 시간 별 이득을 결정하고, 상기 결정된 시간 별 이득을 상기 생성된 피치 강조 신호에 곱하여 출력 신호를 생성하는 시간적 포락선 강조부
    를 포함하는 장치.
  16. 오디오 신호의 피치 주기를 추출하는 단계;
    상기 오디오 신호를 주파수 도메인으로 변환하는 단계;
    상기 추출된 피치 주기에 기초하여 상기 변환된 오디오 신호를 복수의 주파수 대역들 각각에 대응하는 오디오 신호들로 분리하는 단계;
    상기 분리된 오디오 신호의 크기에 기초하여 이득을 결정하는 단계; 및
    상기 복수의 주파수 대역들 각각에 대하여 상기 분리된 오디오 신호에 상기 결정된 이득을 곱하여 출력 신호를 생성하는 단계
    를 포함하는 신호 품질 향상 방법.
  17. 제16항에 있어서,
    상기 이득을 결정하는 단계는
    상기 분리된 오디오 신호의 크기에 기초하여 상기 분리된 오디오 신호를 피치 피크 영역, 중간 영역 및 피치 벨리 영역으로 분할하고, 상기 분할된 영역에 따라 상기 이득을 결정하는 신호 품질 향상 방법.
  18. 제16항에 있어서,
    상기 오디오 신호가 유성음인지 무성음인지 판정하는 단계; 및
    상기 변환된 오디오 신호 중 유성음 신호를 분리하는 단계
    를 더 포함하고,
    상기 변환된 오디오 신호를 복수의 주파수 대역들 각각에 대응하는 오디오 신호들로 분리하는 단계는
    상기 분리된 유성음 신호를 상기 복수의 주파수 대역들 각각에 대응하는 유성음 신호들로 분리하는 신호 품질 향상 방법.
  19. 제16항에 있어서,
    상기 이득을 결정하는 단계는
    상기 복수의 주파수 대역들 각각의 주파수가 높을수록 상기 이득의 최대값 및 최소값의 비율이 작도록 상기 이득을 조정하는 신호 품질 향상 방법.
  20. 제16항에 있어서,
    상기 이득을 결정하는 단계는
    사용자로부터 입력된 출력 신호의 볼륨 제어 신호에 기초하여 상기 이득을 조정하는 신호 품질 향상 방법.
  21. 오디오 신호를 주파수 도메인으로 변환하는 단계;
    상기 주파수 도메인으로 변환된 오디오 신호를 복수의 주파수 대역들 각각에 대응하는 오디오 신호들로 분리하는 단계;
    상기 분리된 오디오 신호들 각각을 시간 도메인으로 변환하는 단계;
    상기 시간 도메인으로 변환된 오디오 신호들 각각을 복수의 시간 프레임들에 따라 분할하는 단계;
    다음 프레임에 포함된 오디오 신호 및 이전 프레임에 포함된 오디오 신호의 비율에 기초하여 이득을 결정하는 단계; 및
    상기 시간 도메인으로 변환된 오디오 신호들 각각에 상기 결정된 이득을 곱하여 주파수 대역 별 출력 신호를 생성하는 단계
    를 포함하는 신호 품질 향상 방법.
  22. 제21항에 있어서,
    상기 이득을 결정하는 단계는
    상기 시간 도메인으로 변환된 오디오 신호들 각각의 시간에 따른 변화량이 클수록 상기 이득이 크도록 상기 이득을 결정하는 신호 품질 향상 방법.
  23. 삭제
  24. 제21항에 있어서,
    상기 이득을 결정하는 단계는
    사용자로부터 입력된 강조 제어 신호에 기초하여 상기 이득을 조정하는 신호 품질 향상 방법.
  25. 오디오 신호를 시간/주파수 도메인으로 표현하기 위해 필터뱅크 (QMF) 분석을 수행하는 변환부;
    상기 필터뱅크 분석에 따라 시간 도메인으로 표현된 오디오 신호들 각각을 복수의 시간 프레임들에 따라 분할하는 프레임 분할부; 및
    다음 프레임에 포함된 오디오 신호 및 이전 프레임에 포함된 오디오 신호의 비율에 기초하여 이득을 결정하고, 상기 시간 도메인으로 표현된 오디오 신호들 각각에 상기 결정된 이득을 곱하여 주파수 대역 별 출력 신호를 생성하는 시간적 포락선 강조부
    를 포함하는 장치.
KR1020080053695A 2008-06-09 2008-06-09 오디오 신호 품질 향상 장치 및 방법 Expired - Fee Related KR101475724B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080053695A KR101475724B1 (ko) 2008-06-09 2008-06-09 오디오 신호 품질 향상 장치 및 방법
US12/479,009 US8315862B2 (en) 2008-06-09 2009-06-05 Audio signal quality enhancement apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080053695A KR101475724B1 (ko) 2008-06-09 2008-06-09 오디오 신호 품질 향상 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20090127625A KR20090127625A (ko) 2009-12-14
KR101475724B1 true KR101475724B1 (ko) 2014-12-30

Family

ID=41401085

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080053695A Expired - Fee Related KR101475724B1 (ko) 2008-06-09 2008-06-09 오디오 신호 품질 향상 장치 및 방법

Country Status (2)

Country Link
US (1) US8315862B2 (ko)
KR (1) KR101475724B1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
US8423357B2 (en) * 2010-06-18 2013-04-16 Alon Konchitsky System and method for biometric acoustic noise reduction
CN103004084B (zh) * 2011-01-14 2015-12-09 华为技术有限公司 用于语音质量增强的方法及设备
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
US20130297299A1 (en) * 2012-05-07 2013-11-07 Board Of Trustees Of Michigan State University Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition
CN103680510B (zh) * 2012-09-11 2016-06-29 华为终端有限公司 降噪处理方法及装置
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
AU2015336275A1 (en) 2014-10-20 2017-06-01 Audimax, Llc Systems, methods, and devices for intelligent speech recognition and processing
JP6962268B2 (ja) * 2018-05-10 2021-11-05 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム
JP6962269B2 (ja) * 2018-05-10 2021-11-05 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム
WO2020014517A1 (en) * 2018-07-12 2020-01-16 Dolby International Ab Dynamic eq
CN112951266B (zh) * 2021-02-05 2024-02-06 杭州网易云音乐科技有限公司 齿音调整方法、装置、电子设备及计算机可读存储介质
CN113593609B (zh) * 2021-08-03 2024-02-09 杭州网易云音乐科技有限公司 乐曲识别方法、装置、电子设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5901234A (en) * 1995-02-14 1999-05-04 Sony Corporation Gain control method and gain control apparatus for digital audio signals
US20040030546A1 (en) * 2001-08-31 2004-02-12 Yasushi Sato Apparatus and method for generating pitch waveform signal and apparatus and mehtod for compressing/decomprising and synthesizing speech signal using the same
US20050240401A1 (en) * 2004-04-23 2005-10-27 Acoustic Technologies, Inc. Noise suppression based on Bark band weiner filtering and modified doblinger noise estimate
KR20060008078A (ko) * 2004-07-23 2006-01-26 엘지전자 주식회사 휴대단말기의 개선된 저전송률 선형예측코딩 장치 및 방법

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69725172T2 (de) * 1996-03-08 2004-04-08 Motorola, Inc., Schaumburg Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
JP3307875B2 (ja) * 1998-03-16 2002-07-24 松下電送システム株式会社 符号化音声再生装置および符号化音声再生方法
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
JP3964205B2 (ja) * 1999-05-31 2007-08-22 インフィネオン テクノロジーズ アクチエンゲゼルシャフト 半導体装置パッケージの組立方法
US6671667B1 (en) * 2000-03-28 2003-12-30 Tellabs Operations, Inc. Speech presence measurement detection techniques
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
US7072477B1 (en) * 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
CN100369111C (zh) * 2002-10-31 2008-02-13 富士通株式会社 话音增强装置
US8023673B2 (en) * 2004-09-28 2011-09-20 Hearworks Pty. Limited Pitch perception in an auditory prosthesis
US7949520B2 (en) * 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
JP4701684B2 (ja) * 2004-11-19 2011-06-15 ヤマハ株式会社 音声処理装置およびプログラム
TWI517562B (zh) * 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5901234A (en) * 1995-02-14 1999-05-04 Sony Corporation Gain control method and gain control apparatus for digital audio signals
US20040030546A1 (en) * 2001-08-31 2004-02-12 Yasushi Sato Apparatus and method for generating pitch waveform signal and apparatus and mehtod for compressing/decomprising and synthesizing speech signal using the same
US20050240401A1 (en) * 2004-04-23 2005-10-27 Acoustic Technologies, Inc. Noise suppression based on Bark band weiner filtering and modified doblinger noise estimate
KR20060008078A (ko) * 2004-07-23 2006-01-26 엘지전자 주식회사 휴대단말기의 개선된 저전송률 선형예측코딩 장치 및 방법

Also Published As

Publication number Publication date
US20090306971A1 (en) 2009-12-10
US8315862B2 (en) 2012-11-20
KR20090127625A (ko) 2009-12-14

Similar Documents

Publication Publication Date Title
KR101475724B1 (ko) 오디오 신호 품질 향상 장치 및 방법
JP6147744B2 (ja) 適応音声了解度処理システムおよび方法
CN101636648B (zh) 采用感知模型的语音增强
KR101378696B1 (ko) 협대역 신호로부터의 상위대역 신호의 결정
US8930184B2 (en) Signal bandwidth extending apparatus
RU2552184C2 (ru) Устройство для расширения полосы частот
US9779721B2 (en) Speech processing using identified phoneme clases and ambient noise
RU2541183C2 (ru) Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания
US8812308B2 (en) Apparatus and method for modifying an input audio signal
US10861475B2 (en) Signal-dependent companding system and method to reduce quantization noise
US10304474B2 (en) Sound quality improving method and device, sound decoding method and device, and multimedia device employing same
US20130044896A1 (en) Virtual Bass Synthesis Using Harmonic Transposition
KR100876794B1 (ko) 이동 단말에서 음성의 명료도 향상 장치 및 방법
US20060130637A1 (en) Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method
US20100057476A1 (en) Signal bandwidth extension apparatus
WO2005111568A1 (ja) 符号化装置、復号化装置、およびこれらの方法
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
KR20050049103A (ko) 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
Ngo et al. Increasing speech intelligibility and naturalness in noise based on concepts of modulation spectrum and modulation transfer function
JP2022532959A (ja) オーディオ信号内の特定の音声の検出に基づく歯擦音検出の適応
CN115066912B (zh) 用于通过装置进行音频渲染的方法、装置和非暂时性计算机可读介质
CN110168640A (zh) 用于增强信号中需要分量的装置和方法
JP3478267B2 (ja) ディジタルオーディオ信号圧縮方法および圧縮装置
JP6159570B2 (ja) 音声強調装置、及びプログラム
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体

Legal Events

Date Code Title Description
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

PN2301 Change of applicant

St.27 status event code: A-3-3-R10-R11-asn-PN2301

St.27 status event code: A-3-3-R10-R13-asn-PN2301

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

A201 Request for examination
PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

E13-X000 Pre-grant limitation requested

St.27 status event code: A-2-3-E10-E13-lim-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

St.27 status event code: A-1-2-D10-D22-exm-PE0701

GRNT Written decision to grant
PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

Fee payment year number: 1

St.27 status event code: A-2-2-U10-U11-oth-PR1002

PG1601 Publication of registration

St.27 status event code: A-4-4-Q10-Q13-nap-PG1601

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

FPAY Annual fee payment

Payment date: 20171129

Year of fee payment: 4

PR1001 Payment of annual fee

Fee payment year number: 4

St.27 status event code: A-4-4-U10-U11-oth-PR1001

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

FPAY Annual fee payment

Payment date: 20181129

Year of fee payment: 5

PR1001 Payment of annual fee

Fee payment year number: 5

St.27 status event code: A-4-4-U10-U11-oth-PR1001

PR1001 Payment of annual fee

Fee payment year number: 6

St.27 status event code: A-4-4-U10-U11-oth-PR1001

PC1903 Unpaid annual fee

Not in force date: 20201218

Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

St.27 status event code: A-4-4-U10-U13-oth-PC1903

PC1903 Unpaid annual fee

Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

Not in force date: 20201218

St.27 status event code: N-4-6-H10-H13-oth-PC1903

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载