KR20140136332A - 타겟 음향 인식을 위한 음향 특징 추출방법, 이를 통한 대상체 제어 장치 및 방법 - Google Patents
타겟 음향 인식을 위한 음향 특징 추출방법, 이를 통한 대상체 제어 장치 및 방법 Download PDFInfo
- Publication number
- KR20140136332A KR20140136332A KR20130056728A KR20130056728A KR20140136332A KR 20140136332 A KR20140136332 A KR 20140136332A KR 20130056728 A KR20130056728 A KR 20130056728A KR 20130056728 A KR20130056728 A KR 20130056728A KR 20140136332 A KR20140136332 A KR 20140136332A
- Authority
- KR
- South Korea
- Prior art keywords
- acoustic
- frame
- sound
- signal
- lfcc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000000605 extraction Methods 0.000 title claims abstract description 14
- 238000005286 illumination Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims 1
- 206010011469 Crying Diseases 0.000 description 64
- 239000013598 vector Substances 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 239000000203 mixture Substances 0.000 description 5
- 241000086550 Dinosauria Species 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 241000282693 Cercopithecidae Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Toys (AREA)
Abstract
Description
도 2는 본 발명에 따른 영유아 울음소리를 인식하기 위한 흐름도,
도 3은 본 발명에 따른 켑스트럼 영역의 신호를 획득(LFCC 특징 추출 과정)하기 위한 순서도,
도 4는 본 발명에 따른 프레임을 시간 축 상에서 순차적으로 획득하기 위한 그래프,
도 5는 본 발명에 따른 선형 스케일 필터뱅크를 나타낸 그래프,
도 6은 본 발명에 따른 40프레임의 15차 LFCC를 나타낸 예시도,
도 7은 본 발명에 따른 도 6에 보간을 한 30차 LFCC를 나타낸 예시도,
도 8은 본 발명에 따른 STDLFCC 특징 추출 과정을 도시한 예시도,
도 9는 본 발명에 따른 동일한 차수의 계수를 동일한 프레임에 할당하는 예시도,
도 10은 본 발명에 따른 타겟 음향 인식을 통한 대상체 제어 장치의 구성을 나타낸 구성도, 및
도 11은 본 발명에 따른 타겟 음향 인식을 통한 조명 제어 방법을 순차적으로 나타낸 순서도이다.
10 : 모바일 기기
100 : 입력부
200 : 제어부
210 : 인식부
300 : 출력부
110 : 제1 보간프레임
111 : 제1 프레임
113 : 제1 프레임의 보간프레임
120 : 제40 보간프레임
121 : 제40 프레임
123 : 제40 프레임의 보간프레임
130 : 시간축상으로 배열된 15차 LFCC 프레임
140 : 제1세그먼트
143 : 제2세그먼트
150 : STDLFCC 벡터
151 : STDLFCC 벡터의 제1특징값
153 : STDLFCC 벡터의 제2특징값
161 : 제1프레임
163 : 제2프레임
165 : 제15프레임
Claims (6)
- 시간 영역의 음향 신호를 연속되는 다수의 프레임 형태로 입력받는 단계,
상기 입력된 음향 신호를 주파수 영역 신호로 변환하고, 상기 주파수 영역 신호에 필터 뱅크를 적용함으로써 각각의 주파수 대역에 상응하는 에너지 값을 획득하는 단계,
상기 각각의 주파수 대역에 상응하는 에너지 값을 이용하여 이산코사인변환하는 단계, 및
상기 이산코사인변환에 따라 생성된 각 주파수별 코사인 계수 값 중 기 결정된 차수의 코사인 계수 값인 LFCC 계수 값을 획득함으로써 상기 시간 영역의 음향 신호에 대응하는 특징을 추출하는 단계를 포함하는 것을 특징으로 하는 타겟 음향 인식을 위한 음향 특징 추출 방법.
- 제 1 항에 있어서,
현재 LFCC 계수 값과 이전의 LFCC 계수 값의 차이 값을 보간한 보간 LFCC 계수 값을 생성하는 단계, 및
상기 LFCC 계수 값과 상기 보간 LFCC 계수 값을 이용하여 상기 기 결정된 차수보다 높은 차수의 새로운 LFCC 계수 값을 생성함으로써 상기 시간 영역의 음향 신호에 대응하는 특징을 추출하는 단계를 더 포함하는 것을 특징으로 하는 타겟 음향 인식을 위한 음향 특징 추출 방법.
- 시간 영역의 음향 신호를 연속되는 다수의 프레임 형태로 입력받는 단계,
상기 입력된 음향 신호를 주파수 영역 신호로 변환하고, 상기 주파수 영역 신호에 필터뱅크를 적용함으로써 각각의 주파수 대역에 상응하는 에너지 값을 획득하는 단계, 상기 연속된 복수개의 프레임의 LFCC 계수 값 중 동일한 차수의 계수 값을 동일 프레임에 시간 순서대로 할당하여 세그먼트를 생성하는 단계,
상기 세그먼트를 구성하는 각각의 프레임에 대하여 이산코사인변환하는 단계, 및
상기 이산코사인변환에 따라 생성된 각 주파수별 코사인 계수 값 중 기 결정된 차수의 코사인 계수 값을 획득함으로써 상기 시간 영역의 음향 신호에 대응하는 특징을 추출하는 단계를 포함하는 것을 특징으로 하는 타겟 음향 인식을 위한 음향 특징 추출 방법.
- 시간 영역의 음향 신호를 연속되는 다수의 프레임 형태로 입력받는 단계,
입력된 음향 신호를 주파수 영역 신호로 변환하고, 상기 주파수 영역 신호에 필터 뱅크를 적용함으로써 각각의 주파수 대역에 상응하는 각 프레임의 에너지 값을 획득하는 단계,
연속된 복수개의 프레임의 에너지 값 중 동일한 차수에 해당하는 계수 값을 동일 프레임에 시간 순서대로 할당하여 세그먼트를 생성하는 단계,
상기 세그먼트를 구성하는 각각의 프레임에 대하여 이산코사인변환하는 단계, 및
상기 이산코사인변환에 따라 생성된 각 주파수별 코사인 계수 값 중 기 결정된 차수의 코사인 계수 값을 획득함으로써 상기 시간 영역의 음향 신호에 대응하는 특징을 추출하는 단계를 포함하는 것을 특징으로 하는 타겟 음향 인식을 위한 음향 특징 추출 방법.
- 주변 환경의 음향을 입력받아 이를 주파수 영역 신호로 변환하는 수단,
상기 변환된 신호에 필터뱅크를 적용하여 각각의 주파수 대역에 상응하는 에너지 값을 획득하는 수단,
상기 에너지 값을 이산코사인변환하고, 이에 따라 생성된 각 주파수별 코사인 계수 값 중 기 결정된 차수의 코사인 계수 값인 LFCC 계수 값을 획득함으로써 음향 특징을 검출하는 수단, 및
상기 주변 음향의 지속 시간에 상응하여 제어 대상체의 동작, 회전, 조명, 및 소리 출력, 통신 이벤트 전송 중 적어도 어느 하나를 제어하는 수단을 포함하는 것을 특징으로 하는 타겟 음향 인식을 통한 제어대상체 제어 장치.
- 주기적 또는 간헐적으로 주변 환경의 음향 세기를 검출하는 레디 모드 단계,
상기 음향 세기가 기 결정된 값보다 큰 경우에 타겟 음향 인식을 수행하는 스타트 모드 단계,
타겟 음향이 인식된 경우에 정해진 제어 대상체에 명령을 전달하고 정해진 동작을 수행하도록 하는 런 모드 단계, 및
정해진 동작의 수행을 멈추는 엑스트 모드 단계를 포함하는 것을 특징으로 하는 타겟 음향 인식을 통한 제어대상체 제어 방법.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR20130056728A KR20140136332A (ko) | 2013-05-20 | 2013-05-20 | 타겟 음향 인식을 위한 음향 특징 추출방법, 이를 통한 대상체 제어 장치 및 방법 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR20130056728A KR20140136332A (ko) | 2013-05-20 | 2013-05-20 | 타겟 음향 인식을 위한 음향 특징 추출방법, 이를 통한 대상체 제어 장치 및 방법 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20140136332A true KR20140136332A (ko) | 2014-11-28 |
Family
ID=52456632
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR20130056728A Ceased KR20140136332A (ko) | 2013-05-20 | 2013-05-20 | 타겟 음향 인식을 위한 음향 특징 추출방법, 이를 통한 대상체 제어 장치 및 방법 |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR20140136332A (ko) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20170004159A (ko) * | 2015-07-01 | 2017-01-11 | 빛기술 주식회사 | 유아용 엘이디 조명장치 및 이와 연동되는 손목 밴드 |
| KR102010806B1 (ko) * | 2018-10-04 | 2019-08-14 | 한국토지주택공사 | 소음의 주파수 분석 기반 세대 간 소음 방지 장치 및 방법 |
| CN116320520A (zh) * | 2023-03-22 | 2023-06-23 | 广州博冠信息科技有限公司 | 模型动画渲染方法及装置、计算机存储介质、电子设备 |
| CN117113065A (zh) * | 2023-10-24 | 2023-11-24 | 深圳波洛斯科技有限公司 | 一种基于声音检测的智能灯组数据管理系统及方法 |
| CN117935843A (zh) * | 2024-03-22 | 2024-04-26 | 浙江芯劢微电子股份有限公司 | 一种低资源场景下的哭声检测方法、系统 |
-
2013
- 2013-05-20 KR KR20130056728A patent/KR20140136332A/ko not_active Ceased
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20170004159A (ko) * | 2015-07-01 | 2017-01-11 | 빛기술 주식회사 | 유아용 엘이디 조명장치 및 이와 연동되는 손목 밴드 |
| KR102010806B1 (ko) * | 2018-10-04 | 2019-08-14 | 한국토지주택공사 | 소음의 주파수 분석 기반 세대 간 소음 방지 장치 및 방법 |
| CN116320520A (zh) * | 2023-03-22 | 2023-06-23 | 广州博冠信息科技有限公司 | 模型动画渲染方法及装置、计算机存储介质、电子设备 |
| CN117113065A (zh) * | 2023-10-24 | 2023-11-24 | 深圳波洛斯科技有限公司 | 一种基于声音检测的智能灯组数据管理系统及方法 |
| CN117113065B (zh) * | 2023-10-24 | 2024-02-09 | 深圳波洛斯科技有限公司 | 一种基于声音检测的智能灯组数据管理系统及方法 |
| CN117935843A (zh) * | 2024-03-22 | 2024-04-26 | 浙江芯劢微电子股份有限公司 | 一种低资源场景下的哭声检测方法、系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110060685B (zh) | 语音唤醒方法和装置 | |
| Trigeorgis et al. | Adieu features? end-to-end speech emotion recognition using a deep convolutional recurrent network | |
| US10976337B2 (en) | Context awareness of a smart device through sensing transient and continuous events | |
| TWI619114B (zh) | 環境敏感之自動語音辨識的方法和系統 | |
| KR20140136332A (ko) | 타겟 음향 인식을 위한 음향 특징 추출방법, 이를 통한 대상체 제어 장치 및 방법 | |
| CN112074900A (zh) | 用于自然语言处理的音频分析 | |
| US20140038489A1 (en) | Interactive plush toy | |
| CN107424627A (zh) | 用于自主安抚婴儿的系统及方法 | |
| CN104700843A (zh) | 一种年龄识别的方法及装置 | |
| EP3923198A1 (en) | Method and apparatus for processing emotion information | |
| US11790932B2 (en) | Acoustic event detection | |
| CN115206306B (zh) | 语音交互方法、装置、设备及系统 | |
| CN105182763A (zh) | 一种基于语音识别的智能遥控器及实现方法 | |
| KR100332966B1 (ko) | 음성인식 대화형 인형완구 및 그 제어방법 | |
| CN112700765B (zh) | 辅助技术 | |
| CN111048092B (zh) | 一种电子坐便器的语音控制系统及方法 | |
| JP6258172B2 (ja) | 音情報処理装置及びシステム | |
| WO2016052520A1 (ja) | 対話装置 | |
| JP2019009666A (ja) | 情報処理方法、及び、情報処理装置 | |
| CN112634883A (zh) | 控制用户界面 | |
| CN111210811B (zh) | 一种基音混合方法及装置 | |
| KR20230078376A (ko) | 인공지능 모델을 이용하여 오디오 신호를 처리하는 방법 및 장치 | |
| CN112420078A (zh) | 一种监听方法、装置、存储介质及电子设备 | |
| US20160293182A1 (en) | Voice Band Detection and Implementation | |
| KR20160003433A (ko) | 타겟 음향의 시공간 영역에서의 스펙트럼에 대한 통계적 특성에 따른 환경 적응형 특징 추출 방법 및 그에 따른 비상 상황 검출 방법 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A201 | Request for examination | ||
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20130520 |
|
| PA0201 | Request for examination | ||
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20140827 Patent event code: PE09021S01D |
|
| PG1501 | Laying open of application | ||
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20150313 Patent event code: PE09021S01D |
|
| E601 | Decision to refuse application | ||
| PE0601 | Decision on rejection of patent |
Patent event date: 20150528 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20150313 Comment text: Notification of reason for refusal Patent event code: PE06011S01I Patent event date: 20140827 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |