KR20140136332A

KR20140136332A - 타겟 음향 인식을 위한 음향 특징 추출방법, 이를 통한 대상체 제어 장치 및 방법

Info

Publication number: KR20140136332A
Application number: KR20130056728A
Authority: KR
Inventors: 홍승기
Original assignee: (주)사운드렉
Priority date: 2013-05-20
Filing date: 2013-05-20
Publication date: 2014-11-28

Abstract

본 발명은 타겟 음향 인식을 위한 음향 특징 추출 방법, 타겟 음향 인식을 통한 대상체 제어 장치 및 방법에 관한 것으로서, 영유아의 울음소리를 검출하고 인식하여 조명기기, 장난감, 모빌, 감시카메라 등을 제어하도록 함으로써 타겟 음향 인식을 통한 대상체 제어 장치 및 방법을 개시한다.

Description

타겟 음향 인식을 위한 음향 특징 추출방법, 이를 통한 대상체 제어 장치 및 방법{An acoustic feature extraction method for target acoustic recognition, apparatus for controlling objects by target acoustic recognition and method thereof}

본 발명은 타겟 음향 인식을 위한 음향 특징 추출 방법 및 이를 통한 대상체 제어 장치와 방법에 관한 것으로서, 보다 상세하게는 영유아의 울음소리 또는 특정의 음향 신호를 인식하여 영유아가 있는 장소 및 공간에서 조명기기, 장난감, 모빌, 감시카메라 등을 목적에 맞게 제어하기 위한 영유아의 울음 인식을 위한 음향 특징 추출 방법 및 이를 통한 대상체 제어 장치와 방법에 관한 것이다.

영유아를 보살피는 부모는 영유아를 돌보는 이외에도 틈틈이 가사일을 해야한다. 부모는 영유아를 재우고 난 뒤 영유아와 떨어져서 가사일을 수행한다. 이때, 영유아가 잠에서 깨거나 울음을 터뜨린 경우 울음소리를 인지한 부모는 영유아를 달랠 수 있으나 울음소리를 인지하지 못한 부모는, 예를 들어 아파트 등에서 음식물 쓰레기를 버리러 이동한 경우에는 영유아가 계속해서 울 수밖에 없다. 따라서 영유아 울음소리 또는 특정 음향 신호를 인식하는 방법 및 영유아가 우는 경우 상황에 따라 대처하는 방법이 필요하다.

따라서, 본 발명은 전술한 바와 같은 문제점을 해결하기 위하여 창출된 것으로서, 영유아의 울음소리와 같은 특징점이 있는 음향신호의 특징을 추출함으로써 목적하는 타겟 음향을 인식할 수 있는 알고리즘을 제시하고, 음향신호 특징 추출 과정을 음향신호의 입력에 따라 무조건 수행하는 것이 아니라 일정 에너지 레벨 이상인 경우에만 선택적으로 수행하도록 함으로써 프로세서의 부담을 낮추고 기기의 소모 전력을 효율적으로 사용할 수 있도록 하는데 그 목적이 있다.

또한, 영유아의 울음소리를 인식하여 조명기기, 모빌, 및 장난감, 원격의 감시카메라 등이 될 수 있는 제어대상체가 반응하여 동작하도록 함으로서 빠른 대응을 통하여 영유아를 달랠 수 있고, 안전사고를 예방하며, 또한 영유아의 울음을 감지하는 이벤트 발생시에 원격지의 PC 및 모바일 스마트폰 같은 모바일 기기로 통신 이벤트 발생을 알릴 수 있도록 하는데 다른 목적이 있다.

전술한 본 발명의 목적은, 시간 영역의 음향 신호를 입력받는 단계, 입력된 음향 신호를 주파수 영역 신호로 변환하고, 주파수 영역 신호에 필터 뱅크를 적용함으로써 각각의 주파수 대역에 상응하는 에너지값을 획득하는 단계, 각각의 주파수 대역에 상응하는 에너지값을 이용하여 이산코사인변환 하는 단계, 및 이산코사인변환에 따라 생성된 각 주파수별 코사인 계수 값 중 기 결정된 차수의 코사인 계수 값인 LFCC 계수 값을 획득함으로써 시간 영역의 음향 신호에 대응하는 특징을 추출하는 단계를 포함하는 타겟 음향 인식을 위한 음향 특징 추출 방법에 의해서 이루어지며, 주변 환경의 음향을 전기신호로 변환하는 변환수단, 및 전기신호에 기초하여 타겟 음향을 검출하는 검출수단을 포함하고, 목적하는 타겟 음향의 지속 시간에 상응하여 제어 대상체의 동작, 회전, 조명, 및 소리출력, 통신 이벤트 전송 중에 적어도 어느 하나를 제어하는 수단에 의해서 이루어진다.

본 발명의 다른 목적은 다른 카테고리로서 주기적 또는 간헐적으로 주변 환경의 음향 세기를 검출하는 레디 모드 단계, 입력 음향 세기가 기 결정된 값 이상인 경우에는 타겟 음향 인식을 수행을 시작하는 스타트 모드 단계, 목적하는 타겟 음향이 인식된 경우에 기 선택된 제어 대상체에 이를 알려서 정해진 동작을 수행하도록 하고, 타겟 음향을 재인식 할지 여부에 따라 다시 스타트 모드로 재진입하는 프리 런 모드 단계, 타겟 음향이 인식된 경우에는 기 결정된 시간 동안 조명의 밝기를 프리 런 모드 단계보다 더 밝게 하거나 동일한 밝기를 유지하며, 타겟 음향 재인식을 수행하는 런 모드 단계, 타겟 음향이 재인식되지 않은 경우에는 주기적 또는 간헐적으로 주변 환경의 음향 세기를 검출하고, 음향 세기가 기 결정된 값 또는 시간 보다 작은 경우에는 조명을 턴 오프하고, 그렇지 않은 경우에는 런 모드로 재진입하는 엑시트 모드 단계를 포함하는 타겟 음향 인식을 통한 제어 대상체 제어 방법을 제공함으로써 달성될 수 있다.

전술한 바와 같은 본 발명에 의하면 영유아의 울음소리와 같은 특징점이 있는 음향신호의 특징을 추출하도록 함으로써 인식하고자 하는 음향신호를 정확하게 인식할 수 있을 뿐만 아니라 입력되는 음향신호가 특정 에너지 레벨 이상인 경우 음향신호 특징 추출 과정을 수행하도록 함으로써, 모든 입력되는 음향신호에 대한 특징점을 추출하는 것에 비해 전력을 효율적으로 사용할 수 있는 효과가 있다.

또한, 전술한 바와 같이 조명기기의 동작을 영유아 울음소리를 인식하여 제어함으로써 필요 없이 계속적으로 동작되고 있는 조명기기에 비해 전력을 효율적으로 사용할 수 있고, 영유아의 엄마 목소리 또는 자장가 노래 소리를 재생함으로써 영유아를 달랠 수 있으며 영유아 울음 감지시에 장난감 또는 모빌 등을 동작시킴으로써 영유아의 관심을 집중할 수 있어 우는 영유아를 달랠 수 있는 효과가 있다.

도 1은 본 발명에 따른 영유아 울음소리 및 일반 소리를 학습하기 위한 흐름도,
도 2는 본 발명에 따른 영유아 울음소리를 인식하기 위한 흐름도,
도 3은 본 발명에 따른 켑스트럼 영역의 신호를 획득(LFCC 특징 추출 과정)하기 위한 순서도,
도 4는 본 발명에 따른 프레임을 시간 축 상에서 순차적으로 획득하기 위한 그래프,
도 5는 본 발명에 따른 선형 스케일 필터뱅크를 나타낸 그래프,
도 6은 본 발명에 따른 40프레임의 15차 LFCC를 나타낸 예시도,
도 7은 본 발명에 따른 도 6에 보간을 한 30차 LFCC를 나타낸 예시도,
도 8은 본 발명에 따른 STDLFCC 특징 추출 과정을 도시한 예시도,
도 9는 본 발명에 따른 동일한 차수의 계수를 동일한 프레임에 할당하는 예시도,
도 10은 본 발명에 따른 타겟 음향 인식을 통한 대상체 제어 장치의 구성을 나타낸 구성도, 및
도 11은 본 발명에 따른 타겟 음향 인식을 통한 조명 제어 방법을 순차적으로 나타낸 순서도이다.

이하, 도면을 참조하여 본 발명을 상세히 설명하기로 한다.

<인식 음향의 종류 및 제어 대상체 >

본 발명은 특정 공간에서 발생되는 음향 신호를 인식하고, 음향 신호의 인식 여부에 따라 제어 대상체를 제어함으로써 우는 아이를 달래거나 안전 조치를 신속히 취할 수 있도록 하는 것에 관한 것으로, 특정 공간은 예를 들어 영유아가 존재하는 가정집, 유치원, 어린이집 등이 될 수 있다.

한편, 제어 대상체는 조명기기, 모빌, 장난감, 감시카메라(CCTV) 등이 될 수 있으며, 제어 대상체가 조명기기인 경우에는 영유아가 우는 경우 조명의 밝기를 단계별로 조정하거나 또는 조명을 온/오프 함으로써 구체화될 수 있다.

또한, 제어 대상체가 모빌인 경우에는 영유아가 존재하는 공간에 구비되어 영유아의 울음소리가 감지되는 경우 모빌은 기 결정된 경로로 회전하거나 또는 랜덤하게 움직이도록 구체화 될 수 있다. 이때, 모빌이 구동되어 동작하는 경우에 모빌의 모양(생김새) 또는 특성에 부합하는 소리를 스피커를 통하여 출력할 수도 있다. 즉, 일예로서 모빌이 공룡인 경우 공룡울음 소리가 스피커로 출력될 수도 있다.

또한, 제어 대상체가 장난감인 경우에는 영유아가 존재하는 공간의 옆에 구비되어 영유아가 우는 경우 특정 프로그램이 설정된 데로 동작되도록 함으로써 영유아를 달랠 수 있도록 구체화될 수 있다. 다만, 장난감의 구비 장소는 필요에 따라 적절하게 변경될 수도 있을 것이다. 이때, 영유아의 울음소리가 감지된 경우 울음소리 인식 기능이 구비된 장난감은 기 결정된 경로를 움직이거나 또는 특정 동작을 반복할 수 있다.

특히, 영유아 울음소리에는 배고파서 우는 소리, 감정이 생겨서 나는 소리(일예로서 짜증내는 소리, 잠에서 깬 잠투정 소리, 아파서 우는 소리) 등이 있을 수 있으며 이러한 다양한 감정에 의한 소리를 인식하여 제어 대상체를 그에 맞게 프로그램화하여 제어할 수도 있을 것이다.

본 발명에 따라, 인식되는 음향 신호는 영유아의 울음소리뿐만 아니라 인식하고자 하는 특정 소리를 인식하여 제어 대상체를 상황에 맞게 제어할 수도 있을 것이다. 이때에는 인식되는 특정 소리에 맞도록 제어 대상체가 선택될 수도 있을 것이다. 예를 들어 집안에서 사람의 박수소리 또는 애완동물의 짖는 소리가 인식된 경우에는 조명을 온/오프 할 수도 있을 것이다. 또한, 노인 또는 장애인(노인 또는 장애인의 경우에는 일반인에 비해 음성의 특징점을 추출할 수 있음)이 특정 약속된 음성을 인식하도록 함으로써 응급 또는 위급 상황 시 이를 원격지의 외부로 알려줄 수 있도록 제어 대상체(이때에는 제어 대상체가 스마트폰 또는 홈 네트워크로 연결된 집안의 가정용 홈 네트워크 제어 단말기 등)를 제어할 수도 있을 것이다.

(영유아 울음소리 특징 추출)

제 1실시예

수집 분류된 영유아 울음소리 및 일반소리를 이용하여 목적하는 음향의 특징을 추출한다. 음향의 특징을 추출하기 위해 LFCC(Linear Frequency Ceptral Coefficients)를 활용한다. 도 3에 도시된 바와 같이 인식 모델을 생성하기 위한 훈련용 데이터베이스로부터 음향신호 데이터가 입력되면 입력된 신호의 프레임에 대하여 [수학식 1]을 이용하여 프리-엠퍼시스 과정과 [수학식 2]의 해밍 윈도우 과정을 수행한다. 이때, 프레임의 크기는 대략 25ms로 사용하였으나 프레임의 크기는 음향 신호의 특징에 따라 다양하게 그 크기를 조정할 수 있다. 시간축 상에서 순차적으로 획득되는 프레임은 도 4와 같이 직전 프레임 크기의 1/2씩 쉬프트하며 데이터가 획득된다. 음향 특징을 추출하기 위하여는 이렇게 시간축 상에서 순차적으로 획득된 프레임을 대략 30 ~ 40 프레임 모아서 추출하게 된다.

[수학식 1]

[수학식 2]

[수학식 1] 및 [수학식 2]에서 N은 프레임 내의 전체 샘플 수를 나타내고, x_w(n)은 해밍 윈도우가 적용된 신호이고, α는 일반적으로 0.95 ~ 0.98의 값을 사용한다.

다음으로, FFT를 거친 주파수 영역의 신호에 도면 5의 선형 스케일 필터 뱅크와 로그를 다음의 [수학식 3]과 같이 적용한다. 이때, 수학식 3의 로그 적용은 선택사항이다.

[수학식 3]

여기서, S(m)은 필터뱅크를 통과한 후의 에너지 값, X(k)는 FFT 후의 주파수영역 신호이고, H_m(k)는 선형 스케일 필터 뱅크에서 m번째 삼각 필터를 나타내며, k는 주파수 빈을 의미한다. B는 선형 스케일 필터뱅크 개수를 의미하며, 영유아 울음소리의 하모닉스(Harmonics) 성분을 잘 표현하기 위해 26개의 필터뱅크를 사용하였다. 여기서 Magnitude 스펙트럼의 주파수 빈 신호를 그대로 사용하기보다 필터뱅크를 적용하여 사용한 이유는 주파수 빈 신호를 그대로 사용할 경우보다 주파수 대역의 에너지를 사용하여 대역별 특성을 사용함으로써 주파수 영역에서 신호의 특성을 보다 효율적으로 나타낼 수 있고, 잡음이 섞이는 상황에서도 강인한 특성을 나타낼 수 있기 때문이다.

한편, 도 5에 도시된 필터뱅크를 좀 더 자세히 설명하면 퓨리에 변환(FFT 또는 DFT)된 데이터를 필터뱅크(filter bank)를 통과시키면 각 주파수 밴드별 에너지 값을 획득할 수 있다. 예를 들어 퓨리에 변환된 주파수가 0~8000Hz의 내에 있다면, 0~100, 100 ~ 200, 200 ~ 300,........,7900 ~ 8000 으로 밴드가 나누어질 수 있고 필터 뱅크를 통해 밴드마다 해당된 에너지 값을 획득할 수 있다. 이때에는 주파수 밴드를 100씩 등간격(선형)으로 나눈 경우이다. 다른 실시예로써 0 ~ 100, 100 ~ 200, 200 ~ 400, ..... 7000 ~ 8000으로 밴드를 나눌 수도 있으며, 이렇게 함으로써 낮은 주파수 영역에 대해서는 좀 더 세밀하게 값을 얻어내고, 높은 주파수 영역에 대해서는 좀 덜 세밀하게 값을 획득할 수 있다. 보통 사람의 음성의 경우 낮은 주파수 영역에 정보가 많이 모여있기 때문에 후자와 같은 필터 뱅크를 적용하는 것이 더 바람직할 수 있다.

필터뱅크의 각 주파수별 밴드가 대략 20 ~ 50개인 경우에 퓨리에 변환 후 필터뱅크를 통과하면 20 ~ 50개의 실수 값에 해당하는 각 주파수 밴드별 에너지 값이 획득된다. 필터뱅크 적용 후에 수학식 3과 같이 로그를 취할 수도 있고 로그를 취하지 않을 수도 있으며 이는 선택적으로 적용될 수 있다.

다음으로, 수학식 3에서 획득된 데이터를 이산코사인변환(discrete cosine transform, 이하에서는 DCT라고 함)하여 대략 15차의 코사인 계수를 추출한다. 어떤 신호를 DCT하면 이 신호를 서로 다른 주파수를 가진 여러 코사인 함수의 합으로 표현 가능하다. 따라서 수학식 3에서 획득된 데이터를 DCT하면 코사인 함수들의 15차 계수(coefficient)를 얻을 수 있다. 다만, 15차의 계수는 음성 특징에 따라 차수를 높이거나 낮춤으로써 조정할 수 있을 것이다.

이때, 주파수 영역의 신호에 로그를 적용한 뒤 DCT를 수행한 신호를 켑스트럼 영역의 신호라 하며 주파수 영역 신호의 주파수 특성을 의미한다. 따라서 주파수 영역 특성을 낮은 차수의 켑스트럼 계수만으로도 효과적으로 나타낼 수 있다.

[수학식 4]

수학식 4에 의해 획득된 15차 LFCC가 하나의 프레임을 이루게 된다. 앞서 설명한 바와 같이 대략 40개의 프레임이 모여야 음성 특징 추출이 가능하다. 따라서 시간축 상에서 순차적으로 12.5ms씩 쉬프트하며 40개의 프레임이 형성되고, 이러한 각각의 프레임에 대해 15차 LFCC가 획득된다.

한편, 영유아 울음소리의 특징은 각 프레임별 15차의 LFCC를 이용할 수도 있으나, 본 발명에서는 후술하는 바와 같이 2가지 실시예의 방식을 좀 더 활용할 수도 있다.

( Delta LFCC 방법)

도 6에 도시된 바와 같이 15차의 LFCC는 제1프레임(111)에서 제40프레임(121)으로 이루어지며, 각 프레임에는 0 ~ 14차까지의 15차 코사인 계수가 들어있다. Delta LFCC는 15차로 이루어진 각 프레임에 보간을 적용하여 각 프레임당 30차의 계수를 만든다. 즉, 도 7에 도시된 바와 같이 제1 보간프레임(110)은 앞서 도 6의 제1프레임과 제1 프레임의 보간프레임(113)이 합쳐진 프레임이다. 제1 프레임의 보간프레임(113)과 제40 프레임의 보간프레임(123)은 현재 프레임의 15차 LFCC 계수 값과 바로 직전 프레임의 15차 LFCC 계수 값의 차이 값이 보간된 프레임이다.

이렇게 만들어진 30차 계수를 가지는 각 프레임이 영유아 울음소리에 대한 특징을 가지는 프레임이 되며 이를 이용하는 것이 Delta LFCC 방법이다.

( STDLFCC 방법)

STDLFCC(segmental two-dimensional linear frequency cepstral coefficients) 방법은 주파수 영역에서 DCT를 한번 더 수행한 켑스트럼 영역의 특징으로써 잡음 환경에서도 신호 고유의 주파수 특성을 잘 나타내 줄 수 있어 여러 잡음이 혼재하는 환경에서도 그 성능이 보장될 수 있다. 또한, STDLFCC는 세그먼트 특징으로써 세그먼트 내에서 영유아 울음소리 신호의 시간에 따라 변하는 특성을 나타내는데 우수하다. 따라서 영유아의 울음소리와 같이 시간에 따라 변화하는 신호의 특성이 뚜렷한 신호를 나타내는데 바람직할 수 있다.

기존의 LFCC특징은 프레임 내에서 추출되는 특징으로써, 프레임 내에서 신호의 특성은 잘 나타내는 반면, 특정 구간에서 신호의 특성이 어떻게 변화되는지는 나타낼 수 없었다. 이에 특정 구간에서 신호의 특성이 변화되는 양상을 나타내기 위해 STDLFCC를 본 발명에서 제안한다. STDLFCC는 프레임별 15차 LFCC를 고정된 크기의 세그먼트내에서 시간축상으로 DCT를 수행함으로써 얻을 수 있으며, 도 8과 수학식 5에 나타내었다. 세그먼트의 크기는 영유아 울음소리의 지속시간을 고려하여 500ms 로 설정하였고, 순차적인 세그먼트의 추출은 250ms 씩 쉬프트하며 추출한다.

[수학식 5]

c_t(q)는 t번째 프레임에서의 q번째 LFCC 계수를 나타내고, B는 선형 스케일 필터 뱅크 수를 나타내며, L은 시간 영역에서 DCT를 수행할 세그먼트의 길이를 나타낸다. C(q,n)에서 첫 번째 열은 단구간 에너지 (Short time energy)의 시간적인 변화(temporal variation)를 나타내며, 첫 번째 행은 세그먼트 내 프레임에 대한 LFCC 계수의 평균 값을 나타낸다. DCT는 에너지를 압축하는 성질이 있기 때문에 낮은 차수만을 취해서 사용하더라도 성능에 큰 차이가 없다. 따라서, 15개의 행(LFCC가 15차이므로)과 5개의 열 정보(5개 차수)만을 이용하여 특징으로 사용한다. 여기서 신호의 변화 특성만을 고려하기 위해 에너지를 나타내는 C(0,0)은 제외하여 총 74차 벡터를 구성하여 STDLFCC 특징으로 사용한다. 이를 나타내면 수학식 6과 같다.

[수학식 6]

도 8에 도시된 바와 같이 74차로 구성되는 STDLFCC 벡터(150)는 먼저 각 프레임별 15차의 LFCC를 시간축상으로 배열한다(130). 이때 각 프레임별 15차의 LFCC는 순차적으로 한 프레임 길이의 1/2씩 쉬프트하며 얻어진 결과이며 이는 도 4에서 설명한 바와 같다. 도 8에서의 세그먼트 크기는 영유아 울음소리의 지속시간을 고려하여 500ms로 설정하였으나 이는 각 인식하고자 하는 소리의 특징에 따라 다양하게 설정할 수 있을 것이다. 다만, 본 발명의 설명의 위해 각 세그먼트의 크기를 500ms로 간주하여 설명하도록 한다.

제1세그먼트(140)는 시간축상으로 재배열된 15차 LFCC 프레임(130)을 시간 축을 따라 500ms만큼 취한 데이터이며, 제2세그먼트(143)는 제1세그먼트(140)에서 250ms가 쉬프트되어 500ms의 길이를 취한 데이터 값이다. 이렇게 각각 세그먼트의 데이터를 각각 DCT 수행하면 74차로 구성된 STDLFCC 벡터(150)를 얻을 수 있다. STDLFCC 벡터(150)는 STDLFCC 벡터의 제1,2 특징값들이 모여 구성될 수 있다.

설명의 편의를 위해 다시 한번 설명하면 제1세그먼트(140)는 도 9에 도시된 바와 같은 프레임이 모여 구성될 수 있다. 즉, 도 9의 제1프레임은(161)은 LFCC의 15차 계수(0~14차 계수)로 이루어진 40개의 프레임 중 0차 계수의 값만을 모아놓은 프레임이며, 제2프레임은(163)은 LFCC의 15차 계수로 이루어진 40개의 프레임 중 1차 계수의 값만을 모아놓은 프레임이고, 제3프레임은(165)은 LFCC의 15차 계수로 이루어진 40개의 프레임 중 14차 계수의 값만을 모아놓은 프레임이다. 따라서 샘플링된 시간이 다른 동일한 차수의 계수가 하나의 프레임에 할당되어 있는 것이다.

제 2실시예

영유아 울음소리의 특징을 추출하기 위해 앞서 설명한 제1실시예의 STDLFCC 방법은 필터뱅크를 통과한 값을 이산코사인변환하고, 이산코사인변환된 값을 이용하여 동일 차수의 계수값을 동일 프레임에 할당하도록 하여 새로운 프레임(161,163,165)을 생성 한 후 이를 다시 이산코사인변환함으로써 특징 값을 추출하게 된다.

제1실시예와 비교하여 제2실시예는 필터뱅크를 통과한 후의 각각의 프레임에 대한 에너지 값을 이용하여 세그먼트를 형성한다. 즉 제1실시예는 필터뱅크를 통과한 후 이산코산인변환한 값을 이용하여 세그먼트를 형성하나 제2실시예는 이산코산인변환을 하지 않고 필터뱅크를 통과한 후의 에너지 값을 바로 이용하여 세그먼트를 형성한다.

제2실시예의 필터뱅크의 각 주파수별 밴드가 대략 20개인 경우에 퓨리에 변환 후 필터뱅크를 통과하면 20개의 실수 값에 해당하는 각 주파수 밴드별 에너지 값이 획득된다. 이러한 각 주파수 밴드별 에너지 값은 각 프레임별로 획득될 수 있고, 프레임이 40개인 경우에는 각 프레임당 20개의 실수 값을 가지게 된다.

따라서 각 프레임별로 동일한 주파수 밴드별 에너지 값을 동일 차수라 하면, 이러한 동일 차수를 동일한 프레임에 형성함으로써 세그먼트를 구성한다. 새롭게 구성된 세그먼트를 이용하여 상술한 [수학식 5] 및 [수학식 6]을 적용함으로써 영유아 울음소리에 대한 특징을 추출할 수 있다.

다만, 필터뱅크를 통과한 후에 획득된 에너지 값은 [수학식 3]과 같이 로그를 취할 수도 있고 로그를 취하지 않을 수도 있다.

( 가우시안 혼합모델 훈련)

울음소리 인식에 활용할 영유아 울음소리 및 일반소리의 통계 모델을 구성하기 위하여 울음소리 및 일반소리 데이터베이스에서 STDLFCC 또는 Delta LFCC 특징을 추출하여 이를 기반으로 가우시안 혼합 모델을 훈련한다. 가우시안 혼합 모델은 여러 가우시안 확률 밀도 함수(Probability Density Function)를 이용하여 데이터의 확률 분포를 추정하기 때문에, 음성, 음악 등 다양한 음향 클래스가 포함된 일반소리와 다양한 영유아 울음소리의 확률 분포를 표현하는데 효과적이다. 따라서 가우시안 혼합 모델을 영유아 울음소리와 일반소리 통계모델로 사용한다.

가우시안 혼합 모델은 통계 모델 기반의 대표적인 학습 기술로써, 학습 데이터를 이용하여 데이터의 확률밀도 함수(Probability Density Function)를 추정한다. 따라서, 각각의 확률 밀도 함수의 혼합 가중치, 평균 벡터, 공분산 행렬에 의해 영유아 울음소리에 대한 가우시안 정규분포가 만들어지고, 일반소리에 대한 가우시안 정규분포가 만들어진다.

<영유아 울음소리 인식 방법>

영유아 울음소리 인식은 앞서 도 3에서 설명한 방법과 일치한다. 다만, 도 3에서는 영유아 울음소리 데이터베이서에서 데이터를 가져오는 것이고, 여기에서는 실제로 영유아가 울었을 경우 실제 소리를 가져오는 것이 다를 뿐이다. 즉 도 3의 프리-엠퍼시스 전에는 다음과 같은 과정이 선행될 수 있다.

먼저, 영유아가 우는 경우에 마이크로폰에 의해 음성신호가 전기신호로 변환되며, 변환된 전기신호는 16kHz 샘플링으로 30ms 동안 데이터가 획득된다. 이때의 데이터가 한 프레임이 된다. 즉, 한 프레임에는 512개(16kHz x 30ms)의 데이터가 존재하게 된다. 512개의 데이터가 도 3에 도시한 프리-엠퍼시스 과정 이하를 수행하며 15차의 LFCC가 만들어지고 이를 바로 영유아 울음소리의 특징으로 사용하거나, Delta LFCC 또는 STDLFCC를 이용하여 영유아 울음소리의 특징으로 사용할 수도 있다.

다만, 본 발명이 적용되는 유아 울음소리 감지에 의한 조명 등 온/오프의 경우에 저전력의 조명기기(예를 들어 1 ~ 5와트) 또는 배터리에 의해 구현되는 조명기기에 구체화될 수도 있으므로 영유아 울음소리 인식 과정을 수행하는 프로세서의 부담을 줄임으로써 실제적으로 소모되는 전력의 양을 줄일 필요가 있다. 따라서 다음과 같은 sound activity detection 방법을 사용하여 전력을 줄일 수 있다.

( sound activity detection 방법)

본 발명에서는 한 프레임에서 대략 512개의 데이터가 모이게 되고, 이러한 프레임이 대략 40프레임 모여서 도면 3과 같은 영유아 울음소리 특징 추출 과정을 수행하게 된다. 그러나 이러한 영유아 울음소리 특징 추출 과정은 수행하는 프로세서에 과도한 부담을 주게 되어 전력을 많이 소모하게 된다.

따라서 본 발명의 sound activity detection(이하에서는 SAD라 한다) 방법은 영유아 울음소리에 대한 한 프레임당 512개의 데이터가 들어온 경우 각 프레임당 평균값 또는 rms 값을 구한다. 이렇게 구한 값을 프레임 에너지라고 정의한다. 이렇게 함으로써 40개 프레임에 대한 40개의 프레임 에너지 값이 구해질 수 있다.

40개의 프레임 에너지 값 각각은 기 정의된 임계치 값(threshold 값)과 서로 비교된다. 만약, 어느 한 프레임의 에너지 값이 임계치 값보다 작은 경우에는 이 프레임의 데이터를 버리게 된다. 이렇게 해서 임계치 값보다 큰 최종 40개의 프레임의 데이터를 사용하여 영유아 울음소리 인식 절차를 수행하도록 할 수 있다.

한편, 임계치 값보다 작은 에너지 값을 가지는 프레임의 경우에는 영유아가 울음을 울다가 잠깐 멈추고 다시 울음을 시작하는 경우에 있어서의 잠깐 멈춘 영역의 프레임 데이터일 수 있고, 또는 울음소리가 미약한 경우가 있을 수도 있다.

만약, 임계치 값과 비교되는 각 프레임별 에너지 값이 대체로 작은 경우에는 실제 영유아 울음이 아니라고 인식될 수도 있으며 이때에는 영유아 울음소리 인식 절차를 진행하지 않음으로써 프로세서의 부담을 낮추어 전력 소모를 줄일 수 있다. 각 프레임별 에너지 값이 작은 경우로 판단할 수 있는 기준은 예를 들어 40개의 프레임 데이터에 대한 전체 평균값 또는 rms값을 구한 값과 기 지정된 임계치 값을 구함으로써 판단할 수도 있을 것이다.

이와 같이 임계치 값보다 더 높은 에너지 값을 가지는 프레임이 40개 프레임이 획득되면 도 3에서와 같은 영유아 울음소리 인식 과정을 수행하게 된다.

(우도 테스터 기반의 영유아 울음소리 판별)

SAD에서 임계치 값보다 높은 에너지 값을 가지는 프레임이 40개 획득된 경우(프레임 40개는 설명의 편의를 위한 것일 뿐 상황에 따라 다양한 값을 가질 수 있다) 도 3에 의해 15차의 LFCC 특징을 추출하거나, 앞서 설명한 Delta LFCC 또는 STDLFCC 특징 벡터를 추출(이하에서는 특징 벡터 열이라 한다)하여 울음 인식을 위한 모델을 생성하는 훈련부에서 구성한 각 클래스의 가우시안 혼합모델에 대한 로그우도비 테스트를 통해 영유아의 울음소리인지 아닌지를 판별한다.

특징 벡터열에 대한 클래스의 로그우도비는

와 같다. 여기서 p(x_t|λ_c)는 울음소리 모델에 대한 t번째 세그먼트의 우도이고, p(x_t|λ_n)는 일반소리 모델에 대한 t번째 세그먼트의 우도를 나타낸다. T는 전체 세그먼트의 수를 의미한다. 마지막으로, 영유아 울음소리는

와 같이 로그우도비를 임계치와 비교하여 울음소리인지 아닌지 판별한다.

θ_th는 영유아 울음소리 판단을 위한 임계치를 의미한다. 임계치 조정을 통해 민감도를 조정함으로써 사용자의 필요에 맞게 시스템을 구성할 수 있다. 예를 들어, 울음소리가 반드시 인식되어야 하는 상황에서는 임계치를 낮추어서 일반소리가 울음소리로 오판별 되는 것을 수용하면서 울음소리는 반드시 울음소리로 판별되도록 설정이 가능하다. 반대로 일반소리가 울음소리로 오판별되는 것을 수용하지않는 상황에서는 임계치를 높여 확실한 울음소리만을 검출하도록 할 수 있다.

이렇게 하여 얻어진 울음소리 인식결과를 이용하여 각종 제어 대상체를 제어할 수 있을 것이다.

본 발명의 제어 대상체는 조명기기, 모빌, 장난감, 감시카메라 등이 될 수 있으며, 본 발명에 따른 제 1 실시예는 제어 대상체가 조명기기인 경우로서 영유아가 우는 경우 조명의 밝기를 단계별로 조정하거나 또는 조명을 온/오프 하는 것이다. 이하에서는 본 발명의 제 1 실시예에 대하여 도 10을 참조하여 설명하기로 한다. 이때 영유아는 갓난아기부터 초등학교 저학년의 어린이로 본 발명에서는 정의하나 꼭 이에 한정되지 않고 다양한 범위에서 해석될 수 있을 것이다.

특히, 울음소리를 인식하기 위해 학습을 하는 경우 학습에 포함된 울음소리는 나이와 상관없이 인식될 수도 있음은 당연하다.

도 10에는 대략적으로 모바일 기기(10), 입력부(100), 제어부(200), 출력부(300)가 도시되어 있다. 입력부(100), 제어부(200), 및 출력부(300)는 조명기기에 일체로 구비될 수도 있고, 필요에 따라 분리되어 구현될 수 있다. 먼저, 모바일 기기(10)는 바람직하게는 3G/4G의 상용 이동통신에 가입된 스마트폰 또는 통화 및 문자가 가능한 2G 핸드폰 등일 수 있다(이하에서는 스마트폰으로 설명하기로 한다). 또한, 모바일 기기(10)는 블루투스, 지그비 또는 와이 파이 통신이 포함된 이동형 단말기(일예로서 본 발명의 조명기기를 제어하기 위한 전용 단말기)일 수 있다. 물론 스마트폰 등에도 블루투스, 지그비 또는 와이 파이 통신 모듈이 구비되어 있을 수 있다.

스마트폰은 상술한 통신수단을 통하여 본 발명에 따른 제어대상체와 통신을 수행한다. 스마트폰의 통신수단에 상응하는 통신수단이 제어대상체에 구비됨은 물론이다. 스마트폰과 제어대상체의 통신에 의해 스마트폰으로 제어대상체를 제어할 수 있다. 일예로서 스마트폰에 설치된 어플을 이용하여 조명기기의 조명을 온/오프할 수 있다. 또한, 제어대상체가 영유아의 울음소리를 인식한 경우 스마트폰으로 이벤트를 무선 통신을 통하여 전송할 수 있다. 일예로서 영유아가 잠든 사이에 부모는 영유아와 일정 거리 떨어져 가사일을 할 수 있으며, 이때 영유아가 잠에서 깨어나 우는 경우 울음인식 기능이 포함된 제어대상체가 기 정해진 동작을 시작하면서 거리상 떨어져있는 아기의 부모에게 영유아가 울고있음을 알려줄 수 있다.

입력부(100)에는 마이크로폰, 매뉴얼 s/w, 클록 칩(clock chip)이 대략적으로 구비된다. 마이크로폰은 영유아의 울음소리를 전기신호로 변환하는 장치로서 변환수단의 일예이다. 매뉴얼 s/w는 사용자의 조작이 편리한 곳에 구비되어 사용자의 조작에 의해 제어대상체를 온/오프 할 수 있도록 한다. 클록 칩은 조명기기가 현재 시각을 인식할 수 있도록 할 수 있다. 이때 사용되는 클록 칩은 단순히 클록만을 제공하거나 또는 IC 칩 형태로 구현되어 현재 시각 정보를 제공할 수도 있다.

제어부(200)의 음향 인식부는 마이크로폰에 의해 변환된 전기신호를 입력받아 영유아의 울음소리를 인식한다. 목적으로하는 영유아의 울음소리가 인식된 경우 정해진 제어대상체에서 기 프로그램되어 약속된 동작의 수행을 시작한다. 일예로서 영유아의 울음소리가 시작되어 감지가되면 조명을 턴 온하며, 울음소리가 계속되는 동안 조명을 유지하며, 만약 울음소리를 그치는 경우 조명을 턴 오프(turn off)한다.

상술한 인식부(210), 디스플레이 제어부, 조명 제어부는 설명의 편의를 위하여 기능적으로 분리하여 설명하였을 뿐 하나의 마이크로 프로세서 및 주변회로(아날로그 및 디지털 회로)에 의해 구현될 수도 있다.

영유아의 울음소리가 인식된 경우 제어 대상체에서 스피커를 통하여 울음소리를 그치도록 할 수 있는 내장된 음악을 제공할 수도 있다. 내장된 음악은 엄마의 목소리, 엄마의 자장가 소리, 일반적으로 영유아가 좋아하는 애니메이션 주제가, 또는 동요 등이 될 수 있다. 이때, 엄마의 목소리 또는 자장가 소리를 녹음하기 위한 녹음 기능이 조명기기에 추가될 수도 있을 것이다.

한편, 본 발명의 제 1 실시예에서는 영유아 울음소리 뿐만 아니라 발걸음 소리를 이용하여 조명기기를 온/오프시킬 수 있다. 일예로서 영유아가 아파트 등의 거실에서 뛰어 놀다가 불이 꺼진 다른 방으로 뛰어 들어가는 경우 사고의 위험이 있을 수 있으며, 이때 조명기기가 구비된 경우 발걸음 소리가 가까워짐을 인지하여 조명을 턴 온할 수 있다. 이와 반대로 발걸음 소리가 멀어짐을 인지하는 경우 조명을 턴 오프할 수 있다.

본 발명의 제 2 실시예에서는 제어 대상체가 모빌로서, 영유아가 존재하는 공간의 천장에 구비된다. 다만, 모빌의 구비 장소는 필요에 따라 적절하게 변경될 수도 있을 것이다.

영유아의 울음소리가 감지되는 경우 모빌은 기 결정된 경로로 회전하거나 또는 랜덤하게 움직일 수 있다. 영유아의 울음을 달래기 위한 최적의 모빌 회전속도및 움직임 경로는 실험에 의해 계산될 수 있으며 이러한 속도 및 경로를 메모리에 저장하여 영유아가 우는 경우 모빌을 동작시킬 수 있을 것이다. 영유아의 울음소리가 특정시간 지속되는 경우에는 모빌을 움직이게 하고, 모빌이 움직이는 중간에 영유아의 울음소리가 그치는 경우 모빌의 움직임을 턴 오프시킨다.

모빌이 움직이는 경우에는 모빌의 모양(생김새) 또는 특징에 부합하는 소리를 스피커를 통하여 출력할 수도 있다. 즉, 일예로서 모빌이 공룡인 경우 공룡울음 소리가 출력될 수도 있다.

제 3실시예

본 발명의 제 3 실시예에서는 제어 대상체가 장난감으로서, 영유아가 존재하는 공간의 옆에 구비된다. 다만, 장난감의 구비 장소는 필요에 따라 적절하게 변경될 수도 있을 것이다. 상술한 제 1, 2 실시예와 동일한 설명은 갈음하기로 하고 차이점만을 간단히 설명하기로 한다.

영유아의 울음소리가 감지된 경우 울음소리 인식 기능이 구비된 장난감은 기 결정된 경로를 움직이거나 또는 특정 동작을 반복할 수 있다. 일예로서 장난감이 레일을 구비한 기차인 경우 영유아의 울음소리에 의해 기차는 정해진 기차 레일을 돌며, 울음소리가 그친 경우 멈출 수 있을 것이다. 만약, 장난감이 원숭이 인형인 경우 원숭이 소리를 내며 고개를 좌/우로 반복하여 움직일 수 있다.

<영유아 울음소리에 의한 조명 제어 방법>

도 11에 도시된 바와 같이 본 발명에 따른 영유아 울음소리 인식을 통한 조명 제어 방법은 대략적으로 레디 모드 단계, 스타트 모드 단계, 런 모드 단계, 엑시트 모드 단계로 나누어지며 이하에서 도 11을 참조하여 자세히 설명하기로 한다.

먼저, 음향 인식부는 주기적 또는 간헐적으로 주변 환경의 음향 세기를 마이크로폰의 전기신호를 입력받아 검출한다(레디 모드 단계). 이때, 주기적은 1초 또는 10초 등 시간이 결정되어 있을 수 있으며, 간헐적은 비 주기적이거나 특정 사건의 이벤트에 따른 시간일 수 있다.

음향 인식부는 음향 세기가 기 결정된 값 보다 큰 경우에 타겟 음향 인식을 수행한다(스타트 모드 단계). 이때, 음향 세기는 프레임 구간(일예로서 32ms)에서 마이크로폰의 전기신호를 샘플링(예, 512개)하고 모두 더한 후 샘플의 수로 나누어 얻을 수 있다. 또는 샘플링 값을 모두 더한 후 제곱해서 루트를 씌워 얻을 수도 있다.

스타트 모드 단계에서 타겟 음향이 인식된 경우에는 제어대상체는 기 결정된 동작을 수행하도록 한다. (런 모드 단계).

한편, 런 모드 단계에서 기 결정된 시간 동안 조명이 온 되고 있는 중에 타겟 음향 재인식을 수행하여 타겟 음향이 재인식된 경우에는 기 결정된 시간이 초기화되어 재시작될 수 있다. 일예로서 기 결정된 시간이 5분이라고 가정하면 일반적으로는 5분 동안 제어대상체가 동작 될 것이다. 만약 이 5분이라는 시간 내에서도 영유아가 울음을 그치지 않고 울음이 인식되는 경우 타겟 음향이 재인식되며 재인식 시간이 5분 중 3분이 경과한 시간이라고 가정하면 3분이 지난 그 시점에 다시 5분이 더해져서 런모드 단계에 머무르는 시간이 늘어나게 될 것이다. 따라서 총 8분간 제어대상체가 런모드 단계에서 약속된 동작을 수행하게 된다.

다른 예로서, 기 결정된 시간 내에서는 타겟 음향 재인식을 수행하지 않을 수 있다. 즉, 상술한 예에 비추어 보면 5분간의 시간 동안은 런모드 단계에서 정해진 동작을 제어대상체가 수행하는 것이 될 것이고 이 시간 내에서는 타겟 음향 재인식을 수행하지 않는다. 그리고, 런모드 단계가 끝나는 시점에 즉, 5분이 경과 후 다시 타겟 음향 인식을 수행하고 타겟 음향이 재인식되면 다시 5분의 시간 동안 제어대상체가 런모드 단계에 진입하게 되거나 재인식되지 않으면 다음 단계로 넘어갈 수 있다.

런모드 단계에서 정해진 시간이 경과하거나 타겟 음향이 재인식 되지 않은 경우에 엑스트 모드 단계에 진입한다. 엑시트 모드 단계에서는 제어대상체의 동작을 정지시키거나 타겟 음향이 인식된 시간을 기록하는 등의 임무를 수행할 수 있다. 그리고, 레디모드 단계로 넘어간다.

상술한, 레디 모드 단계, 스타트 모드 단계, 런 모드 단계, 및 엑시트 모드 단계의 어느 단계 수행 중 사용자가 타이머를 설정한 경우에는 사용자의 타이머 설정이 우선순위가 되어 타이머 종료시 제어대상체가 꺼지거나 타이머 설정전의 단계로 재진입할 수 있다.

이상, 본 발명의 일실시예를 참조하여 설명했지만, 본 발명이 이것에 한정되지는 않으며, 다양한 변형 및 응용이 가능하다. 즉, 본 발명의 요지를 일탈하지 않는 범위에서 많은 변형이 가능한 것을 당업자는 용이하게 이해할 수 있을 것이다.

10 : 모바일 기기
100 : 입력부
200 : 제어부
210 : 인식부
300 : 출력부
110 : 제1 보간프레임
111 : 제1 프레임
113 : 제1 프레임의 보간프레임
120 : 제40 보간프레임
121 : 제40 프레임
123 : 제40 프레임의 보간프레임
130 : 시간축상으로 배열된 15차 LFCC 프레임
140 : 제1세그먼트
143 : 제2세그먼트
150 : STDLFCC 벡터
151 : STDLFCC 벡터의 제1특징값
153 : STDLFCC 벡터의 제2특징값
161 : 제1프레임
163 : 제2프레임
165 : 제15프레임

Claims

시간 영역의 음향 신호를 연속되는 다수의 프레임 형태로 입력받는 단계,
상기 입력된 음향 신호를 주파수 영역 신호로 변환하고, 상기 주파수 영역 신호에 필터 뱅크를 적용함으로써 각각의 주파수 대역에 상응하는 에너지 값을 획득하는 단계,
상기 각각의 주파수 대역에 상응하는 에너지 값을 이용하여 이산코사인변환하는 단계, 및
상기 이산코사인변환에 따라 생성된 각 주파수별 코사인 계수 값 중 기 결정된 차수의 코사인 계수 값인 LFCC 계수 값을 획득함으로써 상기 시간 영역의 음향 신호에 대응하는 특징을 추출하는 단계를 포함하는 것을 특징으로 하는 타겟 음향 인식을 위한 음향 특징 추출 방법.
제 1 항에 있어서,
현재 LFCC 계수 값과 이전의 LFCC 계수 값의 차이 값을 보간한 보간 LFCC 계수 값을 생성하는 단계, 및
상기 LFCC 계수 값과 상기 보간 LFCC 계수 값을 이용하여 상기 기 결정된 차수보다 높은 차수의 새로운 LFCC 계수 값을 생성함으로써 상기 시간 영역의 음향 신호에 대응하는 특징을 추출하는 단계를 더 포함하는 것을 특징으로 하는 타겟 음향 인식을 위한 음향 특징 추출 방법.
시간 영역의 음향 신호를 연속되는 다수의 프레임 형태로 입력받는 단계,
상기 입력된 음향 신호를 주파수 영역 신호로 변환하고, 상기 주파수 영역 신호에 필터뱅크를 적용함으로써 각각의 주파수 대역에 상응하는 에너지 값을 획득하는 단계, 상기 연속된 복수개의 프레임의 LFCC 계수 값 중 동일한 차수의 계수 값을 동일 프레임에 시간 순서대로 할당하여 세그먼트를 생성하는 단계,
상기 세그먼트를 구성하는 각각의 프레임에 대하여 이산코사인변환하는 단계, 및
상기 이산코사인변환에 따라 생성된 각 주파수별 코사인 계수 값 중 기 결정된 차수의 코사인 계수 값을 획득함으로써 상기 시간 영역의 음향 신호에 대응하는 특징을 추출하는 단계를 포함하는 것을 특징으로 하는 타겟 음향 인식을 위한 음향 특징 추출 방법.
시간 영역의 음향 신호를 연속되는 다수의 프레임 형태로 입력받는 단계,
입력된 음향 신호를 주파수 영역 신호로 변환하고, 상기 주파수 영역 신호에 필터 뱅크를 적용함으로써 각각의 주파수 대역에 상응하는 각 프레임의 에너지 값을 획득하는 단계,
연속된 복수개의 프레임의 에너지 값 중 동일한 차수에 해당하는 계수 값을 동일 프레임에 시간 순서대로 할당하여 세그먼트를 생성하는 단계,
상기 세그먼트를 구성하는 각각의 프레임에 대하여 이산코사인변환하는 단계, 및
상기 이산코사인변환에 따라 생성된 각 주파수별 코사인 계수 값 중 기 결정된 차수의 코사인 계수 값을 획득함으로써 상기 시간 영역의 음향 신호에 대응하는 특징을 추출하는 단계를 포함하는 것을 특징으로 하는 타겟 음향 인식을 위한 음향 특징 추출 방법.
주변 환경의 음향을 입력받아 이를 주파수 영역 신호로 변환하는 수단,
상기 변환된 신호에 필터뱅크를 적용하여 각각의 주파수 대역에 상응하는 에너지 값을 획득하는 수단,
상기 에너지 값을 이산코사인변환하고, 이에 따라 생성된 각 주파수별 코사인 계수 값 중 기 결정된 차수의 코사인 계수 값인 LFCC 계수 값을 획득함으로써 음향 특징을 검출하는 수단, 및
상기 주변 음향의 지속 시간에 상응하여 제어 대상체의 동작, 회전, 조명, 및 소리 출력, 통신 이벤트 전송 중 적어도 어느 하나를 제어하는 수단을 포함하는 것을 특징으로 하는 타겟 음향 인식을 통한 제어대상체 제어 장치.
주기적 또는 간헐적으로 주변 환경의 음향 세기를 검출하는 레디 모드 단계,
상기 음향 세기가 기 결정된 값보다 큰 경우에 타겟 음향 인식을 수행하는 스타트 모드 단계,
타겟 음향이 인식된 경우에 정해진 제어 대상체에 명령을 전달하고 정해진 동작을 수행하도록 하는 런 모드 단계, 및
정해진 동작의 수행을 멈추는 엑스트 모드 단계를 포함하는 것을 특징으로 하는 타겟 음향 인식을 통한 제어대상체 제어 방법.