KR20240048966A - 인공지능 기기 및 그의 동작 방법 - Google Patents
인공지능 기기 및 그의 동작 방법 Download PDFInfo
- Publication number
- KR20240048966A KR20240048966A KR1020220128890A KR20220128890A KR20240048966A KR 20240048966 A KR20240048966 A KR 20240048966A KR 1020220128890 A KR1020220128890 A KR 1020220128890A KR 20220128890 A KR20220128890 A KR 20220128890A KR 20240048966 A KR20240048966 A KR 20240048966A
- Authority
- KR
- South Korea
- Prior art keywords
- word
- artificial intelligence
- user
- information
- remote
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephonic Communication Services (AREA)
Abstract
인공지능 기기 및 그 동작 방법이 개시된다. 본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기는, 디스플레이; 및 상기 디스플레이를 제어하는 프로세서를 포함하되, 상기 프로세서는, 제1 원거리 기동어를 입력받아 등록하고, 등록된 제1 원거리 기동어가 수신되는 경우, 음성 인식 기능을 활성화하고, 상기 제1 원거리 기동어를 서버로 전달하되, 상기 제1 원거리 기동어는 상기 인공지능 기기에 임베디드 된 기본 원거리 기동어가 아닐 수 있다.
Description
본 개시는 인공지능 기기 및 그 동작 방법에 관한 것이다.
스마트폰에 시작된 음성인식 기술 경쟁은 사물인터넷(IoT)의 본격 확산과 맞물려 이제 집 안에서 본격적으로 불붙을 전망이다.
특히, 주목할 만한 점은 그 기기가 음성을 매개로 명령을 내리고, 대화를 나눌 수도 있는 인공지능(AI) 기기라는 점이다.
음성인식 서비스는 막대한 양의 데이터베이스를 활용하여, 사용자의 질문에 최적 답변을 선택하는 구조를 갖고 있다.
음성검색 기능 역시 입력된 음성데이터를 클라우드 서버에서 텍스트로 변환하여 분석하고, 그 결과에 따른 실시간 검색결과를 기기로 재전송하는 방식이다.
클라우드 서버는 수많은 단어들을 성별, 연령별, 억양별로 구분된 음성 데이터로 구분하여, 저장하고 실시간으로 처리할 수 있는 컴퓨팅 능력을 보유하고 있다.
음성 인식은 더 많은 음성데이터가 축적될수록, 인간과 동등한(Human parity) 수준 정도로, 정확해질 것이다.
다만, 종래는 음성 인식과 관련하여, 기기에 디폴트로 설정 등록된 원거리 기동어만 이용할 수밖에 없어, 인공지능 기기의 이용에 불편함이 있었다.
본 개시는 전술한 문제 및 다른 문제를 해결하는 것을 목적으로 한다.
본 개시는 인공지능 기기의 제공을 목적으로 한다.
본 개시는 인공지능 기기를 이용하는 다양한 사용자의 개성에 따라 원하는 기동어로 사용자 정의 원거리 기동어를 등록 및 사용할 수 있도록 것이다.
본 개시는 사용자 정의 원거리 기동어를 등록 및 사용하여, 인공지능 기기를 개인 맞춤형 기기로 다양한 기능을 보다 쉽고 편리하게 이용할 수 있도록 하는 것이다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기는, 디스플레이; 및 상기 디스플레이를 제어하는 프로세서를 포함하되, 상기 프로세서는, 제1 원거리 기동어를 입력받아 등록하고, 등록된 제1 원거리 기동어가 수신되는 경우, 음성 인식 기능을 활성화하고, 상기 제1 원거리 기동어를 서버로 전달하되, 상기 제1 원거리 기동어는 상기 인공지능 기기에 임베디드 된 기본 원거리 기동어가 아닐 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 프로세서는, 상기 제1 원거리 기동어의 등록을 위해 음성 인식 에이전트를 제공하고, 발화자와 상기 음성 인식 에이전트를 통해 입력되는 제1 원거리 기동어를 매핑하여 등록할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 프로세서는, 상기 제1 원거리 기동어에, 상기 발화자의 정보가 연동되도록 처리할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 발화자의 정보에는, 계정 또는 로그인 정보, 프로필 정보, 결제 및 구독 정보, 연동 가능한 유료 또는 무료 서비스 또는 어플리케이션 정보, 연결 가능한 외부 기기 정보, 및 루틴 정보 중 적어도 하나 이상이 포함될 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 프로세서는, 상기 제1 원거리 기동어에 대해 적어도 하나 이상의 명령어가 자동 실행되도록 매크로 정보를 생성하여 저장하도록 제어할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 프로세서는, 사용자 입력이 수신되는 경우, 상기 사용자 입력에 상기 등록된 제1 원거리 기동어가 포함되었는지 판단하고, 상기 사용자 입력에 상기 제1 원거리 기동어가 포함된 경우, 상기 사용자 입력에 상기 제1 원거리 기동어 외에 명령을 추출하여 매크로 정보와 비교하여 매크로 기능을 자동 실행할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기에 따르면, 상기 수신되는 사용자 입력이 제1 원거리 기동어를 수신하는 경우, 미리 정의된 시간 내에 명령어가 수신되는지 판단하여, 상기 미리 정의된 시간 내에 명령어가 수신되는 경우, 명령어에 상응하는 제1 기능에 관한 동작을 수행하고, 상기 미리 정의된 시간 내에 명령어가 수신되지 않는 경우, 제2 기능에 관한 동작을 수행하되, 상기 제2 기능은 상기 제1 원거리 기동어의 매크로에 등록된 제1 명령어들 중 어느 하나의 제1 명령어에 대한 제2 명령어에 따른 기능을 수행할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법은, 음성 인식 에이전트를 제공하는 단계; 상기 음성 인식 에이전트를 통해 제1 원거리 기동어를 입력받아 등록하는 단계; 및 상기 제1 원거리 기동어를 서버로 전달하는 단계를 포함하되, 상기 제1 원거리 기동어는, 상기 인공지능 기기에 임베디드 된 제2 원거리 기동어가 아닐 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 상기 제1 원거리 기동어를 입력받아 등록하는 단계는, 상기 제1 원거리 기동어의 등록을 위해 음성 인식 에이전트를 제공하는 단계; 및 발화자와 상기 음성 인식 에이전트를 통해 입력되는 제1 원거리 기동어를 매핑하여 등록하는 단계를 포함할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 발화자와 상기 음성 인식 에이전트를 통해 입력되는 제1 원거리 기동어를 매핑하여 등록하는 단계는, 상기 제1 원거리 기동어에, 상기 발화자의 정보가 연동되도록 처리될 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 상기 발화자의 정보에는, 계정 또는 로그인 정보, 프로필 정보, 결제 및 구독 정보, 연동 가능한 유료 또는 무료 서비스 또는 어플리케이션 정보, 연결 가능한 외부 기기 정보, 및 루틴 정보 중 적어도 하나 이상이 포함될 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 상기 발화자와 상기 음성 인식 에이전트를 통해 입력되는 제1 원거리 기동어를 매핑하여 등록하는 단계는, 상기 제1 원거리 기동어에 대해 적어도 하나 이상의 명령어가 자동 실행되도록 매크로 정보가 생성되어 저장될 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 사용자 입력을 수신하는 단계; 상기 사용자 입력에 상기 제1 원거리 기동어가 포함되었는지 판단하는 단계; 및 상기 사용자 입력에 상기 제1 원거리 기동어가 포함된 경우, 상기 사용자 입력에 상기 제1 원거리 기동어 외에 명령을 추출하여 매크로 정보와 비교하여 매크로 기능을 자동 실행하는 단계를 더 포함할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 기기의 동작 방법에 따르면, 상기 수신되는 사용자 입력이 제1 원거리 기동어인 경우, 미리 정의된 시간 내에 명령어가 수신되는지 판단하는 단계; 및 상기 미리 정의된 시간 내에 명령어가 수신되는 경우, 명령어에 상응하는 제1 기능에 관한 동작을 수행하고, 상기 미리 정의된 시간 내에 명령어가 수신되지 않는 경우, 제2 기능에 관한 동작을 수행하는 단계를 포함하되, 상기 제2 기능은 상기 제1 원거리 기동어의 매크로에 등록된 제1 명령어들 중 어느 하나의 제1 명령어에 대한 제2 명령어에 따른 기능을 수행할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나의 실시 예에 따른 인공지능 음성 서비스 시스템은, 서버; 및 상기 서버와 데이터를 주고받는 인공지능 기기를 포함하여 구성되되, 상기 인공지능 기기는, 음성 인식 에이전트를 제공하고, 상기 음성 인식 에이전트를 통해 제1 원거리 기동어를 입력받아 등록하고, 상기 제1 원거리 기동어를 서버로 전달하는 프로세서를 포함하고, 상기 제1 원거리 기동어는, 상기 인공지능 기기에 임베디드 된 제2 원거리 기동어가 아닐 수 있다.
본 발명의 적용 가능성의 추가적인 범위는 이하의 상세한 설명으로부터 명백해질 것이다. 그러나 본 발명의 사상 및 범위 내에서 다양한 변경 및 수정은 당업자에게 명확하게 이해될 수 있으므로, 상세한 설명 및 본 발명의 바람직한 실시 예와 같은 특정 실시 예는 단지 예시로 주어진 것으로 이해되어야 한다.
본 개시의 다양한 실시예들 중 적어도 하나에 따르면, 인공지능 기기를 이용하는 다양한 사용자의 개성에 따라 원하는 기동어로 사용자 정의 원거리 기동어를 등록 및 사용할 수 있도록 하여, 인공지능 기기를 개인 맞춤형 기기로 다양한 기능을 보다 쉽고 편리하게 이용할 수 있도록 서비스함으로써, 인공지능 기기에 대한 이용 만족도와 편의성을 극대화할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시 예에 따른 음성 시스템을 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시 예에 따른 인공지능 기기의 구성을 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 음성 서비스 서버의 구성을 설명하기 위한 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 음성 신호를 파워 스펙트럼으로 변환한 예를 설명한 도면이다.
도 5는 본 발명의 일 실시 예에 따라, 인공지능 기기의 음성 인식 및 합성을 위한 프로세서의 구성을 설명하는 블록도이다.
도 6은 본 개시의 실시 예에 따른 스탠드 타입의 디스플레이 장치의 가로 모드 및 세로 모드를 설명하기 위한 도면이다.
도 7은 본 개시의 다른 일 실시 예에 따른 인공지능 기기의 구성 블록도이다.
도 8은 본 개시의 일실시예에 따른 음성 서비스 시스템에서 사용자 정의 원거리 기동어의 등록 방법을 설명하기 위해 도시한 도면이다.
도 9는 본 개시의 일실시예에 따른 음성 서비스 시스템에서 사용자 정의 원거리 기동어의 사용 방법을 설명하기 위해 도시한 도면이다.
도 10은 본 개시의 다른 일실시예에 따른 음성 서비스 시스템에서 사용자 정의 원거리 기동어의 사용 방법을 설명하기 위해 도시한 도면이다.
도 11은 본 개시의 일실시예에 따른 인공지능 기기에서 사용자 정의 원거리 기동어를 등록하는 방법을 설명하기 위해 도시한 도면이다.
도 12 내지 14는 본 개시의 일실시예에 따라 사용자 정의 원거리 기동어와 사용자 정보의 연동 방법을 설명하기 위해 도시한 도면이다.
도 15는 본 개시의 일실시예에 따라 등록된 사용자 정의 원거리 기동어 리스트를 설명하기 위해 도시한 도면이다.
도 16 내지 23은 본 개시의 일실시예에 따른 등록된 사용자 정의 원거리 기동어의 사용에 따른 인공지능 기기의 동작 방법을 설명하기 위해 도시한 도면이다.
도 24와 25는 본 개시의 일실시예에 따라 서버에서 사용자 정의 원거리 기동어를 처리하는 방법을 설명하기 위해 도시한 도면이다.
도 2는 본 개시의 일 실시 예에 따른 인공지능 기기의 구성을 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 음성 서비스 서버의 구성을 설명하기 위한 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 음성 신호를 파워 스펙트럼으로 변환한 예를 설명한 도면이다.
도 5는 본 발명의 일 실시 예에 따라, 인공지능 기기의 음성 인식 및 합성을 위한 프로세서의 구성을 설명하는 블록도이다.
도 6은 본 개시의 실시 예에 따른 스탠드 타입의 디스플레이 장치의 가로 모드 및 세로 모드를 설명하기 위한 도면이다.
도 7은 본 개시의 다른 일 실시 예에 따른 인공지능 기기의 구성 블록도이다.
도 8은 본 개시의 일실시예에 따른 음성 서비스 시스템에서 사용자 정의 원거리 기동어의 등록 방법을 설명하기 위해 도시한 도면이다.
도 9는 본 개시의 일실시예에 따른 음성 서비스 시스템에서 사용자 정의 원거리 기동어의 사용 방법을 설명하기 위해 도시한 도면이다.
도 10은 본 개시의 다른 일실시예에 따른 음성 서비스 시스템에서 사용자 정의 원거리 기동어의 사용 방법을 설명하기 위해 도시한 도면이다.
도 11은 본 개시의 일실시예에 따른 인공지능 기기에서 사용자 정의 원거리 기동어를 등록하는 방법을 설명하기 위해 도시한 도면이다.
도 12 내지 14는 본 개시의 일실시예에 따라 사용자 정의 원거리 기동어와 사용자 정보의 연동 방법을 설명하기 위해 도시한 도면이다.
도 15는 본 개시의 일실시예에 따라 등록된 사용자 정의 원거리 기동어 리스트를 설명하기 위해 도시한 도면이다.
도 16 내지 23은 본 개시의 일실시예에 따른 등록된 사용자 정의 원거리 기동어의 사용에 따른 인공지능 기기의 동작 방법을 설명하기 위해 도시한 도면이다.
도 24와 25는 본 개시의 일실시예에 따라 서버에서 사용자 정의 원거리 기동어를 처리하는 방법을 설명하기 위해 도시한 도면이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 명세서에서 설명되는 ‘인공지능 기기’에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털 방송용 인공지능 기기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 인공지능 기기(smartwatch), 글래스형 인공지능 기기(smart glass), HMD(head mounted display)) 등이 포함될 수 있다.
그러나 본 명세서에 기재된 실시예에 따른 인공지능 기기는 스마트 TV, 데스크탑 컴퓨터, 디지털 사이니지(Digital Signage), 냉장고, 세탁기, 에어컨, 식기 세척기 등과 같은 고정 인공지능 기기에도 적용될 수도 있다.
또한, 본 발명의 실시예에 따른 인공지능 기기(10)는 고정 또는 이동 가능한 로봇(Robot)에도 적용될 수 있다.
또한, 본 발명의 실시예에 따른 인공지능 기기(10)는 음성 에이전트(또는 발화 에이전트)의 기능을 수행할 수 있다. 음성 에이전트는 사용자의 음성을 인식하고, 인식된 사용자의 음성에 적합한 응답을 음성으로 출력하는 프로그램일 수 있다.
도 1은 본 발명의 일 실시 예에 따른 음성 서비스 시스템을 설명하기 위한 도면이다.
음성 서비스는 음성 인식 및 음성 합성 서비스 중 적어도 하나를 포함할 수있다. 음성 인식 및 합성 과정은 발화자(또는 사용자)의 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터에 기반하여 발화자의 의도를 분석하고, 분석된 의도에 상응하는 텍스트 데이터를 합성 음성 데이터로 변환하고, 변환된 합성 음성 데이터를 출력하는 과정을 포함할 수 있다.
음성 인식 및 합성 과정을 위해, 도 1에 도시된 바와 같은, 음성 서비스 시스템이 사용될 수 있다.
도 1을 참조하면, 음성 서비스 시스템은 인공지능 기기(10), 음성 텍스트 변환(Speech To Text, STT) 서버(20), 자연어 처리(Natural Language Processing, NLP) 서버(30) 및 음성 합성 서버(40)을 포함할 수 있다. 복수의 AI 에이전트 서버들(50-1 내지 50-3)은 NLP 서버(30)와 통신하며, 음성 서비스 시스템에 포함될 수 있다.
한편, STT 서버(20), NLP 서버(30) 및 음성 합성 서버(40)는 도시된 바와 각각 별개 서버로서 존재할 수도 있고, 하나의 서버(200)에 포함되어 존재할 수도 있다. 그 밖에, 복수의 AI 에이전트 서버들(50-1 내지 50-3) 역시 별개의 서버로 존재하거나 하나의 서버(200)에 포함되어 존재할 수도 있다.
인공지능 기기(10)는 마이크로폰(122)을 통해 수신된 발화자의 음성에 상응하는 음성 신호를 STT 서버(20)에 전송할 수 있다.
STT 서버(20)는 인공지능 기기(10)로부터 수신된 음성 데이터를 텍스트 데이터로 변환할 수 있다.
STT 서버(20)는 언어 모델을 이용하여 음성-텍스트 변환의 정확도를 높일 수 있다.
언어 모델은 문장의 확률을 계산하거나, 이전의 단어들이 주어졌을 때 다음 단어가 나올 확률을 계산할 수 있는 모델을 의미할 수 있다.
예컨대, 언어 모델은 유니그램(Unigram) 모델, 바이그램(Bigram) 모델, N-그램(N-gram) 모델 등과 같은 확률론적 언어 모델들을 포함할 수 있다.
유니그램 모델은 모든 단어의 활용이 완전히 서로 독립적이라고 가정하는 모델로, 단어 열의 확률을 각 단어의 확률의 곱으로 계산하는 모델이다.
바이그램 모델은 단어의 활용이 이전 1개의 단어에만 의존한다고 가정하는 모델이다.
N-그램 모델은 단어의 활용이 이전 (n-1)개의 단어에 의존한다고 가정하는 모델이다.
즉, STT 서버(20)는 언어 모델을 이용하여 음성 데이터로부터 변환된 텍스트 데이터가 적합하게 변환된 것인지 판단할 수 있고, 이를 통해 텍스트 데이터로의 변환의 정확도를 높일 수 있다.
NLP 서버(30)는 STT 서버(20)로부터 텍스트 데이터를 수신할 수 있다. STT 서버(20)는 NLP 서버(30)에 포함될 수도 있다.
NLP 서버(30)는 수신된 텍스트 데이터에 기초하여, 텍스트 데이터에 대한 의도 분석을 수행할 수 있다.
NLP 서버(30)는 의도 분석의 수행 결과를 나타내는 의도 분석 정보를 인공지능 기기(10)에 전송할 수 있다.
또 다른 예로, NLP 서버(30)는 의도 분석 정보를 음성 합성 서버(40)에 전송할 수 있다. 음성 합성 서버(40)는 의도 분석 정보에 기반한 합성 음성을 생성하고, 생성된 합성 음성을 인공지능 기기(10)에 전송할 수 있다.
NLP 서버(30)는 텍스트 데이터에 대해, 형태소 분석 단계, 구문 분석 단계, 화행 분석 단계, 및 대화 처리 단계를 순차적으로 수행하여, 의도 분석 정보를 생성할 수 있다.
형태소 분석 단계는 사용자가 발화한 음성에 대응하는 텍스트 데이터를 의미를 지닌 가장 작은 단위인 형태소 단위로 분류하고, 분류된 각 형태소가 어떤 품사를 가지는지를 결정하는 단계이다.
구문 분석 단계는 형태소 분석 단계의 결과를 이용하여, 텍스트 데이터를 명사구, 동사구, 형용사 구 등으로 구분하고, 구분된 각 구들 사이에, 어떠한 관계가 존재하는지를 결정하는 단계이다.
구문 분석 단계를 통해, 사용자가 발화한 음성의 주어, 목적어, 수식어들이 결정될 수 있다.
화행 분석 단계는 구문 분석 단계의 결과를 이용하여, 사용자가 발화한 음성에 대한 의도를 분석하는 단계이다. 구체적으로, 화행 분석 단계는 사용자가 질문을 하는 것인지, 요청을 하는 것인지, 단순한 감정 표현을 하는 것인지와 같은 문장의 의도를 결정하는 단계이다.
대화 처리 단계는 화행 분석 단계의 결과를 이용하여, 사용자의 발화에 대해 대답을 할지, 호응을 할지, 추가 정보를 문의하는 질문을 할지를 판단하는 단계이다.
NLP 서버(30)는 대화 처리 단계 후, 사용자가 발화한 의도에 대한 답변, 호응, 추가 정보 문의 중 하나 이상을 포함하는 의도 분석 정보를 생성할 수 있다.
NLP 서버(30)는 사용자의 발화 의도에 맞는 정보를 검색하기 위해, 검색 서버(미도시)에 검색 요청을 전송하고, 검색 요청에 상응하는 검색 정보를 수신할 수 있다.
사용자의 발화 의도가 컨텐트의 검색인 경우, 검색 정보는 검색된 컨텐트에 대한 정보를 포함할 수 있다.
NLP 서버(30)는 검색 정보를 인공지능 기기(10)에 전송하고, 인공지능 기기(10)는 검색 정보를 출력할 수 있다.
한편, NLP 서버(30)는 인공지능 기기(10)로부터 텍스트 데이터를 수신할 수도 있다. 예를 들어, 인공지능 기기(10)가 음성 텍스트 변환 기능을 지원하는 경우, 인공지능 기기(10)는 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 NLP 서버(30)에 전송할 수 있다.
음성 합성 서버(40)는 기 저장된 음성 데이터들을 조합하여, 합성 음성을 생성할 수 있다.
음성 합성 서버(40)는 모델로 선정된 한 사람의 음성을 녹음하고, 녹음된 음성을 음절 또는 단어 단위로 분할할 수 있다.
음성 합성 서버(40)는 음절 또는 단어 단위로, 분할된 음성을 내부 또는 외부의 데이터 베이스에 저장할 수 있다.
음성 합성 서버(40)는 주어진 텍스트 데이터에 대응하는 음절 또는 단어를 데이터 베이스로부터 검색하고, 검색된 음절 또는 단어들의 조합을 합성하여, 합성 음성을 생성할 수 있다.
음성 합성 서버(40)는 복수의 언어들 각각에 대응하는 복수의 음성 언어 그룹들을 저장하고 있을 수 있다.
예를 들어, 음성 합성 서버(40)는 한국어로 녹음된 제1 음성 언어 그룹, 영어로, 녹음된 제2 음성 언어 그룹을 포함할 수 있다.
음성 합성 서버(40)는 제1 언어의 텍스트 데이터를 제2 언어의 텍스트로 번역하고, 제2 음성 언어 그룹을 이용하여, 번역된 제2 언어의 텍스트에 대응하는 합성 음성을 생성할 수 있다.
음성 합성 서버(40)는 생성된 합성 음성을 인공지능 기기(10)에 전송할 수 있다.
음성 합성 서버(40)는 NLP 서버(30)로부터 분석 정보를 수신할 수 있다. 분석 정보는 사용자가 발화한 음성의 의도를 분석한 정보를 포함할 수 있다.
음성 합성 서버(40)는 분석 정보에 기초하여, 사용자의 의도를 반영한, 합성 음성을 생성할 수 있다.
일 실시 예에서, STT 서버(20), NLP 서버(30) 및 음성 합성 서버(40)는 하나의 서버로 구현될 수 있다.
위에서, 설명된 STT 서버(20), NLP 서버(30) 및 음성 합성 서버(40) 각각의 기능은 인공지능 기기(10)에서도 수행될 수도 있다. 이를 위해, 인공지능 기기(10)는 하나 이상의 프로세서들을 포함할 수 있다.
복수의 AI 에이전트 서버들(50-1 내지 50-3) 각각은 NLP 서버(30)의 요청에 따라 검색 정보를 NLP 서버(30) 또는 인공지능 기기(10)에 전송할 수 있다.
NLP 서버(30)의 의도 분석 결과가 컨텐트의 검색 요청인 경우, NLP 서버(30)는 컨텐트의 검색 요청을 복수의 AI 에이전트 서버들(50-1 내지 50-3) 중 하나 이상의 서버에 전송하고, 컨텐트의 검색 결과를 해당 서버로부터 수신할 수 있다.
NLP 서버(30)는 수신된 검색 결과를 인공지능 기기(10)에 전송할 수 있다.
도 2는 본 개시의 일 실시 예에 따른 인공지능 기기(10)의 구성을 설명하기 위한 블록도이다.
도 2를 참조하면, 인공지능 기기(10)는 통신부(110), 입력부(120), 러닝 프로세서(130), 센싱부(140), 출력부(150), 메모리(170) 및 프로세서(180)를 포함할 수 있다.
통신부(110)는 유무선 통신 기술을 이용하여 외부 장치들과 데이터를 송수신할 수 있다. 예컨대, 통신부(110)는 외부 장치들과 센서 정보, 사용자 입력, 학습 모델, 제어 신호 등을 송수신할 수 있다.
이때, 통신부(110)가 이용하는 통신 기술에는 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), LTE(Long Term Evolution), LTV-A(dvanced), 5G, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), 블루투스(Bluetooth™), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), ZigBee, NFC(Near Field Communication) 등이 있다.
입력부(120)는 다양한 종류의 데이터를 획득할 수 있다.
입력부(120)는 영상 신호 입력을 위한 카메라, 오디오 신호를 수신하기 위한 마이크로폰, 사용자로부터 정보를 입력 받기 위한 사용자 입력부 등을 포함할 수 있다. 여기서, 카메라나 마이크로폰을 센서로 취급하여, 카메라나 마이크로폰으로부터 획득한 신호를 센싱 데이터 또는 센서 정보라고 할 수도 있다.
입력부(120)는 모델 학습을 위한 학습 데이터 및 학습 모델을 이용하여 출력을 획득할 때 사용될 입력 데이터 등을 획득할 수 있다. 입력부(120)는 가공되지 않은 입력 데이터를 획득할 수도 있으며, 이 경우 프로세서(180) 또는 러닝 프로세서(130)는 입력 데이터에 대하여 전처리로써 입력 특징점(input feature)을 추출할 수 있다.
입력부(120)는 영상 신호 입력을 위한 카메라(Camera, 121), 오디오 신호를 수신하기 위한 마이크로폰(Microphone, 122), 사용자로부터 정보를 입력 받기 위한 사용자 입력부(User Input Unit, 123)를 포함할 수 있다.
입력부(120)에서 수집한 음성 데이터나 이미지 데이터는 분석되어 사용자의 제어 명령으로 처리될 수 있다.
입력부(120)는 영상 정보(또는 신호), 오디오 정보(또는 신호), 데이터, 또는 사용자로부터 입력되는 정보의 입력을 위한 것으로서, 영상 정보의 입력을 위하여, 인공지능 기기(10)는 하나 또는 복수의 카메라(121)들을 구비할 수 있다.
카메라(121)는 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부(151)에 표시되거나 메모리(170)에 저장될 수 있다.
마이크로폰(122)은 외부의 음향 신호를 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 인공지능 기기(10)에서 수행 중인 기능(또는 실행 중인 응용 프로그램)에 따라 다양하게 활용될 수 있다. 한편, 마이크로폰(122)에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 적용될 수 있다.
사용자 입력부(123)는 사용자로부터 정보를 입력 받기 위한 것으로서, 사용자 입력부(123)를 통해 정보가 입력되면, 프로세서(180)는 입력된 정보에 대응되도록 인공지능 기기(10)의 동작을 제어할 수 있다.
사용자 입력부(123)는 기계식 (mechanical) 입력수단(또는, 메커니컬 키, 예컨대, 단말기(100)의 전/후면 또는 측면에 위치하는 버튼, 돔 스위치 (dome switch), 조그 휠, 조그 스위치 등) 및 터치식 입력수단을 포함할 수 있다. 일 예로서, 터치식 입력수단은, 소프트웨어적인 처리를 통해 터치스크린에 표시되는 가상 키(virtual key), 소프트 키(soft key) 또는 비주얼 키(visual key)로 이루어지거나, 상기 터치스크린 이외의 부분에 배치되는 터치 키(touch key)로 이루어질 수 있다.
러닝 프로세서(130)는 학습 데이터를 이용하여 인공 신경망으로 구성된 모델을 학습시킬 수 있다. 여기서, 학습된 인공 신경망을 학습 모델이라 칭할 수 있다. 학습 모델은 학습 데이터가 아닌 새로운 입력 데이터에 대하여 결과 값을 추론해 내는데 사용될 수 있고, 추론된 값은 어떠한 동작을 수행하기 위한 판단의 기초로 이용될 수 있다.
러닝 프로세서(130)는 인공지능 기기(10)에 통합되거나 구현된 메모리를 포함할 수 있다. 또는, 러닝 프로세서(130)는 메모리(170), 인공지능 기기(10)에 직접 결합된 외부 메모리 또는 외부 장치에서 유지되는 메모리를 사용하여 구현될 수도 있다.
센싱부(140)는 다양한 센서들을 이용하여 인공지능 기기(10) 내부 정보, 인공지능 기기(10)의 주변 환경 정보 및 사용자 정보 중 적어도 하나를 획득할 수 있다.
이때, 센싱부(140)에 포함되는 센서에는 근접 센서, 조도 센서, 가속도 센서, 자기 센서, 자이로 센서, 관성 센서, RGB 센서, IR 센서, 지문 인식 센서, 초음파 센서, 광 센서, 마이크로폰, 라이다, 레이더 등이 있다.
출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시킬 수 있다.
출력부(150)는 디스플레이부(Display Unit, 151), 음향 출력부(Sound Output Unit, 152), 햅틱 모듈(Haptic Module, 153), 및 광 출력부(Optical Output Unit, 154) 중 적어도 하나를 포함할 수 있다.
디스플레이부(151)는 인공지능 기기(10)에서 처리되는 정보를 표시(출력)한다. 예컨대, 디스플레이부(151)는 인공지능 기기(10)에서 구동되는 응용 프로그램의 실행화면 정보, 또는 이러한 실행화면 정보에 따른 UI(User Interface), GUI(Graphic User Interface) 정보를 표시할 수 있다.
디스플레이부(151)는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 인공지능 기기(10)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부(123)로서 기능함과 동시에, 단말기(100)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.
음향 출력부(152)는 호신호 수신, 통화모드 또는 녹음 모드, 음성인식 모드, 방송수신 모드 등에서 통신부(110)로부터 수신되거나 메모리(170)에 저장된 오디오 데이터를 출력할 수 있다.
음향 출력부(152)는 리시버(receiver), 스피커(speaker), 버저(buzzer) 중 적어도 하나 이상을 포함할 수 있다.
햅틱 모듈(haptic module)(153)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(153)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 될 수 있다.
광출력부(154)는 인공지능 기기(10)의 광원의 빛을 이용하여 이벤트 발생을 알리기 위한 신호를 출력한다. 인공지능 기기(10)에서 발생되는 이벤트의 예로는 메시지 수신, 호 신호 수신, 부재중 전화, 알람, 일정 알림, 이메일 수신, 애플리케이션을 통한 정보 수신 등이 될 수 있다.
메모리(170)는 인공지능 기기(10)의 다양한 기능을 지원하는 데이터를 저장할 수 있다. 예컨대, 메모리(170)는 입력부(120)에서 획득한 입력 데이터, 학습 데이터, 학습 모델, 학습 히스토리 등을 저장할 수 있다.
프로세서(180)는 데이터 분석 알고리즘 또는 머신 러닝 알고리즘을 사용하여 결정되거나 생성된 정보에 기초하여, 인공지능 기기(10)의 적어도 하나의 실행 가능한 동작을 결정할 수 있다. 그리고, 프로세서(180)는 인공지능 기기(10)의 구성 요소들을 제어하여 결정된 동작을 수행할 수 있다.
프로세서(180)는 러닝 프로세서(130) 또는 메모리(170)의 데이터를 요청, 검색, 수신 또는 활용할 수 있고, 상기 적어도 하나의 실행 가능한 동작 중 예측되는 동작이나, 바람직한 것으로 판단되는 동작을 실행하도록 인공지능 기기(10)의 구성 요소들을 제어할 수 있다.
프로세서(180)는 결정된 동작을 수행하기 위하여 외부 장치의 연계가 필요한 경우, 해당 외부 장치를 제어하기 위한 제어 신호를 생성하고, 생성한 제어 신호를 해당 외부 장치에 전송할 수 있다.
프로세서(180)는 사용자 입력에 대하여 의도 정보를 획득하고, 획득한 의도 정보에 기초하여 사용자의 요구 사항을 결정할 수 있다.
프로세서(180)는 음성 입력을 문자열로 변환하기 위한 STT 엔진 또는 자연어의 의도 정보를 획득하기 위한 NLP 엔진 중에서 적어도 하나 이상을 이용하여, 사용자 입력에 상응하는 의도 정보를 획득할 수 있다.
STT 엔진 또는 NLP 엔진 중에서 적어도 하나 이상은 적어도 일부가 머신 러닝 알고리즘에 따라 학습된 인공 신경망으로 구성될 수 있다. 그리고, STT 엔진 또는 NLP 엔진 중에서 적어도 하나 이상은 러닝 프로세서(130)에 의해 학습된 것이나, AI 서버(200)의 러닝 프로세서(240)에 의해 학습된 것이거나, 또는 이들의 분산 처리에 의해 학습된 것일 수 있다.
프로세서(180)는 인공지능 기기(10)의 동작 내용이나 동작에 대한 사용자의 피드백 등을 포함하는 이력 정보를 수집하여 메모리(170) 또는 러닝 프로세서(130)에 저장하거나, AI 서버(200) 등의 외부 장치에 전송할 수 있다. 수집된 이력 정보는 학습 모델을 갱신하는데 이용될 수 있다.
프로세서(180)는 메모리(170)에 저장된 응용 프로그램을 구동하기 위하여, 인공지능 기기(10)의 구성 요소들 중 적어도 일부를 제어할 수 있다. 나아가, 프로세서(180)는 상기 응용 프로그램의 구동을 위하여, 인공지능 기기(10)에 포함된 구성 요소들 중 둘 이상을 서로 조합하여 동작 시킬 수 있다.
도 3은 본 발명의 일 실시 예에 따른 음성 서비스 서버의 구성을 설명하기 위한 블록도이다.
음성 서비스 서버(200)는 도 1에 도시된, STT 서버(20), NLP 서버(30), 음성 합성 서버(40) 중 하나 이상을 포함할 수 있다. 음성 서비스 서버(200)는 서버 시스템으로 명명될 수 있다.
도 3을 참고하면, 음성 서비스 서버(200)는 전처리부(220), 컨트롤러(230), 통신부(270) 및 데이터 베이스(290)를 포함할 수 있다.
전처리부(220)는 통신부(270)를 통해 수신된 음성 또는 데이터 베이스(290)에 저장된 음성을 전처리 할 수 있다.
전처리부(220)는 컨트롤러(230)와 별도의 칩으로 구현되거나, 컨트롤러(230)에 포함된 칩으로 구현될 수 있다.
전처리부(220)는 (사용자가 발화한) 음성 신호를 수신하고, 수신된 음성 신호를 텍스트 데이터로 변환하기 전, 음성 신호로부터 잡음 신호를 필터링할 수 있다.
전처리부(220)가 인공지능 기기(10)에 구비된 경우, 인공지능 기기(10)의 음성 인식을 활성화시키기 위한 기동어를 인식할 수 있다. 전처리부(220)는 마이크로폰(121)을 통해 수신된 기동어를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터가 기 저장된 기동어에 대응하는 텍스트 데이터인 경우, 기동어를 인식한 것으로 판단할 수 있다.
전처리부(220)는 잡음이 제거된 음성 신호를 파워 스펙트럼으로 변환할 수 있다.
파워 스펙트럼은 시간적으로 변동하는 음성 신호의 파형에 어떠한 주파수 성분이 어떠한 크기로 포함되어 있는지를 나타내는 파라미터일 수 있다.
파워 스펙트럼은 음성 신호의 파형의 주파수에 따른 진폭 제곱 값의 분포를 보여준다.
이에 대해서는, 도 4를 참조하여 설명한다.
도 4는 본 발명의 일 실시 예에 따른 음성 신호를 파워 스펙트럼으로 변환한 예를 설명한 도면이다.
도 4를 참조하면, 음성 신호(410)가 도시되어 있다. 음성 신호(410)는 외부 기기로부터 수신되거나, 메모리(170)에 미리 저장된 신호일 수 있다.
음성 신호(310)의 x축은 시간이고, y축은 진폭의 크기를 나타낼 수 있다.
파워 스펙트럼 처리부(225)는 x축이 시간 축인 음성 신호(410)를 x축이 주파수 축인 파워 스펙트럼(430)으로 변환할 수 있다.
파워 스펙트럼 처리부(225)는 고속 푸리에 변환(Fast Fourier Transform, FFT)을 이용하여, 음성 신호(410)를 파워 스펙트럼(430)으로 변환할 수 있다.
파워 스펙트럼(430)의 x축은 주파수, y축은 진폭의 제곱 값을 나타낸다.
다시 도 3을 설명한다.
도 3에서 설명된 전처리부(220) 및 컨트롤러(230)의 기능은 NLP 서버(30)에서도 수행될 수 있다.
전처리부(220)는 웨이브 처리부(221), 주파수 처리부(223), 파워 스펙트럼 처리부(225), 음성 텍스트(STT) 변환부(227)를 포함할 수 있다.
웨이브 처리부(221)는 음성의 파형을 추출할 수 있다.
주파수 처리부(223)는 음성의 주파수 대역을 추출할 수 있다.
파워 스펙트럼 처리부(225)는 음성의 파워 스펙트럼을 추출할 수 있다.
파워 스펙트럼은 시간적으로 변동하는 파형이 주어졌을 때, 그 파형에 어떠한 주파수 성분이 어떠한 크기로 포함되고 있는지를 나타내는 파라미터일 수 있다.
음성 텍스트(STT) 변환부(227)는 음성을 텍스트로 변환할 수 있다.
음성 텍스트 변환부(227)는 특정 언어의 음성을 해당 언어의 텍스트로 변환할 수 있다.
컨트롤러(230)는 음성 서비스 서버(200)의 전반적인 동작을 제어할 수 있다.
컨트롤러(230)는 음성 분석부(231), 텍스트 분석부(232), 특징 클러스터링부(233), 텍스트 매핑부(234) 및 음성 합성부(235)를 포함할 수 있다.
음성 분석부(231)는 전처리부(220)에서 전처리 된, 음성의 파형, 음성의 주파수 대역 및 음성의 파워 스펙트럼 중 하나 이상을 이용하여, 음성의 특성 정보를 추출할 수 있다.
음성의 특성 정보는 화자의 성별 정보, 화자의 목소리(또는 음색, tone), 음의 높낮이, 화자의 말투, 화자의 발화 속도, 화자의 감정 중 하나 이상을 포함할 수 있다.
또한, 음성의 특성 정보는 화자의 음색을 더 포함할 수도 있다.
텍스트 분석부(232)는 음성 텍스트 변환부(227)에서 변환된 텍스트로부터, 주요 표현 어구를 추출할 수 있다.
텍스트 분석부(232)는 변환된 텍스트로부터 어구와 어구 간의 어조가 달라짐을 감지한 경우, 어조가 달라지는 어구를 주요 표현 어구로 추출할 수 있다.
텍스트 분석부(232)는 어구와 어구 간의 주파수 대역이 기 설정된 대역 이상 변경된 경우, 어조가 달라진 것으로 판단할 수 있다.
텍스트 분석부(232)는 변환된 텍스트의 어구 내에, 주요 단어를 추출할 수도 있다. 주요 단어란 어구 내에 존재하는 명사일 수 있으나, 이는 예시에 불과하다.
특징 클러스터링부(233)는 음성 분석부(231)에서 추출된 음성의 특성 정보를 이용하여, 화자의 발화 유형을 분류할 수 있다.
특징 클러스터링부(233)는 음성의 특성 정보를 구성하는 유형 항목들 각각에, 가중치를 두어, 화자의 발화 유형을 분류할 수 있다.
특징 클러스터링부(233)는 딥러닝 모델의 어텐션(attention) 기법을 이용하여, 화자의 발화 유형을 분류할 수 있다.
텍스트 매핑부(234)는 제1 언어로 변환된 텍스트를 제2 언어의 텍스트로 번역할 수 있다.
텍스트 매핑부(234)는 제2 언어로 번역된 텍스트를 제1 언어의 텍스트와 매핑 시킬 수 있다.
텍스트 매핑부(234)는 제1 언어의 텍스트를 구성하는 주요 표현 어구를 이에 대응하는 제2 언어의 어구에 매핑 시킬 수 있다.
텍스트 매핑부(234)는 제1 언어의 텍스트를 구성하는 주요 표현 어구에 대응하는 발화 유형을 제2 언어의 어구에 매핑 시킬 수 있다. 이는, 제2 언어의 어구에 분류된 발화 유형을 적용시키기 위함이다.
음성 합성부(235)는 텍스트 매핑부(234)에서 제2 언어로 번역된 텍스트의 주요 표현 어구에, 특징 클러스터링부(233)에서 분류된 발화 유형 및 화자의 음색을 적용하여, 합성된 음성을 생성할 수 있다.
컨트롤러(230)는 전달된 텍스트 데이터 또는 파워 스펙트럼(430) 중 하나 이상을 이용하여, 사용자의 발화 특징을 결정할 수 있다.
사용자의 발화 특징은 사용자의 성별, 사용자의 음의 높낮이, 사용자의 음색, 사용자의 발화 주제, 사용자의 발화 속도, 사용자의 성량 등을 포함할 수 있다.
컨트롤러(230)는 파워 스펙트럼(430)을 이용하여, 음성 신호(410)의 주파수 및 주파수에 대응하는 진폭을 획득할 수 있다.
컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역을 이용하여, 음성을 발화한 사용자의 성별을 결정할 수 있다.
예를 들어, 컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역이 기 설정된 제1 주파수 대역 범위 내인 경우, 사용자의 성별을 남자로 결정할 수 있다.
컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역이 기 설정된 제2 주파수 대역 범위 내인 경우, 사용자의 성별을 여자로 결정할 수 있다. 여기서, 제2 주파수 대역 범위는 제1 주파수 대역 범위보다 클 수 있다.
컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역을 이용하여, 음성의 높낮이를 결정할 수 있다.
예를 들어, 컨트롤러(230)는 특정 주파수 대역 범위 내에서, 진폭의 크기에 따라 음의 높낮이 정도를 결정할 수 있다.
컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역을 이용하여, 사용자의 음색(tone)을 결정할 수 있다. 예를 들어, 컨트롤러(230)는 파워 스펙트럼(430)의 주파수 대역들 중, 진폭의 크기가 일정 크기 이상인 주파수 대역을 사용자의 주요 음역대로 결정하고, 결정된 주요 음역대를 사용자의 음색으로 결정할 수 있다.
컨트롤러(230)는 변환된 텍스트 데이터로부터, 단위 시간 당 발화된 음절 수를 통해, 사용자의 발화 속도를 결정할 수 있다.
컨트롤러(230) 변환된 텍스트 데이터에 대해, Bag-Of-Word Model 기법을 이용하여, 사용자의 발화 주제를 결정할 수 있다.
Bag-Of-Word Model 기법은 문장 내 단어 빈도 수 기반으로, 주로 사용하는 단어를 추출하는 기법이다. 구체적으로, Bag-Of-Word Model 기법은 문장 내에서, 유니크한 단어를 추출하고, 추출된 각 단어의 빈도 수를 벡터로 표현하여, 발화 주제를 특징을 결정하는 기법이다.
예를 들어, 컨트롤러(230) 텍스트 데이터에 <달리기>, <체력> 등과 같은 단어가 자주 등장하면, 사용자의 발화 주제를 운동으로 분류할 수 있다.
컨트롤러(230) 공지된 텍스트 카테고리화(Text Categorization) 기법을 이용하여, 텍스트 데이터로부터 사용자의 발화 주제를 결정할 수 있다. 컨트롤러(230) 텍스트 데이터로부터 키워드를 추출하여, 사용자의 발화 주제를 결정할 수 있다.
컨트롤러(230) 전체 주파수 대역에서의 진폭 정보를 고려하여 사용자의 성량을 결정할 수 있다.
예컨대, 컨트롤러(230) 파워 스펙트럼의 각 주파수 대역에서의 진폭의 평균 또는 가중치 평균을 기준으로 사용자의 성량을 결정할 수 있다.
통신부(270)는 외부 서버와 유선 또는 무선으로 통신을 수행할 수 있다.
데이터베이스(290)는 컨텐트에 포함된 제1 언어의 음성을 저장할 수 있다.
데이터베이스(290)는 제1 언어의 음성이 제2 언어의 음성으로 변환된 합성 음성을 저장할 수 있다.
데이터베이스(290)는 제1 언어의 음성에 대응하는 제1 텍스트, 제1 텍스트가 제2 언어로 번역된 제2 텍스트를 저장할 수 있다.
데이터베이스(290)는 음성 인식에 필요한 다양한 학습 모델을 저장하고 있을 수 있다.
한편, 도 2에 도시된 인공지능 기기(10)의 프로세서(180)는 도 3에 도시된 전처리부(220) 및 컨트롤러(230)를 구비할 수 있다.
즉, 인공지능 기기(10)의 프로세서(180)는 전처리부(220)의 기능 및 컨트롤러(230)의 기능을 수행할 수도 있다.
도 5는 본 발명의 일 실시 예에 따라, 인공지능 기기의 음성 인식 및 합성을 위한 프로세서의 구성을 설명하는 블록도이다.
즉, 도 5의 음성 인식 및 합성 과정은 서버를 거치지 않고, 인공지능 기기(10)의 러닝 프로세서(130) 또는 프로세서(180)에 의해 수행될 수도 있다.
도 5를 참조하면, 인공지능 기기(10)의 프로세서(180)는 STT 엔진(510), NLP 엔진(530), 및 음성 합성 엔진(550)를 포함할 수 있다.
각 엔진은 하드웨어 또는 소프트웨어 중 어느 하나일 수 있다.
STT 엔진(510)은 도 1의 STT 서버(20)의 기능을 수행할 수 있다. 즉, STT 엔진(410)은 음성 데이터를 텍스트 데이터로 변환할 수 있다.
NLP 엔진(530)은 도 1의 NLP 서버(30)의 기능을 수행할 수 있다. 즉, NLP 엔진(530)은 변환된 텍스트 데이터로부터 발화자의 의도를 나타내는 의도 분석 정보를 획득할 수 있다.
음성 합성 엔진(550)은 도 1의 음성 합성 서버(40)의 기능을 수행할 수 있다.
음성 합성 엔진(550)은 주어진 텍스트 데이터에 대응하는 음절 또는 단어를 데이터 베이스로부터 검색하고, 검색된 음절 또는 단어들의 조합을 합성하여, 합성 음성을 생성할 수 있다.
음성 합성 엔진(550)은 전처리 엔진(551) 및 TTS 엔진(553)을 포함할 수 있다.
전처리 엔진(551)은 합성 음성을 생성하기 전, 텍스트 데이터를 전처리할 수 있다.
구체적으로, 전처리 엔진(551)은 텍스트 데이터를 의미 있는 단위인 토큰으로 나누는 토큰화를 수행한다.
토큰화 수행 후, 전처리 엔진(551)은 노이즈 제거를 위해 불필요한 문자, 기호를 제거하는 클렌징 작업을 수행할 수 있다.
그 후, 전처리 엔진(551)는 표현 방법이 다른 단어 토큰들을 통합시켜, 같은 단어 토큰을 생성할 수 있다.
그 후, 전처리 엔진(551)는 의미 없는 단어 토큰(불용어, stopword)을 제거할 수 있다.
TTS 엔진(553)은 전처리 된 텍스트 데이터에 상응하는 음성을 합성하고, 합성 음성을 생성할 수 있다.
도 6은 본 개시의 실시 예에 따른 스탠드 타입의 디스플레이 장치의 가로 모드 및 세로 모드를 설명하기 위한 도면이다.
도 6의 (a) 및 도 6의 (b)를 참조하면, 스탠드 타입의 인공지능 기기(10)가 도시되어 있다.
인공지능 기기(10)에는 샤프트(603) 및 스탠드 베이스(605)가 연결될 수 있다.
샤프트(603)는 인공지능 기기(10) 및 스탠드 베이스(605)를 이어줄 수 있다. 상기 샤프트(603)는 수직하게 연장될 수 있다.
샤프트(603)의 하단은 스탠드 베이스(605)의 가장자리부에 연결될 수 있다.
샤프트(603)의 하단은 스탠드 베이스(605)의 둘레부에 회전 가능하게 연결될 수 있다.
인공지능 기기(10) 및 샤프트(603)는 스탠드 베이스(605)에 대해 수직축(axis)을 중심으로 회전할 수 있다.
샤프트(603)의 상부는 인공지능 기기(10)의 후면에 연결될 수 있다.
스탠드 베이스(605)는 인공지능 기기(10)를 지지하는 역할을 할 수 있다.
인공지능 기기(10)는 샤프트(603) 및 스탠드 베이스(605)를 포함하도록 구성될 수 있다.
인공지능 기기(10)는 샤프트(603)의 상부와 디스플레이(151)의 후면이 맞닿은 지점을 중심으로 회전할 수 있다.
도 6의 (a)는 디스플레이(151)의 가로 길이가 세로 길이보다 큰 자세를 갖는 가로 모드로 동작함을 나타내고, 도 6의 (b)는 디스플레이(151)의 세로 길이가 가로 길이보다 큰 자세를 갖는 가로 모드로 동작함을 나타낼 수 있다.
사용자는 스탠드 타입의 인공지능 기기(10)를 들고 이동할 수 있다. 즉, 스탠드 타입의 인공지능 기기(10)는 고정된 기기와는 달리 이동성이 향상되어 사용자는 배치 위치에 구애받지 않는다.
음성 서비스 시스템 또는 인공지능 기기(10)에서 원거리 기동어(Wake-up Words) 수신에 따른 음성 인식 처리 방법에 대해 기술한다.
이하에서는, 설명의 편의상 인공지능 기기(10)에서 원거리 기동어와 관련하여 음성 인식 처리 방법을 일실시예로 하여 설명한다. 관련하여, 도 5에 도시된 인공지능 기기(10) 내 STT 엔진(510), NLP 엔진(530) 등이 원거리 기동어에 따른 음성 인식 처리를 위한 동작을 수행할 있다.
실시예에 따라서, 도 5에 도시된 인공지능 기기(10) 내 STT 엔진(510), NLP 엔진(530) 등의 역할은 도 1에 도시된 음성 서비스 시스템 내 STT 서버(20), NLP 서버(40) 등에 의해 대체될 수 있다. 다른 실시예에 따르면, 도 1의 서버와 도 5의 엔진이 조합되어 본 개시에 따른 음성 인식 처리 방법이 수행될 수도 있다.
본 개시에서 설명되는 원거리 기동어는, 기본(또는 디폴트) 원거리 기동어와 사용자 정의 원거리 기동어로 구분할 수 있다.
“기본 원거리 기동어”란, 인공지능 기기(10)(또는 음성 서비스 서버(200))의 제조사에 의해 임베디드 된 원거리 기동어를 나타낼 수 있다. 기본 원거리 기동어는, 사용자 정의 원거리 기동어와 달리 조건에 구애되지 않고 누구나 인공지능 기기(10)에 대해 사용할 수 있는 원거리 기동어를 나타낼 수 있다. 이러한 기본 원거리 기동어로, ‘하이 엘지(Hi LG)’를 예로 들 수 있다. 다만, 이에 한정되는 것은 아니다.
반면, “사용자 정의 원거리 기동어”란, 전술한 기본 원거리 기동어와 달리 사용자에 의해 원거리 기동어로 임의로 정의되는 원거리 기동어를 나타낼 수 있다. 이러한 사용자 정의 원거리 기동어는 그 이용 전에 인공지능 기기(10)와 음성 서비스 서버(200) 중 적어도 하나에 미리 등록되는 것이 바람직하다. 기본 원거리 기동어와 구분 및 혼동 방지를 위하여, 사용자 정의 원거리 기동어는 기본 원거리 기동어와 형태소, 단어나 어절 등이 중복되지 않도록 선정되는 것이 바람직하다. 기본 원거리 기동어와 달리, 사용자 정의 원거리 기동어는 특정 사용자에 대해서만 인공지능 기기(10)가 기능하도록 맞춤형 설정을 할 수 있다. 따라서 사용자는 사용자 정의 원거리 기동어를 통해 개인화된 인공지능 기기(10)를 가질 수 있다.
이하에서는 기본 원거리 기동어가 아닌, 사용자 정의 원거리 기동어에 기초하여 인공지능 기기(10)에서 개인 맞춤형 서비스를 제공하는 방법에 대해 개시한다. 다만, 본 개시는 이에 한정되는 것은 아니며, 사용 시나리오 등에 따라 기본 원거리 기동어도 사용자 정의 원거리 기동어와 함께 이용될 수 있다.
일실시예에 따르면, 사용자 정의 원거리 기동어는 기능적으로는 기본 원거리 기동어를 대체할 수 있다.
또한, 사용자 정의 원거리 기동어는, 기본 원거리 기동어와 달리, 인공지능 기기(10)에 등록된 사용자의 개인 정보 등이 포함된 다양한 정보와 자동으로 연동될 수 있을 뿐만 아니라 명령어들에 대한 매크로(macro) 기능을 이용할 수도 있다. 다만, 본 개시가 이에 반드시 한정되는 것은 아니며, 기본 원거리 기동어에 대해서도 전술한 연동 및 매크로 기능이 적용될 수 있다.
도 7은 본 개시의 다른 일 실시 예에 따른 인공지능 기기(10)의 구성 블록도이다.
도 7을 참조하면, 인공지능 기기(10)는, 사용자 정의 원거리 기동어를 처리하기 위해, 통신부(미도시), 디스플레이(150 또는 151)와 처리부(700)를 포함하여 구성될 수 있다.
통신부는 인공지능 기기(10)와 음성 서비스 서버(200) 사이에 통신을 지원할 수 있다.
디스플레이(150 또는 151)는 후술하는 본 개시에 따른 사용자 정의 원거리 기동어의 처리(등록, 사용 등)와 관련하여, 사용자 인터페이스 내지 OSD(On Screen Display) 메시지와, 그 처리에 따른 정보의 출력, 기능 실행/수행 화면 등을 제공할 수 있다.
처리부(700)는 메모리(710)와 프로세서(720)를 포함하여 구성될 수 있다.
처리부(700)는 음성 서비스 서버(200)와 연결되어 데이터를 주고받을 수 있다.
메모리(710)는 처리부(700)에서 수신하거나 처리되는 데이터를 포함하여 다양한 데이터를 저장할 수 있다.
메모리(710)는 처리부(700)에서 처리되었거나 음성 서비스 서버(200)로부터 수신되는 NLP 결과 정보를 저장할 수 있다.
메모리(710)는, 인공지능 기기(10)에 등록된 각 사용자의 개인 정보, 각 사용자의 사용자 정의 원거리 기동어, 매크로 기능 정보 등을 포함한 다양한 정보를 저장할 수 있다.
프로세서(720)는, 메모리(710)에 저장된 각 사용자의 개인 정보와 사용자 정의 원거리 기동어 사이의 링크 정보를 생성할 수 있다.
프로세서(720)는, 메모리(710)에 저장된 각 사용자의 사용자 정의 원거리 기동어와 매크로 기능 정보 사이의 링크 정보를 생성할 수 있다.
프로세서(720)는, 메모리(710)에 저장된 각 사용자의 개인 정보, 매크로 정보 및 사용자 정의 원거리 기동어 사이의 링크 정보를 생성할 수 있다.
전술한 링크 정보는 반드시 사용자 정의 원거리 기동어에 대해서만 생성되는 것이 아니라 기본 원거리 기동어에 대해서도 생성될 수 있다.
프로세서(720)는 디스플레이(150 또는 151)를 제어하여 링크 정보에 기초하여 다양한 정보(또는 추천 정보), 기능(또는 추천 기능), 서비스(또는 추천 서비스) 등을 사용자에게 제공될 수 있다.
음성 서비스 서버(200)는 전술한 바와 같이, 도 1에 도시된 STT 서버(20)와 NLP 서버(30)를 포함할 수 있으며, 실시예에 따라 음성 합성 서버(40)까지 포함할 수 있다. 이하에서 음성 서비스 서버(200)라고 기술하는 경우에는 NLP 서버(30)를 나타낼 수도 있고, STT 서버(20) 및 음성 합성 서버(40) 중 적어도 하나를 더 포함하는 의미일 수도 있다. 다만, 이에 한정되는 것은 아니다.
한편, 인공지능 기기(10)와 음성 서비스 서버(200) 사이에서 음성 인식/음성 합성 처리 과정에 대해서는 전술한 도 1 내지 5에 개시한 내용을 참조하고, 여기서 중복 설명은 생략한다.
한편, 프로세서(720)는 도 2의 프로세서(180)와 동일한 구성일 수도 있으나, 별개의 구성일 수도 있다.
본 개시에서 설명의 편의상 인공지능 기기(10)로만 설명되더라도 그것은 문맥에 따라 음성 서비스 서버(200)로 대체되거나 포함하는 의미일 수 있다.
도 8은 인공지능 기기(10)에 사용자 정의 원거리 기동어 등록 과정을 설명하기 위한 것이다.
도 8에서는 설명의 편의상 사용자 정의 원거리 기동어는 인공지능 기기(10)에 선등록 후 NLP 서버(30)로 전달되어, NLP 서버(30)에도 등록 또는 저장되는 것을 일실시예로 하여 설명한다. 다만, 반드시 이에 한정되는 것은 아니다. 예를 들어, 사용자 정의 원거리 기동어는 인공지능 기기(10)를 통해 NLP 서버(30)로 전달되고, NLP 서버(30)에서 선 등록되어 이후 인공지능 기기(10)는 NLP 서버(30)의 제어에 따라 동작할 수도 있다. 이 때, 인공지능 기기(10)는 사용자 정의 원거리 기동어를 별도 후등록 할 수도 있고, 그렇지 않을 수도 있다.
인공지능 기기(10)는 사용자로부터 고유의 사용자 정의 원거리 기동어를 수신할 수 있다(S101).
인공지능 기기(10)는 S101 단계를 통해 수신되는 사용자 정의 원거리 기동어를 등록할 수 있다(S103).
인공지능 기기(10)는 S103 단계를 통해 등록된 사용자 정의 원거리 기동어를 NLP 서버(30)로 전달할 수 있다(S105).
NLP 서버(30)는 S105 단계를 통해 인공지능 기기(10)로부터 전달받은 사용자 정의 원거리 기동어를 등록할 수 있다(S107).
NLP 서버(30)는 S107 단계에서 인공지능 기기(10)로부터 전달받은 사용자 정의 원거리 기동어가 등록되었음을 인공지능 기기(10)에 리턴 또는 보고(return or report)할 수 있다(S109).
인공지능 기기(10)는 사용자 정의 원거리 기동어에 따른 화면을 제공할 수 있다(S111).
도 11은 본 개시의 일실시예에 따른 인공지능 기기(10)에서 사용자 정의 원거리 기동어를 등록하는 방법을 설명하기 위해 도시한 도면이다.
원격제어장치(미도시)를 통한 소정 버튼 입력에 따라 S101 단계의 사용자 정의 원거리 기동어의 등록을 위한 절차가 개시될 수 있다. 이 때, 원격제어장치에는 AI 스피커, 스마트폰, 태블릿pc, 웨어러블 디바이스 등 중 적어도 하나가 포함될 수 있다. 원격제어장치는 인공지능 기기(10)와 음성 입력 등 데이터 커뮤니케이션을 위하여 필요한 어플리케이션, 프로그램, API(Application Program Interface) 등 펌웨어/소프트웨어 등이 설치된 기기일 수 있다. 또한, 원격제어장치는 인공지능 기기(10)에 미리 등록된 기기를 나타낼 수 있다.
실시예에 따라서, 전술한 원격제어장치를 통하거나, 별도의 사용자 정의 원거리 기동어의 등록을 위한 사용자 인터페이스가 제공되거나 등록을 위한 절차가 개시되지 않았다고 하더라도, S101 단계의 사용자 정의 원거리 기동어가 미리 정의된 횟수 이상 동일한 음성 입력이 반복하여 입력되는 경우, 인공지능 기기(10)는 S103 단계와 같이 사용자 정의 원거리 기동어로 등록하거나 사용자 정의 원거리 기동어의 등록을 위한 절차를 개시할 수 있다. 이 때, 동일한 음성 입력은, 기본 원거리 기동어만(‘하이 엘지, 사용자 정의 기동어, 사용자 정의 기동어, …, 사용자 정의 기동어’ 등) 또는 기본 원거리 기동어와 함께(예를 들어, '하이 엘지, 사용자 정의 원거리 기동어 등록’, ‘하이 엘지 기동어 등록’ 등) 발화된 이후에 입력된 경우에만, 인공지능 기기(10)에서 유효하게 처리할 수도 있다.
도 11의 (a)는 인공지능 기기(10)에서 음성인식 설정을 위해 제공하는 사용자 인터페이스의 일예이다. 사용자 호출어(원거리 기동어) 등록이란 항목이 선택되는 경우, 인공지능 기기(10)는 원하는 음성인식 호출어 즉, 사용자 정의 원거리 기동어를 등록할 수 있다.
도 11의 (b) 내지 (e)는 호출어 즉, 사용자 정의 원거리 기동어의 등록 절차에 관한 것으로, 호출어가 사용되는 경우에 그 인식의 정확성을 높이기 위하여, 인공지능 기기(10)에서는 사용자의 호출어에 대한 다양한 감정 상태에 따른 음성 입력을 요청할 수 있다. 도 13의 (b) 내지 (e)에서는 호출어를 각각 다정하게, 무뚝뚝하게, 화내듯이 및 우울하게 발화하도록 유도할 수 있다. 다만, 이에 한정되는 것은 아니며, 인공지능 기기(10)는 화자의 다른 감정 상태나 늬앙스에 대한 발화를 유도할 수 있다. 한편, 도 11의 (b) 내지 (e)에서는, 각각 호출어의 등록 상태를 숫자 및 바(bar) 형태로 제공하여, 사용자의 호출어 정의 등록 절차의 상태를 쉽게 인지할 수 있도록 제공할 수 있다.
등록 절차가 마무리된 경우, 인공지능 기기(10)는 등록된 사용자 정의 원거리 기동어를 출력하여, 사용자의 등록 수정 내지 재등록 등 절차를 진행할 수 있도록 서비스를 구성할 수 있다. 상기에서, 인공지능 기기(10)는 사용자에 의해 요청된 사용자 정의 원거리 기동어 등록이 완료되는 경우, 등록 완료 메시지와 함께 사용자 정의 원거리 기동어의 발화를 요청하고, 발화 시 음성 에이전트를 제공하여, 등록된 사용자 정의 원거리 기동어에 대한 확인 절차를 수행할 수 있다. 해당 절차는 서버(200)에 등록 이후 서버(200)의 요청이나 서버(200)의 제어를 받아 수행될 수 있다.
사용자 정의 원거리 기동어는, 연관된 사용자 정보 등과 매핑될 수 있다. 이는 사용자 정의 원거리 기동어의 등록 시 또는 등록 이후에 이루어질 수 있다.
도 12 내지 14는 본 개시의 일실시예에 따라 사용자 정의 원거리 기동어와 사용자 정보의 연동 방법을 설명하기 위해 도시한 도면이다.
도 15 내지 16은 본 개시의 일실시예에 따라 등록된 사용자 정의 원거리 기동어 리스트를 설명하기 위해 도시한 도면이다.
도 12는 사용자 정의 원거리 기동어를 등록하는 단계(또는 등록 이후에)에서 사용자 정보 중 계정 정보와 연동 시, 인공지능 기기(10)에서 제공하는 사용자 인터페이스를 도시한 것이다.
여기서, 계정 정보는 예컨대, 인공지능 기기(10)의 로그인 정보를 나타낼 수 있으나, 이에 한정되는 것은 아니다.
도 12의 (a)를 참조하면, 인공지능 기기(10)는 사용자 정의 원거리 기동어와 함께 연동 가능한 계정 리스트를 제공할 수 있다.
도 12의 (a)에 제공된 계정 리스트에서 적어도 하나의 계정이 선택되면, 인공지능 기기(10)는 도 12의 (b)에 도시된 바와 같이, 해당 계정의 상세 정보를 제공할 수 있다. 계정 상세 정보에는 계정의 사용자, 계정 어드레스와 함께 계정 비밀번호 등 중 적어도 하나가 제공될 수 있다. 도 12의 (b)에서는 확인 버튼이 액세스되면, 인공지능 기기(10)는 해당 계정과 사용자 정의 원거리 기동어가 연동되도록 설정 등록할 수 있다.
실시예에 따라서, 인공지능 기기(10)는 사용자 정의 원거리 기동어의 등록 과정에서 사용자가 식별되는 경우에는, 도 12의 (a)에 도시된 계정 리스트를 대신하여 해당 사용자의 계정 정보만 제공할 수 있으며, 선택에 따라 도 12의 (b)에서 해당 계정 정보의 제공과 함께 선택에 따라 연동되도록 처리할 수도 있다.
도 13은, 도 12와 달리, 사용자가 계정 로그인 절차를 밟는 경우에 사용자 정의 원거리 기동어와 연동하는 방법을 설명하기 위해 도시한 것이다.
도 13의 (a)와 (b)는 인공지능 기기(10)에서 사용자의 계정 로그인 시에 제공하는 사용자 인터페이스 화면의 예시이다.
도 13의 (a)와 (b)에 도시된 사용자 인터페이스를 참조하면, 인공지능 기기(10)는 계정 로그인 창에서 별도의 경로를 거치지 않고도 바로 사용자의 호출어 즉, 사용자 정의 원거리 기동어의 등록 절차를 밟을 수 있도록 기능(버튼)을 제공할 수 있다.
도 13의 (a)에서 사용자 호출어 등록 기능이 활성화되면, 도 13의 (c)에 도시된 바와 같이, 사용자 호출어의 등록 절차를 수행할 수 있다. 도 13의 (c)는 도 11의 (b) 내지 (e)와 같이 수행될 수 있다.
도 13에서는 계정 로그인 과정에서 다른 경로를 통하지 않고 바로 사용자 정의 원거리 기동어의 등록 절차를 수행하는 것에 관해 설명하였으나, 사용자 정의 원거리 기동어가 계정 로그인 이전에 이미 등록된 경우에도 도 12의 (a)에 도시된 바와 유사한 방식으로, 등록된 사용자 정의 원거리 기동어의 리스트를 제공하여 선택에 따라 연동될 수도 있다.
도 14는 인공지능 기기(10)에서 제공하는 개인 정보에 대한 사용자 인터페이스 화면의 예시이다.
사용자는 도 14의 사용자 인터페이스를 통하여, 사용자 정의 원거리 기동어를 등록, 등록된 사용자 정의 원거리 정보와 계정 정보를 연동 및 연동된 계정을 변경할 수도 있다.
한편, 도 14에 도시된 바와 같이, 인공지능 기기(10)는 적어도 하나의 사용자 정의 원거리 기동어가 계정과 연동되는 경우, 해당 계정에 이미 연동되어 있는 개인 정보 등도 함께 또는 한 번에 이어서 연동되도록 서비스를 구성할 수 있다.
상기에서, 개인 정보에는, 개인 프로필 정보, 결제 및 구독 정보, 연동된 아이디 정보 등이 포함될 수 있으나, 이에 한정되는 것은 아니다.
개인 프로필 정보에는, 계정 사용자 이름, 생년월일, 성별, 연락처, 이메일 등의 정보가 포함될 수 있다.
결제 및 구독 정보에는, 결제 수단, 결제 비밀번호 등의 정보가 포함될 수 있다.
연동된 아이디 정보에는, 각종 유료 또는 무료 OTT(Over The Top) 서비스 내지 어플리케이션의 아이디/비밀번호 등의 정보가 포함될 수 있다.
인공지능 기기(10)는 사용자 정의 원거리 기동어와 계정 정보를 연동하는 경우, 연동된 계정에 이미 연동된 정보들 중 일부 또는 전부를 선택적으로 연동 가능하도록 서비스를 구성할 수 있다. 예를 들어, 인공지능 기기(10)는 사용자에게 해당 계정에 이미 연동된 정보들 중 일부가 선택되면, 선택된 일부만 사용자 정의 원거리 기동어와 연동되도록 할 수 있다.
따라서, 하나의 계정에 복수의 사용자 정의 원거리 기동어가 연동되는 경우, 각 사용자 정의 원거리 기동어에 따라 해당 계정과 연동 시 활성화되는 개인 정보는 상이할 수 있다.
도 15는 인공지능 기기(10)에서 사용자 정의 원거리 기동어와 연동된 계정 정보의 리스트를 제공하기 위한 사용자 인터페이스 화면의 예시이다.
도 15의 (a)의 리스트를 통해 사용자는 인공지능 기기(10) 상에서 사용자 정의 원거리 기동어와 연동된 계정 정보를 확인할 수 있으며, 선택에 따라 개별 계정에 연동된 사용자 정의 원거리 기동어를 청취할 수도 있다. 인공지능 기기(10)는 연동된 사용자 정의 원거리 기동어에 상응하는 텍스트 데이터를 제공할 수도 있다.
인공지능 기기(10)는 로그인한 사용자에 따라서, 도 15의 (a)에 도시된 리스트를 제공하되, 다른 사용자의 계정 및 그에 연동된 사용자 정의 원거리 기동어는 비활성화시켜 액세스가 가능하지 않도록 처리할 수도 있다. 또는, 도 15의 (a)에 도시된 리스트에서 다른 사용자의 계정 및 그에 연동된 사용자 정의 원거리 기동어는 필터링하여 리스트에서 제외하여 제공하지 않을 수도 있다.
도 15의 (a)의 리스트에서 어느 하나의 계정이 선택되면, 도 15의 (b)와 같은 개인 정보 화면(상세 정보 화면)이 제공될 수 있다. 이 때, 도 15의 (b)는 정보 및 설명은 도 14와 동일한바, 중복 설명은 생략한다.
인공지능 기기(10)는 하나의 사용자에 대해 적어도 하나 이상의 사용자 정의 원거리 기동어를 등록할 수 있다. 인공지능 기기(10)는 하나의 사용자에 대해 복수의 사용자 정의 원거리 기동어가 등록된 경우, 이를 그룹핑(groupping)하여 함께 관리할 수 있다.
S111 단계 즉, 인공지능 기기(10)에서 화면 제공은, NLP 서버(30)로부터 전달받은 사용자 정의 원거리 기동어 등록 사실 리턴 또는 보고와 무관하게 또는 동시에 이루어질 수 있다.
도 8의 고유의 사용자 정의 원거리 기동어의 등록 절차는, 전체 화면(full-screen)을 이용하는 원거리 기동어 등록 전용 페이지(또는 어플리케이션 실행 화면)를 통해 이루질 수 있다.
다른 실시예에 따르면, 도 8 및 도 10 내지 15 중 적어도 하나의 도면에서, 고유의 사용자 정의 원거리 기동어의 등록 절차는, 인공지능 기기(10)가 현재 제공하는 컨텐츠 상에 팝-업 창(pop-up window)이나 OSD(On Screen Display) 메시지 창을 통해 이루어질 수 있다.
또 다른 실시예에 따르면, 도 8 및 도 10 내지 15 중 적어도 하나의 도면에서, 고유의 사용자 정의 원거리 기동어의 등록 절차는, 인공지능 기기(10)가 멀티-뷰 모드(multi-view mode)를 지원하고, 현재 모드가 멀티-뷰 모드인 경우에는, 어느 하나의 뷰를 통해 이루어질 수 있으며, 다른 뷰에서는 이전 재생 화면을 계속하여 제공하거나 그렇지 않을 수 있다.
본 개시에 따르면, 사용자는 디폴트로 설정되어 변경이 불가능한 기본 원거리 기동어가 아니라 자신이 원하는 기동어를 원거리 기동어 즉, 사용자 정의 원거리 기동어를 등록함으로써, 등록된 사용자 정의 원거리 기동어를 이용하여 인공지능 기기(10)를 제어할 수 있다. 즉, 사용자는 사용자 정의 기동어와 명령어를 함께 사용하여, 인공지능 기기(10)를 개인 맞춤형 기기로 변경시켜 원하는 대로 구성 및 이용할 수 있다.
실시예에 따라서, 사용자는 사용자 정의 기동어를 통해 인공지능 기기(10)를 개인 맞춤형 기기로 변경 후에 추가적인 기동어를 입력 즉, 발화할 필요없이 명령어를 통해 인공지능 기기(10)를 제어할 수 있다. 또한, 사용자는 자주 사용하거나 원하는 명령어, 원하는 기능, 원하는 정보 등을 매크로로 등록하여, 사용자 정의 기동어를 통해 매크로 기능을 활성화시켜 이용 편의성을 높일 수도 있다. 추가적인 기동어 발화 없이 인공지능 기기(10)를 제어하거나 매크로 기능의 활성화 등은, 시간 정보, 공간 정보 등 루틴 정보와 결합되어, 그 활성화가 결정될 수도 있다.
이러한 사용자 정의 원거리 기동어를 통해, 인공지능 기기(10)는 기본 원거리 기동어 외에도 사용자에 맞게 개인 맞춤형 기기처럼 다양한 개인 기동어를 사용할 수 있도록 하여, 사용자의 이용 만족도를 높일 수 있다. 또한, 상대적으로 대형 디스플레이가 채용된 인공지능 기기(10)에 대해서도 모바일 기기처럼 개인화를 지원하고 개인 히스토리까지 지원하여, 즐겨 사용하는 기능 등에 대해서도 보다 쉽고 간편하게 접근하고 이용할 수 있도록 지원하여, 이용 만족도를 높일 수 있다. 나만의 고유한 단어를 사용한 개인 기동어를 통해 다른 사람과 차별화를 시도 가능하며, 인공지능 기기(10)의 이용에 따른 보안성도 높일 수 있다. 더불어, 개인 기동어를 통해 인공지능 기기(10)와 사용자의 다른 기기들과의 연동도 보다 쉽게 이루어지고, 함께 처리할 수 있어, 이용 편의성을 높일 수도 있다.
이하에서는, 전술한 과정을 통해, 사용자 정의 원거리 기동어가 등록된 이후에, 그 사용에 따른 인공지능 기기(10)의 동작에 대해 기술한다.
사용자가 사용자 정의 원거리 기동어(예를 들어, “짱구야”)와 사용자의 모바일 기기를 등록하고, "짱구야, 내 폰 보여줘"라고 발화하면, 사용자의 모바일 기기의 화면이 미러링 방식으로 자동 연동된 인공지능 기기(10)의 화면상에 제공될 수 있다.
또한, 사용자가 "짱구야, 내 사진 보여줘"라고 발화하면, 인공지능 기기(10)는 인공지능 기기(10)와 사용자의 모바일 기기 중 적어도 하나에 저장된 사진들 중에서, 사용자가 선택한 사진들을 제공할 수 있다.
또한, 사용자가 "사랑아, 내가 즐겨보는 드라마 보여줘"라고 발화하면, 인공지능 기기(10)는 이전에 사용자가 즐겨보는 드라마에 대한 리스트를 제공할 수 있다(개인 히스토리화 가능). 이 때, 즐겨보는 드라마는 단편 드라마를 중복하여 시청한 경우, 장편 드라마의 여러 회차 드라마를 시청한 경우, 시리즈물인 경우 하나의 시리즈를 모두 시청하였고 다음 시리즈가 나온 경우, 등을 포함할 수 있다.
사용자는 사용자 정의 원거리 기동어를 발화하여, 기기 목록에서 찾아서 일일이 선택하지 않아도 사용자의 모바일 기기나 인공지능 기기(10)의 주변 기기(예를 들어, 사운드바, 무선 헤드셋 등)와 손쉽게 연동될 수 있다.
도 9는 본 개시의 일실시예에 따른 음성 서비스 시스템에서 사용자 정의 원거리 기동어의 사용 방법을 설명하기 위해 도시한 도면이다.
도 10은 본 개시의 다른 일실시예에 따른 음성 서비스 시스템에서 사용자 정의 원거리 기동어의 사용 방법을 설명하기 위해 도시한 도면이다.
도 9와 10에서는, 전술한 도 8, 도 10 내지 15를 통해, 음성 서비스 시스템에 이미 사용자 정의 원거리 기동어가 등록된 경우로 가정한다.
인공지능 기기(10)는 사용자로부터 음성 입력을 수신할 수 있다(S201).
인공지능 기기(10)는 수신된 음성 입력을 NLP 서버(30)로 전달할 수 있다(S203).
NLP 서버(30)는 전달된 음성 입력에 대해 STT 처리를 하고(S205), 음성 입력이 원거리 기동어인지 판단할 수 있다(S207).
NLP 서버(30)는 S207 단계 판단 결과, 해당 음성 입력이 원거리 기동어인 경우, 사용자 정의 원거리 기동어인지 판단할 수 있다(S209).
NLP 서버(30)는 S209 단계 판단 결과, 해당 음성 입력이 사용자 정의 원거리 기동어인 경우, 사용자 정의 원거리임을 식별할 수 있는 정보와 대응 정보를 인공지능 기기(10)로 전송할 수 있다(S211).
인공지능 기기(10)는 S211 단계를 통해 NLP 서버(30)로부터 전송되는 정보에 기초하여 대응 동작을 수행할 수 있다. 대응 동작에는 예를 들어, 연동된 계정으로의 로그인 수행, 연동된 계정 정보 제공 등이 포함될 수 있다.
반면, NLP 서버(30)는 S207 단계에서 판단 결과 원거리 기동어가 아닌 경우, 해당 음성 입력에 대한 STT 처리 데이터에 대한 의도 분석을 하여, 의도 분석 결과 정보를 생성할 수 있다(S213).
NLP 서버(30)는 S213 단계를 통해 해당 음성 입력에 대한 의도 분석 결과 정보를 인공지능 기기(10)로 전달할 수 있다(S215).
인공지능 기기(10)는 S213 단계를 통해 전달된 의도 분석 결과 정보에 기초하여 대응 동작을 수행하고, 수행되는 대응 동작에 따른 화면을 출력할 수 있다(S217).
실시예에 따르면, 대응 동작은 정보(또는 추천 정보)의 출력 또는 기능(또는 추천 기능)의 수행 등이 포함될 수 있다.
또는, S209 단계에서 판단 결과 사용자 정의 원거리 기동어가 아닌 경우에는, 기본 원거리 기동어이므로, 기본 원거리 기동어 식별 정보 및 기본 원거리 기동어 이후의 명령 정보에 대한 의도 분석 및 의도 분석 결과 정보를 생성하고(S213), 의도 분석 결과 정보를 전달할 수 있다(S215). 인공지능 기기(10)는 전달된 기본 원거리 기동어에 따른 명령에 대한 의도 분석 결과 정보에 기초하여 대응 동작을 결정하고, 그에 따른 화면을 출력할 수 있다(S217).
도 9에서는 STT 처리 및 자연어 처리 과정 즉, S205 단계 내지 S211 단계가 NLP 서버(30)에서 이루어졌으나, 도 10에서는 해당 과정이 인공지능 기기(10)에서 이루어질 수 있다. 따라서, 도 10에서 전술한 도 9의 S205 단계 내지 S211 단계에 해당하는 S303 내지 S307 단계에 대한 설명은 그를 원용하고, 중복 설명은 생략한다.
도 10을 참조하면, 인공지능 기기(10)는 사용자의 음성 입력이 수신되면(S301), 이를 NLP 서버(30)로 전달하지 않고 직접 처리(S303 내지 S307)할 수 있다.
즉, 인공지능 기기(10)는 수신되는 음성 입력에 대해 직접 STT 처리(S303)를 수행하고, 원거리 기동어 여부 판단(S305), 사용자 정의 원거리 기동어 여부 판단(S307)을 수행할 수 있다.
인공지능 기기(10)는 상기 S307 단계 판단 결과, 해당 음성 입력이 사용자 정의 원거리 기동어인 경우, 대응 동작을 결정하고 그에 따른 화면을 출력할 수 있다(S313).
다만, 인공지능 기기(10)는 S305 단계에서 해당 음성 입력이 원거리 기동어가 아닌 경우, 해당 음성 입력을 NLP 서버(30)로 전달하고, NLP 서버(30)는 전달받는 음성 입력에 대한 의도를 분석하고, 의도 분석 결과 정보를 생성하여(S309), 인공지능 기기(10)로 리턴할 수 있다(S311). 인공지능 기기(10)는 S311 단계에서 리턴되는 의도 분석 결과 정보에 기초하여 대응 동작을 결정하고, 그에 따른 동작을 수행하여 화면을 출력할 수 있다(S313).
또는, S307 단계에서 판단 결과 사용자 정의 원거리 기동어가 아닌 경우에는, 기본 원거리 기동어이므로, 기본 원거리 기동어 식별 정보 및 기본 원거리 기동어 이후의 명령 정보에 대한 의도 분석 및 의도 분석 결과 정보를 생성하고(S309), 의도 분석 결과 정보를 전달할 수 있다(S211). 인공지능 기기(10)는 전달된 기본 원거리 기동어에 따른 명령에 대한 의도 분석 결과 정보에 기초하여 대응 동작을 결정하고, 그에 따른 화면을 출력할 수 있다(S313).
도 16 내지 23은 본 개시의 일실시예에 따른 등록된 사용자 정의 원거리 기동어의 사용에 따른 인공지능 기기(10)의 동작 방법을 설명하기 위해 도시한 도면이다.
인공지능 기기(10)는 사용자 개인별 맞춤 명령어 사용 시나리오를 지원할 수 있다.
즉, 인공지능 기기(10)는 기동어만으로 개인 명령어 사용 가능하도록 지원하여, 가족이 각자 자신만의 TV 애칭을 기동어로 등록할 수 있도록 하고, 그를 통해 기동어만 발화하여도 개인별 맞춤 명령어를 만들 수 있으며, 기동어에 따라 자주 사용하는 명령어를 등록하면, 개인 기동어만 말해도(예를 들어, 내가 자주 사용하는 명령어를 길게 발화하지 않아도) 간편하게 동작 시킬 수 있다.
종래에는, 기본 원거리 기동어 “하이 엘지“ 발화하고 몇초간 명령어를 발화하지 않으면, “음성을 인식하지 못했습니다. 다시 시도해 주세요.“라는 메시지를 제공함에 그쳤으나, 본 개시에 따라 개인별 맞춤 등록을 통해 “바다야“ 발화하고 몇 초간 명령어를 발화하지 않으면 미리 등록한 명령어 “YouTube에서 BTS 최신 정보”가 실행될 수 있다.
도 16의 (a)는 인공지능 기기(10)에 등록된 사용자 정의 기동어 리스트를 나타낸 것이다. 도 16의 (a)를 참조하면, 아빠는 ‘짱구야’, 엄마는 ‘티비야’ 그리고 나는 ‘내사랑’을 사용자 정의 기동어로 등록한 것을 알 수 있다.
인공지능 기기(10)는 사용자가 사용자 정의 원거리 기동어를 발화하거나 기본 원거리 기동어를 발화하면, 도 16의 (a)와 같은 인공지능 기기(10)에 등록된 사용자 정의 기동어에 대한 정보를 제공하여, 사용자의 원거리 기동어 이용 및 그를 통해 제어 편의를 제공할 수 있다.
인공지능 기기(10)는 컨텐츠(1610)를 제공 중이고, 아빠(사용자)가 ‘짱구야, 오늘 날씨 어때?’라는 사용자 정의 기동어가 포함된 음성을 발화하면, 도 16의 (b)와 같이, 컨텐츠(1610)와 함께 날씨 정보(1620)가 제공될 수 있다.
명령어가 날씨 정보이고, 날씨 정보(1620)는 현재 제공 중인 컨텐츠의 속성에 따라 전체 화면으로 제공될 수도 있고, 도 16의 (b)와 같이 화면 일 영역에 오버레이(overlay)되어 제공될 수도 있다.
한편, 인공지능 기기(10)는 전술한 입력에서, 사용자 정의 원거리 기동어를 추출하되, 추출된 사용자 정의 원거리 기동어에 매핑된 사용자와 현재 인공지능 기기(10)에 로그인된 사용자가 다른 사용자인 경우, 로그인 정보를 변경한 후에 날씨 정보를 제공할 수도 있고, 로그인 정보는 변경하지 않고 제공할 날씨 정보 상에 해당 음성 입력의 사용자 즉, 아빠에 대한 정보를 제공할 수도 있다. 후자의 경우, 다음 음성 입력에 사용자 정의 원거리 기동어가 포함되어 있고, 직전 음성 입력의 사용자 정의 원거리 기동어에 매핑된 사용자와 동일한 사용자인 경우에는, 인공지능 기기(10)의 로그인 정보를 즉시 변경할 수도 있다. 상기에서, 로그인 정보가 변경되는 경우에는, 변경 전 재생 중인 컨텐츠의 속성과 변경된 로그인 정보에 상응하는 사용자 정보에 기초하여, 해당 컨텐츠를 계속하여 제공하거나 로그인 정보 변경과 함께 미리 설정된 컨텐츠로 변경 제공될 수도 있다.
도 17의 (a)에서는 전술한 사용자 정의 원거리 기동어를 등록한 사용자의 개인 정보를 나타낸 것이다. 도 17의 (a)를 참조하면, 사용자는 사용자 정의 원거리 기동어를 등록 시 또는 등록 이후에, 사용자 정의 원거리 기동어가 발화되는 경우에 그에 대한 인공지능 기기(10)의 응답을 설정할 수 있다. 예를 들어, 도 17의 (a)에서는, 사용자 정의 기동어가 입력(또는 인식)되었을 때, 인공지능 기기(10)의 동작으로, ‘시간 및 날씨 정보’, ‘Youtube에서 BTS의 최신 정보’, ‘최신 뉴스’ 등이 예시되었다. 다만, 이러한 동작에 한정되는 것은 아니며, 사용자는 임의로 인공지능 기기(10)에서 지원하는 모든 동작을 미리 설정 등록해 둘 수 있다.
호출어(사용자 정의 원거리 기동어)가 발화되면, 인공지능 기기(10)는 등록된 동작을 바로 수행할 수 있다. 이러한 동작은 여러 개 등록할 수 있으며, 순서를 정할 수도 있다.
다만, 도 17의 (a)에 도시된 동작은 편의상 사용자 정의 원거리 기동어만 발화한 경우에 적용되거나 최초 사용자 정의 원거리 기동어 발화에만 적용될 수 있으나, 이에 한정되는 것은 아니다.
등록된 사용자 정의 기동어가 ‘바다야’이고 응답 설정 등록 내용은 ‘Youtube에서 BTS의 최신 정보’라고 하면, 도 17의 (b)에서와 같이 사용자가 ‘바다야’라고 발화하는 경우, 인공지능 기기(10)는 현재 재생 중인 컨텐츠 화면 상에 ‘Progress Bar가 완성되면 등록한 명령어가 실행됩니다.’라는 안내 메시지와 프로그레스바를 제공하고, 도 17의 (c)에서와 같이 등록한 명령어에 해당하는 컨텐츠를 제공할 수 있다.
한편, 도 17의 (a)에서 만약 사용자가 미리 응답으로 특별히 설정한 내용이 없는 경우에는, 설정 등록 리스트에 있는 동작 중 어느 하나를 실행하거나 설정 등록 리스트에 있거나 인공지능 기기(10)에서 지원하는 동작들 중 현재 재생 중인 컨텐츠와 가장 관련성이 높은 동작이나 동작들을 순차로 재생하여 제공할 수도 있다. 실시예에 따라서, 설정 등록된 동작은 최초 사용자 정의 원거리 기동어 발화시에만 적용되고, 이후에는 현재 재생 중인 컨텐츠와 관련성이 높은 동작이 응답 동작으로 자동 선택되어 제공될 수도 있다.
이와 같이, 인공지능 기기(10)는 사용자의 음성 입력에 대해 응답을 등록함으로써, 주로 사용하거나 즐겨 사용하는 기능을 리모컨 등 원격제어장치 없이도 간단하게 실행할 수 있어, 그 편의성이 극대화될 수 있다.
도 18의 (a)는 도 16의 (a)와 다르게, 기동어를 대신하여 등록된 명령어와 해당 등록 명령어가 인식되는 경우, 인공지능 기기(10)에서 실제 수행하는 동작에 해당하는 명령어가 매핑된 정보 테이블을 나타낸 것이다.
도 18의 (a)를 참조하면, 아빠는 기동어 대신 명령어로 ‘좋은 아침이야’를 등록할 수 있으며, 이 경우 인공지능 기기(10)는 이를 ‘최신 뉴스 보여줘’로 인식할 수 있다. 그리고 엄마는 ‘아기꺼 보여줘’를 등록할 수 있으며, 이 경우 인공지능 기기(10)는 ‘Youtube에서 뽀로로 노래 실행해줘’로 인식할 수 있다. 또한, 나는 ‘영화 볼꺼야’를 등록할 수 있으며, 이 경우 인공지능 기기(10)는 이를 ‘볼륨 50, 영화 화면 변경, 내가 등록한 블루투스 스피커 연결’ 명령으로 인식할 수 있다.
전술한 바와 같이, 도 18의 (a)의 첫번째 명령어는 사용자 정의 기동어를 대신하므로, 인공지능 기기(10)는 비록 사용자 정의 원거리 기동어가 입력되지 않았더라도 해당 명령어가 인식되는 경우에는 그에 매핑된 명령어를 자동 실행할 수 있다.
도 18의 (b)를 참조하면, 사용자가 ‘아기꺼 보여줘’를 발화하면, 인공지능 기기(10)는 비록 기본 원거리 기동어도 사용자 정의 원거리 기동어도 없지만, 해당 발화 내용이 도 18의 (a)에 등록된 엄마의 기동어 대체 명령어에 해당하므로, 이를 ‘Yutube에서 뽀로로 노래 실행해줘’로 인식하여, 도 18의 (b)와 같은 화면을 제공할 수 있다.
한편, 도 18의 (a)는, 이미 해당 사용자에 의해 사용자 정의 원거리 기동어가 발화되어 로그인이 변경된 경우에만 적용될 수도 있다.
사용자는 경우에 따라, 인공지능 기기(10)가 동작하기 위해 정확한 검색어나 명령어를 발화하기 어렵거나 귀찮을 수도 있으나, 원하는 정보의 출력이나 기능의 수행에 관한 명령을 내가 원하는 명령어를 등록 후 매핑함으로써, 인공지능 기기(10)를 보다 편리하게 이용할 수 있다.
한편, 인공지능 기기(10)는 도 17의 사용자 정의 원거리 기동-응답 등록, 도 18의 기동어 대체 명령어-명령어 매칭 등은 사용자가 등록하지 않더라도 사용자의 이용 패턴이나 히스토리로부터 인공지능 엔진을 통해 학습 결과로 자동 등록하여 동작될 수도 있다. 이는 일종의 매크로 기능으로 볼 수 있다.
도 19와 20은 사용자 정의 원거리 기동어 발화 인식에 따라, 인공지능 기기에서 사용자 정의 원거리 기동어에 매핑된 정보를 이용하는 사용 시나리오를 설명하기 위해 도시한 도면이다.
도 19의 (a)를 참조하면, 인공지능 기기(10)의 현재 계정은 사용자 A이다. 이 때, 사용자 A가 만약 ‘바다야, 드라마 찾아줘’라고 하는 경우, 그 처리 방법은 다음과 같다. 인공지능 기기(10)는 발화 음성 입력으로부터 사용자 정의 원거리 기동어 즉, ‘바다야’를 식별하고, 식별된 사용자 정의 원거리 기동어와 현재 계정 사용자 정보를 비교하여, 동일하면 도 19의 (b)와 같이 연동된 해당 사용자의 계정을 통해 해당 사용자가 즐겨보는 드라마 리스트를 제공할 수 있다.
반면, 상기에서 식별된 사용자 정의 원거리 기동어와 현재 계정 사용자 정보를 비교하여, 동일하지 않은 경우 인공지능 기기(10)는 현재 접속중인 계정(2010)을 도 20의 (a)와 같이 식별된 사용자 정의 원거리 기동어에 연동된 사용자(예를 들어, 사용자 B)의 계정(2020)으로 계정을 변경한 후에, 도 20의 (b)와 같이 변경된 계정 정보(2030)를 제공하고, 해당 계정을 통해 해당 사용자가 즐겨보는 드라마 리스트를 제공할 수 있다.
도 21의 (a)에서는 사용자가 ‘스포츠 알람 보여줘’라고 발화한 경우이고, 도 21의 (b)에서는 사용자가 ‘나에게 추천할 예능 보여줘’라고 발화한 경우이고, 도 22는 사용자가 ‘내 일정 보여줘’라고 발화한 경우이다.
각 경우에, 인공지능 기기(10)는 음성 입력으로부터 사용자 정의 원거리 기동어 또는 도 17 내지 도 18과 같은 명령어를 인식하여, 사용자를 식별하고 식별된 사용자와 현재 계정의 사용자를 비교 후에, 계정 변경 등이 필요한 경우에는 계정 변경 후에 해당 계정을 통해 사용자의 이력이나 히스토리 정보에 기반하여, 원하는 정보를 제공할 수 있다. 예컨대, “스포츠 알람 보여줘”라는 음성 입력을 사용자 A와 사용자 B가 각각 한 경우에, 각 사용자의 개인 정보 또는 계정 정보에 기초하여 사용자 A에 대해서는 야구라는 스포츠에 대한 알람을 그리고 사용자 B에 대해서는 여자 농구라는 스포츠에 대한 알람을 제공할 수 있다.
인공지능 기기(10)는 연동된 계정 정보에 일정 정보를 불러오고, 이를 도 21의 (c)와 같이 제공할 수 있다.
도 16 내지 21에서, 인공지능 기기(10)는 음성 입력으로부터 판단된 사용자(사용자 정의 기동어나 설정 등록된 명령어에 기초)가 현재 계정 정보와 일치하지 않는 경우에는, 현재 계정의 사용자의 편의를 위하여 멀티-뷰 모드를 자동 실행하여, 전술한 바와 같은 관련 정보나 기능 실행 화면을 선제공하고, 다음 입력되는 명령(사용자 정의 원거리 기동어 등)과 연동된 사용자가 둘 중 하나이면, 해당 사용자의 계정과 관련된 내용을 전체 화면으로 제공할 수 있다.
도 22의 (a)를 참조하면, 사용자(현재 계정)는 특정 컨텐츠 예를 들어, 홈쇼핑과 같은 컨텐츠를 보면서 음성 입력을 발화할 수 있다. 이 때, 음성 입력은 예를 들어, 결제 정보와 관련된 명령어일 수 있다. 한편, 이 경우, 음성 입력은 현재 계정의 사용자가 아닌 경우에는 사용자 정의 원거리 기동어와 명령어가 입력되는 것이 바람직하나, 그렇지 않은 경우에는 명령어만으로 족할 수 있다.
도 22의 (a)의 화면에서, 현재 인공지능 기기(10)에 로그인된 계정의 사용자(사용자 A, 사용자 A와 매핑된 사용자 정의 원거리 기동어는 ‘바다야’)가 ‘바다야, 카드로 구매해줘’라고 발화한 경우, 도 22의 (c)와 같이 별도의 카드 정보를 호출하거나 결제 프로세스를 진행하지 않더라도 자동으로 카드로 구매를 위한 결제 과정을 수행하고, ‘ID 바다로 59,900원 결제 완료되었습니다. 등록된 카드 : SH 카드 ***-***-***-2341’과 같은 정보를 제공할 수 있다.
이 때, 인공지능 기기(10)는 예를 들어, 전술한 도 14와 도 15의 (b)와 같이 사용자 정의 원거리 기동어에 미리 매핑된 사용자의 개인 정보(결제 및 구독 정보)에 기초하여 동작할 수 있다.
다만, 도 22에서 도용 및/또는 결제의 안정성을 확보하기 위하여, 결제 확인 절차를 적어도 한 번 수행할 수 있다. 예를 들어, 도 22의 (b)에서는, 디지털 숫자를 화면상에 출력하고, 사용자의 해당 디지털 숫자에 대한 음성 입력을 수신하여, 사용자 식별 및 인증 과정을 수행한 후에, 문제가 없으면 도 22의 (c)와 같이 결제를 자동 완료할 수 있다. 실시예에 따라서, 디지털 숫자가 아니라 해당 사용자에 의해 등록된 사용자 정의 원거리 기동어를 적어도 1회 이상 발화하도록 하고, 그를 검증 방법으로 활용할 수 있다. 이 경우, 인공지능 기기(10)는 결제와 같은 중요한 절차의 진행은 제공된 횟수에 모두 정확하게 식별 및 인식되어 검증된 경우에만 절차를 진행하나, 기타 일반적인 기능을 수행함에 있어서 검증이 필요한 경우에는 임계치 이상만 식별 및 인식되어도 그대로 해당 기능을 수행하도록 동작할 수도 있다.
도 23은 사용자 정의 원거리 기동어 기반으로 인공지능 기기(10)에서 외부 기기와 연동하는 과정에 대한 동작을 설명하기 위해 도시한 도면이다.
도 23의 (a)를 참조하면, 인공지능 기기(10)는 사용자 정의 원거리 기동어와 매핑될 외부 기기에 대해 설정 등록할 수 있다.
인공지능 기기(10)는 ‘짱구야, 헤드셋 연결해줘’(또는 ‘짱구야’)라는 음성 입력이 수신되면, ID 짱구야라는 사용자 정의 원거리 기동어에 매핑된 사용자가 도 23의 (a)에서 미리 등록한 외부 기기 목록을 출력하거나 도 23의 (b)에 도시된 바와 같이 연결 여부에 대한 문의 메시지를 출력하거나 도 23의 (c)와 같이 설정된 외부 기기를 자동 연결할 수 있다.
이하에서는 사용자 정의 원거리 기동어의 검증에 대해 기술한다.
이러한 검증은 서버(200) 단에서 이루어질 수 있으나, 이에 한정되는 것은 아니다.
한편, 사용자가 직접 사용자 정의 원거리 기동어에 대한 정보를 입력하는 방법이 있을 수 있다. 이는 사용자가 사용자 정의 원거리 기동어를 등록할 때, 자신이 등록할 기동어를 직접 텍스트로 입력하고, 해당 기동어를 등록하여 기동어 텍스트 정보가 인공지능 기기(10)에서 서버(200)로 전달될 수 있다. 따라서, 사용자 정의 원거리 기동어가 사용되면, 사용자가 발화한 음성 데이터를 인공지능 기기(10)에서 STT로 변환하여 서버로 텍스트 정보를 전달하면, 전술한 사용자에 의해 직접 입력되어 전달된 텍스트 정보와 비교하여 검증할 수 있다.
다른 실시예에 따르면, 사용자 정의 원거리 기동어를 등록하는 경우, 기동어 정보를 인공지능 기기(10)에서 획득하는 방법이 있을 수 있다. 사용자 정의 원거리 기동어 등록 시, 인공지능 기기(10)는 사용자가 여러 번(예를 들어, 4번) 반복하여 발화하는 동안 STT를 통해 텍스트 데이터를 추출하고, 가장 많이 발화된 텍스트 데이터를 서버(200)로 전달할 수 있다. 이후, 사용자 정의 원거리 기동어가 사용되는 경우, 사용자가 발화한 음성 데이터를 인공지능 기기(10)에서 STT로 변환하여 서버(200)로 전달된 텍스트 데이터와 비교하여 검증할 수 있다.
또 다른 실시예에 따르면, 사용자 정의 원거리 기동어 등록 시, 인공지능 기기(10)는 음성 데이터 자체를 서버(200)로 전달하고, 서버(200)에서 유사도를 직접 판단하는 방법이 있을 수 있다. 인공지능 기기(10)는 사용자가 사용자 정의 원거리 기동어 등록 시 4번 발화에 대한 음성 데이터에 대하여 STT 처리를 하지 않고 로 데이터를 그대로 서버(200)로 전달할 수 있다. 마찬가지로, 인공지능 기기(10)는 이후 사용자 정의 원거리 기동어가 입력되면, 음성 데이터도 그대로 서버(200)로 전달하여, 서버(200)에서 기 수신한 사용자 정의 원거리 기동어를 위한 음성 데이터와 수신되는 음성 데이터의 유사도 판단을 통해 검증하도록 할 수 있다.
이러한 서버(200) 단에서의 사용자 정의 원거리 기동어 검증 방식에 따르면, 기동어 등록 시점에서 서버(200)에 기동어 정보를 전달하므로, 사용자가 연속적으로 발화했을 때 서버(200)는 기동어와 명령어가 분리가 가능하여 연속 발화도 대응할 수 있어, 서비스 만족도를 개선시킬 수 있다.
도 24와 25는 본 개시의 일실시예에 따라 서버(200)에서 사용자 정의 원거리 기동어를 처리하는 방법을 설명하기 위해 도시한 도면이다.
인공지능 기기(10)는 도 24의 (a)와 같이 사용자가 사용자 정의 원거리 기동어 등록을 위해 ‘티비야’(사용자 정의 원거리 기동어)를 반복 입력하면, 해당 음성 데이터(예를 들어, 음성 파형도 포함)를 서버(200)로 전달할 수 있다.
서버(200)는 인공지능 기기(10)에 의해 전달된 사용자 정의 원거리 기동어를 등록할 수 있다. 이 때, 서버(20)는 인공지능 기기(10)에 의해, 전술한 도 8 내지 23에서 설명한 다양한 내용에 관한 정보, 매크로 정보 등을 미리 수신하여 등록 후 저장할 수도 있다.
인공지능 기기(10)에서 이후에 ‘티비야’라는 음성 입력이 수신되면, 도 24의 (b)에 도시된 바와 같이 서버 검증으로 사용자 정의 원거리 기동어의 음성 데이터와 기 수신한 음성 데이터의 유사도를 판단하여 검증할 수 있다.
도 24의 (c)에서는 사용자 정의 원거리 기동어와 명령어가 포함된 음성 입력(‘티비야, 내 스케줄 보여줘')에 대한 것으로, 서버(200)는 사용자 정의 원거리 기동어로서 ‘티비야’는 검증하여 명령어와 분리할 수 있다. 따라서, 서버(200)는 사용자 정의 원거리 기동어가 아닌 명령어에 따라, ‘내 스케줄 보여줘’에 대한 분석 결과 정보를 인공지능 기기(10)로 전달할 수 있다. 이는 도 24에 도시된 바와 같이, 서버(200)에서 저장된 기동어 음성 데이터와 사용자가 발화한 음성 데이터의 음성 파형 비교를 통해 제거하는 방식으로 처리될 수 있으나, 이에 한정되는 것은 아니다.
도 25의 (a)에는 사용자 정의 원거리 기동어-외부 기기의 매핑 테이블이 도시되었다. 외부 기기로는 블루투스 헤드셋/이어폰이 예시되었으나, 이에 한정되는 것은 아니다.
도 25의 (b)에 도시된 바와 같이, 인공지능 기기(10)는 사용자 정의 원거리 기동어와 함께 발화된 경우 예를 들어, ‘짱구야, 헤드셋 연결해줘’라는 발화 입력 수신되면, 이를 서버(200)로 전달하고, 서버(200)는 전술한 검증 방식에 따라 ‘짱구’라는 사용자 정의 원거리 기동어를 식별하고, 식별된 사용자 정의 원거리 기동어에 매핑된 사용자를 인지한 후, 도 25의 (a)에서 인지된 사용자에 매핑된 블루투스 헤드셋(로지텍 G435xx)를 연결하도록 제어할 수 있다.
반면, 도 25의 (c)에 도시된 바와 같이, 인공지능 기기(10)는 사용자 정의 원거리 기동어가 없는 일반 발화 입력(‘헤드셋 연결해줘’)이 수신되는 경우, 이를 서버(200)로 전달하고, 서버(200)는 도 25의 (a)에도 불구하고 사용자 정의 원거리 기동어가 없기에, 인공지능 기기(10)에서 최근에 등록하거나 연결한 헤드셋 또는 현재 연결 가능한 헤드셋을 연결하도록 제어할 수 있다.
본 개시의 다양한 실시예들 중 적어도 하나에 의하면, 인공지능 기기(10)에 의해 수행되는 동작들 중 적어도 하나는 NLP 서버(30)에 의해 수행될 수 있으며, 반대도 마찬가지이다.
특별히 언급하지 않더라도, 본 개시에서 개시한 적어도 일부의 동작의 순서는, 동시에 수행되거나 기설명한 순서와 다른 순서로 수행되거나 일부는 생략/추가될 수도 있다.
본 발명의 일 실시 예에 의하면, 전술한 방법은, 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있다.
상기와 같이 설명된 디스플레이 장치는 상기 설명된 실시 예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시 예들은 다양한 변형이 이루어질 수 있도록 각 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
10 : 인공지능 기기
20 : STT 서버
30 : NLP 서버 40 : 음성 합성 서버
30 : NLP 서버 40 : 음성 합성 서버
Claims (15)
- 디스플레이; 및
상기 디스플레이를 제어하는 프로세서를 포함하되,
상기 프로세서는,
제1 원거리 기동어를 입력받아 등록하고, 등록된 제1 원거리 기동어가 수신되는 경우, 음성 인식 기능을 활성화하고, 상기 제1 원거리 기동어를 서버로 전달하되,
상기 제1 원거리 기동어는 상기 인공지능 기기에 임베디드 된 기본 원거리 기동어가 아닌,
인공지능 기기. - 제1항에 있어서,
상기 프로세서는,
상기 제1 원거리 기동어의 등록을 위해 음성 인식 에이전트를 제공하고, 발화자와 상기 음성 인식 에이전트를 통해 입력되는 제1 원거리 기동어를 매핑하여 등록하는,
인공지능 기기. - 제2항에 있어서,
상기 프로세서는,
상기 제1 원거리 기동어에, 상기 발화자의 정보가 연동되도록 처리하는,
인공지능 기기. - 제3항에 있어서,
상기 발화자의 정보에는, 계정 또는 로그인 정보, 프로필 정보, 결제 및 구독 정보, 연동 가능한 유료 또는 무료 서비스 또는 어플리케이션 정보, 연결 가능한 외부 기기 정보, 및 루틴 정보 중 적어도 하나 이상이 포함되는,
인공지능 기기. - 제4항에 있어서,
상기 프로세서는,
상기 제1 원거리 기동어에 대해 적어도 하나 이상의 명령어가 자동 실행되도록 매크로 정보를 생성하여 저장하도록 제어하는,
인공지능 기기. - 제5항에 있어서,
상기 프로세서는,
사용자 입력이 수신되는 경우, 상기 사용자 입력에 상기 등록된 제1 원거리 기동어가 포함되었는지 판단하고, 상기 사용자 입력에 상기 제1 원거리 기동어가 포함된 경우, 상기 사용자 입력에 상기 제1 원거리 기동어 외에 명령을 추출하여 매크로 정보와 비교하여 매크로 기능을 자동 실행하는,
인공지능 기기. - 제6항에 있어서,
상기 수신되는 사용자 입력이 제1 원거리 기동어를 수신하는 경우, 미리 정의된 시간 내에 명령어가 수신되는지 판단하여, 상기 미리 정의된 시간 내에 명령어가 수신되는 경우, 명령어에 상응하는 제1 기능에 관한 동작을 수행하고, 상기 미리 정의된 시간 내에 명령어가 수신되지 않는 경우, 제2 기능에 관한 동작을 수행하되, 상기 제2 기능은 상기 제1 원거리 기동어의 매크로에 등록된 제1 명령어들 중 어느 하나의 제1 명령어에 대한 제2 명령어에 따른 기능을 수행하는,
인공지능 기기. - 음성 인식 에이전트를 제공하는 단계;
상기 음성 인식 에이전트를 통해 제1 원거리 기동어를 입력받아 등록하는 단계; 및
상기 제1 원거리 기동어를 서버로 전달하는 단계를 포함하되,
상기 제1 원거리 기동어는, 상기 인공지능 기기에 임베디드 된 제2 원거리 기동어가 아닌,
인공지능 기기의 동작 방법. - 제8항에 있어서,
상기 제1 원거리 기동어를 입력받아 등록하는 단계는,
상기 제1 원거리 기동어의 등록을 위해 음성 인식 에이전트를 제공하는 단계; 및
발화자와 상기 음성 인식 에이전트를 통해 입력되는 제1 원거리 기동어를 매핑하여 등록하는 단계를 포함하는,
인공지능 기기의 동작 방법. - 제9항에 있어서,
상기 발화자와 상기 음성 인식 에이전트를 통해 입력되는 제1 원거리 기동어를 매핑하여 등록하는 단계는,
상기 제1 원거리 기동어에, 상기 발화자의 정보가 연동되도록 처리되는,
인공지능 기기의 동작 방법. - 제10항에 있어서,
상기 발화자의 정보에는, 계정 또는 로그인 정보, 프로필 정보, 결제 및 구독 정보, 연동 가능한 유료 또는 무료 서비스 또는 어플리케이션 정보, 연결 가능한 외부 기기 정보, 및 루틴 정보 중 적어도 하나 이상이 포함되는,
인공지능 기기의 동작 방법. - 제11항에 있어서,
상기 발화자와 상기 음성 인식 에이전트를 통해 입력되는 제1 원거리 기동어를 매핑하여 등록하는 단계는,
상기 제1 원거리 기동어에 대해 적어도 하나 이상의 명령어가 자동 실행되도록 매크로 정보가 생성되어 저장되는,
인공지능 기기의 동작 방법. - 제12항에 있어서,
사용자 입력을 수신하는 단계;
상기 사용자 입력에 상기 제1 원거리 기동어가 포함되었는지 판단하는 단계; 및
상기 사용자 입력에 상기 제1 원거리 기동어가 포함된 경우, 상기 사용자 입력에 상기 제1 원거리 기동어 외에 명령을 추출하여 매크로 정보와 비교하여 매크로 기능을 자동 실행하는 단계를 더 포함하는,
인공지능 기기의 동작 방법. - 제13항에 있어서,
상기 수신되는 사용자 입력이 제1 원거리 기동어인 경우, 미리 정의된 시간 내에 명령어가 수신되는지 판단하는 단계; 및
상기 미리 정의된 시간 내에 명령어가 수신되는 경우, 명령어에 상응하는 제1 기능에 관한 동작을 수행하고, 상기 미리 정의된 시간 내에 명령어가 수신되지 않는 경우, 제2 기능에 관한 동작을 수행하는 단계를 포함하되,
상기 제2 기능은 상기 제1 원거리 기동어의 매크로에 등록된 제1 명령어들 중 어느 하나의 제1 명령어에 대한 제2 명령어에 따른 기능을 수행하는,
인공지능 기기의 동작 방법. - 서버; 및
상기 서버와 데이터를 주고받는 인공지능 기기를 포함하여 구성되되,
상기 인공지능 기기는,
음성 인식 에이전트를 제공하고, 상기 음성 인식 에이전트를 통해 제1 원거리 기동어를 입력받아 등록하고, 상기 제1 원거리 기동어를 서버로 전달하는 프로세서를 포함하고,
상기 제1 원거리 기동어는, 상기 인공지능 기기에 임베디드 된 제2 원거리 기동어가 아닌,
인공지능 음성 서비스 시스템.
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020220128890A KR20240048966A (ko) | 2022-10-07 | 2022-10-07 | 인공지능 기기 및 그의 동작 방법 |
| EP23168368.1A EP4350690A1 (en) | 2022-10-07 | 2023-04-18 | Artificial intelligence device and operating method thereof |
| US18/337,328 US20240119930A1 (en) | 2022-10-07 | 2023-06-19 | Artificial intelligence device and operating method thereof |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020220128890A KR20240048966A (ko) | 2022-10-07 | 2022-10-07 | 인공지능 기기 및 그의 동작 방법 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20240048966A true KR20240048966A (ko) | 2024-04-16 |
Family
ID=86053609
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020220128890A Ceased KR20240048966A (ko) | 2022-10-07 | 2022-10-07 | 인공지능 기기 및 그의 동작 방법 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20240119930A1 (ko) |
| EP (1) | EP4350690A1 (ko) |
| KR (1) | KR20240048966A (ko) |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
| KR102346302B1 (ko) * | 2015-02-16 | 2022-01-03 | 삼성전자 주식회사 | 전자 장치 및 음성 인식 기능 운용 방법 |
| US10448107B2 (en) * | 2016-11-11 | 2019-10-15 | Lg Electronics Inc. | Display device |
| KR20180083587A (ko) * | 2017-01-13 | 2018-07-23 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
| KR102411766B1 (ko) * | 2017-08-25 | 2022-06-22 | 삼성전자주식회사 | 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치 |
| KR102543693B1 (ko) * | 2017-10-17 | 2023-06-16 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
| US10812527B2 (en) * | 2017-12-01 | 2020-10-20 | KnowBe4, Inc. | Systems and methods for aida based second chance |
| JPWO2020003851A1 (ja) * | 2018-06-27 | 2021-08-02 | ソニーグループ株式会社 | 音声処理装置、音声処理方法及び記録媒体 |
| WO2020056236A1 (en) * | 2018-09-14 | 2020-03-19 | Aondevices, Inc. | System architecture and embedded circuit to locate a lost portable device using voice command |
| US12266348B2 (en) * | 2019-09-24 | 2025-04-01 | Lg Electronics Inc. | Image display device and voice recognition method therefor |
| US20230335118A1 (en) * | 2022-04-13 | 2023-10-19 | Lg Electronics Inc. | Method and device for efficient open vocabulary keyword spotting |
-
2022
- 2022-10-07 KR KR1020220128890A patent/KR20240048966A/ko not_active Ceased
-
2023
- 2023-04-18 EP EP23168368.1A patent/EP4350690A1/en active Pending
- 2023-06-19 US US18/337,328 patent/US20240119930A1/en active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| EP4350690A1 (en) | 2024-04-10 |
| US20240119930A1 (en) | 2024-04-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11386905B2 (en) | Information processing method and device, multimedia device and storage medium | |
| US10977452B2 (en) | Multi-lingual virtual personal assistant | |
| CN109447234B (zh) | 一种模型训练方法、合成说话表情的方法和相关装置 | |
| EP3824462B1 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
| US11790912B2 (en) | Phoneme recognizer customizable keyword spotting system with keyword adaptation | |
| CN112040263A (zh) | 视频处理方法、视频播放方法、装置、存储介质和设备 | |
| EP2950307B1 (en) | Operation of a virtual assistant on an electronic device | |
| US9443527B1 (en) | Speech recognition capability generation and control | |
| WO2021008538A1 (zh) | 语音交互方法及相关装置 | |
| JP2014203207A (ja) | 情報処理装置、情報処理方法及びコンピュータプログラム | |
| US20140303975A1 (en) | Information processing apparatus, information processing method and computer program | |
| US11568875B2 (en) | Artificial intelligence apparatus and method for recognizing plurality of wake-up words | |
| JP6889597B2 (ja) | ロボット | |
| US20030191629A1 (en) | Interface apparatus and task control method for assisting in the operation of a device using recognition technology | |
| KR20230067501A (ko) | 음성 합성 장치 및 그의 음성 합성 방법 | |
| CN112151072B (zh) | 语音处理方法、装置和介质 | |
| KR20200092464A (ko) | 전자 장치 및 이를 이용하는 어시스턴트 서비스를 제공하는 방법 | |
| EP4586132A1 (en) | Artificial intelligence device and method for operating same | |
| KR102720846B1 (ko) | 파 엔드 단말기 및 그의 음성 포커싱 방법 | |
| US20230267934A1 (en) | Display apparatus and operating method thereof | |
| KR20240048966A (ko) | 인공지능 기기 및 그의 동작 방법 | |
| WO2020087534A1 (en) | Generating response in conversation | |
| JP2010183159A (ja) | デジタルフォトフレーム、情報処理システム、制御方法、プログラム及び情報記憶媒体 | |
| KR20250096753A (ko) | 인공지능 기기 및 그 동작 방법 | |
| US12322407B2 (en) | Artificial intelligence device configured to generate a mask value |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| PE0601 | Decision on rejection of patent |
St.27 status event code: N-2-6-B10-B15-exm-PE0601 |