KR20200080822A - 텍스트 데이터에서 의미상 대응하는 자연어-sql의 매핑 방법 - Google Patents
텍스트 데이터에서 의미상 대응하는 자연어-sql의 매핑 방법 Download PDFInfo
- Publication number
- KR20200080822A KR20200080822A KR1020180170691A KR20180170691A KR20200080822A KR 20200080822 A KR20200080822 A KR 20200080822A KR 1020180170691 A KR1020180170691 A KR 1020180170691A KR 20180170691 A KR20180170691 A KR 20180170691A KR 20200080822 A KR20200080822 A KR 20200080822A
- Authority
- KR
- South Korea
- Prior art keywords
- natural language
- sql
- mapping
- language sentence
- sql query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (7)
- 컴퓨터상에서 수행되는 자연어 문장과 SQL 질의를 매핑하는 방법으로서,
a) 동일 문서 내의 자연어 문장과 SQL 질의의 매핑 후보를 추출하는 단계;
b) 각 매핑 후보의 자연어 문장과 SQL 질의에 대해서, 문서상의 위치를 기반으로 거리를 계산하는 단계;
c) 자연어 문장 내의 토큰과 SQL 질의 내의 토큰을 대응시켜 토큰 대응 점수를 계산하는 단계;
d) 자연어 문장 내의 토큰과 SQL 질의 토큰의 임베딩 벡터들의 요소별 합산 벡터를 비교하여 두 문장과 질의의 의미 레벨 유사도를 계산하는 단계; 및
e) 자연어 문장과 SQL 질의 간의 거리, 토큰 대응 점수, 의미 레벨 유사도를 특징점으로 하여 매핑 점수를 구하고 점수를 비교하여 자연어 문장과 SQL 질의를 매핑하는 단계를 포함하는 텍스트 데이터에서 의미상 대응하는 자연어-SQL의 매핑 방법. - 제1항에 있어서,
상기 a) 단계는,
SQL 질의를 포함한 문서의 집합에서, 동일 문서상에 존재하는 자연어 문장의 집합과 SQL 질의의 집합을 데카르트 곱(Cartesian product)하여 매핑 후보의 집합을 추출하는 것을 특징으로 하는 텍스트 데이터에서 의미상 대응하는 자연어-SQL의 매핑 방법. - 제1항에 있어서,
상기 b) 단계는,
문서 내의 각 자연어 문장 혹은 SQL 질의의 위치를 문서 상에서 자연어 문장 혹은 SQL 질의에 앞서 위치하는 자연어 문장과 SQL 질의의 개수로 정의하고, 자연어 문장의 위치가 N이고 SQL 질의의 위치가 M일 때, 자연어 문장과 SQL 질의의 거리를 |M-N|으로 계산하는 텍스트 데이터에서 의미상 대응하는 자연어-SQL의 매핑 방법. - 제1항에 있어서,
상기 c) 단계는,
c-1) 각 매핑 후보의 자연어 문장과 SQL 질의에 대하여, 자연어 문장 내의 토큰과 SQL 질의 내의 토큰 중 동일한 토큰을 대응시키고, 고유명사 토큰을 대응시키는 단계;
c-2) 각 매핑 후보의 자연어 문장과 SQL 질의에 대하여, 자연어 문장 구문 분석기를 이용하여 자연어 문장과 SQL 질의를 구문 분석 트리로 변환하고, 자연어 문장 구문 분석 트리와 SQL 질의 구문 분석 트리에 대하여, 구문 분석 트리 상에서의 매핑 규칙과 상기 c-1)단계에서 계산한 대응되는 노드 정보로부터 자연어 문장 구문 분석 트리의 노드와 SQL 질의 구문 분석 트리의 노드를 추가적으로 대응시키는 단계;
c-3) 상기 c-1)단계 및 c-2)에서 구한 토큰 간의 대응 정보로부터 자연어 문장과 SQL 질의의 토큰 대응 점수를 (자연어 문장과 SQL 질의 내의 서로 대응되는 토큰의 개수)/(자연어 문장과 SQL 질의 내의 전체 토큰의 개수) 계산하는 단계를 포함하는 텍스트 데이터에서 의미상 대응하는 자연어-SQL의 매핑 방법. - 제4항에 있어서,
상기 c-1) 단계는,
각 매핑 후보의 자연어 문장과 SQL 질의에 대하여, 먼저 자연어 문장 내의 토큰과 SQL 질의 내의 토큰에서 전치사와 접속사를 스탑 워드 (stop word)로 설정하여 문장에서 제거하고, 남은 토큰들에 대하여 문자열 비교를 통해 자연어 문장 내의 특정 토큰과 SQL 내의 특정 토큰이 정확히 일치할 경우 서로 대응시키고, 아직 대응되지 않은 토큰 중에 고유명사 사전 내에 존재하는 토큰이 있을 경우 고유명사 사전을 검색하여 동일 고유명사를 지칭하는 서로 다른 두 토큰이 있을 경우 대응시키는 텍스트 데이터에서 의미상 대응하는 자연어-SQL의 매핑 방법. - 제4항에 있어서,
상기 c-2) 단계는,
각 매핑 후보의 자연어 문장과 SQL 질의에 대하여, 자연어 문장과 SQL 질의에서 종속 관계 기반의 자연어 문장 구문 분석기 (dependency-based syntactic parser)를 이용하여 두 개의 구문 분석 트리를 생성한 다음, 트리의 각 노드가 토큰에 대응되며 각 에지가 토큰 간의 종속 관계를 나타내는 두 개의 구문 분석 트리에서 서로 대응되는 두 노드에 동일 종류의 에지가 연결되어 있고, 해당 에지와 연결된 자식 노드가 대응되는 노드가 없으며 스탑 워드가 아닌 경우에, 두 자식 노드를 서로 대응시키는 텍스트 데이터에서 의미상 대응하는 자연어-SQL의 매핑 방법. - 제1항에 있어서,
상기 e) 단계는,
e-1) 상기 자연어 문장과 SQL 질의 간의 거리, 토큰 대응 점수, 의미 레벨 유사도를 특징점으로 하여, 매핑 후보가 실제 매핑일 확률을 반환하는 XGBoost 모델을 이용하여 각 매핑 후보의 매핑 점수를 계산하는 단계; 및
e-2) 각 매핑 후보의 매핑 점수에서, 각 SQL 질의에 대해서 매핑 점수가 가장 높은 자연어 문장을 해당 SQL 질의와 매핑하는 단계를 포함하는 텍스트 데이터에서 의미상 대응하는 자연어-SQL의 매핑 방법.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020180170691A KR102149701B1 (ko) | 2018-12-27 | 2018-12-27 | 텍스트 데이터에서 의미상 대응하는 자연어-sql의 매핑 방법 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020180170691A KR102149701B1 (ko) | 2018-12-27 | 2018-12-27 | 텍스트 데이터에서 의미상 대응하는 자연어-sql의 매핑 방법 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20200080822A true KR20200080822A (ko) | 2020-07-07 |
| KR102149701B1 KR102149701B1 (ko) | 2020-08-31 |
Family
ID=71602616
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020180170691A Active KR102149701B1 (ko) | 2018-12-27 | 2018-12-27 | 텍스트 데이터에서 의미상 대응하는 자연어-sql의 매핑 방법 |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR102149701B1 (ko) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20200257679A1 (en) * | 2019-02-13 | 2020-08-13 | International Business Machines Corporation | Natural language to structured query generation via paraphrasing |
| CN112835925A (zh) * | 2021-02-02 | 2021-05-25 | 北京握奇数据股份有限公司 | 一种嵌入式芯片sql语句解析方法 |
| CN114036185A (zh) * | 2021-11-09 | 2022-02-11 | 北京京投亿雅捷交通科技有限公司 | 一种基于语义识别技术的数据查询方法及系统 |
| CN114201956A (zh) * | 2021-12-02 | 2022-03-18 | 北京智美互联科技有限公司 | 工业互联网的安全防护方法和系统 |
| JP2022089166A (ja) * | 2020-12-03 | 2022-06-15 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | データペア生成方法、装置、電子デバイス及び記憶媒体 |
| KR20220109979A (ko) | 2021-01-29 | 2022-08-05 | 포항공과대학교 산학협력단 | 자연어 질의를 qgm 질의로 변환하는 방법 및 장치 |
| KR20230056264A (ko) * | 2021-10-20 | 2023-04-27 | 케이데이터랩 주식회사 | 크라우드 소싱을 활용하여 인공지능 학습용 데이터를 생성하는 인공지능 학습데이터 생성방법 |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20210127586A (ko) | 2020-04-14 | 2021-10-22 | 삼성에스디에스 주식회사 | 문장 특징 벡터 임베딩 장치 및 방법 |
| KR20210127587A (ko) | 2020-04-14 | 2021-10-22 | 삼성에스디에스 주식회사 | 언어 모델 학습 장치 및 방법 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20010107111A (ko) * | 2000-05-25 | 2001-12-07 | 서정연 | 대화형 db, faq리스트, 웹사이트에 대한 통합형자연어 질의-응답 검색 시스템 및 방법 |
| US20030069880A1 (en) * | 2001-09-24 | 2003-04-10 | Ask Jeeves, Inc. | Natural language query processing |
| KR101582929B1 (ko) * | 2012-11-12 | 2016-01-07 | 페이스북, 인크. | 구조화된 검색 질의용 문법 모델 |
| KR20160060821A (ko) * | 2014-11-20 | 2016-05-31 | 한국전자통신연구원 | 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법 |
-
2018
- 2018-12-27 KR KR1020180170691A patent/KR102149701B1/ko active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20010107111A (ko) * | 2000-05-25 | 2001-12-07 | 서정연 | 대화형 db, faq리스트, 웹사이트에 대한 통합형자연어 질의-응답 검색 시스템 및 방법 |
| US20030069880A1 (en) * | 2001-09-24 | 2003-04-10 | Ask Jeeves, Inc. | Natural language query processing |
| KR101582929B1 (ko) * | 2012-11-12 | 2016-01-07 | 페이스북, 인크. | 구조화된 검색 질의용 문법 모델 |
| KR20160060821A (ko) * | 2014-11-20 | 2016-05-31 | 한국전자통신연구원 | 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법 |
Non-Patent Citations (1)
| Title |
|---|
| K. Javubar Sathick and A. Jaya, Natural language to SQL Generation for Semantic Knowledge Extraction in Social Web Sources, Indian Journal of Science and Technology, Vol 8(1),01-10, January 2015. 1부.* * |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20200257679A1 (en) * | 2019-02-13 | 2020-08-13 | International Business Machines Corporation | Natural language to structured query generation via paraphrasing |
| US11966389B2 (en) * | 2019-02-13 | 2024-04-23 | International Business Machines Corporation | Natural language to structured query generation via paraphrasing |
| JP2022089166A (ja) * | 2020-12-03 | 2022-06-15 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | データペア生成方法、装置、電子デバイス及び記憶媒体 |
| US11748340B2 (en) | 2020-12-03 | 2023-09-05 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Data pair generating method, apparatus, electronic device and storage medium |
| KR20220109979A (ko) | 2021-01-29 | 2022-08-05 | 포항공과대학교 산학협력단 | 자연어 질의를 qgm 질의로 변환하는 방법 및 장치 |
| CN112835925A (zh) * | 2021-02-02 | 2021-05-25 | 北京握奇数据股份有限公司 | 一种嵌入式芯片sql语句解析方法 |
| CN112835925B (zh) * | 2021-02-02 | 2024-03-29 | 北京握奇数据股份有限公司 | 一种嵌入式芯片sql语句解析方法 |
| KR20230056264A (ko) * | 2021-10-20 | 2023-04-27 | 케이데이터랩 주식회사 | 크라우드 소싱을 활용하여 인공지능 학습용 데이터를 생성하는 인공지능 학습데이터 생성방법 |
| CN114036185A (zh) * | 2021-11-09 | 2022-02-11 | 北京京投亿雅捷交通科技有限公司 | 一种基于语义识别技术的数据查询方法及系统 |
| CN114201956A (zh) * | 2021-12-02 | 2022-03-18 | 北京智美互联科技有限公司 | 工业互联网的安全防护方法和系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| KR102149701B1 (ko) | 2020-08-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102149701B1 (ko) | 텍스트 데이터에서 의미상 대응하는 자연어-sql의 매핑 방법 | |
| Kim et al. | Natural language to SQL: Where are we today? | |
| KR101662450B1 (ko) | 다중 소스 하이브리드 질의응답 방법 및 시스템 | |
| Hermann et al. | Semantic frame identification with distributed word representations | |
| Yang et al. | Joint relational embeddings for knowledge-based question answering | |
| Sachan et al. | From textbooks to knowledge: A case study in harvesting axiomatic knowledge from textbooks to solve geometry problems | |
| US10528664B2 (en) | Preserving and processing ambiguity in natural language | |
| Yao et al. | Semi-markov phrase-based monolingual alignment | |
| Levy et al. | Deep dependencies from context-free statistical parsers: correcting the surface dependency approximation | |
| Woodsend et al. | Text rewriting improves semantic role labeling | |
| Sachan et al. | Discourse in multimedia: A case study in extracting geometry knowledge from textbooks | |
| Sammons et al. | Relation Alignment for Textual Entailment Recognition. | |
| Li et al. | Dimsim: An accurate chinese phonetic similarity algorithm based on learned high dimensional encoding | |
| Sun | A natural language interface for querying graph databases | |
| KR20220109931A (ko) | 워딩 데이터에서 의미상 대응하는 자연 언어-sql의 매칭 방법 | |
| Kazman | Structuring the text of the Oxford English Dictionary through finite state transduction | |
| Luckert et al. | Using machine learning methods for evaluating the quality of technical documents | |
| KR20220109179A (ko) | 워딩 데이터에서 의미상 대응하는 자연 언어-sql의 매칭 방법 | |
| Bakari et al. | Logic-based approach for improving Arabic question answering | |
| CN107862045A (zh) | 一种基于多特征的跨语言剽窃检测方法 | |
| Das | Semi-Supervised and Latent-Variable Models of Natural Language Semantics | |
| Yang et al. | Bilingual semantic role labeling inference via dual decomposition | |
| Giordani et al. | Syntactic structural kernels for natural language interfaces to databases | |
| KR102203895B1 (ko) | 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체 | |
| Srikumar et al. | Extraction of entailed semantic relations through syntax-based comma resolution |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20181227 |
|
| PA0201 | Request for examination | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20200220 Patent event code: PE09021S01D |
|
| PG1501 | Laying open of application | ||
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20200818 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20200825 Patent event code: PR07011E01D |
|
| PR1002 | Payment of registration fee |
Payment date: 20200825 End annual number: 3 Start annual number: 1 |
|
| PG1601 | Publication of registration | ||
| PR1001 | Payment of annual fee |
Payment date: 20230620 Start annual number: 4 End annual number: 4 |
|
| PR1001 | Payment of annual fee |
Payment date: 20240624 Start annual number: 5 End annual number: 5 |
|
| PR1001 | Payment of annual fee |
Payment date: 20250623 Start annual number: 6 End annual number: 6 |