데이터 스토어는 데이터 스토어 도구가 데이터에서 최종 사용자의 질문에 대한 답변을 찾는 데 사용됩니다. 데이터 스토어는 각각 사용자의 데이터를 참조하는 웹사이트, 문서 또는 서드 파티 시스템의 데이터 모음입니다.
최종 사용자가 에이전트에게 질문하면 에이전트는 제공된 소스 콘텐츠에서 답변을 검색하고 결과를 일관된 에이전트 응답으로 요약합니다. 또한 최종 사용자가 자세히 알아볼 수 있도록 응답 소스에 대한 지원 링크를 제공합니다. 에이전트는 주어진 질문에 답변 스니펫을 최대 5개까지 제공할 수 있습니다.
데이터 스토어 소스
데이터에 제공할 수 있는 다양한 소스가 있습니다.
- 웹사이트 URL: 도메인 또는 웹페이지 목록에서 웹사이트 콘텐츠를 자동으로 크롤링합니다.
- BigQuery: BigQuery 테이블에서 데이터를 가져옵니다.
- Cloud Storage: Cloud Storage 버킷에서 데이터를 가져옵니다.
- AlloyDB: AlloyDB 클러스터에서 데이터를 가져옵니다.
- Bigtable: Bigtable 테이블에서 데이터를 가져옵니다.
- Firestore: Firestore 컬렉션에서 데이터를 가져옵니다.
- Cloud SQL: Cloud SQL 테이블에서 데이터를 가져옵니다.
- Spanner: Spanner 테이블에서 데이터를 가져옵니다.
액세스가 제한된 데이터 스토어 소스
Google은 제한된 액세스 기능으로 다양한 추가 퍼스트 파티 및 서드 파티 데이터 스토어 소스를 제공합니다. 사용 가능한 소스 목록을 확인하고 액세스를 요청하려면 이 페이지의 추가 데이터 스토어 소스 섹션을 참고하세요.
웹사이트 콘텐츠
웹사이트 콘텐츠를 소스로 추가할 때 여러 사이트를 추가하거나 제외할 수 있습니다.
사이트를 지정할 때 개별 페이지 또는 *
를 패턴의 와일드 카드로 사용할 수 있습니다.
모든 HTML 및 PDF 콘텐츠가 처리됩니다.
웹사이트 콘텐츠를 소스로 사용하는 경우 도메인을 인증해야 합니다.
제한사항:
- 공개 URL의 파일은 검색 색인에 존재할 수 있도록 Google 검색 색인 생성기가 크롤링한 것이어야 합니다. Google Search Console을 사용하여 이를 확인할 수 있습니다.
- 색인이 생성되는 페이지 수는 최대 200,000개입니다. 데이터 스토어에 페이지가 더 많이 포함된 경우 해당 시점에서 색인 생성이 실패합니다. 이미 색인이 생성된 콘텐츠는 그대로 유지됩니다.
데이터 가져오기
BigQuery 또는 Cloud Storage에서 데이터를 가져올 수 있습니다. 이 데이터는 FAQ 형식이거나 구조화되지 않을 수 있으며, 메타데이터가 있거나 메타데이터가 없을 수 있습니다.
다음과 같은 데이터 가져오기 옵션을 사용할 수 있습니다.
- 데이터 추가/업데이트: 제공된 문서가 데이터 스토어에 추가됩니다. 새 문서의 ID가 이전 문서와 같으면 새 문서가 기존 문서를 대체합니다.
- 기존 데이터 재정의: 모든 이전 데이터가 삭제된 후 새 데이터가 업로드됩니다. 이 작업은 되돌릴 수 없습니다.
FAQ 데이터 스토어
FAQ 데이터 스토어에는 자주 묻는 질문 (FAQ)에 대한 답변이 있습니다. 사용자 질문이 업로드된 질문과 높은 신뢰도로 일치하면 에이전트는 해당 질문에 대한 답변을 수정하지 않고 반환합니다. 에이전트가 표시하는 각 질문과 답변 쌍의 제목과 URL을 제공할 수 있습니다.
데이터는 CSV
형식으로 데이터 스토어에 업로드해야 합니다. 각 파일에는 열을 설명하는 헤더 행이 있어야 합니다.
예를 들면 다음과 같습니다.
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
title
및 url
열은 선택사항이며 생략할 수 있습니다.
"answer","question"
"42","What is the meaning of life?"
업로드 프로세스 중에 확장 프로그램에 관계없이 각 파일이 CSV
파일로 처리되는 폴더를 선택할 수 있습니다.
제한사항:
,
뒤에 추가 공백 문자가 있으면 오류가 발생합니다.- 빈 줄(파일 끝에 있는 경우에도)로 인해 오류가 발생합니다.
구조화되지 않은 데이터 스토어
구조화되지 않은 데이터 스토어에는 다음과 같은 형식의 콘텐츠가 포함될 수 있습니다.
HTML
PDF
TXT
CSV
다른 프로젝트의 Cloud Storage 버킷에서 파일을 가져올 수 있습니다 (일반적이지 않음). 이렇게 하려면 가져오기 프로세스에 명시적 액세스 권한을 부여해야 합니다. 오류 메시지의 안내를 따르세요. 오류 메시지에는 가져오기를 실행하기 위해 버킷에 대한 읽기 액세스 권한이 필요한 사용자 이름이 포함되어 있습니다.
제한사항:
- 최대 파일 크기는 텍스트 기반 형식의 경우 2.5MB, 다른 형식의 경우 100MB입니다.
메타데이터가 포함된 데이터 스토어
제목과 URL
은 메타데이터로 제공될 수 있습니다.
에이전트가 사용자와 대화 중일 때 이 정보를 사용자에게 제공할 수 있습니다.
이렇게 하면 사용자가 Google 검색 색인 생성기에서 액세스할 수 없는 내부 웹페이지에 빠르게 연결할 수 있습니다.
콘텐츠를 메타데이터와 함께 가져오려면 하나 이상의 JSON Lines 파일을 제공해야 합니다. 이 파일의 각 줄은 문서 하나를 설명합니다. 실제 문서를 직접 업로드하지 않습니다. Cloud Storage 경로에 연결되는 URIs
는 JSON Lines 파일에 제공됩니다.
JSON Lines 파일을 제공하려면 이러한 파일이 포함된 Cloud Storage 폴더를 제공해야 합니다. 이 폴더에 다른 파일을 넣지 마세요.
필드 설명:
필드 | 유형 | 설명 |
---|---|---|
id | 문자열 | 문서의 고유 식별자입니다. |
content.mimeType | 문자열 | 문서의 MIME 유형입니다. 'application/pdf' 및 'text/html'이 지원됩니다. |
content.uri | 문자열 | Cloud Storage의 문서 URI입니다. |
structData | 문자열 | 선택적 title 및 url 필드가 있는 한 줄로 된 JSON 객체입니다. |
예를 들면 다음과 같습니다.
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
메타데이터가 없는 데이터 스토어
이 유형의 콘텐츠에는 메타데이터가 없습니다. 대신 개별 문서로 연결되는 URI 링크를 제공합니다. 콘텐츠 유형은 파일 확장자에 따라 결정됩니다.
파싱 및 청크 구성
데이터 소스에 따라 Vertex AI Search에서 정의한 대로 파싱 및 청크 설정을 구성할 수 있습니다.
데이터 스토어 문서에 Cloud Storage 사용
콘텐츠가 공개가 아닌 경우 Cloud Storage에 콘텐츠를 저장하는 것이 좋습니다.
데이터 스토어 문서를 만들 때는 Cloud Storage 객체의 URL을 gs://bucket-name/folder-name
형식으로 제공합니다.
폴더 내의 각 문서가 데이터 스토어에 추가됩니다.
Cloud Storage 버킷을 만들 때는 다음을 수행하세요.
- 에이전트에 사용할 프로젝트를 선택했는지 확인합니다.
- Standard Storage 클래스를 사용합니다.
- 버킷 위치를 에이전트와 동일한 위치로 설정합니다.
Cloud Storage 빠른 시작의 안내를 따라 버킷을 만들고 파일을 업로드합니다.
언어
지원되는 언어는 언어 참조의 데이터 스토어 열을 참고하세요.
최상의 성능을 위해서는 데이터 스토어를 단일 언어로 만드는 것이 좋습니다.
데이터 스토어를 만든 후에 선택적으로 데이터 스토어 언어를 지정할 수 있습니다. 데이터 스토어 언어를 설정하면 데이터 스토어를 다른 언어로 구성된 에이전트에 연결할 수 있습니다. 예를 들어 프랑스어 데이터 스토어를 만들어 영어 데이터 에이전트에 연결할 수 있습니다.
지원되는 리전
지원되는 리전은 리전 참조를 확인하세요.
(액세스 제한) 추가 데이터 스토어 소스
추가 데이터 스토어 유형은 다음 표에 나와 있습니다. 액세스가 제한된 기능으로 제공됩니다. 허용 목록 양식을 작성하여 액세스를 요청할 수 있습니다. 승인되면 AI 애플리케이션에서 새 데이터 스토어를 만들 때 이러한 옵션을 볼 수 있습니다.
Google 데이터 스토어 소스
데이터 스토어 소스 | 설명 |
---|---|
Google Drive | 조직 드라이브 링크 |
(미리보기) Google Gmail | 조직의 Gmail 링크 |
(미리보기) Google Sites | 조직의 Sites 링크 |
(미리보기) Google Calendar | 조직의 Calendar 링크 |
(미리보기) Google 그룹스 | 조직의 그룹스 링크 |
서드 파티 데이터 스토어 소스
데이터 스토어 소스 | 설명 |
---|---|
(미리보기) AODocs | AODocs 문서 관리 시스템에서 데이터를 가져옵니다. |
Box | 조직의 Box 사이트에서 데이터를 가져옵니다. |
Confluence Cloud | Confluence Cloud 작업공간에서 데이터를 가져옵니다. |
(미리보기) Confluence Data Center | Confluence Data Center 작업공간에서 데이터를 가져옵니다. |
Dropbox | Dropbox 스토리지에서 데이터를 가져옵니다. |
EntraID | 조직의 EntraID 시스템에서 데이터를 가져옵니다. |
(미리보기) HubSpot | 조직의 HubSpot 사이트에서 데이터를 가져옵니다. |
Jira 클라우드 | Jira 작업 관리 시스템에서 데이터를 가져옵니다. |
(미리보기) Jira 데이터 센터 | Jira Data Center 사이트에서 데이터를 가져옵니다. |
(미리보기) Marketo | 조직의 Marketo 마케팅 시스템에서 데이터를 가져옵니다. |
(미리보기) Notion | 조직의 Notion 작업공간에서 데이터를 가져옵니다. |
OneDrive | 조직의 OneDrive 스토리지에서 데이터를 가져옵니다. |
Microsoft Outlook | Microsoft Outlook에서 데이터를 가져옵니다. |
Salesforce | Salesforce에서 데이터를 가져옵니다. |
ServiceNow | ServiceNow에서 데이터를 가져옵니다. |
SharePoint | 조직의 SharePoint 시스템에서 데이터를 가져옵니다. |
(미리보기) Shopify | 조직의 Shopify 시스템에서 데이터를 가져옵니다. |
Slack | Slack에서 데이터를 가져옵니다. |
Microsoft Teams | Microsoft Teams에서 데이터를 가져옵니다. |
(미리보기) WordPress | 조직의 WordPress 사이트에서 데이터를 가져옵니다. |
커넥터를 사용하여 서드 파티 데이터 스토어 설정
이 섹션에서는 서드 파티 데이터를 사용하여 데이터 저장소를 설정하는 프로세스를 간략히 설명합니다. 각 서드 파티 데이터 소스에 관한 구체적인 안내는 생성형 AI 문서에서 확인할 수 있습니다.
ID 공급업체
ID 공급업체를 사용하면 사용자, 그룹, 인증을 관리할 수 있습니다. 서드 파티 데이터 저장소를 설정할 때 Google ID 공급업체 또는 서드 파티 ID 공급업체를 사용할 수 있습니다.
Google ID 공급업체:
- 에이전트의 모든 사용자는 Google 사용자 인증 정보를 사용하여 로그인해야 합니다.
@gmail.com
이메일 주소 또는 Google을 ID 공급자로 사용하는 계정 (예: Google Workspace)일 수 있습니다. Google ID가 시스템에 자동으로 내장되어 있으므로 사용자가 Google Cloud 를 사용하여 에이전트와 직접 대화하는 경우 이 단계는 건너뜁니다. - IAM을 사용하여 Google 계정에 대한 액세스 권한을 할당할 수 있습니다.
서드 파티 ID 공급업체:
- 에이전트 사용자는 Google 외 사용자 인증 정보(예: Microsoft 이메일 주소)를 사용하여 로그인합니다.
- Google 외 ID 공급업체를 포함하는 Google Cloud 를 사용하여 직원 풀을 만들어야 합니다. 그런 다음 IAM을 사용하여 전체 풀 또는 해당 풀 내의 개별 사용자에게 액세스 권한을 부여할 수 있습니다.
- 이 메서드는
@google.com
조직 아래에 설정된 Google Cloud 프로젝트와 함께 사용할 수 없습니다.
커넥터
서드 파티 데이터 스토어는 커넥터를 사용하여 구현됩니다. 각 커넥터에는 여러 데이터 스토어가 포함될 수 있으며, 이러한 데이터 스토어는 대화형 에이전트 (Dialogflow CX) 시스템에 항목으로 저장됩니다.
데이터 스토어를 만들기 전에 Google Cloud -> Agent Builder -> Settings에서 각 리전을 단일 ID 제공업체로 설정해야 합니다. 해당 리전의 모든 데이터 저장소는 동일한 ID 공급자를 사용합니다. 직원 풀에서 Google ID 또는 서드 파티 ID를 선택할 수 있습니다. 동일한 Google 사용자 인증 정보가 직원 풀에 있는 경우 다른 ID로 간주됩니다. 예를 들어
test@gmail.com
은workforcePools/test-pool/subject/test@gmail.com
과 다른 ID로 간주됩니다.- 필요한 경우 직원 풀을 만듭니다.
- 에이전트 빌더 설정으로 이동하여 Google ID 또는 서드 파티 ID를 선택합니다. 저장을 클릭하여 지역에 ID를 저장합니다.
- 이제 해당 지역에 데이터 스토어를 만들 수 있습니다.
각 데이터 스토어는 각 문서와 함께 액세스 제어 목록 (ACL) 데이터를 저장합니다. 이는 어떤 사용자 또는 그룹이 어떤 항목에 대한 읽기 액세스 권한을 가지고 있는지 기록한 것입니다. 런타임 중에 사용자 또는 그룹 구성원은 읽기 액세스 권한이 있는 엔티티에서 소싱된 에이전트의 응답만 받게 됩니다. 사용자에게 데이터 스토어의 엔티티에 대한 읽기 액세스 권한이 없는 경우 에이전트는 빈 응답을 반환합니다.
데이터 스토어의 데이터는 서드 파티 인스턴스의 사본이므로 주기적으로 새로고침해야 합니다. 시간 또는 일 단위로 새로고침 간격을 구성할 수 있습니다.
데이터 스토어를 구성하고 만들기를 클릭한 후 데이터 스토어가 데이터 스토어 목록에 표시되기까지 최대 1시간이 걸릴 수 있습니다.
데이터 스토어 추적
이 기능은 두 부분으로 구성됩니다.
- 에이전트 시뮬레이터에서 데이터 스토어 내부 실행 추적 및 단계 지연 시간 표시
- 트레이싱 및 지연 시간 데이터를 Cloud Logging 및 BigQuery로 내보내기
시뮬레이터에서 데이터 보기
에이전트 데이터에 추적 및 실행 데이터를 표시하려면 에이전트 응답 오른쪽에 있는 확장 캐럿을 클릭하여 대화 턴에 관한 세부정보를 펼칩니다.
실행 탭에는 다음 정보를 포함한 내부 데이터 스토어 실행 추적이 표시됩니다.
- 원래 사용자 입력입니다.
- 데이터 스토어 엔진에 의해 다시 작성된 쿼리입니다.
- 보안 확인 상태, 안정성 확인 상태, 그라운딩 확인 결과, 안전 확인 상태 등 다양한 실행 단계의 품질 신호입니다.
- 데이터 스토어 검색의 스니펫을 검색합니다.
- 스니펫의 출처가 된 지원 문서 목록입니다.
지연 시간 탭에는 다양한 데이터 저장소 실행 단계의 시간 그래프가 표시됩니다. 단계 목록은 데이터 저장소가 구성된 방식과 실행 흐름에 따라 달라질 수 있습니다. 표시되는 데이터에는 다음이 포함될 수 있습니다.
- FAQ 일치: 데이터 스토어에서 FAQ 일치 단계를 실행했습니다.
- 쿼리 재작성: 데이터 저장소가 원래 사용자 쿼리를 재작성했습니다.
- 검색: 데이터 스토어에서 스니펫 검색을 실행했습니다.
- 요약: 데이터 스토어가 대답을 요약했습니다.
- 안전 확인: 데이터 스토어에서 안전 확인 단계를 실행했습니다.
다른 위치에서 추적 데이터 보기
대화형 에이전트가 대화 기록 로깅으로 구성된 경우 대화 기록에서 데이터 스토어 추적을 볼 수도 있습니다.
대화형 에이전트가 Cloud Logging으로 구성된 경우 클라우드 로그 탐색기에서 트레이싱 및 지연 시간도 볼 수 있습니다.
대화형 에이전트가 BigQuery 내보내기로 구성된 경우 내보낸 BigQuery 테이블에서 트레이싱과 지연 시간을 확인할 수도 있습니다.
다음 단계
데이터 스토어를 만들고 에이전트와 함께 사용하는 방법에 관한 안내는 데이터 스토어 도구 문서를 참고하세요.