数据存储区

数据存储区可供数据存储区工具从您的数据中查找最终用户问题的解答。 数据存储区是指一组网站、文档或第三方系统中的数据,它们各自引用您的数据。

当最终用户向代理提出问题时,代理会从给定的来源内容中搜索答案,并将结果汇总为连贯的代理回答。它还提供指向回答来源的支持链接,供最终用户了解详情。 代理可以针对指定问题提供最多五个回答摘要。

数据存储区来源

您可以为数据提供不同的来源:

  • 网站网址:自动从网域或网页列表中抓取网站内容
  • BigQuery:从 BigQuery 表导入数据
  • Cloud Storage: 从 Cloud Storage 存储桶导入数据
  • AlloyDB: 从 AlloyDB 集群导入数据。
  • Bigtable:从 Bigtable 表导入数据。
  • Firestore: 从 Firestore 集合导入数据。
  • Cloud SQL:从 Cloud SQL 表导入数据。
  • Spanner: 从 Spanner 表中导入数据。

受限访问数据存储区来源

Google 还提供了许多其他第一方和第三方数据存储区来源,但这些来源属于受限访问功能。如需查看可用来源的列表并申请访问权限,请参阅本页面上的其他数据存储区来源部分。

网站内容

添加网站内容作为来源时,您可以添加和排除多个网站。 指定网站时,您可以使用单个网页或 * 作为模式的通配符。系统将处理所有 HTML 和 PDF 内容。

使用网站内容作为来源时,您必须验证网域

限制:

  • 来自公共网址的文件必须已被 Google 搜索索引器抓取,因此存在于搜索索引中。您可以使用 Google Search Console 检查是否满足此项要求。
  • 编入索引的网页数量上限为 20 万。如果数据存储区包含更多网页,则索引编制会在此时失败。已编入索引的任何内容都将保留。

导入数据

您可以从 BigQuery 或 Cloud Storage 导入数据。这些数据可以是 FAQ 形式非结构化,并且可以包含元数据不包含元数据

您可以使用以下数据导入选项

  • 添加/更新数据:提供的文档会添加到数据存储区。 如果新文档与旧文档具有相同的 ID,则新文档会替换旧文档。
  • 覆盖现有数据:系统会删除所有旧数据,然后上传新数据。 此操作无法撤消。

常见问题解答数据存储区

FAQ 数据存储区可以包含常见问题解答 (FAQ)。 如果用户问题与上传的问题高度匹配,代理会返回该问题的答案,而不会进行任何修改。您可以为代理显示的问题和答案对提供标题和网址。

数据必须以 CSV 格式上传到数据存储区。每个文件都必须包含一个描述列的标题行。

例如:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

titleurl 列是可选的,可以省略:

"answer","question"
"42","What is the meaning of life?"

在上传过程中,您可以选择一个文件夹,其中每个文件都被视为 CSV 文件,无论其扩展名是什么。

限制:

  • , 后面多余的空格字符会导致错误。
  • 空白行(即使位于文件末尾)也会导致错误。

非结构化数据存储区

非结构化数据存储区可以包含以下格式的内容:

  • HTML
  • PDF
  • TXT
  • CSV

虽然不常见,但可以从其他项目的 Cloud Storage 存储桶导入文件。为此,您需要向导入流程授予明确的访问权限。按照错误消息中的说明操作,其中会包含需要对相应存储桶拥有读取权限才能执行导入操作的用户的名称。

限制:

  • 对于基于文本的格式,文件大小上限为 2.5MB;对于其他格式,文件大小上限为 100MB。

包含元数据的数据存储区

可以提供标题和 URL 作为元数据。当代理与用户进行对话时,代理可以向用户提供此信息。这有助于用户快速链接到 Google 搜索索引器无法访问的内部网页。

如需导入包含元数据的内容,您必须提供一个或多个 JSON 行文件。此文件的每一行都描述一个文档。您不会直接上传实际文档;URIsJSON 行文件中会提供指向 Cloud Storage 路径的链接。

为了提供 JSON Lines 文件,您必须提供包含这些文件的 Cloud Storage 文件夹。请勿将任何其他文件放入此文件夹中。

字段说明:

字段 类型 说明
id 字符串 相应文档的唯一标识符。
content.mimeType 字符串 文档的 MIME 类型。支持“application/pdf”和“text/html”。
content.uri 字符串 Cloud Storage 中相应文档的 URI。
structData 字符串 包含可选 titleurl 字段的单行 JSON 对象。

例如:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

没有元数据的数据存储区

此类内容没有元数据。而是提供指向各个文档的 URI 链接。内容类型由文件扩展名决定。

解析和分块配置

根据数据源的不同,您或许可以配置 Vertex AI Search 定义的解析和分块设置

将 Cloud Storage 用于数据存储区文档

如果您的内容不是公开的,建议您将内容存储在 Cloud Storage 中。创建数据存储区文档时,您需要以以下形式提供 Cloud Storage 对象的网址:gs://bucket-name/folder-name。文件夹中的每个文档都会添加到数据存储区。

创建 Cloud Storage 存储桶时,请注意以下几点:

按照 Cloud Storage 快速入门中的说明创建存储分区并上传文件。

语言

如需了解支持的语言,请参阅语言参考中的数据存储区列。

为获得最佳性能,建议以单一语言创建数据存储区。

创建数据存储区后,您可以选择指定数据存储区语言。如果您设置了数据存储区语言,则可以将数据存储区连接到配置为其他语言的代理。例如,您可以创建一个与英语代理相关联的法语数据存储区。

支持的区域

如需查看支持的区域,请参阅区域参考

(访问受限)其他数据存储区来源

下表列出了其他数据存储区类型。这些功能以受限访问功能的形式提供。您可以填写许可名单表单来申请访问权限。获得批准后,您在 AI 应用中创建新的数据存储区时,将能够看到这些选项。

Google 数据存储区来源

数据存储区来源 说明
Google 云端硬盘 指向贵组织的云端硬盘的链接。
(预览版)Google Gmail 指向贵组织的 Gmail 的链接。
(预览版)Google 协作平台 指向组织的协作平台的链接。
(预览版)Google 日历 指向组织的日历的链接。
(预览版)Google 群组 指向贵组织的群组的链接。

第三方数据存储区来源

数据存储区来源 说明
(预览版)AODocs 从 AODocs 文档管理系统导入数据。
Box 从组织的 Box 网站导入数据。
Confluence Cloud 从 Confluence Cloud 工作区导入数据。
(预览版)Confluence Data Center 从 Confluence Data Center 工作区导入数据。
Dropbox 从 Dropbox 存储空间导入数据。
EntraID 从组织的 EntraID 系统导入数据。
(预览版)HubSpot 从组织的 HubSpot 网站导入数据。
Jira Cloud 从 Jira 任务管理系统导入数据。
(预览版)Jira Data Center 从 Jira Data Center 网站导入数据。
(预览版)Marketo 从组织的 Marketo 营销系统导入数据。
(预览版)Notion 从组织的 Notion 工作区导入数据。
OneDrive 从组织的 OneDrive 存储空间导入数据。
Microsoft Outlook 从 Microsoft Outlook 导入数据。
Salesforce 从 Salesforce 导入数据。
ServiceNow 从 ServiceNow 导入数据。
SharePoint 从组织的 SharePoint 系统导入数据。
(预览版)Shopify 从组织的 Shopify 系统导入数据。
Slack 从 Slack 导入数据。
Microsoft Teams 从 Microsoft Teams 导入数据。
(预览版)WordPress 从组织的 WordPress 网站导入数据。

使用连接器设置第三方数据存储区

本部分概述了使用第三方数据设置数据存储区的流程。有关每种第三方数据源的具体说明,请参阅生成式 AI 文档

身份提供方

身份提供商可让您管理用户、群组和身份验证。设置第三方数据存储区时,您可以选择使用 Google 身份提供方或第三方身份提供方。

Google 身份提供方

  • 代理的任何用户都需要使用自己的 Google 凭据登录。可以是任何 @gmail.com 电子邮件地址,也可以是使用 Google 作为身份提供商的任何账号(例如 Google Workspace)。如果用户使用 Google Cloud 直接与代理对话,则会跳过此步骤,因为 Google 身份会自动内置到系统中。
  • 您可以使用 IAM 为 Google 账号分配访问权限。

第三方身份提供商

  • 代理的用户使用非 Google 凭据(例如 Microsoft 电子邮件地址)登录。
  • 您必须使用 Google Cloud 创建包含非 Google 身份提供方的员工池。然后,您可以使用 IAM 授予对整个池或该池中个别用户的访问权限。
  • 此方法无法用于在 @google.com 组织下设置的任何 Google Cloud 项目。

连接器

第三方数据存储区通过连接器实现。每个连接器可以包含多个数据存储区,这些数据存储区在对话式代理 (Dialogflow CX) 系统中存储为实体

  • 在创建数据存储区之前,您必须在 Google Cloud -> Agent Builder ->“设置”中为每个区域设置单个身份提供方。相应区域中的所有数据存储区都将使用相同的身份提供方。您可以选择员工身份池中的 Google 身份或第三方身份。如果同一 Google 凭据位于员工身份池中,则会被视为不同的身份。例如,test@gmail.com 被视为与 workforcePools/test-pool/subject/test@gmail.com 不同的身份。

    • 创建员工池(如果需要)。
    • 前往 Agent Builder 设置,然后选择 Google 身份第三方身份。点击保存以将身份保存到相应地区。
    • 您现在可以在该区域中创建数据存储区。
  • 每个数据存储区都会随每个文档保存访问控制列表 (ACL) 数据。此记录用于指明哪些用户或群组对哪些实体具有读取权限。在运行时,用户或群组成员会收到来自代理的响应,而这些代理的来源实体是用户或群组成员具有读取权限的实体。如果用户对数据存储区中的任何实体都没有读取权限,代理将返回空响应。

  • 由于数据存储区中的数据是第三方实例的副本,因此需要定期刷新。您可以按小时或天为时间单位配置刷新间隔。

  • 配置数据存储区并点击创建后,数据存储区可能需要长达 1 小时才能显示在数据存储区列表中。

数据存储区跟踪记录

此功能包含两部分:

  1. 在代理模拟器中显示数据存储区内部执行轨迹和步延迟。
  2. 将轨迹和延迟时间数据导出到 Cloud Logging 和 BigQuery。

在模拟器中查看数据

如需在代理数据中显示跟踪和执行数据,请点击代理回答右侧的展开箭头,展开对话轮次的详细信息。

执行标签页会显示内部数据存储区执行轨迹,包括以下信息:

  • 原始用户输入。
  • 数据存储区引擎重写后的查询。
  • 各种执行步骤期间的质量信号,包括安全检查状态、稳定性检查状态、事实依据检查结果和安全检查状态。
  • 数据存储区搜索中的搜索摘要。
  • 相应摘要的来源支持文档列表。

延迟时间标签页会显示各种数据存储区执行步骤的时间图。步骤列表可能会因数据存储区的配置方式以及执行流程而异。显示的数据可能包括以下内容:

  • 常见问题匹配:数据存储区执行了常见问题匹配步骤。
  • 查询重写:数据存储区重写了原始用户查询。
  • 搜索:数据存储区执行了摘要搜索。
  • 总结:数据存储区总结了回答。
  • 安全检查:数据存储区执行了安全检查步骤。

查看其他位置的轨迹数据

  • 如果对话型代理配置了对话历史记录日志记录,您还可以在对话历史记录中查看数据存储区跟踪信息。

  • 如果对话式代理配置了 Cloud Logging,您还可以在云端日志浏览器中查看轨迹和延迟时间。

  • 如果对话式代理已配置 BigQuery 导出,您还可以在导出的 BigQuery 表中查看轨迹和延迟时间。

后续步骤

如需了解如何创建数据存储区并将其与代理搭配使用,请参阅数据存储区工具文档。