資料儲存庫

資料儲存庫會由資料儲存庫工具使用,從你的資料中找出使用者問題的解答。資料儲存庫是網站、文件或第三方系統資料的集合,其中每個項目都會參照您的資料。

當使用者向代理程式提問時,代理程式會從指定的來源內容中搜尋答案,並將結果統整為連貫的代理程式回覆。還會提供回覆來源的支援連結,方便使用者進一步瞭解。專員最多可針對特定問題提供五個答案摘要。

資料儲存庫來源

您可以提供下列不同來源的資料:

  • 網站網址: 從網域或網頁清單中自動檢索網站內容
  • BigQuery: 從 BigQuery 資料表匯入資料
  • Cloud Storage: 從 Cloud Storage bucket 匯入資料
  • AlloyDB: 從 AlloyDB 叢集匯入資料。
  • Bigtable: 從 Bigtable 資料表匯入資料。
  • Firestore: 從 Firestore 集合匯入資料。
  • Cloud SQL: 從 Cloud SQL 資料表匯入資料。
  • Spanner: 從 Spanner 資料表匯入資料。

受限存取資料儲存區來源

Google 提供許多額外的第一方和第三方資料儲存庫來源,做為受限存取功能。如要查看可用來源清單及要求存取權,請參閱本頁的「其他資料儲存區來源」一節。

網站內容

新增網站內容做為來源時, 可以新增及排除多個網站。 指定網站時,您可以使用個別網頁或 * 做為模式的萬用字元。系統會處理所有 HTML 和 PDF 內容。

使用網站內容做為來源時,請務必驗證網域

限制:

  • 來自公開網址的檔案必須已由 Google 搜尋索引器檢索,這樣這些檔案才會存在於搜尋索引中。您可以使用 Google Search Console 檢查此結果。
  • 最多可建立 200,000 個頁面的索引。如果資料存放區包含更多網頁,索引作業就會在該時間點失敗。已建立索引的內容將會保留。

匯入資料

您可以從 BigQuery 或 Cloud Storage 匯入資料。這類資料可以是常見問題集非結構化資料,也可以包含中繼資料不含中繼資料

可用的資料匯入選項如下:

  • 新增/更新資料: 提供的文件會新增至資料儲存庫。 如果新文件與舊文件的 ID 相同,新文件就會取代舊文件。
  • 覆寫現有資料: 刪除所有舊資料, 然後上傳新資料。 這項操作無法復原。

常見問題資料儲存庫

常見問題資料存放區可存放常見問題的解答。 如果系統高度確信使用者問題與上傳的問題相符,代理程式就會傳回該問題的答案,不會進行任何修改。你可以為代理程式顯示的每個問答配對提供標題和網址。

資料必須以 CSV 格式上傳至資料存放區。每個檔案都必須有標題列,說明各個資料欄。

例如:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

titleurl 欄為選用欄位,可以省略:

"answer","question"
"42","What is the meaning of life?"

上傳期間,您可以選取資料夾,系統會將每個檔案視為 CSV 檔案,無論副檔名為何。

限制:

  • , 後方多餘的空格字元會導致錯誤。
  • 空白行 (即使位於檔案結尾) 會導致錯誤。

非結構化資料儲存庫

非結構化資料儲存庫可包含下列格式的內容:

  • HTML
  • PDF
  • TXT
  • CSV

您可以從其他專案的 Cloud Storage bucket 匯入檔案,但這種情況並不常見。如要這麼做,您必須明確授予匯入程序存取權。請按照錯誤訊息中的操作說明,找出需要讀取存取權的使用者名稱,才能匯入資料夾。

限制:

  • 文字格式的檔案大小上限為 2.5 MB,其他格式則為 100 MB。

包含中繼資料的資料儲存庫

標題和 URL 可做為中繼資料提供。 當代理程式與使用者對話時,可以向使用者提供這項資訊。這有助於使用者快速連結至 Google 搜尋索引器無法存取的內部網頁。

如要匯入含中繼資料的內容,請提供一或多個 JSON Lines 檔案。這個檔案的每一行都說明一個文件。您不會直接上傳實際文件,而是URIs在 JSON Lines 檔案中提供 Cloud Storage 路徑的連結。

如要提供 JSON Lines 檔案,請提供包含這些檔案的 Cloud Storage 資料夾。請勿將任何其他檔案放入這個資料夾。

欄位說明:

欄位 類型 說明
id 字串 文件的專屬 ID。
content.mimeType 字串 文件的 MIME 類型。支援「application/pdf」和「text/html」。
content.uri 字串 Cloud Storage 中文件的 URI。
structData 字串 單行 JSON 物件,可選擇性包含 titleurl 欄位。

例如:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

沒有中繼資料的資料儲存庫

這類內容沒有中繼資料。而是提供個別文件的 URI 連結。內容類型取決於副檔名。

剖析和分塊設定

視資料來源而定,您或許可以設定 Vertex AI Search 定義的剖析和分塊設定

使用 Cloud Storage 做為資料存放區文件

如果內容不公開,建議將內容儲存在 Cloud Storage。建立資料存放區文件時,請以以下格式提供 Cloud Storage 物件的 URL: gs://bucket-name/folder-name。 資料夾中的每個文件都會新增至資料儲存庫。

建立 Cloud Storage 值區時,請注意下列事項:

按照 Cloud Storage 快速入門操作說明建立值區並上傳檔案。

語言

如需支援的語言,請參閱語言參考資料中的資料儲存庫欄。

為獲得最佳成效,建議您以單一語言建立資料存放區。

建立資料儲存庫後,您可以選擇指定資料儲存庫語言。設定資料儲存庫語言後,您可以將資料儲存庫連結至設定為其他語言的代理程式。舉例來說,您可以建立連結至英文代理程式的法文資料儲存庫。

支援的地區

如需支援的區域,請參閱區域參考資料

(存取受限) 其他資料儲存空間來源

下表列出其他資料儲存類型。這些功能屬於存取限制功能,如要申請存取權,請填寫許可清單表單。獲得核准後,您在 AI 應用程式中建立新的資料儲存庫時,就會看到這些選項。

Google 資料儲存庫來源

資料儲存庫來源 說明
Google 雲端硬碟 貴機構雲端硬碟的連結。
(預覽版) Google Gmail 貴機構 Gmail 的連結。
(預覽版) Google 協作平台 貴機構的 Google 協作平台連結。
(預覽版) Google 日曆 貴機構的 Google 日曆連結。
(預先發布版) Google 網路論壇 貴機構網路論壇的連結。

第三方資料儲存來源

資料儲存庫來源 說明
(預覽版) AODocs 從 AODocs 文件管理系統匯入資料。
Box 從貴機構的 Box 網站匯入資料。
Confluence Cloud 從 Confluence Cloud 工作區匯入資料。
(預先發布版) Confluence Data Center 從 Confluence Data Center 工作區匯入資料。
Dropbox 從 Dropbox 儲存空間匯入資料。
EntraID 從貴機構的 EntraID 系統匯入資料。
(預先發布版) HubSpot 從貴機構的 HubSpot 網站匯入資料。
Jira Cloud 從 Jira 工作管理系統匯入資料。
(預先發布版) Jira Data Center 從 Jira Data Center 網站匯入資料。
(預先發布版) Marketo 從貴機構的 Marketo 行銷系統匯入資料。
(預覽版) Notion 從貴機構的 Notion 工作區匯入資料。
OneDrive 從貴機構的 OneDrive 儲存空間匯入資料。
Microsoft Outlook 從 Microsoft Outlook 匯入資料。
Salesforce 從 Salesforce 匯入資料。
ServiceNow 從 ServiceNow 匯入資料。
SharePoint 從貴機構的 SharePoint 系統匯入資料。
(預先發布版) Shopify 從貴機構的 Shopify 系統匯入資料。
Slack 從 Slack 匯入資料。
Microsoft Teams 從 Microsoft Teams 匯入資料。
(預覽版) WordPress 從貴機構的 WordPress 網站匯入資料。

使用連接器設定第三方資料存放區

本節說明如何使用第三方資料設定資料儲存庫。如需各第三方資料來源的具體操作說明,請參閱生成式 AI 說明文件

識別資訊提供者

身分識別提供者可讓您管理使用者、群組和驗證。設定第三方資料存放區時,您可以選擇使用 Google 識別資訊提供者或第三方識別資訊提供者。

Google 識別資訊提供者:

  • 使用代理程式的所有使用者都必須使用 Google 憑證登入。可以是任何 @gmail.com電子郵件地址,也可以是使用 Google 做為身分識別提供者 (例如 Google Workspace) 的任何帳戶。如果使用者直接使用 Google Cloud 與代理程式交談,系統會自動建立 Google 身分,因此會略過這個步驟。
  • 您可以使用 IAM 指派 Google 帳戶的存取權。

第三方識別資訊提供者:

  • 代理程式使用者會使用非 Google 憑證登入,例如 Microsoft 電子郵件地址。
  • 您必須使用 Google Cloud 建立工作團隊集區,其中包含非 Google 識別資訊提供者。接著,您可以使用 IAM 授予整個集區或集區內個別使用者的存取權。
  • 這個方法無法用於在@google.com機構下設定的任何 Google Cloud 專案。

連接器

第三方資料儲存庫是透過連接器實作。每個連結器可包含多個資料儲存庫,這些資料儲存庫會以實體的形式儲存在對話式代理程式 (Dialogflow CX) 系統中。

  • 建立資料儲存庫前,請務必先在 Google Cloud -> Agent Builder -> Settings 中,為每個區域設定單一身分識別提供者。該區域中的所有資料儲存區都會使用相同的身分識別提供者。您可以選擇 Google 身分或工作團隊集區中的第三方身分。如果 Google 憑證位於員工集區中,系統會將其視為不同身分。舉例來說,test@gmail.comworkforcePools/test-pool/subject/test@gmail.com 會被視為不同身分。

    • 視需要建立工作團隊集區
    • 依序前往「Agent Builder」>「設定」,然後選取「Google 身分」或「第三方身分」。按一下「儲存」,將身分儲存至區域。
    • 您現在可以在該區域建立資料儲存庫。
  • 每個資料儲存庫都會將存取控制清單 (ACL) 資料與每份文件一併儲存。這份記錄會列出哪些使用者或群組具有哪些實體的讀取權。在執行階段,使用者或群組成員只會收到來自代理程式的回覆,而這些代理程式的來源是使用者有讀取權限的實體。如果使用者沒有資料存放區中任何實體的讀取權限,代理程式會傳回空白回應。

  • 由於資料存放區中的資料是第三方執行個體的副本,因此需要定期重新整理。您可以設定以小時或天為單位的更新間隔。

  • 設定資料儲存庫並點選「建立」後,資料儲存庫最多可能需要一小時才會顯示在資料儲存庫清單中。

資料儲存庫追蹤

這項功能包含兩個部分:

  1. 在代理程式模擬器中顯示資料儲存庫內部執行追蹤記錄和步驟延遲。
  2. 將追蹤記錄和延遲時間資料匯出至 Cloud Logging 和 BigQuery。

在模擬器中查看資料

如要在代理程式資料中顯示追蹤和執行資料,請按一下代理程式回覆右側的展開符號,展開對話輪次的詳細資料。

「執行」分頁會顯示內部資料存放區執行追蹤記錄,包括下列資訊:

  • 原始使用者輸入內容。
  • 資料儲存庫引擎重新撰寫的查詢。
  • 各執行步驟期間的品質信號,包括安全檢查狀態、穩定性檢查狀態、基礎檢查結果和安全檢查狀態。
  • 從資料儲存庫搜尋結果中尋找摘要。
  • 摘要的來源文件清單。

「延遲時間」分頁會顯示各種資料存放區執行步驟的時間圖表。步驟清單可能因資料存放區的設定方式和執行流程而異。顯示的資料可能包括:

  • 常見問題比對:資料儲存庫已執行常見問題比對步驟。
  • 查詢改寫:資料存放區改寫了原始使用者查詢。
  • 搜尋:資料儲存庫執行了程式碼片段搜尋。
  • 摘要:資料儲存庫摘要說明瞭回覆內容。
  • 安全檢查:資料存放區已執行安全檢查步驟。

查看其他位置的追蹤資料

  • 如果對話式代理程式已設定對話記錄記錄,您也可以在「對話記錄」中查看資料儲存庫追蹤記錄。

  • 如果對話式代理程式已設定 Cloud Logging,您也可以在雲端記錄檔探索工具中查看追蹤記錄和延遲時間。

  • 如果對話式代理程式已設定匯出至 BigQuery,您也可以在匯出的 BigQuery 資料表中查看追蹤記錄和延遲時間。

後續步驟

如需建立資料儲存庫並搭配虛擬服務專員使用的操作說明,請參閱資料儲存庫工具說明文件。