資料儲存庫會由資料儲存庫工具使用,從你的資料中找出使用者問題的解答。資料儲存庫是網站、文件或第三方系統資料的集合,其中每個項目都會參照您的資料。
當使用者向代理程式提問時,代理程式會從指定的來源內容中搜尋答案,並將結果統整為連貫的代理程式回覆。還會提供回覆來源的支援連結,方便使用者進一步瞭解。專員最多可針對特定問題提供五個答案摘要。
資料儲存庫來源
您可以提供下列不同來源的資料:
- 網站網址: 從網域或網頁清單中自動檢索網站內容。
- BigQuery: 從 BigQuery 資料表匯入資料。
- Cloud Storage: 從 Cloud Storage bucket 匯入資料。
- AlloyDB: 從 AlloyDB 叢集匯入資料。
- Bigtable: 從 Bigtable 資料表匯入資料。
- Firestore: 從 Firestore 集合匯入資料。
- Cloud SQL: 從 Cloud SQL 資料表匯入資料。
- Spanner: 從 Spanner 資料表匯入資料。
受限存取資料儲存區來源
Google 提供許多額外的第一方和第三方資料儲存庫來源,做為受限存取功能。如要查看可用來源清單及要求存取權,請參閱本頁的「其他資料儲存區來源」一節。
網站內容
新增網站內容做為來源時,
可以新增及排除多個網站。
指定網站時,您可以使用個別網頁或 *
做為模式的萬用字元。系統會處理所有 HTML 和 PDF 內容。
使用網站內容做為來源時,請務必驗證網域。
限制:
- 來自公開網址的檔案必須已由 Google 搜尋索引器檢索,這樣這些檔案才會存在於搜尋索引中。您可以使用 Google Search Console 檢查此結果。
- 最多可建立 200,000 個頁面的索引。如果資料存放區包含更多網頁,索引作業就會在該時間點失敗。已建立索引的內容將會保留。
匯入資料
您可以從 BigQuery 或 Cloud Storage 匯入資料。這類資料可以是常見問題集或非結構化資料,也可以包含中繼資料或不含中繼資料。
可用的資料匯入選項如下:
- 新增/更新資料: 提供的文件會新增至資料儲存庫。 如果新文件與舊文件的 ID 相同,新文件就會取代舊文件。
- 覆寫現有資料: 刪除所有舊資料, 然後上傳新資料。 這項操作無法復原。
常見問題資料儲存庫
常見問題資料存放區可存放常見問題的解答。 如果系統高度確信使用者問題與上傳的問題相符,代理程式就會傳回該問題的答案,不會進行任何修改。你可以為代理程式顯示的每個問答配對提供標題和網址。
資料必須以 CSV
格式上傳至資料存放區。每個檔案都必須有標題列,說明各個資料欄。
例如:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
title
和 url
欄為選用欄位,可以省略:
"answer","question"
"42","What is the meaning of life?"
上傳期間,您可以選取資料夾,系統會將每個檔案視為 CSV
檔案,無論副檔名為何。
限制:
,
後方多餘的空格字元會導致錯誤。- 空白行 (即使位於檔案結尾) 會導致錯誤。
非結構化資料儲存庫
非結構化資料儲存庫可包含下列格式的內容:
HTML
PDF
TXT
CSV
您可以從其他專案的 Cloud Storage bucket 匯入檔案,但這種情況並不常見。如要這麼做,您必須明確授予匯入程序存取權。請按照錯誤訊息中的操作說明,找出需要讀取存取權的使用者名稱,才能匯入資料夾。
限制:
- 文字格式的檔案大小上限為 2.5 MB,其他格式則為 100 MB。
包含中繼資料的資料儲存庫
標題和 URL
可做為中繼資料提供。
當代理程式與使用者對話時,可以向使用者提供這項資訊。這有助於使用者快速連結至 Google 搜尋索引器無法存取的內部網頁。
如要匯入含中繼資料的內容,請提供一或多個 JSON Lines 檔案。這個檔案的每一行都說明一個文件。您不會直接上傳實際文件,而是URIs
在 JSON Lines 檔案中提供 Cloud Storage 路徑的連結。
如要提供 JSON Lines 檔案,請提供包含這些檔案的 Cloud Storage 資料夾。請勿將任何其他檔案放入這個資料夾。
欄位說明:
欄位 | 類型 | 說明 |
---|---|---|
id | 字串 | 文件的專屬 ID。 |
content.mimeType | 字串 | 文件的 MIME 類型。支援「application/pdf」和「text/html」。 |
content.uri | 字串 | Cloud Storage 中文件的 URI。 |
structData | 字串 | 單行 JSON 物件,可選擇性包含 title 和 url 欄位。 |
例如:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
沒有中繼資料的資料儲存庫
這類內容沒有中繼資料。而是提供個別文件的 URI 連結。內容類型取決於副檔名。
剖析和分塊設定
視資料來源而定,您或許可以設定 Vertex AI Search 定義的剖析和分塊設定。
使用 Cloud Storage 做為資料存放區文件
如果內容不公開,建議將內容儲存在 Cloud Storage。建立資料存放區文件時,請以以下格式提供 Cloud Storage 物件的 URL:
gs://bucket-name/folder-name
。
資料夾中的每個文件都會新增至資料儲存庫。
建立 Cloud Storage 值區時,請注意下列事項:
- 請務必選取用於代理程式的專案。
- 使用 Standard Storage 級別。
- 將bucket 位置設為與代理程式相同的位置。
按照 Cloud Storage 快速入門操作說明建立值區並上傳檔案。
語言
如需支援的語言,請參閱語言參考資料中的資料儲存庫欄。
為獲得最佳成效,建議您以單一語言建立資料存放區。
建立資料儲存庫後,您可以選擇指定資料儲存庫語言。設定資料儲存庫語言後,您可以將資料儲存庫連結至設定為其他語言的代理程式。舉例來說,您可以建立連結至英文代理程式的法文資料儲存庫。
支援的地區
如需支援的區域,請參閱區域參考資料。
(存取受限) 其他資料儲存空間來源
下表列出其他資料儲存類型。這些功能屬於存取限制功能,如要申請存取權,請填寫許可清單表單。獲得核准後,您在 AI 應用程式中建立新的資料儲存庫時,就會看到這些選項。
Google 資料儲存庫來源
資料儲存庫來源 | 說明 |
---|---|
Google 雲端硬碟 | 貴機構雲端硬碟的連結。 |
(預覽版) Google Gmail | 貴機構 Gmail 的連結。 |
(預覽版) Google 協作平台 | 貴機構的 Google 協作平台連結。 |
(預覽版) Google 日曆 | 貴機構的 Google 日曆連結。 |
(預先發布版) Google 網路論壇 | 貴機構網路論壇的連結。 |
第三方資料儲存來源
資料儲存庫來源 | 說明 |
---|---|
(預覽版) AODocs | 從 AODocs 文件管理系統匯入資料。 |
Box | 從貴機構的 Box 網站匯入資料。 |
Confluence Cloud | 從 Confluence Cloud 工作區匯入資料。 |
(預先發布版) Confluence Data Center | 從 Confluence Data Center 工作區匯入資料。 |
Dropbox | 從 Dropbox 儲存空間匯入資料。 |
EntraID | 從貴機構的 EntraID 系統匯入資料。 |
(預先發布版) HubSpot | 從貴機構的 HubSpot 網站匯入資料。 |
Jira Cloud | 從 Jira 工作管理系統匯入資料。 |
(預先發布版) Jira Data Center | 從 Jira Data Center 網站匯入資料。 |
(預先發布版) Marketo | 從貴機構的 Marketo 行銷系統匯入資料。 |
(預覽版) Notion | 從貴機構的 Notion 工作區匯入資料。 |
OneDrive | 從貴機構的 OneDrive 儲存空間匯入資料。 |
Microsoft Outlook | 從 Microsoft Outlook 匯入資料。 |
Salesforce | 從 Salesforce 匯入資料。 |
ServiceNow | 從 ServiceNow 匯入資料。 |
SharePoint | 從貴機構的 SharePoint 系統匯入資料。 |
(預先發布版) Shopify | 從貴機構的 Shopify 系統匯入資料。 |
Slack | 從 Slack 匯入資料。 |
Microsoft Teams | 從 Microsoft Teams 匯入資料。 |
(預覽版) WordPress | 從貴機構的 WordPress 網站匯入資料。 |
使用連接器設定第三方資料存放區
本節說明如何使用第三方資料設定資料儲存庫。如需各第三方資料來源的具體操作說明,請參閱生成式 AI 說明文件。
識別資訊提供者
身分識別提供者可讓您管理使用者、群組和驗證。設定第三方資料存放區時,您可以選擇使用 Google 識別資訊提供者或第三方識別資訊提供者。
Google 識別資訊提供者:
- 使用代理程式的所有使用者都必須使用 Google 憑證登入。可以是任何
@gmail.com
電子郵件地址,也可以是使用 Google 做為身分識別提供者 (例如 Google Workspace) 的任何帳戶。如果使用者直接使用 Google Cloud 與代理程式交談,系統會自動建立 Google 身分,因此會略過這個步驟。 - 您可以使用 IAM 指派 Google 帳戶的存取權。
第三方識別資訊提供者:
- 代理程式使用者會使用非 Google 憑證登入,例如 Microsoft 電子郵件地址。
- 您必須使用 Google Cloud 建立工作團隊集區,其中包含非 Google 識別資訊提供者。接著,您可以使用 IAM 授予整個集區或集區內個別使用者的存取權。
- 這個方法無法用於在
@google.com
機構下設定的任何 Google Cloud 專案。
連接器
第三方資料儲存庫是透過連接器實作。每個連結器可包含多個資料儲存庫,這些資料儲存庫會以實體的形式儲存在對話式代理程式 (Dialogflow CX) 系統中。
建立資料儲存庫前,請務必先在 Google Cloud -> Agent Builder -> Settings 中,為每個區域設定單一身分識別提供者。該區域中的所有資料儲存區都會使用相同的身分識別提供者。您可以選擇 Google 身分或工作團隊集區中的第三方身分。如果 Google 憑證位於員工集區中,系統會將其視為不同身分。舉例來說,
test@gmail.com
和workforcePools/test-pool/subject/test@gmail.com
會被視為不同身分。- 視需要建立工作團隊集區。
- 依序前往「Agent Builder」>「設定」,然後選取「Google 身分」或「第三方身分」。按一下「儲存」,將身分儲存至區域。
- 您現在可以在該區域建立資料儲存庫。
每個資料儲存庫都會將存取控制清單 (ACL) 資料與每份文件一併儲存。這份記錄會列出哪些使用者或群組具有哪些實體的讀取權。在執行階段,使用者或群組成員只會收到來自代理程式的回覆,而這些代理程式的來源是使用者有讀取權限的實體。如果使用者沒有資料存放區中任何實體的讀取權限,代理程式會傳回空白回應。
由於資料存放區中的資料是第三方執行個體的副本,因此需要定期重新整理。您可以設定以小時或天為單位的更新間隔。
設定資料儲存庫並點選「建立」後,資料儲存庫最多可能需要一小時才會顯示在資料儲存庫清單中。
資料儲存庫追蹤
這項功能包含兩個部分:
- 在代理程式模擬器中顯示資料儲存庫內部執行追蹤記錄和步驟延遲。
- 將追蹤記錄和延遲時間資料匯出至 Cloud Logging 和 BigQuery。
在模擬器中查看資料
如要在代理程式資料中顯示追蹤和執行資料,請按一下代理程式回覆右側的展開符號,展開對話輪次的詳細資料。
「執行」分頁會顯示內部資料存放區執行追蹤記錄,包括下列資訊:
- 原始使用者輸入內容。
- 資料儲存庫引擎重新撰寫的查詢。
- 各執行步驟期間的品質信號,包括安全檢查狀態、穩定性檢查狀態、基礎檢查結果和安全檢查狀態。
- 從資料儲存庫搜尋結果中尋找摘要。
- 摘要的來源文件清單。
「延遲時間」分頁會顯示各種資料存放區執行步驟的時間圖表。步驟清單可能因資料存放區的設定方式和執行流程而異。顯示的資料可能包括:
- 常見問題比對:資料儲存庫已執行常見問題比對步驟。
- 查詢改寫:資料存放區改寫了原始使用者查詢。
- 搜尋:資料儲存庫執行了程式碼片段搜尋。
- 摘要:資料儲存庫摘要說明瞭回覆內容。
- 安全檢查:資料存放區已執行安全檢查步驟。
查看其他位置的追蹤資料
如果對話式代理程式已設定對話記錄記錄,您也可以在「對話記錄」中查看資料儲存庫追蹤記錄。
如果對話式代理程式已設定 Cloud Logging,您也可以在雲端記錄檔探索工具中查看追蹤記錄和延遲時間。
如果對話式代理程式已設定匯出至 BigQuery,您也可以在匯出的 BigQuery 資料表中查看追蹤記錄和延遲時間。
後續步驟
如需建立資料儲存庫並搭配虛擬服務專員使用的操作說明,請參閱資料儲存庫工具說明文件。