文件拆分工具行為
分割器處理器輸出內容包含輸入文件的分割資訊,包括信賴分數。Document AI API 會輸出 Document
JSON 物件,輸出格式則會使用 entities
欄位表示文件分割。其他資訊視特定類型的分配器而定。
Entity.type
指定文件分類。如需可識別的文件類型完整清單,請參閱下列清單。Entity.pageAnchor.pageRefs[]
指定包含各個子文件的網頁。請注意,pageRefs[].page
是從零開始計算,也是document.pages[]
欄位的索引。
分割器不適合用來分割超過 30 頁的邏輯文件。如果邏輯文件超過 30 頁 (例如 40 頁的銀行對帳單),可能會分成兩份以上的文件,並分別歸類。
分隔符會標示頁面邊界,但不會實際分割輸入文件。 Document AI Toolbox SDK 提供公用程式函式,可根據分割器處理器的輸出內容分割輸入文件。
識別的文件類型
[1] 這份表單的對應剖析器不支援這個文件類型。這表示分割器可以識別及分類這類文件,但 Document AI 不提供剖析器來擷取資訊。
輸出範例
處理器 | 輸出內容範例 |
---|
程式碼範例
分割器會識別頁面邊界,但不會實際分割輸入文件。您可以使用 Document AI 工具箱,依據頁面界線實際分割 PDF 檔案。下列程式碼範例會列印頁面範圍,而不分割 PDF:
Java
詳情請參閱 Document AI Java API 參考說明文件。
如要向 Document AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Node.js
詳情請參閱 Document AI Node.js API 參考說明文件。
如要向 Document AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Python
詳情請參閱 Document AI Python API 參考說明文件。
如要向 Document AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。
Document
的頁面界線分割 PDF 檔案。
Python
詳情請參閱 Document AI Python API 參考說明文件。
如要向 Document AI 進行驗證,請設定應用程式預設憑證。 詳情請參閱「為本機開發環境設定驗證」。