Dokumente mit Formularparser verarbeiten
Der Formularparser extrahiert Schlüssel/Wert-Paare, Tabellen, Auswahlmarkierungen (z. B. Checkboxen), generische Felder und Text, um die Dokumentverarbeitung zu optimieren und zu automatisieren.
Form Parser kann gegenüber den anderen Parsern in Betracht gezogen werden, wenn der Anwendungsfall Folgendes umfasst:
- Umgang mit strukturierten Formularen: Das Modell kann KVPs aus gut definierten Formularen extrahieren, die wie herkömmliche Formulare mit beschrifteten Feldern zum Ausfüllen aussehen, z. B.
name: __
. Das vortrainierte Modell von Form Parser bietet eine hohe Genauigkeit für gängige Felder wie Namen, Datumsangaben und Adressen. - Flexible Tabellenextraktion erforderlich: Der Formularparser extrahiert Daten aus einfachen Tabellen (keine Zellen, die sich über Zeilen oder Spalten erstrecken), die wie Tabellen aussehen. Es ist kein Training erforderlich (und auch nicht möglich). Für die trainierte Tabellenextraktion kann der benutzerdefinierte Extraktor mit einem übergeordneten Feld verwendet werden, das untergeordnete Spalten- (Zellen-)Felder enthält.
- Effizienz: Sie möchten keine Extraktionsparser erstellen und verwalten müssen, insbesondere nicht für umfangreiche und vielfältige Extraktionsaufgaben.
Funktionen zur Datenextraktion
Die Funktionen des Formularparsers umfassen:
Schlüssel/Wert-Paare:Das sind Gruppen von zwei Elementen in einem Dokument – ein Label oder Schlüssel und die entsprechenden Daten (ein Wert). Sie können KVPs direkt verwenden, wenn die Schlüssel einheitlich sind, oder benutzerdefinierte Logik erstellen, um unterschiedliche Schlüssel in einheitliche strukturierte Informationen aufzulösen.
Allgemeine Entitäten:11 verschiedene Felder werden standardmäßig aus Dokumenten geparst. Dazu gehören:
email
phone
url
date_time
address
person
organization
quantity
price
id
page_number
Text und Layout:Mit unserer neuesten OCR-Engine können Sie Text und Layoutinformationen extrahieren. Dazu gehören eingebetteter Text aus digitalen PDFs (nur Version 2.1) oder Text aus Bildern.
Tabellen:Tabellen in Bildern und PDFs erkennen und extrahieren
Kästchen:Ein hochwertiger Auswahlmarkierungserkennung, der Kästchen aus Bildern und PDF-Ausgaben als KVP extrahiert. Dabei wird der Text verwendet, der dem Kästchen am nächsten ist, und
valueType
gibt an, ob das Kästchen angeklickt ist oder nicht.
Sprachen und Regionen
- Form Parser 2.0 unterstützt über 200 Sprachen. Weitere Informationen
- Wir bieten Unterstützung für Funktionen in acht Regionen. Weitere Informationen
Modellversionen
Die folgenden Prozessorversionen sind mit dieser Funktion kompatibel. Weitere Informationen finden Sie unter Prozessorversionen verwalten.
Beschränkungen
Vorherige JPEG-Kompressionen für TIFF werden nicht unterstützt. Der Typ der JPEG-Kapselung, die durch die TIFF-Spezifikation Version 6.0 definiert wird.
Das Kontrollkästchenmodell unterstützt das Parsen von Optionsfeldern nicht. Für einige erkannte Kästchen gibt es möglicherweise keine entsprechenden Tasten.
Das Modell kann ein KVP mit einem leeren Wert, z. B. ein leeres Formular, nicht zuverlässig parsen.
Die KVP-Analyse von Dokumenten in bestimmten Sprachen ist möglicherweise von geringerer Qualität als bei lateinischen Sprachen.
Dokumente mit Formularparser verarbeiten
In dieser Kurzanleitung wird das Feature „Form Parser“ in Document AI vorgestellt. In dieser Kurzanleitung richten Sie mit der Google Cloud Console Ihr Google Cloud -Projekt und Ihre Autorisierung ein, erstellen einen Formularparser und senden dann eine Anfrage an Document AI, um ein PDF-Formular zu verarbeiten.
Sie erfahren, wie Sie:
Aktivieren Sie Document AI in einem Google Cloud -Projekt.
einen Formularparser-Prozessor erstellen, der Text, Schlüssel/Wert-Paare, Tabellen und generische Entitäten aus vielen Dokumenttypen identifizieren und extrahieren kann
den Prozessor verwenden, um ein Beispieldokument zu annotieren
Eine detaillierte Anleitung dazu finden Sie direkt in der Google Cloud Console. Klicken Sie dazu einfach auf Anleitung:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
Klicken Sie im Google Cloud Navigationsmenü der Console auf Document AI und wählen Sie Prozessorgalerie aus.
Suchen Sie in der Prozessorgalerie
nach Formularparser und wählen Sie Erstellen aus.Geben Sie im Seitenfenster einen Prozessornamen ein, z. B.
quickstart-form-processor
.Wählen Sie die Region aus, die Ihnen am nächsten ist.
Klicken Sie auf Erstellen.
Laden Sie das Beispieldokument herunter.
Es ist eine PDF-Datei mit einem Beispiel einer handgeschriebenen medizinischen Datenaufnahme. Dieses Dokument wird in einem öffentlich zugänglichen Cloud Storage-Bucket gespeichert.
Klicken Sie auf die Schaltfläche
Testdokument hochladen und wählen Sie das Dokument aus, das Sie gerade heruntergeladen haben.Sie sollten sich jetzt auf der Seite Analyse des Formularparsers befinden. Sie können sich den aus dem Dokument erkannten Text sowie die Schlüssel/Wert-Paare, Tabellen und allgemeinen Entitäten ansehen.
- Sehen Sie sich die Liste der Prozessoren an.
Formularparser-Prozessor erstellen
Verwenden Sie die Google Cloud Console, um einen Formularparser-Prozessor zu erstellen. Weitere Informationen finden Sie unter Prozessoren erstellen und verwalten.
Sie werden zur Seite Prozessordetails für Ihren neuen Formularparser weitergeleitet.
Testprozessor
Nachdem Sie den Prozessor erstellt haben, können Sie Annotationsanfragen an ihn senden.
Bereinigen
Um unnötige Google Cloud -Gebühren zu vermeiden, verwenden SieGoogle Cloud console , um den Prozessor und das Projekt zu löschen, wenn Sie diese nicht mehr benötigen.