Strukturierung und Verbesserung der Tabellenauswertung in DocBits
Sobald eine Tabelle extrahiert und die initiale Spaltenzuordnung abgeschlossen ist, können Sie die Qualität und Struktur der Daten mithilfe mehrerer integrierter Tools verbessern. Dieser Leitfaden führt Sie durch:
Gruppierung von Zeilen
Manuelle Zeilenauswahl
Spaltenzuordnung
Header-Verfeinerung mit Regex
Diese Tools sind besonders hilfreich bei komplexen oder inkonsistenten Dokumentlayouts.
1. Gruppierung von Zeilen
Dokumente wie Rechnungen oder Auftragsbestätigungen enthalten oft Tabelleneinträge, bei denen eine Spalte (z. B. eine Beschreibung) mehrere Zeilen umfasst, während andere Spalten (z. B. Menge oder Preis) nur eine Zeile verwenden.
Nehmen Sie dieses Beispiel einer deutschen Rechnung - die Spalte "Bezeichnung" erstreckt sich über mehrere Zeilen:
Zunächst extrahiert DocBits jede Zeile separat:
Anschließend können Sie Zeilen basierend auf einer Spalte gruppieren, wie z. B. "Position". Dadurch werden zusammenhängende Zeilen zu einem einzigen strukturierten Eintrag zusammengeführt:
2. Manuelle Zeilenauswahl
In einigen Fällen ist der Text auf einem Dokument über mehrere Spalten in einer Zeile verteilt, was eine automatische Zuordnung erschwert.
Hier ist ein Beispiel, bei dem die Zeile "PRAEF" Bezeichnung, Menge, ME und Preis in EUR überlappt:
Zeilenverschiebung
Wie man Werte manuell zuweist:
Training-Modus aktivieren
Aktivieren des Zeilenbearbeitungsmodus
Text auswählen und zuordnen Klicken Sie auf das richtige Textstück und weisen Sie es einem blauen Spaltenkopf zu.
Hinweis: Violett markierte Spalten sind bereits systemmäßig zugeordnet und können nicht manuell bearbeitet werden.
3. Spaltenzuordnung
Die Spaltenzuordnung verknüpft Ihre extrahierten Daten mit den erwarteten Spaltenüberschriften, um Konsistenz und Exportierbarkeit sicherzustellen.
Um eine Spalte zuzuordnen oder neu zuzuordnen:
Klicken Sie auf den Spaltenheader in der Extraktionsansicht.
Wählen Sie die korrekte Zielspalte aus dem Dropdown-Menü.
Sie können die Zuordnung so oft anpassen, wie es erforderlich ist.
4. Extrahieren von oben / unten
Einige Dokumente sind so strukturiert, dass relevante Tabellenwerte nicht in derselben Zeile wie andere Daten erscheinen. In solchen Fällen ermöglicht DocBits Ihnen zu steuern, von wo die Daten extrahiert werden sollen:
Von oben extrahieren: Verwenden Sie dies, wenn der Wert für die aktuelle Zeile in der Zeile darüber erscheint.
Von unten extrahieren: Verwenden Sie dies, wenn der Wert in der Zeile unterhalb der aktuellen Zeile erscheint.
Wo Sie es finden
Betreten Sie den Training-Modus.
Klicken Sie auf die drei Punkte (⋯) auf einem Spaltenheader.
Wählen Sie unter der Option "Extrahieren von"
Oben
oderUnten
, abhängig vom Dokumentenlayout.
5. Betragsformat
Einige Spalten, wie Menge oder Stückpreis, enthalten numerische oder Datumsangaben, die je nach Herkunft oder Sprachraum des Dokuments unterschiedlichen Formatkonventionen folgen können. DocBits ermöglicht es Ihnen, das Format festzulegen, dem diese Werte folgen sollen, um eine genaue Extraktion und Interpretation sicherzustellen.
Betragsformatoptionen:
Definieren Sie das erwartete Zahlen- oder Datumsformat für die Spalte, wie z. B. US (MM/TT/JJJJ, Dezimaltrennzeichen mit Punkt), Polen (TT.MM.JJJJ, Dezimaltrennzeichen mit Komma), Deutschland und andere.
Dies hilft DocBits, Werte korrekt zu analysieren und zu standardisieren, auch wenn das Dokument ein anderes regionales Format verwendet.
Wo Sie es finden
Betreten Sie den Training-Modus.
Klicken Sie auf die drei Punkte (⋯) im Header einer unterstützten Spalte (z. B. Menge, Stückpreis).
Wählen Sie unter der Option Betragsformat das gewünschte Format entsprechend dem Sprachraum Ihres Dokuments aus.
6. Verbesserung der Tabellenauswertung mit Regex
Was es tut
Diese Funktion ermöglicht es Ihnen, für jede Tabellenüberschrift ein Regex zu definieren, um die Extraktionsgenauigkeit zu verbessern und korrekte Ergebnisse sicherzustellen.
Wie man es benutzt
Öffnen Sie ein Dokument vom Lieferanten, für den Sie ein Regex definieren möchten.
Navigieren Sie zur Ansicht Tabellenauswertung.
Aktivieren Sie den Training-Modus.
Wählen Sie die Tabellenüberschrift, die Sie verfeinern möchten, und wählen Sie dann Regex.
Es erscheint ein Popup, in dem Sie Ihr Regex eingeben und definieren können.
Klicken Sie auf Validieren, um das Regex zu überprüfen, und dann auf Änderungen speichern, um es anzuwenden.
Regel speichern und bestätigen, um die Änderungen anzuwenden.
Wann Sie jedes Feature verwenden sollten
Verwenden Sie diese Tools, um die Extraktionsgenauigkeit zu erhöhen und manuelle Arbeit zu reduzieren:
Gruppierung: Wenn eine Beschreibung oder eine Spalte über mehrere Zeilen verläuft und für Klarheit kombiniert werden muss.
Manuelle Zeilenauswahl: Wenn Zeilen nicht sauber strukturiert sind und Teile des Inhalts in falsche Spalten fallen.
Spaltenzuordnung: Wenn die automatisch erkannten Spaltennamen nicht mit Ihrer Struktur übereinstimmen oder verfeinert werden müssen.
Regex-Regeln: Wenn Tabellenüberschriften in Dokumenten desselben Lieferanten leicht variieren oder OCR Unstimmigkeiten einführt.
Last updated
Was this helpful?