Structureren en Verbeteren van Tabel Extractie in DocBits
Zodra een tabel is geëxtraheerd en de initiële kolommapping is voltooid, kunt u de kwaliteit en structuur van de gegevens verbeteren met behulp van verschillende ingebouwde tools. Deze gids loodst u door:
Groeperen van rijen
Handmatige rijselectie
Kolommapping
Headerverfijning met behulp van regex
Deze tools zijn vooral nuttig bij het omgaan met complexe of inconsistente lay-outs van documenten.
1. Groeperen van Rijen
Documenten zoals facturen of orderbevestigingen bevatten vaak tabelvermeldingen waarbij één kolom (bijv. een beschrijving) meerdere regels beslaat, terwijl andere kolommen (bijv. hoeveelheid of prijs) slechts één regel gebruiken.
Neem bijvoorbeeld deze Duitse factuur - de kolom "Bezeichnung" (beschrijving) beslaat meerdere rijen:
In eerste instantie extraheren DocBits elke rij afzonderlijk:
Vervolgens kunt u rijen groeperen op basis van een kolom, zoals "Positie." Dit combineert gerelateerde regels tot één gestructureerde vermelding:
2. Handmatige Rijselectie
In sommige gevallen is de tekst op een document verdeeld over meerdere kolommen in één rij, waardoor het moeilijk is om automatisch toe te wijzen.
Hier is een voorbeeld waar de regel "PRAEF" overlapt met Bezeichnung, Menge, ME, en Preis in EUR:
Hoe waarden handmatig toewijzen:
Training Mode inschakelen
Activeer Rijbewerkingsmodus
Selecteer en Koppel Tekst Klik op het juiste stuk tekst en wijs het toe aan een blauwe kolomkop.
Opmerking: Paarsgekleurde kolommen zijn al systeemtoegewezen en kunnen niet handmatig worden bewerkt.
3. Kolommen Mappen
Kolommapping koppelt uw geëxtraheerde gegevens aan de verwachte kolomkoppen, zodat consistentie en exporteerbaarheid worden gegarandeerd.
Om een kolom te mappen of opnieuw te mappen:
Klik op de kolomkop in de extractieweergave.
Kies de juiste doelkolom uit de vervolgkeuzelijst.
U kunt de mapping zo vaak aanpassen als nodig is.
4. Boven / Onder Extraheren
Sommige documenten zijn gestructureerd op een manier waarbij relevante tabelwaarden niet op dezelfde rij verschijnen als andere gegevens. In deze gevallen kunt u met DocBits bepalen vanaf welke rij de gegevens moeten worden geëxtraheerd:
Boven extraheren: Gebruik dit wanneer de waarde voor de huidige rij in de regel erboven verschijnt.
Onder extraheren: Gebruik dit wanneer de waarde in de regel eronder de huidige rij verschijnt.
Waar te vinden
Ga naar Training Mode.
Klik op de drie puntjes (⋯) op een kolomkop.
Onder de optie "Extraheren van", kies
Boven
ofOnder
afhankelijk van de lay-out van het document.
5. Bedrag Formaat
Sommige kolommen, zoals Hoeveelheid of Eenheidsprijs, bevatten numerieke of datumwaarden die verschillende opmaakconventies kunnen volgen, afhankelijk van de oorsprong of locatie van het document. DocBits stelt u in staat om de opmaak te specificeren die deze waarden moeten volgen om een nauwkeurige extractie en interpretatie te garanderen.
Opties voor Bedrag Formaat:
Definieer het verwachte nummer- of datumformaat voor de kolom, zoals VS (MM/DD/JJJJ, decimaal met punt), Polen (DD.MM.JJJJ, decimaal met komma), Duitsland en anderen.
Dit helpt DocBits om waarden correct te parseren en standaardiseren, zelfs als het document een andere regionale opmaak gebruikt.
Waar te vinden
Ga naar Training Mode.
Klik op de drie puntjes (⋯) op de kop van een ondersteunde kolom (bijv. Hoeveelheid, Eenheidsprijs).
Onder de optie Bedrag Formaat, selecteer het gewenste formaat dat overeenkomt met de locatie van uw document.
6. Verbeteren van Tabel Extractie met Regex
Wat het Doet
Deze functie stelt u in staat om voor elke tabelkop een regex te definiëren, waardoor de extractie nauwkeuriger wordt en de juiste resultaten worden gegarandeerd.
Hoe het te Gebruiken
Open een document van de leverancier waarvoor u een regex wilt definiëren.
Ga naar de Tabel Extractie weergave.
Schakel Training Mode in.
Selecteer de tabelkop die u wilt verfijnen, kies vervolgens Regex.
Er verschijnt een pop-up waar u uw regex kunt invoeren en definiëren.
Klik op Valideren om de regex te controleren, klik vervolgens op Wijzigingen Opslaan om deze toe te passen.
Sla de regel op en bevestig om de wijzigingen toe te passen.
Wanneer elk kenmerk te gebruiken
Gebruik deze tools om de extractie nauwkeurigheid te verhogen en handmatig werk te verminderen:
Groeperen: Wanneer een beschrijving of een kolom meerdere rijen beslaat en moet worden gecombineerd voor duidelijkheid.
Handmatige Rijselectie: Wanneer rijen niet schoon gestructureerd zijn en delen van de inhoud in de verkeerde kolommen vallen.
Kolommapping: Wanneer de automatisch gedetecteerde kolomnamen niet overeenkomen met uw structuur of verfijning nodig hebben.
Regex Regels: Wanneer tabelkoppen lichtjes variëren tussen documenten van dezelfde leverancier of OCR inconsistenties introduceert.
Last updated
Was this helpful?