Estructuración y Mejora de la Extracción de Tablas en DocBits
Una vez que se extrae una tabla y se completa el mapeo inicial de columnas, puedes mejorar la calidad y estructura de los datos utilizando varias herramientas integradas. Esta guía te lleva a través de:
Agrupación de filas
Selección manual de filas
Mapeo de columnas
Refinamiento de encabezados usando regex
Estas herramientas son especialmente útiles al tratar con diseños de documentos complejos o inconsistentes.
1. Agrupación de Filas
Documentos como facturas o confirmaciones de pedidos a menudo contienen entradas de tabla donde una columna (por ejemplo, una descripción) abarca varias líneas, mientras que otras columnas (por ejemplo, cantidad o precio) solo utilizan una línea.
Toma este ejemplo de factura en alemán: la columna "Bezeichnung" (descripción) abarca varias filas:
Inicialmente, DocBits extrae cada fila por separado:
Luego puedes agrupar filas basadas en una columna, como "Posición". Esto fusiona líneas relacionadas en una entrada única y estructurada:
2. Selección Manual de Filas
En algunos casos, el texto en un documento se extiende a través de varias columnas en una sola fila, lo que dificulta la asignación automática.
Aquí tienes un ejemplo donde la línea "PRAEF" se superpone a Bezeichnung, Menge, ME y Preis in EUR:
Cómo Asignar Valores Manualmente:
Activar el Modo de Entrenamiento
Activar el Modo de Edición de Filas
modo de edición de filas
Seleccionar y Mapear Texto Haz clic en la pieza de texto correcta y asígnala a un encabezado de columna azul.
Nota: Las columnas de color violeta ya están mapeadas por el sistema y no pueden editarse manualmente.
3. Mapeo de Columnas
El mapeo de columnas vincula tus datos extraídos con los encabezados de columna esperados, asegurando consistencia y exportabilidad.
Para mapear o remapear una columna:
Haz clic en el encabezado de columna en la vista de extracción.
Elige la columna de destino correcta en el menú desplegable.
Puedes ajustar el mapeo tantas veces como sea necesario.
4. Extraer de Arriba / Abajo
Algunos documentos están estructurados de manera que los valores de tabla relevantes no aparecen en la misma fila que otros datos. En estos casos, DocBits te permite controlar de dónde se debe extraer los datos:
Extraer de Arriba: Úsalo cuando el valor para la fila actual aparece en la línea superior.
Extraer de Abajo: Úsalo cuando el valor aparece en la línea debajo de la fila actual.
Dónde Encontrarlo
Ingresa al Modo de Entrenamiento.
Haz clic en los tres puntos (⋯) en un encabezado de columna.
Bajo la opción "Extraer de", elige
Arriba
oAbajo
dependiendo del diseño del documento.
5. Formato de Monto
Algunas columnas, como Cantidad o Precio Unitario, contienen valores numéricos o de fecha que pueden seguir diferentes convenciones de formato dependiendo del origen o la ubicación del documento. DocBits te permite especificar el formato que estos valores deben seguir para garantizar una extracción e interpretación precisas.
Opciones de Formato de Monto:
Define el formato numérico o de fecha esperado para la columna, como EE. UU. (MM/DD/AAAA, decimal con punto), Polonia (DD.MM.AAAA, decimal con coma), Alemania y otros.
Esto ayuda a DocBits a analizar y estandarizar correctamente los valores incluso si el documento utiliza un formato regional diferente.
Dónde Encontrarlo
Ingresa al Modo de Entrenamiento.
Haz clic en los tres puntos (⋯) en el encabezado de una columna compatible (por ejemplo, Cantidad, Precio Unitario).
Bajo la opción Formato de Monto, selecciona el formato deseado que coincida con la ubicación de tu documento.
6. Mejorando la Extracción de Tablas con Regex
Qué Hace
Esta función te permite definir una expresión regular (regex) para cada encabezado de tabla, mejorando la precisión de la extracción y garantizando resultados correctos.
Cómo Usarlo
Abre un documento del proveedor para el cual deseas definir un regex.
Navega a la vista de Extracción de Tabla.
Habilita el Modo de Entrenamiento.
Selecciona el encabezado de tabla que deseas refinar, luego elige Regex.
Aparecerá un popup donde puedes ingresar y definir tu regex.
Haz clic en Validar para verificar el regex, luego en Guardar Cambios para aplicarlo.
Guarda la regla y confirma para aplicar los cambios.
Cuándo Usar Cada Función
Utiliza estas herramientas para aumentar la precisión de la extracción y reducir el trabajo manual:
Agrupación: Cuando una descripción o cualquier columna abarca varias filas y necesita combinarse para mayor claridad.
Selección Manual de Filas: Cuando las filas no están estructuradas de manera limpia y partes del contenido caen en las columnas incorrectas.
Mapeo de Columnas: Cuando los nombres de columna detectados automáticamente no coinciden con tu estructura o necesitan refinamiento.
Reglas de Regex: Cuando los encabezados de tabla varían ligeramente entre documentos del mismo proveedor o el OCR introduce inconsistencias.
Last updated
Was this helpful?