Noticias

domingo, 13 de noviembre de 2022

Extracción de datos de archivos PDF financieros

Cómo extraer rápidamente texto y datos de los informes CAFR de bonos municipales



Fuente
Foto de Markus Spiske en Unsplash

Que es sprending?

Una gran parte de las finanzas se dedica a escribir y leer estados financieros. En los EE. UU., para que un estado financiero se considere oficial, debe estar en formato PDF. Esto trae desafíos más adelante al hacer que los archivos PDF sean legibles por máquina.

Antiguamente, los bancos y las organizaciones financieras solían contratar equipos completos de personas para leer los estados financieros en PDF e ingresarlos en las bases de datos del banco. Estos puestos eran ingreso de datos, ingreso de formularios. Sin embargo, otros equipos asignarían los valores ingresados ​​a los que usa comúnmente el banco. A esta serie de tareas se les llama difusión financiera . financial spreading.

Por ejemplo, una granja grande operada por una familia que solicita un préstamo incluiría elementos como un camión Peterbilt en su inventario de la granja. Pero, cuando un distribuidor en un banco lee las finanzas, necesitaría clasificar los camiones como un activo no corriente (no una moneda) en la subcategoría: vehículo. Esto le permite al banco reducir la incertidumbre financiera ya que puede asignar este camión específico a otros vehículos similares con los que el banco ha tratado durante muchos años. En la jerga financiera, permite que el banco asigne este hecho a un conjunto de cuentas más amplio y estandarizado.

En un pasado no muy lejano, estos esparcidores estaban ubicados en áreas de bajo costo y en alta mar. Hoy en día, muchas instituciones financieras han adoptado la IA de alguna forma para reducir la carga humana de leer a mano cada PDF financiero.

Analicemos cómo AI lee y procesa estos archivos PDF.

Extraer PDF con una máquina

Veremos los Informes financieros anuales completos (CAFR), que es un documento de divulgación anual principal para los bonos municipales. Los CAFR tienden a ser predominantemente documentos escaneados en formato PDF. Este es un ejemplo de CAFR para la ciudad de Nueva York .

La mayoría de las ciudades de EE. UU. tienen bonos en circulación y están obligadas a divulgar las finanzas anuales a través de CAFR. Aquí hay una buena diapositiva sobre el tamaño general de Muni y la cobertura de CAFR . Echemos un vistazo a una página de muestra de un CAFR, la usaremos para ejecutar la extracción de datos de reconocimiento óptico de caracteres (OCR):

CAFR de la ciudad de Hoboken, NJ , página 150

Si observa detenidamente, notará que es una página escaneada que se guardó como PDF, por lo que todavía no es legible por máquina.

Los documentos CAFR contienen información muy interesante sobre la planificación, el presupuesto y las operaciones de un municipio como una ciudad. Contienen información sobre escuelas públicas, departamentos de policía, departamentos de bomberos. Cosas como cuántas camas de hospital tiene un hospital financiado con fondos públicos, cuál es el ingreso por cama de hospital y otros costos operativos.

¿Qué está pasando debajo del capó?

Entonces, ¿cómo puede AI hacer que el documento de arriba sea un texto legible por máquina?

Básicamente, la IA intenta aislar las áreas que tienen manchas de tinta negra frente a las áreas que no las tienen. Luego, otra IA, como un niño de primaria, mira las manchas de tinta individuales para distinguir palabras y caracteres. Y otra IA intenta comprender si todo el texto detectado está organizado como una tabla, un formulario o un texto de forma libre.

Más específicamente, una máquina lee el PDF como una imagen. Luego, un algoritmo intenta dibujar cuadros alrededor de cualquier texto que ve. Cada palabra o grupo de caracteres tendrá su casilla. Una vez que el algoritmo cubre cada fragmento de texto en el cuadro delimitador, puede continuar con el siguiente conjunto de algoritmos. Así se ven los cuadros delimitadores -bounding boxes-:

Algoritmo de detección de cuadro delimitador en el trabajo

A continuación, se activa otro algoritmo: el reconocimiento óptico de caracteres (OCR) para decodificar el texto dentro de cada cuadro delimitador. Este algoritmo toma imágenes de texto y las convierte en texto comprensible por computadora que está contenido dentro de esa imagen.

Y, por último, otro algoritmo analiza todos estos cuadros delimitadores -bounding boxes- y el texto dentro de ellos para comprender si cada palabra forma una línea o si forma parte de una tabla.

Por ejemplo, la línea superior dice "CIUDAD DE HOBOKEN", el algoritmo del cuadro delimitador detectó 3 regiones con texto: "CIUDAD", "DE", "HOBOKEN" y les asignó puntajes de confianza e ID únicos:

Luego, el algoritmo Consolidator toma el resultado de 3 palabras individuales y las agrupa según la ubicación de ese texto en la página:

Aviso de Confianza: 95 de Texto: “CIUDAD DE HOBOKEN”

Este último algoritmo de consolidación también clasifica áreas de la página que son una tabla, un texto de formato libre o un formulario. Aquí cómo se ve todo junto:

Interpretación automática de la tabla PDF de la derecha

Hoy, cada algoritmo mencionado anteriormente es una red neuronal profunda -Deep Neural Network- que fue entrenada con datos de entrenamiento separados y anotada por humanos. Y vemos puntajes de confianza en cada paso del camino para que podamos corregir el algoritmo a través del aprendizaje activo.

Si está interesado en configurar un OCR como servicio integral en AWS , consulte aquí .

Conclusión

Gracias a los avances recientes en IA, ahora podemos leer documentos PDF en masa en nuestros lagos de datos y realizar análisis y aprendizaje automático posteriores para descubrir alfa.

Están surgiendo nuevas empresas para obtener información de la gran cantidad de documentos en el sector financiero que eran prohibitivamente costosos en el pasado.

El OCR es solo una parte pequeña pero importante de cómo se recopilan, procesan y muestran los documentos financieros para que los profesionales de la inversión obtengan una ventaja monetaria (alfa).

No hay comentarios:

Publicar un comentario