Blog - IA

Cómo preparar tus datos para Inteligencia Artificial Generativa en banca: manual práctico de Data Wrangling

Descubrecómo el data wrangling impacta directamente en el éxito de proyectos con IA generativa en banca y agentes conversacionales.

June 17, 2025

Escrito por Facundo del Pino, Operations Director

Literalmente, la expresión data wrangling hace referencia al acto de arrear o, de alguna forma, “domar” datos para poder utilizarlos con un determinado fin específico de forma eficiente.

Esto es una actividad clave que debemos realizar a la hora de encarar un proyecto que implique la utilización de inteligencia artificial generativa, y puede, por sí solo, definir su éxito o el fracaso. No se debe subestimar en cuanto a tiempo y alcance.

¿Por qué el data wrangling es importante?

La calidad de los datos que utilizamos para entrenar modelos de inteligencia artificial es determinante para la calidad de los resultados. Quizá leíste por ahí la frase "garbage in, garbage out", o dicho en español, "si entra basura, sale basura", que básicamente representa esta cuestión.

Esto aplica tanto a modelos base como a los LLMs, que invierten billones de dólares en esta actividad antes y durante el entrenamiento de los modelos, como a aplicaciones específicas donde utilicemos datos propios para alimentar y dar contexto a agentes virtuales que deban resolver actividades súper específicas dentro de nuestra organización.

Al implementar soluciones con inteligencia artificial generativa en banca, esta actividad se vuelve primordial para asegurarnos de que las interacciones sean lo más correctas y seguras posible. En este otro blog post sobre cómo se entrena una IA conversacional en banca, detallamos cómo los datos juegan un rol crítico en cada fase del desarrollo de estos sistemas.

¿Qué quiere decir hacer data wrangling?

Si bien técnicamente esta actividad cuenta con varios pasos y requisitos técnicos que aplican más o menos dependiendo de la actividad de la empresa, el uso que se le quiera dar a los datos y el punto de partida, podemos bajar a tierra el concepto en tres principales puntos:

  • Limpieza: corregir errores, eliminar datos duplicados e inconsistencias.

  • Transformación: convertir datos de un formato a otro para poder consumirlos de forma correcta.

  • Enriquecimiento: complementar los datos actuales con datos adicionales que mejoren la calidad y den el contexto necesario para la solución.

En la implementación de un proyecto que implique inteligencia artificial generativa aplicada a una casuística concreta —como por ejemplo la atención al cliente o la venta de un producto bancario como una tarjeta de crédito o un préstamo— este proceso será uno de los puntos de partida de evaluación y trabajo. El estado en el que se encuentran los insumos a utilizar por la solución es una condicionante clave para estimar el alcance y la duración del proyecto.

Si queremos, por ejemplo, que nuestro agente conversacional pueda interactuar con clientes respondiendo preguntas complejas sobre descuentos y beneficios de la tarjeta del banco vigentes en diferentes locales, vamos a necesitar que esa información esté en el formato correcto, sea entendible para la solución y esté actualizada constantemente.

¿Qué formatos de datos existen?

Cuando hablamos de formatos de datos nos referimos a la forma en la que determinados datos se encuentran almacenados y listos para ser utilizados o consumidos. En este sentido hay una distinción base que es la siguiente:

  • Datos estructurados: son datos que están en una estructura predefinida y con tipos y etiquetas definidas, por ejemplo, tablas en archivos tipo Excel, CSV, bases de datos, etc.

  • Datos no estructurados: son datos o información que provienen de formatos menos predefinidos como archivos de texto, documentos, emails, PDFs, imágenes o incluso videos.

Más allá de que cada formato tiene sus particularidades y es más óptimo para almacenar y servir diferentes tipos de datos, como regla general para usarlos en la alimentación de agentes generativos, hay consideraciones generales que debemos tener en cuenta.

Principalmente debemos entender que los modelos generativos van a performar mejor cuando los datos estén estructurados de una forma que facilite su localización, comprensión y consumo.

Al igual que para las personas, cuando recibimos documentos debidamente estructurados —por ejemplo, con un índice, uso adecuado de jerarquías de texto, etiquetas, formatos de datos particulares como números, monedas, porcentajes, etc.— nuestra interpretación es mucho más sencilla, rápida y acertada.

Adicionalmente tenemos que tener en cuenta que los humanos tenemos una capacidad superior de inferencia y sentido común que nos permite deducir o completar información faltante a partir del contexto. En cuanto a los modelos generativos, si bien lo pueden intentar, al menos de momento, no cuentan con la capacidad adecuada para hacerlo. Esto puede conducir a generar alucinaciones o respuestas incompletas, en función de la libertad de acción que tenga el modelo.

¿Qué beneficios tiene realizar un correcto data wrangling en soluciones basadas en agentes conversacionales?

Como comentamos al principio, una solución que no tenga un correcto tratamiento de los datos que se le proveen como fuente de conocimiento tiene grandes posibilidades de no cumplir correctamente con su cometido. Pero el buen desempeño final no es el único beneficio que podemos esperar si aplicamos buenas prácticas en este sentido. Algunos beneficios adicionales pueden ser los siguientes:

  • Respuestas más consistentes, con menores riesgos de alucinaciones y de información incompleta.

  • Facilidad en el mantenimiento y gestión de las bases de conocimiento.

  • Mayor velocidad en el procesamiento de la información.

  • Detección y corrección de errores de forma más ágil.

  • Menores tiempos de implementación de los proyectos.

Comentarios finales

La inteligencia artificial generativa es una tecnología disruptiva que vino a cambiar las reglas de juego en todas las industrias, siendo la bancaria una de las que tiene mayor potencial de lograr mejoras en eficiencia y experiencia de los clientes. La aplicación de agentes conversacionales es uno de los casos de uso más evidentes para aprovechar el potencial que tiene, pero necesitan de un contexto y un manejo de datos riguroso.

Como se comentaba más arriba, el data wrangling es un punto de partida clave, a veces subestimado. Debemos abordarlo con la importancia que merece ya que puede definir el éxito o el fracaso de la implementación incluso antes de que inicie la primera interacción con los usuarios finales.

En Delto nos especializamos en la implementación de canales conversacionales con inteligencia artificial generativa para la industria bancaria. Si estás interesado en conocer más sobre nuestra solución y cómo podemos ayudarte a transformar la experiencia de tus clientes, no dudes en contactarnos.

Continúa leyendo

Banca

McKinsey lo confirma: la próxima frontera en banca es la Agentic AI

July 8, 2025
IA

Agentic Skill-based para banca: una propuesta tecnológica escalable y segura

May 23, 2025
Eventos

Event Recap: Acelerando la Inteligencia Artificial en el Sector Público de Uruguay

November 21, 2024