Databricks revela truco de IA para potenciar modelos sin datos perfectos

Redacción Cuyo News
7 min
Cortito y conciso:

Databricks, la empresa que facilita a los gigantes tecnológicos la creación de modelos de IA a medida, ha ingeniado un método de aprendizaje automático que promete un mayor rendimiento sin necesidad de datos etiquetados o sin procesar. Jonathan Frankle, el capo de la IA en Databricks, asegura que el quid de la cuestión reside en «los datos sucios», y este nuevo modelo podría ser la solución para que las empresas desplieguen agentes de IA especializados sin que la calidad de los datos sea un dolor de cabeza.

La inteligencia artificial, esa promesa que algunos ven como la panacea y otros como el apocalipsis, sigue dando que hablar. Ahora, la noticia viene de la mano de Databricks, una empresa que se dedica a allanarle el camino a las grandes tecnológicas para que desarrollen sus propios modelos de IA personalizados. ¿La novedad? Un truco de aprendizaje automático que podría revolucionar el sector.

Según Jonathan Frankle, el mandamás de la IA en Databricks, el principal escollo para que estos sistemas funcionen de forma fiable son los «datos sucios». Y es que, como bien sabemos, en este país y en el mundo, los datos claros y precisos escasean.

«Todo el mundo tiene algunos datos y una mínima idea de lo que quiere hacer», soltó Frankle, como quien no quiere la cosa. Pero, ojo, que la cosa va en serio. Este nuevo modelo de Databricks podría permitir a las empresas desplegar agentes de IA para tareas específicas sin que la calidad de los datos sea un impedimento. ¿Será esta la solución para democratizar el acceso a la IA? Habrá que ver.

La alquimia de los datos: ¿Un elixir para la IA?

La técnica que propone Databricks ofrece una perspectiva interesante sobre los trucos que utilizan los ingenieros para mejorar las capacidades de los modelos de IA más avanzados, especialmente cuando conseguir buenos datos es una misión imposible. La clave está en combinar las ideas generadas por modelos de razonamiento avanzados con el aprendizaje por refuerzo, una forma de mejorar la práctica con datos de entrenamiento «sintéticos», es decir, generados por la propia IA.

No es casualidad que los últimos modelos de OpenAI, Google y DeepSeek estén apostando fuerte por el aprendizaje por refuerzo y los datos de entrenamiento sintéticos. Incluso Nvidia, según trascendió, planea adquirir Gretel, una empresa especializada en este tipo de datos. «Todos estamos navegando por este espacio», reconoció Frankle, dejando claro que la competencia está al rojo vivo.

El método de Databricks se basa en la idea de que, con suficientes intentos, hasta el modelo más flojo puede obtener buenos resultados en una tarea determinada. A este método se lo conoce como «best-of-N» (el mejor de N). La empresa entrenó un modelo para predecir qué resultado preferirían los evaluadores humanos. Este modelo de recompensa (DBRM) puede utilizarse para mejorar el rendimiento de otros modelos sin necesidad de datos etiquetados adicionales.

En resumen, el DBRM selecciona los mejores resultados de un modelo en particular, creando datos de entrenamiento sintéticos que permiten afinar el modelo para que produzca mejores resultados desde el primer intento. Databricks bautizó a este nuevo método como «Test-time Adaptive Optimization» (TAO), u Optimización adaptativa en tiempo de prueba. «Este método utiliza un aprendizaje por refuerzo relativamente ligero para incorporar las ventajas de la optimización adaptativa en el propio modelo», explicó Frankle.

¿Escalabilidad? La clave del éxito

Los resultados de la investigación de Databricks demuestran que el método TAO mejora a medida que se aplica a modelos más grandes y capaces. Si bien el aprendizaje por refuerzo y los datos sintéticos ya son moneda corriente, combinarlos para mejorar los grandes modelos de lenguaje (LLM) es una técnica relativamente nueva y compleja.

Databricks, en una jugada estratégica, está siendo bastante transparente sobre cómo desarrolla la IA, buscando demostrar a sus clientes que tiene las habilidades necesarias para crear modelos personalizados y potentes. En el pasado, la empresa ya había revelado cómo desarrolló DBX, un modelo avanzado de lenguaje de código abierto (LLM) desde cero. Una movida interesante, sin dudas, para ganarse la confianza del mercado.

¿El futuro de la IA pasa por los agentes inteligentes?

Sin datos bien etiquetados y cuidadosamente conservados, es difícil ajustar un LLM para que realice tareas específicas con mayor eficacia, como analizar informes financieros o historiales médicos para encontrar patrones o identificar problemas. Y acá es donde entran en juego los agentes de IA, la gran apuesta de muchas empresas.

La idea es que estos agentes puedan automatizar tareas complejas. Por ejemplo, un agente utilizado en finanzas podría analizar los principales resultados de una empresa, generar un informe y enviarlo automáticamente a distintos analistas. Otro ejemplo podría ser en la industria de los seguros de salud, donde un agente podría orientar a los clientes con información sobre un fármaco o una enfermedad relevante.

¿Será este el futuro de la IA? ¿Veremos a estos agentes inteligentes revolucionando nuestras vidas? El tiempo dirá. Pero, por lo pronto, la propuesta de Databricks promete allanar el camino para que estos sistemas sean más eficientes y fiables, incluso con datos «sucios». Una buena noticia, sin dudas, para un sector que no para de crecer y de generar expectativas, a veces desmedidas.

Compartir

🔺 Tendencia

🔺 Tendencia