Introducción
Los modelos de lenguaje grande (LLMs) se han convertido en herramientas tremendamente populares, especialmente en tareas de escritura. Estas aplicaciones generan con frecuencia salidas de texto que los usuarios finales pueden aceptar o modificar, mejorando la eficiencia en diversas aplicaciones como la redacción de correos electrónicos, respuestas de servicio al cliente y generación de informes. Sin embargo, para satisfacer verdaderamente las necesidades del usuario, estos modelos deben ser personalizados y adaptados contextualmente. Aquí entra el aprendizaje coactivo, un enfoque novedoso para entrenar LLMs utilizando retroalimentación implícita, introducido por Aaron David Tucker, Kiante Brantley, Adam Cahall y Thorsten Joachims de la Universidad de Cornell. Lee el estudio completo aquí.
El Modelo de Aprendizaje Coactivo
El aprendizaje coactivo aprovecha las ediciones que los usuarios realizan al texto generado por los LLMs. En lugar de depender de respuestas estándar de oro para el entrenamiento supervisado, el aprendizaje coactivo solo acepta que el texto editado por el usuario es una mejora sobre el original. Este modelo aprovecha la retroalimentación implícita, que es naturalmente abundante en muchas aplicaciones que permiten que los usuarios editen las salidas del modelo, para personalizar los LLMs de manera efectiva.
Los investigadores han desarrollado CoRLL (Aprendizaje por Refuerzo Coactivo a partir de la Retroalimentación del Usuario), el primer algoritmo de aprendizaje coactivo para LLMs. A diferencia del aprendizaje por refuerzo convencional a partir de la retroalimentación humana (RLHF, por sus siglas en inglés), que requiere etiquetas explícitas de preferencia en pares, CoRLL utiliza las mejoras implícitas que los usuarios hacen como retroalimentación. Esto reduce significativamente la necesidad de esfuerzos adicionales de etiquetado, haciendo que el proceso de aprendizaje sea más eficiente y centrado en el usuario.
Evidencia Empírica y Aplicaciones
El estudio realizado demuestra que CoRLL puede funcionar de manera muy efectiva en comparación con las técnicas tradicionales de aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), incluso en escenarios con retroalimentación ruidosa o débil. Sus experimentos en varios benchmarks, incluidos IMDB Sentimiento Positivo, TL;DR resúmenes y tareas de Asistente Útil y Harmless, revelan que CoRLL aprende de manera efectiva a partir de retroalimentación implícita.
El Rol de la Retroalimentación Implícita
La retroalimentación implícita es crucial en el marco de aprendizaje coactivo. Cada vez que un usuario edita un texto generado por un LLM, proporciona una señal valiosa sobre sus preferencias. CoRLL interpreta estas ediciones como retroalimentación de preferencia, lo que permite al modelo aprender y adaptarse a los estilos y requisitos individuales del usuario. Este enfoque no solo mejora la personalización de los LLMs, sino que también garantiza que los modelos se alineen con las expectativas del usuario sin la necesidad de un etiquetado explícito extenso.
Aprovechando la Retroalimentación Implícita para una Personalización Mejorada
Uno de los hallazgos principales del estudio es que demuestra que los datos de edición humana pueden ser una fuente valiosa de retroalimentación que no incurre en el esfuerzo adicional de etiquetado que requiere el feedback en forma de duelo.
Nebuly es una plataforma diseñada para facilitar la recopilación y utilización de retroalimentación implícita, alineándose perfectamente con los hallazgos del estudio y los principios del aprendizaje coactivo. Nebuly está construida para facilitar el flujo de trabajo de captura e integración de retroalimentación implícita en tu producto basado en LLM. Puedes recopilar fácilmente retroalimentación valiosa de las interacciones de los usuarios sin requerir esfuerzos adicionales de etiquetado manual. Esta retroalimentación se utiliza luego para ajustar finamente los LLMs, asegurando que estén personalizados para satisfacer las necesidades específicas de los usuarios.
La capacidad de capturar y aprovechar la retroalimentación implícita es altamente efectiva para los desarrolladores y organizaciones que buscan mejorar la capacidad de respuesta y precisión de sus sistemas de IA. Nebuly automatiza el proceso de recopilación de retroalimentación y ofrece una solución para integrar los hallazgos de vuelta en tus productos, permitiendo tasas de aprendizaje más rápidas y un mejor rendimiento del modelo.