OpenAI quiere que la IA ayude a los humanos
Cuando los humanos valoran los resultados de un modelo de lenguaje se obtienen chatbots inteligentes
Redacción – Dimensión
Uno de los ingredientes clave que hicieron de ChatGPT un éxito arrollador fue un ejército de entrenadores humanos que orientaban al modelo de inteligencia artificial que había detrás del bot sobre lo que constituía una buena y una mala respuesta. OpenAI afirma ahora que añadir aún más IA a la mezcla (para ayudar a los entrenadores humanos) podría contribuir a que los asistentes de IA fueran más inteligentes y fiables.
En el desarrollo de ChatGPT, OpenAI fue pionera en el uso del aprendizaje por refuerzo con retroalimentación humana, o RLHF. Esta técnica utiliza las aportaciones de evaluadores humanos para ajustar un modelo de IA de modo que su resultado sea más coherente, menos desagradable y más preciso. Las valoraciones de los entrenadores alimentan un algoritmo que dirige el comportamiento del modelo. La técnica ha demostrado ser crucial tanto para hacer que los chatbots sean más fiables y útiles como para evitar que se porten mal.
“RLHF funciona muy bien, pero tiene algunas limitaciones importantes”, opina Nat McAleese, investigador de OpenAI que participa en el nuevo trabajo. Por un lado, la respuesta humana puede ser incoherente. Por otro, puede resultar difícil, incluso para personas cualificadas, evaluar resultados extremadamente complejos, como un sofisticado código de software. El proceso también puede optimizar un modelo para producir resultados que parezcan convincentes en lugar de ser realmente precisos.
OpenAI desarrolló un nuevo modelo ajustando su oferta más potente, GPT-4, para ayudar a los formadores humanos encargados de evaluar el código. La empresa descubrió que el nuevo modelo, bautizado como CriticGPT, podía detectar errores que los humanos pasaban por alto, y que los jueces humanos consideraban que sus críticas del código eran mejores el 63% de las veces. En el futuro, OpenAI estudiará la posibilidad de ampliar el enfoque a otras áreas además del código.
“Estamos empezando a trabajar para integrar esta técnica en nuestra pila de chat RLHF”, explica McAleese. Señala que el enfoque es imperfecto, ya que CriticGPT también puede cometer errores al alucinar, pero añade que la técnica podría ayudar a que los modelos de OpenAI, así como herramientas como ChatGPT, fueran más precisos al reducir los errores en el entrenamiento humano. Añade que también podría resultar crucial para ayudar a que los modelos de IA sean mucho más inteligentes, porque podría permitir a los humanos ayudar a entrenar una IA que supere sus propias capacidades: “Y a medida que los modelos sigan mejorando, sospechamos que la gente necesitará más ayuda”, según McAleese.
La nueva técnica es una de las muchas que se están desarrollando para mejorar los grandes modelos de lenguaje y sacarles más partido. También forma parte de un esfuerzo por garantizar que la IA se comporte de forma aceptable a medida que aumenta su capacidad.
A principios de este mes, Anthropic, rival de OpenAI fundada por ex empleados de OpenAI, anunció una versión más capaz de su propio chatbot, llamado Claude, gracias a mejoras en el régimen de entrenamiento del modelo y los datos que se le suministran. Anthropic y OpenAI también han presentado recientemente nuevas formas de inspeccionar los modelos de IA para comprender cómo llegan a sus resultados y evitar así comportamientos no deseados como el engaño.