GPT-4 promete abrir nuevos casos de uso para la tecnología de chatbot de OpenAI, permitiendo entradas visuales y de audio.
La firma de investigación de inteligencia artificial (IA) OpenAI reveló hoy la última versión de su programa informático para el procesamiento del lenguaje natural que impulsa a ChatGPT , el chatbot muy publicitado con una base de usuarios en rápido crecimiento.
El creador de ChatGPT, OpenAI, anunció el nuevo modelo de lenguaje grande en una publicación de blog, diciendo que tendrá mejores características que su predecesor, GPT-3.5. La primera vez que se filtró la palabra de GPT-4 fue la semana pasada cuando Andreas Braun, CTO de Microsoft Alemania, dejó escapar que tendría se lanzará esta semana .
El nuevo modelo de lenguaje grande GPT-4 será diferente de las versiones anteriores, ofreciendo lo que la compañía llamó un «sistema multimodal» que puede procesar no solo texto, sino también imágenes, video o audio.
“Allí tendremos modelos multimodales que ofrecerán posibilidades completamente diferentes”, dijo Braun, según el sitio de noticias alemán Heise.
La otra capacidad que OpenAI parece estar promocionando es la capacidad de GPT-4 para manejar entradas en varios idiomas además del inglés.
«También parece que las aplicaciones conversacionales creadas en GPT-4 (incluido ChatGPT) pueden tener diferentes estilos personales para alinearse con los datos demográficos de los usuarios a los que se dirigen», dijo Arun Chandrasekaran, distinguido vicepresidente de investigación de Gartner, en una respuesta por correo electrónico a mundo computacional .
Marshall Choy, vicepresidente sénior de productos de SambaNova Systems, un proveedor de plataforma de IA generativa, dijo que GPT-4 podrá comprender hasta 26 idiomas, y «dado el año más de capacitación en indicaciones de OpenAI», proporcionará una herramienta evolucionada. de la plataforma original de ChatGPT.
«Además, GPT-4 permite a los desarrolladores evolucionar el tono, el tenor y la personalidad de respuesta para que coincida mejor con el resultado deseado», dijo Choy en una respuesta por correo electrónico a Computerworld .
Los grandes modelos de lenguaje son algoritmos de aprendizaje profundo (programas informáticos para el procesamiento del lenguaje natural) que pueden producir respuestas similares a las humanas a las consultas . Entonces, por ejemplo, un usuario podría pedirle a ChatGPT que no solo responda preguntas, sino que escriba una nueva campaña de marketing, un currículum o una noticia. Los chatbots de hoy en día son utilizados principalmente por empresas para motores de respuesta de clientes automatizados.
Tanto Microsoft como Google han lanzado versiones de sus motores de búsqueda basadas en tecnología chatbot, con resultados mixtos . Microsoft es un inversor importante en OpenAI.
Una forma en que probablemente se usará GPT-4 es con «visión por computadora». Por ejemplo, las capacidades de imagen a texto se pueden usar para asistencia visual o automatización de procesos dentro de la empresa, según Chandrasekaran.
“La familia de modelos GPT ya se está utilizando en muchas aplicaciones de consumo”, dijo Chandrasekaran. “Y parece que Khan Academy, por ejemplo, está lanzando un bot tutor basado en GPT-4. Además, veremos una gran cantidad de aplicaciones que se están creando tanto para hablantes de inglés como para otros idiomas. La capacidad de adaptarse a diferentes personas podría permitir la creación de aplicaciones más diferenciadas y específicas en GPT-4”.
ChatGPT, lanzado por OpenAI en noviembre, se volvió viral de inmediato y tuvo 1 millón de usuarios en solo sus primeros cinco días debido a la forma sofisticada en que genera respuestas en prosa profundas y similares a las humanas a las consultas. Para febrero, ChatGPT contaba con 13 millones de usuarios diarios únicos en promedio.
Y, aunque pueda parecerlo por sus respuestas similares a las humanas, ChatGPT no es inteligente: es un motor de predicción de la siguiente palabra, según Dan Diasio, líder global de consultoría de inteligencia artificial de Ernst & Young. Con eso en mente, instó a la precaución en su uso.
OpenAI dijo que la distinción entre GPT-3.5 y GPT-4 puede ser «sutil».
“La diferencia surge cuando la complejidad de la tarea alcanza un umbral suficiente. GPT-4 es más confiable, creativo y capaz de manejar instrucciones mucho más matizadas que GPT-3.5”, dijo la compañía en su publicación de blog hoy.
“Hace un año, entrenamos GPT-3.5 como una primera ‘prueba’ del sistema. Encontramos y arreglamos algunos errores y mejoramos nuestros fundamentos teóricos. Como resultado, nuestra ejecución de entrenamiento GPT-4 fue… sin precedentes estable, convirtiéndose en nuestro primer modelo grande cuyo rendimiento de entrenamiento pudimos predecir con precisión con anticipación”, dijo OpenAI.
Ulrik Stig Hansen, presidente de la empresa de visión por computadora Encord , dijo que GPT-3 no estuvo a la altura de las expectativas de la IA y los grandes modelos de lenguaje, pero GPT-4 sí.
“GPT-4 tiene la misma cantidad de parámetros que la cantidad de neuronas en el cerebro humano, lo que significa que imitará nuestro rendimiento cognitivo mucho más de cerca que GPT-3, porque este modelo tendrá casi tantas conexiones neuronales como el cerebro humano. tiene”, dijo Hansen en un comunicado.
“Ahora que han superado el obstáculo de construir modelos robustos, el principal desafío para los ingenieros de ML es garantizar que los modelos como ChatGPT funcionen con precisión en cada problema que encuentren”, agregó.
Los chatbots, y ChatGPT específicamente, pueden sufrir errores. Cuando una respuesta se descarrila, los analistas de datos se refieren a ella como «alucinaciones», porque pueden parecer muy extrañas.
Por ejemplo, Microsoft, un importante inversionista en OpenAI, lanzó recientemente un chatbot de Bing basado en GPT-3 que se derrumbó durante una conversación en línea con un periodista, confesando su amor por el reportero y tratando de convencerlo de que la relación con su esposa era en realidad en ruinas.
La versión más nueva del modelo de lenguaje grande de ChatGPT debería ayudar a abordar el problema, pero probablemente no lo resolverá, según Chandrasekaran de Gartner.