ChatGPT evoluciona: habla mejor y ahora traduce conversaciones en tiempo real

OpenAI ha dado un nuevo paso en la evolución de ChatGPT, mejorando sustancialmente su capacidad para hablar con voz más fluida, humana y emocional. La nueva función, llamada «Modo de Voz Avanzado», promete no solo mejorar la entonación y las pausas, sino también incluir matices emocionales como la empatía o incluso el sarcasmo. Además, incorpora traducción simultánea, lo que significa que puede funcionar como un intérprete en tiempo real en diálogos multilíngües.

Traducción instantánea entre idiomas y voz más natural

El sistema ahora es capaz de traducir conversaciones entre pares de idiomas seleccionados por el usuario. Una vez activado, interpreta ambos lados de la conversación sin interrupción, hasta que se le indique lo contrario. Esto convierte al asistente en una herramienta útil, por ejemplo, en negociaciones laborales entre personas de diferentes nacionalidades o al ordenar comida en restaurantes durante un viaje al extranjero.

Según OpenAI, los suscriptores de pago ya pueden activar esta función desde la interfaz del chat presionando el icono de idioma. La nueva versión de voz se ha desplegado en todas las plataformas y se adapta a múltiples voces preconfiguradas, lo que permite a los usuarios personalizar la experiencia auditiva según el caso de uso.

Además, la conversión de texto a voz se ha refinado, lo que da como resultado una comprensión más clara y una pronunciación más precisa, incluso en escenarios con ruido ambiental. La intención es ofrecer una experiencia de conversación con IA que se acerque cada vez más a las interacciones humanas reales.

Limitaciones actuales y retos pendientes

Aunque los avances son significativos, la tecnología aún tiene espacio para mejoras. OpenAI ha admitido que pueden darse caídas en la calidad del audio, como cambios repentinos en el tono o el volumen. Estas irregularidades varían según la voz seleccionada por el usuario.

Otro problema frecuentemente reportado son las llamadas «alucinaciones» sonoras. Esto se refiere a cuando ChatGPT emite sonidos extraños sin que se le pida, como si fueran efectos de fondo, ruidos aleatorios o incluso fragmentos de música o posibles anuncios publicitarios. En un caso particular, un usuario afirmó haber escuchado lo que parecía ser un anuncio comercial durante su conversación, a pesar de que OpenAI no incluye publicidad en ChatGPT.

El Modo de Voz Avanzado fue introducido por OpenAI en mayo de 2024 y, más adelante, se amplió su disponibilidad a la Unión Europea. Junto con esta mejora, la empresa ha añadido funcionalidades como el uso compartido de pantalla y activación en cámara. Esto permite que ChatGPT no solo escuche y hable, sino que «vea» en tiempo real el entorno del usuario y comente sobre objetos visibles. Su principal competidor, Google Gemini, ya ofrece funciones similares.

Con estas mejoras, ChatGPT acelera su consolidación como una IA conversacional versátil que puede servir de asistente virtual, intérprete, guía turística y mucho más. Los avances en la voz IA permiten vislumbrar un futuro donde la interacción natural entre humanos y máquinas sea parte habitual del día a día.