{"id":130268,"date":"2026-05-07T21:46:16","date_gmt":"2026-05-07T21:46:16","guid":{"rendered":"https:\/\/enfoquenoticioso.com\/?p=130268"},"modified":"2026-05-07T21:46:16","modified_gmt":"2026-05-07T21:46:16","slug":"openai-nuevas-ia-que-razonan-traducen-y-transcriben-mientras-hablas","status":"publish","type":"post","link":"https:\/\/enfoquenoticioso.com\/?p=130268","title":{"rendered":"OpenAI nuevas IA que razonan, traducen y transcriben mientras hablas"},"content":{"rendered":"<figure><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"576\" src=\"https:\/\/i0.wp.com\/imgs.hipertextual.com\/wp-content\/uploads\/2026\/05\/gpt-audio.jpg?fit=1024%2C576&amp;quality=70&amp;strip=all&amp;ssl=1\" class=\"attachment-rss-image-size size-rss-image-size wp-post-image\" alt=\"\" \/><\/figure>\n<p><strong>OpenAI ha presentado tres nuevos modelos de voz de IA<\/strong> que pueden razonar, traducir y transcribir mientras las personas hablan. La compa\u00f1\u00eda se\u00f1ala que estos modelos permiten crear experiencias de voz que <strong>se sienten m\u00e1s naturales y responden de forma m\u00e1s inteligente<\/strong> en tiempo real. Los tres ya est\u00e1n disponibles a trav\u00e9s de la API para desarrolladores<\/p>\n<p>De acuerdo con <a href=\"https:\/\/openai.com\/index\/advancing-voice-intelligence-with-new-models-in-the-api\/\" target=\"_blank\" rel=\"noopener\">una publicaci\u00f3n en su web<\/a>, los modelos en cuesti\u00f3n son <strong>GPT-Realtime-2<\/strong>, GPT-Realtime-Translate y GPT-Realtime-Whisper. El primero de ellos es el m\u00e1s llamativo del grupo y cuenta con <strong>capacidades de razonamiento equivalentes a GPT-5<\/strong>. OpenAI menciona que su IA puede puede <strong>manejar conversaciones m\u00e1s complejas<\/strong> sin perder el hilo, ya que entiende el contexto, gestiona interrupciones, llama a herramientas externas mientras sigue hablando y ajusta su tono seg\u00fan la situaci\u00f3n.<\/p>\n<p>Cuando los usuarios est\u00e1n frustrados, <strong>la IA puede responder con m\u00e1s calma<\/strong>, pero si est\u00e1 confirmando algo, sube el tono. GPT-Realtime-2 tambi\u00e9n introduce <strong>frases de transici\u00f3n<\/strong> como \u00abd\u00e9jame verificar eso\u00bb o \u00abun momento\u00bb mientras procesa una solicitud, lo que <strong>evitar\u00e1 los silencios que hacen sentir que el sistema se ha colgado<\/strong>. Otra funci\u00f3n adicional es la posibilidad de llamar a varias herramientas al mismo tiempo y anunciarlo en voz alta: \u00abrevisando tu calendario\u00bb, \u00abbuscando esa informaci\u00f3n ahora\u00bb.<\/p>\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" data-recalc-dims=\"1\" width=\"780\" height=\"766\" src=\"https:\/\/i0.wp.com\/imgs.hipertextual.com\/wp-content\/uploads\/2026\/05\/gpt-realtime-2.jpg?resize=780%2C766&#038;quality=70&#038;strip=all&#038;ssl=1\" alt=\"\" class=\"wp-image-1885346\" \/><\/figure>\n<p>GPT-Realtime-2 tine una <strong>ventana de contexto de 128.000 tokens<\/strong>, lo que permite conversaciones mucho m\u00e1s largas sin que el modelo pierda el hilo. El nivel de <strong>razonamiento<\/strong> adem\u00e1s es <strong>configurable entre cinco niveles<\/strong>, desde m\u00ednimo hasta muy alto, para equilibrar velocidad y profundidad seg\u00fan lo que necesite cada caso.<\/p>\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_81 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Tabla de Contenido<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Alternar tabla de contenidos\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/enfoquenoticioso.com\/?p=130268\/#Los_nuevos_modelos_de_OpenAI_razonan_traducen_y_transcriben_conversaciones_en_tiempo_real\" >Los nuevos modelos de OpenAI razonan, traducen y transcriben conversaciones en tiempo real<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/enfoquenoticioso.com\/?p=130268\/#Precio_y_disponibilidad\" >Precio y disponibilidad<\/a><\/li><\/ul><\/nav><\/div>\n<h2 class=\"wp-block-heading\" id=\"h-los-nuevos-modelos-de-openai-razonan-traducen-y-transcriben-conversaciones-en-tiempo-real\"><span class=\"ez-toc-section\" id=\"Los_nuevos_modelos_de_OpenAI_razonan_traducen_y_transcriben_conversaciones_en_tiempo_real\"><\/span>Los nuevos modelos de OpenAI razonan, traducen y transcriben conversaciones en tiempo real<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>El segundo modelo de la lista es <strong>GPT-Realtime-Translate<\/strong>, dise\u00f1ado para traducci\u00f3n simult\u00e1nea de voz. Esta IA <strong>admite m\u00e1s de 70 idiomas de entrada y traduce hacia 13 idiomas de salida<\/strong>, todo en tiempo real y siguiendo el ritmo del hablante. OpenAI menciona que esta funcionalidad est\u00e1 enfocada a la atenci\u00f3n al cliente, plataformas educativas, eventos en directo o cualquier app en donde dos personas necesiten hablar en idiomas distintos sin interrumpir la conversaci\u00f3n.<\/p>\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" data-recalc-dims=\"1\" width=\"780\" height=\"439\" src=\"https:\/\/i0.wp.com\/imgs.hipertextual.com\/wp-content\/uploads\/2026\/05\/gpt-translation-1500x844.jpg?resize=780%2C439&#038;quality=70&#038;strip=all&#038;ssl=1\" alt=\"\" class=\"wp-image-1885347\" \/><\/figure>\n<p>\u00abLa traducci\u00f3n en vivo debe preservar el significado mientras mantiene el ritmo del hablante, incluso cuando la gente habla de forma natural, cambia de contexto o utiliza pronunciaci\u00f3n regional y lenguaje espec\u00edfico de dominio\u00bb, dijo la compa\u00f1\u00eda.<\/p>\n<p>Uno de los primeros en aplicar GPT-Realtime-Translate es <strong>Deutsche Telekom<\/strong>, quien est\u00e1 probando el modelo para permitir que sus clientes <strong>se comuniquen en el idioma con el que se sientan m\u00e1s c\u00f3modos<\/strong>.<\/p>\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" data-recalc-dims=\"1\" width=\"780\" height=\"439\" src=\"https:\/\/i0.wp.com\/imgs.hipertextual.com\/wp-content\/uploads\/2026\/05\/openai-gpt-translate-1500x844.jpg?resize=780%2C439&#038;quality=70&#038;strip=all&#038;ssl=1\" alt=\"\" class=\"wp-image-1885348\" \/><\/figure>\n<p>Por \u00faltimo, OpenAI lanz\u00f3 GPT-<strong>Realtime-Whisper<\/strong>, <a href=\"https:\/\/hipertextual.com\/tecnologia\/mistral-voxtral-ia-voz-codigo-abierto-supera-openai-whisper\/\" target=\"_blank\" rel=\"noopener\">un modelo de transcripci\u00f3n<\/a> que convierte el audio en texto mientras la persona habla. En la pr\u00e1ctica, esta IA <strong>a\u00f1ade subt\u00edtulos en las presentaciones o transmisiones en directo<\/strong>, las cuales pueden sentirse m\u00e1s r\u00e1pidas y naturales al reducir la latencia t\u00edpica que a\u00f1ade una funci\u00f3n de subtitulado en tiempo real.<\/p>\n<p>GPT-Realtime-Whisper tambi\u00e9n <strong>puede generar notas y res\u00famenes mientras las conversaciones a\u00fan est\u00e1n en progreso<\/strong>. El modelo permite construir agentes de voz que necesiten entender a los usuarios de forma continua, algo que se aprovechar\u00e1 en departamentos como el de atenci\u00f3n al cliente, sanidad, ventas, reclutamiento y m\u00e1s.<\/p>\n<figure class=\"wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio\">\n<div class=\"wp-block-embed__wrapper\">\n<\/div>\n<\/figure>\n<h2 class=\"wp-block-heading\" id=\"h-precio-y-disponibilidad\"><span class=\"ez-toc-section\" id=\"Precio_y_disponibilidad\"><\/span>Precio y disponibilidad<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Los tres modelos est\u00e1n <strong>disponibles dentro de la Realtime API de OpenAI<\/strong>. Para probarlos sin escribir c\u00f3digo, puedes acceder directamente <a href=\"https:\/\/platform.openai.com\/audio\/realtime\" target=\"_blank\" rel=\"noopener\">desde el Playground de la plataforma.<\/a> Si quieres integrarlos en una app, OpenAI ofrece un punto de partida a trav\u00e9s de Codex, donde puedes a\u00f1adir GPT-Realtime-2 a un proyecto existente o arrancar uno desde cero.<\/p>\n<p>En cuanto al precio, <strong>GPT-Realtime-2 tiene un coste de 32 d\u00f3lares por cada mill\u00f3n de tokens <\/strong>de audio en entrada y 64 d\u00f3lares por cada mill\u00f3n en salida. Por su parte, GPT-Realtime-Translate se ofrece a 0,034 d\u00f3lares por minuto, y GPT-Realtime-Whisper a 0,017 d\u00f3lares por minuto.<\/p>\n<p>OpenAI confirm\u00f3 que <strong>la API incluye capas de seguridad que pueden detener conversaciones<\/strong> si detectan contenido que viola las pol\u00edticas de uso.<\/p>\n<\/p>\n<p>Seguir leyendo: <a href=\"https:\/\/hipertextual.com\/tecnologia\/openai-modelos-voz-realtime-gpt-traduccion\/\" target=\"_blank\" rel=\"noopener\">OpenAI nuevas IA que razonan, traducen y transcriben mientras hablas<\/a><\/p>\n<p><a href=\"https:\/\/hipertextual.com\/tecnologia\/openai-modelos-voz-realtime-gpt-traduccion\/\" class=\" target=\" title=\"OpenAI nuevas IA que razonan, traducen y transcriben mientras hablas\" target=\"_blank\" rel=\"noopener\">Ver fuente<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>OpenAI ha presentado tres nuevos modelos de voz de IA que pueden razonar, traducir y transcribir mientras las personas hablan. La compa\u00f1\u00eda se\u00f1ala que estos modelos permiten crear experiencias de voz que se sienten m\u00e1s naturales y responden de forma m\u00e1s inteligente en tiempo real. Los tres ya est\u00e1n disponibles a trav\u00e9s de la API [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":130269,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[9],"tags":[],"class_list":["post-130268","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia"],"_links":{"self":[{"href":"https:\/\/enfoquenoticioso.com\/index.php?rest_route=\/wp\/v2\/posts\/130268","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/enfoquenoticioso.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/enfoquenoticioso.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/enfoquenoticioso.com\/index.php?rest_route=\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/enfoquenoticioso.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=130268"}],"version-history":[{"count":0,"href":"https:\/\/enfoquenoticioso.com\/index.php?rest_route=\/wp\/v2\/posts\/130268\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/enfoquenoticioso.com\/index.php?rest_route=\/wp\/v2\/media\/130269"}],"wp:attachment":[{"href":"https:\/\/enfoquenoticioso.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=130268"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/enfoquenoticioso.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=130268"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/enfoquenoticioso.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=130268"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}