Logo MLA NowAI

Publicado el: 21/05/2025

Cuando la IA actúa: Nuevas herramientas prácticas en el Responses API de OpenAI

Lo que hasta ahora conocíamos como una API capaz de responder y contextualizar ha dado un paso adelante. OpenAI ha actualizado su Responses API incorporando herramientas que permiten no solo responder, sino también actuar con propósito: desde ejecutar código y generar imágenes, hasta buscar en archivos o comunicarse con herramientas externas gracias al soporte para servidores MCP remotos.

Estos cambios están disponibles en los modelos de la serie GPT-4o, GPT-4.1 y la línea o-series como o3 y o4-mini, que ahora pueden usar herramientas directamente durante su razonamiento, mantener estado entre llamadas y reducir tanto el coste como la latencia en los procesos.

No es un lanzamiento comercial cargado de promesas, es una actualización práctica con un impacto directo en cómo se diseñan aplicaciones que combinan lenguaje, acción y contexto.


Una API que ya no solo responde, también ejecuta


1. Conexión directa con servidores MCP remotos

Uno de los avances más interesantes es el soporte para Model Context Protocol (MCP), que permite a los desarrolladores conectar los modelos con herramientas externas como si fuesen funciones internas del propio sistema. Stripe, Shopify, Twilio o incluso APIs privadas ya pueden estar disponibles dentro del mismo flujo de razonamiento de un modelo. Sin integraciones complejas. Solo con unas líneas de configuración.

Este tipo de integración va a permitir construir agentes que realmente operen de forma autónoma, dentro de los límites que el desarrollador marque, pero con una lógica de interacción mucho más rica y estructurada.


2. Generación de imágenes y refinamiento en tiempo real

También se añade la posibilidad de utilizar la generación de imágenes como una herramienta dentro del razonamiento. A través del modelo gpt-image-1, los desarrolladores pueden generar imágenes con visualización en streaming y realizar ajustes paso a paso sin necesidad de reiniciar el proceso.

Esto puede aplicarse en asistentes creativos, diseño automatizado, contenido gráfico y mucho más, especialmente en sectores donde la interacción visual juega un papel clave.


3. Code Interpreter: ejecución de lógica en tiempo real

La herramienta de interpretación de código, ya conocida en entornos como ChatGPT, ahora se puede invocar directamente desde la API. Esto amplía el tipo de aplicaciones que pueden beneficiarse del modelo: análisis de datos, resolución matemática, simulaciones sencillas o procesamiento de imágenes con una lógica definida por código.

Aquí el valor real está en permitir que el modelo piense en código, no solo en lenguaje natural, lo que mejora sustancialmente su capacidad de resolver problemas complejos de forma precisa.


4. Mejoras en búsqueda de archivos

El motor de file search también recibe mejoras. Ahora es posible buscar en múltiples almacenes vectoriales, aplicar filtros más avanzados y trabajar con documentos de forma mucho más contextual. Esto es especialmente útil en proyectos que requieren trabajar con documentación extensa o recuperación precisa de información técnica o legal.


Funcionalidades complementarias

Además de estas herramientas, la API introduce nuevas funcionalidades que dan más control y contexto al desarrollador:

  • Background mode: Ideal para tareas largas que requieren tiempo de procesamiento. Permite ejecutar procesos de razonamiento de forma asíncrona, sin preocuparse por cortes de conexión o tiempo de espera.
  • Resúmenes de razonamiento: El modelo puede generar un resumen de su propio proceso lógico, útil para revisar qué pasos siguió, cómo llegó a una conclusión o depurar posibles errores.
  • Razonamientos cifrados (Zero Data Retention): Para organizaciones que no pueden almacenar datos en servidores externos, esta funcionalidad permite reutilizar razonamientos previos sin comprometer la privacidad o seguridad de la información.


Sobre precios y disponibilidad

Las nuevas herramientas ya están disponibles para modelos GPT-4o, GPT-4.1 y la serie o-series (o1, o3, o4-mini). Aquí algunos datos relevantes:

  • Generación de imágenes: $5 por millón de tokens de texto, $10 por tokens de entrada en imágenes y $40 por millón de tokens generados en imágenes.
  • Code Interpreter: $0,03 por ejecución en contenedor.
  • File Search: $0,10/GB/día y $2,50 por cada mil llamadas.
  • MCP: no tiene coste adicional directo; solo se facturan los tokens de salida generados.


Un avance técnico con aplicaciones reales

Más allá del titular, esta actualización facilita la construcción de productos que integran múltiples capacidades sin necesidad de complicar el diseño técnico. Desde asistentes empresariales hasta herramientas especializadas, lo importante aquí es que los modelos pueden pensar, decidir y actuar en un solo flujo.


Opinión personal

Desde Utilia, donde ya trabajamos día a día con este tipo de herramientas, vemos este avance como un paso lógico pero necesario. Las empresas necesitan modelos que no solo respondan, sino que tomen decisiones dentro de límites definidos, ejecuten acciones y se conecten con las herramientas que ya utilizan.

Estamos aún lejos de una inteligencia artificial completamente autónoma, pero sí mucho más cerca de un uso real, controlado y enfocado. Esta actualización ayuda a que más desarrolladores puedan construir soluciones con impacto directo en negocio, sin depender de estructuras complejas o lentas.

Esto no va de promesas futuras. Va de cosas que ya se pueden hacer hoy. Y en ese terreno es donde nosotros preferimos movernos.