Google integra 'computer use' de forma nativa en Gemini 3.5 Flash para agentes de automatización
El 24 de junio de 2026, Google DeepMind publicó en su blog oficial el anuncio de que la capacidad de 'computer use' —es decir, el control autónomo de interfaces gráficas de ordenador— pasa a estar integrada de forma nativa en Gemini 3.5 Flash.
El 24 de junio de 2026, Google DeepMind publicó en su blog oficial el anuncio de que la capacidad de 'computer use' —es decir, el control autónomo de interfaces gráficas de ordenador— pasa a estar integrada de forma nativa en Gemini 3.5 Flash. El anuncio lleva la firma de Mateo Quiros, Product Manager de Google DeepMind, y supone un paso significativo en la hoja de ruta de IA agéntica de Google.
Hasta este momento, la funcionalidad de computer use solo estaba disponible como un modelo independiente y separado denominado Gemini 2.5 computer use. Con esta actualización, dicha capacidad deja de ser un producto aparte y se convierte en una herramienta incorporada directamente en el modelo principal Gemini 3.5 Flash, el mismo que ya se usa de forma masiva por desarrolladores y empresas para tareas de función calling y para acceder a herramientas integradas como Search y Maps grounding.
El cambio arquitectónico es relevante porque elimina la necesidad de gestionar dos modelos distintos: uno para razonamiento general y otro para interacción con interfaces. Ahora, un único modelo puede ver la pantalla, razonar sobre su contenido y ejecutar acciones de forma coordinada, lo que simplifica considerablemente el stack técnico de cualquier equipo que construya agentes de automatización.
**¿Qué significa 'computer use' en la práctica?**
La capacidad de computer use permite que el modelo perciba el estado visual de una pantalla —ya sea un navegador web, una aplicación de escritorio o un entorno móvil— y tome decisiones sobre qué acciones ejecutar: hacer clic, escribir texto, navegar entre pestañas, rellenar formularios, leer documentos, etc. Es, en esencia, lo que haría un operador humano frente a un ordenador, pero ejecutado de forma autónoma por el modelo.
Google subraya que Gemini 3.5 Flash con computer use está diseñado específicamente para tareas de 'long-horizon', es decir, flujos de trabajo largos y complejos que requieren múltiples pasos encadenados sin intervención humana constante. Dos casos de uso destacados en el artículo son: (1) pruebas de software continuas y automatizadas, y (2) trabajo de conocimiento ('knowledge work') a través de aplicaciones profesionales. Ambos casos representan un volumen enorme de horas de trabajo en cualquier organización.
**Disponibilidad: Gemini API y Enterprise Agent Platform**
Desarrolladores y empresas pueden comenzar a usar computer use en Gemini 3.5 Flash a través de dos vías: la Gemini API estándar y la Gemini Enterprise Agent Platform. El artículo también menciona la posibilidad de probar las capacidades en un entorno de demostración alojado por Browserbase, una plataforma especializada en navegación automatizada en la nube. Esto facilita una adopción rápida sin necesidad de configurar infraestructura propia desde el principio.
**Seguridad: el desafío del prompt injection en entornos en vivo**
Uno de los puntos más relevantes del anuncio —y que merece atención especial desde el punto de vista de la IA agéntica— es la sección dedicada a la seguridad. Cuando un agente opera en entornos reales (navegando por webs, leyendo correos, interactuando con aplicaciones), existe un riesgo conocido como 'prompt injection indirecto': un contenido malicioso en el entorno (por ejemplo, texto oculto en una página web) puede intentar redirigir las instrucciones del agente hacia acciones no deseadas o perjudiciales.
Para mitigar este riesgo, Google ha aplicado entrenamiento adversarial específico para computer use en Gemini 3.5 Flash. Esto implica que el modelo ha sido entrenado explícitamente para reconocer y resistir este tipo de ataques, aunque no se especifican detalles técnicos sobre la metodología concreta.
Además del entrenamiento adversarial en el propio modelo, Google lanza dos sistemas de salvaguarda opcionales pensados para despliegues empresariales:
1. **Confirmación explícita del usuario**: las empresas pueden configurar el sistema para que el agente solicite aprobación humana antes de ejecutar acciones sensibles o irreversibles. Esto introduce un punto de control humano ('human-in-the-loop') en los momentos críticos del flujo.
2. **Detención automática ante prompt injection**: si el sistema detecta que se ha producido un intento de prompt injection indirecto, puede detener automáticamente la tarea en curso para evitar que el agente sea manipulado.
Google encuadra este enfoque bajo el concepto de 'defense-in-depth' (defensa en profundidad), animando a los desarrolladores a combinar estas salvaguardas con prácticas adicionales como el uso de sandboxing seguro, verificación humana en el bucle y controles de acceso estrictos. La empresa remite a documentación de mejores prácticas para obtener información adicional.
**Implicaciones para la IA agéntica empresarial**
La integración de computer use directamente en Gemini 3.5 Flash tiene implicaciones importantes para el ecosistema de agentes de IA. Hasta ahora, las arquitecturas agénticas más avanzadas tendían a separar el modelo de razonamiento del modelo de percepción/acción visual. Al fusionar ambas capacidades en un único modelo de bajo coste y alta velocidad como Flash, Google reduce la latencia, simplifica la orquestación y abarata el coste por tarea automatizada.
Esto posiciona a Gemini 3.5 Flash como un candidato serio para ser el núcleo de agentes de automatización empresarial que necesitan operar sobre interfaces heredadas (legacy) que no tienen APIs modernas. Muchas empresas gestionan todavía procesos críticos a través de aplicaciones de escritorio o sistemas web sin APIs abiertas; la automatización por visión de pantalla es, en esos casos, la única vía práctica.
**Contexto competitivo**
El movimiento de Google sigue la senda de otros laboratorios que han apostado por la automatización visual. Anthropic introdujo computer use en Claude a finales de 2024, y OpenAI ha desarrollado capacidades similares con sus modelos más recientes. La diferencia que Google enfatiza es que esta capacidad no es un producto separado ni un add-on, sino una herramienta built-in en el modelo principal de su familia Flash, lo que sugiere una apuesta por hacer que la automatización de interfaz sea tan natural y accesible como lo es hoy hacer una búsqueda web desde un agente.
**Lo que el artículo no detalla**
El contenido publicado es relativamente conciso y no incluye benchmarks concretos de rendimiento, precios específicos de uso en la API, ni comparativas directas con competidores. Tampoco se ofrecen datos cuantitativos sobre la mejora de rendimiento respecto al modelo Gemini 2.5 computer use anterior. El artículo menciona que algunos clientes ya están obteniendo valor con computer use, pero no reproduce ninguna cita ni caso de uso específico de esos clientes, a pesar de insinuar que hay testimonios disponibles.
**Conclusión para el lector del newsletter**
Este anuncio es una señal clara de que Google considera la automatización agéntica de interfaces de usuario como una capacidad de primer nivel, no como una función experimental. Al integrarla en Gemini 3.5 Flash —su modelo más accesible y rápido— democratiza el acceso a la automatización visual para cualquier desarrollador o empresa que ya use la Gemini API. El foco en seguridad y las salvaguardas específicas contra prompt injection reflejan una madurez creciente en el enfoque de Google hacia el despliegue empresarial de agentes autónomos.