Gemini 3 Flash llega a la app de Gemini y será el modelo por defecto a partir de ahora
Gemini 3 Flash ya es el motor por defecto: Google tira los precios de la API y añade un modo de "pensamiento" para competir por velocidad
Google ha lanzado Gemini 3 Flash, el modelo que sustituye inmediatamente a la versión 2.5 como motor por defecto en su app y buscador. La compañía cambia el paso para colocar este modelo optimizado como estándar para todos, manteniendo el razonamiento complejo de la gama alta pero recortando drásticamente los tiempos de espera y el consumo de recursos.
La información sale de TechCrunch, donde podemos leer que el despliegue es global y afecta también a la API para desarrolladores. Google intenta arreglar el problema de la latencia en las interacciones diarias: ya no hace falta irse al modelo Pro, más lento y caro, para tener capacidades multimodales decentes o análisis de código en tiempo real.
Dos velocidades y caching de contexto
Este Flash no es un modelo nuevo, sino una versión destilada de las novedades de Gemini 3 que vimos el mes pasado. La arquitectura se ha aligerado para permitir dos modos de uso: "Fast", para respuestas inmediatas, y "Thinking", donde la IA se toma su tiempo para procesar cadenas de pensamiento (CoT). Es un cambio técnico relevante: ahora el usuario decide si prefiere velocidad o precisión lógica en el mismo chat.
Si abres la app y sigue igual, toca forzar la actualización. Existen métodos para activar Gemini 3 y cargar los nuevos binarios, algo recomendable porque la mejora en la ventana de contexto es real. Flash permite subir vídeos largos o repositorios enteros y preguntar sobre ellos con una agilidad que la versión 2.5 no tenía. Es la respuesta técnica a las quejas sobre la lentitud del análisis multimodal.
Al mirar los benchmarks frente a la competencia, y concretamente las diferencias entre Gemini 3 y GPT-5.1, se ve que Google sufría en la gama media. Flash tapa ese agujero. Ofrece capacidades de agente —como editar imágenes o ejecutar código— sin la penalización de rendimiento de los modelos mayores. Es un ataque directo a la línea de flotación de OpenAI, que sigue teniendo problemas de latencia en sus modelos de razonamiento.
Para los que usan la API, Google ha tirado los precios: 0,50 dólares por millón de tokens de entrada y 3 dólares para la salida. El audio entra a 1 dólar. Lo interesante aquí es el Context Caching, que reduce la factura hasta un 90% si reutilizas datos. Esto deja el catálogo de Google más ordenado. NotebookLM Ultra se queda para la investigación pesada y Flash para el "pico y pala" diario.
Google asume que la barrera de entrada ya no es la inteligencia, sino la velocidad y el coste. Si este modelo cumple con la tasa de aciertos que promete sin alucinar más de la cuenta, se convertirá en el estándar para la mayoría de integraciones de terceros. A pesar de que la burbuja de la IA sigue amenazando con explotar, mientras eso sucede y no queda claro que la Gran G está decidida a plantarle cara a OpenAI.