Google officially declares war
Autor deste artigo: Chengbei XugongApoio de dados: Gougu Big Data
A Conferência de Programadores Google I/O de 2026 deixa a impressão de apenas duas palavras: arrogância.
Não só integraram perfeitamente agentes de IA em todos os pontos de entrada de tráfego principais, como pesquisa, navegadores, telemóveis e óculos inteligentes, como também lançaram continuamente três grandes inovações: Gemini 3.5 Flash, o modelo de vídeo Omni e o novo assistente de IA Spark.
Após demonstrarem as suas forças, anunciaram orgulhosamente que os utilizadores ativos mensais do Gemini ultrapassaram os 900 milhões; anunciaram também oficialmente reduções de preço significativas.
O significado é direto: Sou mais forte do que tu e sou mais barato do que tu.
Não será isto uma declaração de guerra?
01
A revelação mais impressionante na conferência foi, sem dúvida, a estreia do Gemini 3.5 Flash.
Normalmente, "Pro" representa a espinha dorsal, enquanto "Flash" significa leveza e velocidade.
Em termos de parâmetros de modelo, o 3.5 Flash é de facto mais pequeno do que o 3.1 Pro, mas em quase todos os testes de referência de inferência e codificação, o primeiro teve um desempenho surpreendentemente melhor:
No complexo teste de raciocínio matemático GSM8K, o 3.5 Flash obteve 95,8%, superando os 93,2% do 3.1 Pro; na versão completa da capacidade de geração de código SWE-bench, o 3.5 Flash alcançou uma taxa de solução de 38,4%, excedendo largamente os 32,1% do 3.1 Pro...
Porquê?
De acordo com o "Relatório Técnico do Gemini 3.5" divulgado pela DeepMind, existem duas tecnologias centrais que são as mais importantes.
Destilação de Conhecimento Extrema: A Google não confiou simplesmente em acumular poder computacional para treinar o Flash; em vez disso, utilizaram o "Gemini 3.5 Ultra", nunca antes lançado, como modelo professor para realizar a destilação de redução de dimensionalidade no Flash.
De acordo com uma análise no Twitter do cientista-chefe da DeepMind, Jeff Dean, a taxa de ajuste fino do 3.5 Flash em conjuntos de dados de cadeia lógica de alta qualidade melhorou 400% em comparação com a geração anterior.
Isto significa que herda o "cérebro lógico" de um modelo super grande, em vez de uma "base de conhecimento" mecânica.
Nova arquitetura MoE (Mixture of Experts): Dentro do 3.5 Flash, a Google adotou uma rede de especialistas mais granular.
O MoE tradicional pode ter apenas 8 ou 16 especialistas, ativando apenas 1-2 de cada vez, o que é suficiente para suportar modelos à escala de biliões de parâmetros.
De acordo com uma análise no memorando de investimento em infraestrutura de IA de 2026 da a16z, o 3.5 Flash emprega 256 micro-especialistas, ativando até 4 dos mais eficientes durante cada inferência.
Isto permite-lhe cobrir um espaço de características multimodais extremamente grande, mantendo uma contagem de parâmetros de ativação extremamente baixa.
Em termos de TTFT (Time to First Token), o 3.5 Flash já atingiu menos de 65 milissegundos.
E um piscar de olhos humano demora 100-150 milissegundos.
Em suma, quando opera como um agente, do ponto de vista fisiológico humano, não há qualquer pausa percetível.
Para programadores que precisam de chamar ferramentas frequentemente, envolver-se em múltiplas rondas de reflexão e que requerem uma latência extremamente baixa, esta é a base perfeita para um super agente.
Só com tal otimização de engenharia extrema se pode estabelecer o domínio na "implementação de ponta" num ambiente ferozmente competitivo.
O primeiro é o multimodal nativo Gemini Omni Flash.
Omni significa todo-poderoso, correspondendo ao anterior GPT-4o; só pelo nome, consegue-se sentir a intensa competição.
Pelo menos em termos de desempenho, o Gemini Omni Flash está muito mais qualificado para usar o caráter "o" do que o GPT-4o.
Versões iniciais como o Sora ou o Gemini 1.5 eram essencialmente colagens, convertendo voz em texto e depois texto em visuais.
Mas o Omni lançado desta vez é verdadeiramente um alinhamento multimodal nativo de ponta a ponta. Não só consegue compreender nativamente a coerência temporal e as leis físicas em vídeos, como também reduz o atraso médio da indústria de 400-600 milissegundos para 120 milissegundos.
Por exemplo, durante a conferência: um utilizador com uma câmara deita água e, quando o copo está prestes a transbordar, o Omni consegue dizer "para, para, para!" 0,5 segundos antes de a água entornar.
Esta inferência em tempo real do estado físico do mundo real pode parecer simples, mas é significativa: A IA evoluiu oficialmente de um chatbot no ecrã para uma ferramenta auxiliar no mundo real.
Mesmo que ainda esteja nas suas fases iniciais.
O segundo é o assistente inteligente Spark.
De acordo com um relatório do The Verge que entrevistou o Vice-Presidente de Engenharia Android, o Spark recebeu controlo sobre a API nativa do sistema Android 17.
Em suma, processos complexos que anteriormente exigiam abrir muitas aplicações podem agora ser concluídos sem levantar um dedo; basta dar instruções ao Spark e ele trata de tudo por si, desde enviar mensagens, organizar e-mails, resumir agendas, acompanhar dinâmicas da web, identificar cobranças ocultas em faturas, processar documentos em lote, e assim por diante...
Por outras palavras, com o assistente de IA, dificilmente precisaremos de aplicações; qualquer operação complexa é simplificada num único comando.
O terceiro são os óculos inteligentes.
Porquê óculos outra vez?
Pelo menos da perspetiva da Google, o acesso contínuo à visão e audição é o hospedeiro definitivo para modelos grandes multimodais.
Estes óculos não têm uma aparência vistosa, focando-se inteiramente em capacidades práticas:
Lentes de guia de onda a cores Micro-OLED com apenas 4 gramas, com uma transmitância de luz de até 85%;
Equipados com um chip de ponta Gemini leve desenvolvido internamente, latência de inferência local ≤12ms, capaz de tradução em tempo real, reconhecimento de imagem e análise de cena sem necessidade de ligação à internet;
Ligados nativamente ao agente Spark, sincronizando dados móveis e da nuvem para fornecer serviços personalizados como lembretes de agenda, tradução em tempo real e alertas ambientais.
Em suma, contorna o ecrã do smartphone, integrando o agente na perspetiva de primeira pessoa humana através de óculos.
Há simplesmente demasiado conteúdo; a Google parece ter esvaziado todos os seus trunfos de uma vez, declarando uma verdade ao mercado:
Um algoritmo sem um ponto de entrada não é nada.
A era de lançar parâmetros de modelo e pontuações de referência acabou; os fornecedores de modelos puros já não têm um fosso. O futuro é uma batalha espacial quadridimensional de "ponta + nuvem + ecossistema + hardware."
Colocar IA num pacote familiar está, na verdade, a remodelar toda a lógica de distribuição de tráfego da internet: de "utilizadores a pesquisar/clicar ativamente" para "agentes de IA a distribuir serviços ativamente."
Para um vasto número de programadores e pequenas e médias empresas, esta é uma excelente notícia, uma vez que o poder computacional subjacente e os modelos se tornaram extremamente baratos, permitindo que todos se foquem na inovação ao nível da aplicação.
Mas outros concorrentes estão provavelmente apenas a praguejar neste momento.
02
Quando anunciaram casualmente do palco que "os utilizadores ativos mensais do Gemini ultrapassaram oficialmente os 900 milhões", causou um grande alvoroço na audiência.
900 milhões é mais do que a soma dos MAUs de todos os concorrentes nos EUA.
Como é que conseguiram isto?
A resposta é simples e brutal: alimentação forçada.
A Google não precisa de gastar dinheiro em publicidade para adquirir utilizadores como as empresas de IA independentes; só precisa de adicionar um ícone ao lado da barra de endereços no navegador Chrome, integrar uma tecla de atalho na barra de navegação inferior de 3 mil milhões de telemóveis Android e enviar atualizações através do Google Workspace...
O custo de aquisição de clientes é essencialmente zero.
Mais criticamente, durante o próximo período, o olhar dos 900 milhões de utilizadores ativos enquanto usam óculos inteligentes para ver produtos, a lógica corrigida enquanto processam tarefas com o Spark e as interações com o modelo visual Omni gerarão uma enorme quantidade de dados de feedback do mundo real multimodais de alta qualidade, que alimentarão o Gemini 4.
Isto cria uma barreira extremamente sólida: quanto melhor o modelo for de usar -> mais utilizadores atrai -> mais dados gera -> melhor o modelo se torna.
Para fortalecer rapidamente este ciclo fechado, a Google anunciou diretamente uma guerra de preços contra todos os concorrentes: o pacote AI Ultra foi reduzido de 249,99 $/mês para 99,9 $/mês.
O preço de entrada para um milhão de tokens do 3.5 Flash caiu para 0,02 $, e o preço de saída para um milhão de tokens é 0,08 $.
Que tipo de preço incrível é este?
Em comparação, os preços médios para modelos de níveis semelhantes na indústria rondam os 0,15-0,2 $ para entrada e 0,6-1 $ para saída.
Cortando os números, os principais clientes processam cerca de 1 bilião de tokens diariamente. Mudar 80% da carga de trabalho para o Gemini 3.5 Flash durante um ano poderia poupar mais de 1 mil milhões de dólares.
Porquê arriscar vender IA a um preço tão baixo?
A maior confiança é: infraestrutura de poder computacional verticalmente integrada.
Incluindo gigantes como a OpenAI e a Anthropic, podem parecer glamorosas, mas essencialmente continuam a ser "inquilinos de poder computacional", precisando de comprar poder computacional à Microsoft e à Amazon, que por sua vez têm de pagar ao velho Huang.
A Google tem o seu próprio TPU e, combinado com a ativação dispersa MoE extremamente eficiente do 3.5 Flash, comprimiu os custos de poder computacional ao extremo.
Podem aproveitar totalmente as suas vantagens de ativos pesados para derrubar empresas de algoritmos puros.
A lógica é clara.
Os modelos grandes básicos estão a tornar-se rapidamente mercadorias. Tal como a água e a eletricidade, já alguma vez viu uma empresa de água a ter lucros exorbitantes?
A Google não teme que os modelos grandes em si não deem dinheiro, porque podem recuperá-lo através de anúncios de pesquisa, serviços na nuvem e comissões do ecossistema Android.
Mas para empresas como a OpenAI, Anthropic, Cohere e Mistral que dependem apenas da venda de APIs de modelos grandes, isto é impossível.
Os investidores estão provavelmente agora a querer pressionar a cabeça do Ultraman e perguntar: "O preço da API da Google é apenas um décimo do teu, e o seu desempenho é melhor do que o teu. Como esperas que o teu modelo de negócio funcione?"
O panorama competitivo em várias indústrias entrará assim num período de reorganização acelerada.
Os fornecedores de IA devem encontrar rapidamente fontes de poder computacional mais baratas ou começar a fabricar chips eles próprios.
A seguir está a Apple, que ainda está a construir isoladamente.
A combinação de óculos inteligentes + modelo grande de vídeo Omni + tomada de controlo ao nível do sistema nativo do Spark ameaça, sem dúvida, o iPhone.
De acordo com o "Relatório de Previsão de Tendências de Eletrónica de Consumo" da Macquarie: Nos próximos três anos, espera-se que a proporção de interações sem ecrã baseadas em visão/voz salte dos atuais 8% para 35%.
Se os utilizadores se habituarem a completar o trabalho diário e o entretenimento usando óculos e voz, o tempo de utilização de ecrãs será inevitavelmente reduzido de forma significativa.
Se a Apple não conseguir produzir dispositivos vestíveis suficientemente impressionantes para contrariar (o Vision Pro é demasiado pesado e caro, destinado a ser um brinquedo para uma minoria), o seu monopólio sobre pontos de entrada na era da internet móvel enfrentará desafios sem precedentes.
Isto não é iteração; é revolução.
A Google lançou o desafio a todos os concorrentes com tecnologia, tráfego e preço como três armas.
Neste momento, há alguém que ainda a ridicularize por ter a doença de uma grande empresa?
Também poderá gostar de

Relatório Matinal | Coinbase Ventures realiza o seu primeiro investimento na ENA; SpaceX planeia definir o preço do IPO em 135 dólares por ação

Texto integral e análise do discurso do CEO da SanDisk na 42.ª Conferência Anual de Decisões Estratégicas da Bernstein

Previsão de Preço da Bitcoin para 2030: Ark Invest Prevê 710 mil dólares

Preço do SOL hoje: Preço da Solana em tempo real, gráficos e dados de mercado

O que é um ETF de Bitcoin: Spot vs. Futuros Explicado

Why Is Bitcoin Dropping 15% While Nasdaq Hits Record Highs?
O que é TradFi e porque é que todos falam sobre isso em 2026?

Relatório da Manhã | Strategy vendeu 32 BTC e mais de 800.000 ações da MSTR na semana passada; Binance anunciou oficialmente o seu portal de negociação de ações dos EUA; Polymarket estabeleceu uma parceria exclusiva com a OneFootball

Bootcamp de Trading WEEXPERIENCE na Polónia: Como a WEEX e a FireCrew estão a tornar o trading de cripto acessível a todos

Paris Reina Supremo: Como o PSG esmagou o sonho do Arsenal numa final histórica da UCL

TaiJi conclui financiamento estratégico de 3,5 milhões de dólares, com investimentos da Castrum Capital, Becker Ventures e Coinvestor Ventures

Bitcoin estagnado perto dos 73 mil dólares? Como os traders estão a encontrar recompensas num mercado lateral em junho

Como fazer staking de Solana: Um guia passo a passo para 2026

Preço Garantido já disponível na WEEX: Execute com maior precisão

A investigação mais recente do BIS: O futuro das stablecoins e o panorama monetário global

Entrevista com o mestre da macroeconomia Raoul Pal: A competição em IA está a dar origem a uma "singularidade económica"; não desista facilmente dos seus ativos nos próximos quatro anos

Why is Peter Thiel, behind Palantir, preparing an exit in Argentina?

