GPT-4.5 Decepciona: A Realidade por Trás do Último Lançamento da OpenAI
O Que Acontece Quando o Maior Player de IA Entrega Atualizações Incrementais em um Mundo Que Espera Revoluções?
A distância entre expectativa e realidade nunca pareceu tão grande na IA quanto com o lançamento do GPT-4.5 da OpenAI. As redes sociais fervilharam por dias com previsões de um salto transformador: um gigante de trilhões de parâmetros que seria mais barato e dramaticamente mais capaz do que seus antecessores. A realidade, conforme detalhada no próprio sistema card da OpenAI, conta uma história diferente e mais sóbria.
"É estagnação disfarçada de progresso", um importante investidor de IA me disse depois de revisar as especificações técnicas. "O mercado esperava um salto quântico, mas recebeu um avanço cauteloso."
O GPT-4.5 Real: Melhorias Modestas, Foco Principal na Segurança
A OpenAI posiciona o GPT-4.5 como seu "modelo maior e mais completo até o momento", destacando o maior dimensionamento do pré-treinamento e um design focado em capacidades de uso geral, em vez de raciocínio puramente STEM (Ciência, Tecnologia, Engenharia e Matemática). O modelo emprega técnicas de supervisão refinadas, juntamente com o Supervised Fine-Tuning (Ajuste Fino Supervisionado) e o Reinforcement Learning from Human Feedback (Aprendizado por Reforço a partir do Feedback Humano) padrão.
Mas um exame mais atento do sistema card revela uma abordagem decididamente evolutiva. Os benchmarks que mais importam para os usuários — capacidades de desempenho reais — mostram melhorias mínimas em relação ao GPT-4o.
A evidência mais reveladora vem do SWE-Lancer, um benchmark recentemente introduzido para tarefas de engenharia de software. Aqui, o GPT-4.5 mostra apenas uma ligeira vantagem sobre seu antecessor. Em outras palavras, para a maioria das aplicações práticas, os dois modelos são virtualmente indistinguíveis em capacidade.
"Você pensaria que Jensen Huang estava demonstrando técnicas de corte de precisão na OpenAI", brincou um insider da indústria, referindo-se ao CEO da NVIDIA e à natureza cirúrgica e incremental das melhorias.
Segurança em Primeiro Lugar: O Verdadeiro Norte do GPT-4.5
Embora os ganhos de capacidade pareçam modestos, as melhorias de segurança receberam atenção substancial:
- Em testes de conteúdo proibido, o GPT-4.5 teve desempenho semelhante aos modelos anteriores em cenários de rejeição padrão, mas mostrou ligeiras melhorias nas avaliações de WildChat (conversas incomuns humano-IA) e XSTest (discurso enganoso).
- As avaliações de alucinação demonstraram que o GPT-4.5 superou o GPT-4o e o o1 na avaliação de PersonQA, com taxas mais baixas de geração de informações falsas.
- As avaliações de justiça e viés revelaram um desempenho comparável ao GPT-4o nas avaliações de BBQ, embora ligeiramente pior do que o o1 ao responder a perguntas explícitas.
Um cientista sênior de IA que revisou a documentação técnica observou: "Este lançamento sugere que a OpenAI está priorizando o refinamento da segurança em vez de avanços de capacidade. Isso é defensável do ponto de vista ético, mas cria tensão com as expectativas do mercado impulsionadas pela própria máquina de hype da empresa."
A Questão do Custo: 30 Vezes Mais Caro?
Talvez o mais preocupante sejam os rumores sobre a economia do GPT-4.5. Múltiplas fontes dentro da comunidade de desenvolvimento de IA sugerem que o modelo custa significativamente mais para treinar e operar do que o GPT-4o, bem como outros grandes concorrentes.
"A este preço, apenas o próprio Sam Altman poderia se dar ao luxo de usá-lo", brincou um desenvolvedor que alega ter conhecimento da estrutura de preços. "Os custos de entrada são de US$ 75 por 1 milhão de tokens, os custos de saída são de US$ 150 por 1 milhão de tokens??????"
Embora a OpenAI não tenha confirmado esses números, a questão permanece: as melhorias marginais justificam o que parece ser um aumento dramático no custo?
Implicações de Mercado: Furando a Bolha do Hype da IA
A estreia morna do GPT-4.5 pode ter consequências de longo alcance para o setor de IA. Um importante investidor caracterizou-o como "uma bandeira amarela, não uma vermelha" para a indústria.
"A iteração cautelosa da OpenAI corre o risco de amortecer a exuberância irracional no mercado de LLM", explicaram eles. "Isso força uma verificação crucial da realidade sobre estratégias de avaliação e investimento. Estamos vendo um leve furo na bolha do hype da IA."
O impacto pode se propagar por todas as principais partes interessadas:
Para Concorrentes: O Claude 3.7 Sonnet permanecerá como o Rei do LLM por mais tempo, sem desafiadores óbvios à vista.
Para OpenAI: A empresa enfrenta um desafio de RP de curto prazo, mas pode se concentrar em soluções corporativas e narrativas de segurança para justificar ganhos incrementais e custos mais altos. A arrecadação de fundos pode se tornar mais difícil com o aumento do escrutínio sobre as avaliações.
Para Concorrentes: Empresas como Anthropic e Google ganham espaço para respirar, pois o lançamento decepcionante do GPT-4.5 estreita a lacuna de capacidade percebida. Isso pode desencadear marketing agressivo e possivelmente guerras de preços, à medida que os concorrentes capitalizam o tropeço percebido da OpenAI.
Para Usuários: Os primeiros usuários podem questionar a proposta de valor e manter o GPT-4o. Empresas focadas em segurança podem ver benefícios marginais, mas os consumidores que esperam melhorias dramáticas provavelmente ficarão desapontados.
Para Investidores: A era do "spray and pray" do investimento em IA pode esfriar, à medida que os investidores exigem ROI tangível e valor diferenciado além do dimensionamento incremental. Isso pode impulsionar a rotação para jogadas de infraestrutura de IA, aplicações especializadas e empresas focadas na eficiência em vez de apenas modelos de linguagem massivos.
Para NVIDIA: Embora a demanda por GPU permaneça forte, a narrativa de "dimensionamento infinito" pode enfrentar desafios, potencialmente mudando o foco para hardware de IA especializado para inferência eficiente e tarefas específicas.
O Futuro: Menos Escalonamento, Mais Inovação
A opinião mais perspicaz veio de um desenvolvedor de IA que sugeriu: "No futuro previsível, o Test-Time Scaling será a principal direção para LLMs — a menos que alguma nova arquitetura surja que revolucione a abordagem de transformadores atual, talvez RWKV, talvez DLM, ou algo ainda em fase de projeto."
Essa perspectiva reconhece que, embora o pré-treinamento permaneça importante para os Modelos de Raciocínio e continue a ser dimensionado, a eficiência de amostra não é mais o único caminho a seguir. Como o desenvolvedor colocou: "Dirigimos carros usando gasolina, não petróleo bruto como o GPT-4.5."
O mercado pode valorizar cada vez mais a inovação arquitetônica e a eficiência algorítmica em detrimento do escalonamento de força bruta. Empresas que otimizam a eficiência de inferência e modelos econômicos podem ganhar força à medida que o setor amadurece.
O Que Vem a Seguir: Uma Correção Necessária
A "decepção" do GPT-4.5 pode acabar sendo benéfica para o mercado de IA, forçando uma mudança da fé cega no escalonamento para um foco mais pragmático no valor do mundo real, eficiência e inovação genuína.
O próximo avanço não será simplesmente "maior" — será mais inteligente, mais eficiente e mais especializado. Apesar de toda a decepção inicial, essa verificação da realidade pode levar a uma direção mais saudável para o mercado e a própria tecnologia.
Como um investidor concluiu: "A verdadeira corrida do ouro da IA está apenas começando, e será vencida por aqueles que constroem IA sustentável e valiosa, não apenas os maiores modelos."