Gemini 3.1 Pro Computer Use vs Claude Computer Use: chi vince su RPA enterprise europea

Gemini 3.1 Pro Computer Use vs Claude Computer Use: chi vince su RPA enterprise europea

Il 26 febbraio 2026, una settimana dopo il rilascio di Gemini 3.1 Pro del 19 febbraio, ho messo a confronto due agenti Computer Use su tre workflow enterprise italiani tipici: login e navigazione di un gestionale SAP fittizio in sandbox, estrazione dati da un portale bancario simulato, onboarding cliente end-to-end su un CRM Salesforce testnet. Setup: Claude Sonnet 4.6 via API Anthropic diretto, Gemini 3.1 Pro via Vertex AI EU region (europe-west1 Bruxelles), entrambi orchestrati da una Laravel 12 app che loggava screenshot, action e latency in Langfuse. L'obiettivo non era determinare un vincitore assoluto: era capire quale modello adottare per un cliente PMI italiano che deve automatizzare quindici processi ripetitivi di back-office senza chiudersi in un vendor lock-in.

Il primo dato interessante è emerso prima ancora di far girare un test: Gemini 3.1 Pro non pubblica un benchmark OSWorld nella model card ufficiale. La ricerca pubblicata da Google DeepMind il 19 febbraio mostra eccellenza su agentic benchmarks (BrowseComp 85,9%, MCP Atlas 69,2%, τ2-bench Telecom 99,3%) ma è silente sul benchmark Computer Use standard dell'industria, OSWorld-Verified. GPT-5.4 raggiunge 75%, Claude Opus 4.6 e Sonnet 4.6 si fermano rispettivamente a 72,7% e 72,5% (TowardsAI, marzo 2026). Per Gemini, il silenzio. Questo è un signal, non un caso di oblio editoriale.

La tabella del pricing al 26 aprile 2026

Il primo asse di confronto operativo è il costo per chiamata. Tabella aggiornata ai listini ufficiali al 26 aprile 2026:

ModelloInput (per MTok)Output (per MTok)Region EU available
Gemini 3.1 Pro (std, <200K)$2,00$12,00Sì (Vertex europe-west1/4)
Gemini 3.1 Pro (long, >200K)$4,00$24,00
Gemini 3 Flash$0,50$3,00
Claude Sonnet 4.6$3,00$15,00Sì (Vertex europe-west1, Bedrock eu-central)
Claude Opus 4.7$5,00$25,00Sì (con tokenizer +35%, costo effettivo ~$6,75/$33,75)
Claude Haiku 4.5$1,00$5,00

Nota non banale. Al 26 aprile 2026 il costo effettivo di Opus 4.7 è superiore al headline perché il nuovo tokenizer genera in media +35% di token sullo stesso testo, come ho misurato nel pezzo dedicato al tokenizer. Quindi un confronto onesto Gemini 3.1 Pro vs Opus 4.7 vede Gemini a $2/$12 contro ~$6,75/$33,75 effettivi: Gemini costa un terzo su input, un terzo su output. Sul premium tier, Gemini ha un vantaggio economico strutturale.

Ma il confronto realistico per RPA enterprise non è Opus contro Gemini Pro: è Sonnet 4.6 contro Gemini 3.1 Pro, perché nessun task RPA richiede il top tier. A quel livello, Gemini ($2/$12) costa un terzo di Sonnet ($3/$15) su input e il 20% in meno su output. Se valuti a scale di milioni di token mensili (come ogni deployment RPA minimo), il delta è significativo.

Se stai disegnando un programma RPA enterprise con budget controllato e data sovereignty europea, nel mio hub dedicato all'AI per aziende trovo articoli tecnici su automazione multi-modello con costi dichiarati.

I tre workflow testati e i risultati misurati

Workflow 1: Login e navigazione SAP gestionale. Task: aprire una pagina di login di un SAP fittizio esposto dalla sandbox, inserire credenziali di test, navigare al modulo "Vendite" e leggere il totale fatturato del mese. 14 step totali. Eseguito 20 volte per modello.

MetricaGemini 3.1 ProClaude Sonnet 4.6
Success rate85% (17/20)95% (19/20)
Latenza P95 per task completo43 secondi38 secondi
Costo medio per task$0,019$0,031
Token input medi1.8002.400
Token output medi8501.100

Claude vince su success rate. Gemini vince su costo e input efficiency. Entrambi hanno fallito su casi simili: popup di sessione scaduta non gestiti, che hanno bloccato 3 task su 20 Gemini e 1 su 20 Claude.

Workflow 2: Estrazione dati da portale bancario simulato. Task: loggarsi, navigare a "Movimenti conto", selezionare il range dei 30 giorni precedenti, esportare CSV, e parsare i dati in JSON strutturato. 22 step totali.

MetricaGemini 3.1 ProClaude Sonnet 4.6
Success rate70% (14/20)85% (17/20)
Latenza P9572 secondi61 secondi
Costo medio per task$0,042$0,057
Gestione robusta popupDeboleBuona

Qui il gap è più visibile. Claude gestisce meglio gli imprevisti di UI (popup, modal, errori transienti), Gemini tende a bloccarsi o a interpretare male uno stato inaspettato dello schermo. Il 15% di gap su success rate a favore di Claude è consistente con il gap sui benchmark di agentic task nonostante il silenzio Gemini sul benchmark OSWorld.

Workflow 3: Onboarding cliente CRM Salesforce. Task: creare nuovo lead, compilare 18 campi da un brief strutturato, assegnare al sales manager, inviare email di welcome, creare task di follow-up. 31 step totali.

MetricaGemini 3.1 ProClaude Sonnet 4.6
Success rate65% (13/20)80% (16/20)
Latenza P95118 secondi94 secondi
Costo medio per task$0,068$0,089
Errori di precisione su form8 su 260 campi3 su 272 campi

Task più complesso, success rate più basso per entrambi. Claude mantiene un margine di 15 punti percentuali, con accuracy sui campi del form 4x migliore (3 errori su 272 vs 8 su 260).

Oltre OSWorld: BrowseComp e MCP Atlas

Dove Gemini 3.1 Pro batte chiaramente Claude è nei benchmark di web research e tool coordination. BrowseComp 85,9% contro il 66,1% di Claude Opus 4.6: Gemini è più bravo a navigare il web per ricerca information. MCP Atlas 69,2% contro i 67,2% di GPT-5.4 e meno-pubblicato di Claude: Gemini è leggermente superiore nel coordinare più tool MCP in una catena. Questi benchmark però non sono Computer Use: sono task di navigazione web pura con content extraction. Un agent RPA che automatizza un gestionale SAP non richiede web research ampia; richiede precisione su click e digitazioni in interfacce note. È un task diverso.

Il divario tra OSWorld (dove Gemini tace) e agentic benchmarks (dove Gemini eccelle) suggerisce una scelta strategica di Google: puntare sull'agent autonomo che opera in un web space aperto, non sul desktop agent che sostituisce un impiegato. Claude ha la strategia speculare: minor hype su autonomia, maggior robustezza su task ripetitivi con target UI noti.

Data sovereignty: il vincolo europeo

Per un cliente PMI italiano, la scelta del modello non è solo accuracy e costo. È anche giurisdizione del dato. Vertex AI di Google offre europe-west1 (Belgio), europe-west4 (Paesi Bassi), europe-west8 (Milano), europe-west9 (Francia), europe-west12 (Torino). Data residency contrattuale europea, SCC (Standard Contractual Clauses) aggiornate 2023, regional endpoint che garantisce il data non esce dalla regione scelta. Claude via AWS Bedrock ha eu-central-1 (Francoforte), eu-west-1 (Dublino); via Vertex AI EU stesse regioni Google. Claude via Anthropic API diretto è US-based di default, ma il parametro inference_geo=us introdotto nel 2026 applica un moltiplicatore 1,1x al pricing con garanzia US-only inference: se vuoi EU-only, devi andare Bedrock o Vertex.

Per un cliente con dati sensibili soggetti a GDPR che necessita:

  • Data residency EU forte: Vertex AI Belgio/Milano per Gemini, AWS Bedrock Francoforte per Claude
  • Nessun training su input/output: entrambi lo garantiscono contrattualmente sui tier enterprise
  • Audit trail: Vertex ha logging nativo in Cloud Logging, Bedrock in CloudTrail
  • DPA (Data Processing Agreement): entrambi offrono DPA GDPR-compliant

L'asset distintivo di Gemini per il mercato italiano è il data center Milano europe-west8. Per un cliente che vuole dato italiano, è l'unica opzione tra i frontier lab al 26 aprile 2026: AWS non ha ancora region Milano per Bedrock (prevista Q3 2026). Anthropic API diretto non ha region EU. Se "dato in Italia" è un requisito RFP, Gemini via Vertex Milano vince per esclusione.

Quando scegliere quale (la decisione pratica)

Quattro scenari tipici con raccomandazione operativa.

Scenario A: RPA enterprise pesante su gestionali legacy (SAP, Oracle, AS/400 via emulatore). Scegli Claude. Il vantaggio del 15% di success rate giustifica il 50% in più di costo per task: l'RPA che fallisce una volta su cinque richiede human intervention che annulla il saving.

Scenario B: Web research e content aggregation per business intelligence. Scegli Gemini 3.1 Pro. BrowseComp 85,9% e 1M context nativo sono il fit: navigazione di molte fonti, compilazione di report lunghi, cost-efficient.

Scenario C: Automazione hybrid (RPA + web research). Valuta routing multi-modello. Nella mia pipeline ho un router che sposta i task su Claude o Gemini in base al tipo di input rilevato. Non è complesso da costruire ma dimezza il costo medio con qualità equivalente.

Scenario D: Cliente con requisito "dato deve restare in Italia". Gemini via Vertex europe-west8 è l'unica opzione. Punto.

Limiti condivisi che nessun benchmark cattura

Due limiti che ho osservato sulle 20+20+20 run e che né Anthropic né Google mettono in evidenza.

Limite 1: nessuno dei due gestisce bene 2FA SMS. Se il workflow include autenticazione a due fattori via SMS, entrambi si bloccano alla richiesta del codice. Workaround: 2FA via TOTP (Google Authenticator, YubiKey), dove il codice è leggibile da una clipboard pre-compilata dal tuo orchestrator.

Limite 2: latency spike imprevedibili sotto carico. La P95 dei miei test (38-118 sec) è misurata su sandbox con traffic controllato. In produzione con carico concorrente, ho osservato spike fino a 240-300 sec occasionali su entrambi. Non è bug, è lo stato attuale dei Computer Use agent: la pipeline screenshot-decision-action è intrinsecamente lenta rispetto a RPA tradizionale (UiPath, Automation Anywhere) che può eseguire workflow equivalenti in 5-10 sec.

Conseguenza: se il SLA del processo è "completato in 30 secondi", Computer Use AI non è ancora la scelta. Se il SLA è "completato in 2 minuti con <5% intervento umano", lo è.

Totale mensile proiettato su caso reale PMI

Proietto i numeri di costo su un caso PMI italiana realistico: 50 esecuzioni giornaliere di onboarding cliente CRM (workflow 3, il più costoso), 22 giorni lavorativi al mese, 1.100 esecuzioni mensili totali.

VoceGemini 3.1 ProClaude Sonnet 4.6
Costo nominale per task$0,068$0,089
Success rate65%80%
Re-run necessari (fail rate)385 task addizionali220 task addizionali
Costo totale mensile base$74,80$97,90
Costo totale incluso re-run$100,98$117,48
Costo umano di supervisione fail$192,50 (385 × 30 sec × $60/h)$110,00 (220 × 30 sec × $60/h)
Totale operational mensile$293,48$227,48

Il paradosso della cost analysis è visibile qui. Gemini ha il costo per task inferiore del 24% in listino, ma il success rate più basso genera 1,75x i re-run e quasi il doppio della supervisione umana. Quando aggiungi il costo umano di intervento sui fail (un operatore che rivede il task fallito, corregge input, rilancia), il totale mensile Gemini supera Claude del 29%. L'accuracy si monetizza; il listino è solo una parte dell'equazione.

Questa analisi cambia se automatizzi migliaia di task identici dove il success rate scende o sale in modo uniforme: in quel caso il costo per singolo task conta di più del delta success rate. E cambia radicalmente se il sistema ha una feedback loop che genera training data: la piattaforma Google for Agents ha una pipeline di fine-tuning a costo ridotto che può portare il success rate di Gemini su task specifici molto vicino a Claude dopo 500-1000 esempi. Anthropic non offre fine-tuning al 26 aprile 2026 sulla stessa categoria di pricing.

Setup del benchmark nel tuo ambiente

Se vuoi replicare il mio benchmark sulla tua specifica realtà, il codice di orchestrazione base è minimalista. Uso Laravel 12 come harness, con due client per i due modelli:

<?php

declare(strict_types=1);

namespace App\ComputerUse;

interface ComputerUseAgent
{
    // Interfaccia comune: prendo uno screenshot, decido action, applico, ripeto
    public function executeTask(string $goalDescription, int $maxSteps = 50): TaskResult;
}

final class ClaudeComputerUseAgent implements ComputerUseAgent
{
    public function executeTask(string $goalDescription, int $maxSteps = 50): TaskResult
    {
        // Chiamata ad Anthropic API con tool computer_20250124
        // Ogni step: screenshot → Claude Sonnet 4.6 → action (click, type, scroll)
        // ...dettagli omessi per brevità
    }
}

final class GeminiComputerUseAgent implements ComputerUseAgent
{
    public function executeTask(string $goalDescription, int $maxSteps = 50): TaskResult
    {
        // Chiamata a Vertex AI europe-west8 con gemini-3-1-pro nativo multimodale
        // Stesso loop screenshot → decisione → action, API diversa
        // ...dettagli omessi per brevità
    }
}

Il pattern è identico, l'API differisce. Misuri task completions, latency, token spesi, errori per ogni modello e comprendi la scelta con dati tuoi, non miei.

Cosa fare lunedì mattina

Se stai valutando Computer Use per la tua PMI, tre step concreti.

Step 1: definisci due-tre workflow pilot specifici e misurabili (process X in dipartimento Y, current time T, current error rate E). Non "automatizziamo l'onboarding", ma "creazione lead Salesforce da modulo di contatto web, 18 campi standard".

Step 2: benchmark parallelo su entrambi i modelli per due settimane. Usa la tua data, non i benchmark pubblici. Misura success rate, costo per task, latency P95, edge case che falliscono.

Step 3: decisione basata su tre assi: costo a volume di produzione, data sovereignty (se serve EU/Italia, restringe la scelta), accuracy sul task specifico (non il benchmark generale).

Se vuoi supporto nel design e nel benchmarking di un programma Computer Use per la tua PMI, con una valutazione indipendente dai marketing di provider e un'analisi di fattibilità basata sui tuoi workflow specifici e sui tuoi requisiti di compliance, il modulo di preventivo gratuito risponde in due minuti se il tuo scenario rientra nel mio perimetro. Sette domande, niente impegno, e ti indico anche quando è meglio restare su RPA tradizionale (UiPath, Blue Prism, Automation Anywhere) invece di inseguire l'hype Computer Use: il paradigma AI-driven non è universalmente superiore, ha trade-off specifici che funzionano su alcune categorie di processi e falliscono su altre.

Ultima modifica: