Categoria

Claude API

Pagina 1 di 3

Claude API: integrazione LLM di livello produzione

La API di Anthropic (Claude) è il motore LLM che uso più frequentemente per automazioni aziendali: qualità di output superiore, gestione avanzata dei tool, prompt caching per ridurre costi. Integrarla bene richiede attenzione a rate limit, cost tracking, error handling, fallback.

In questa categoria scrivo di integrazione Claude API in applicazioni PHP e pipeline automatizzate: SDK, prompt caching, tool use, streaming, monitoring. Parliamone per un progetto AI, scopri il mio approccio.

LLM LLM Automation Claude API Budget IT Developer workflow

Prompt caching workspace-level di Anthropic: perché i tuoi agenti costano troppo e come diagnosticare le cache mancate

18/06/2026

Prompt caching workspace-level di Anthropic: perché i tuoi agenti costano troppo e come diagnosticare le cache mancate

Dal febbraio 2026 Anthropic offre prompt caching workspace-level con cache hit al 10% del prezzo input. Eppure nella maggioranza delle integrazioni che vedo in consulenza le cache sono mancate nel 60-80% delle chiamate per errori di design banali. Diagnosi sistematica: cache prefix vs suffix, invalidazione accidentale del system prompt, bloccaggio con tool list dinamica, e pattern che ho misurato portare fino a 90% di risparmio sulla bolletta API. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation Agent systems Sandboxing gVisor Claude API

Claude Managed Agents vs self-hosted sandbox con seccomp e gVisor: TCO e threat model a confronto

11/06/2026

Claude Managed Agents vs self-hosted sandbox con seccomp e gVisor: TCO e threat model a confronto

Anthropic ha rilasciato in public beta il 1 aprile 2026 Claude Managed Agents - harness fully-managed con container configurabili, SSE streaming, zero DIY su E2B/Modal/Firecracker. Ma ha senso dismettere l'harness self-hosted con gVisor + seccomp + cap-drop che ho descritto nell'articolo sul sandboxing? Diagnosi punto per punto: TCO su scala PMI, superficie di attacco comparativa, vendor lock-in, compliance data sovereignty. Spoiler: la risposta è 'dipende da quattro variabili'. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Multi-Stack Open Source LLM Data Sovereignty Mistral Claude API

Mistral 3 MoE on-prem EU vs Claude API: quando preferire open-weight europeo per data sovereignty

01/06/2026

Mistral 3 MoE on-prem EU vs Claude API: quando preferire open-weight europeo per data sovereignty

Mistral Large 3 MoE (2 dicembre 2025) è il primo open-weight frontier-class deployabile on-prem in Europa - 41B attivi / 675B totali, Apache 2.0, addestrato su 3000 H200 francesi. Confronto con Claude Sonnet 4.6 via API: accuracy, latenza P95, costi totali per 1M chiamate, compliance GDPR. Include configurazione Scaleway H100 SXM ($2,73/hr) vs managed Bedrock. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation Claude API Prompt Caching RAG Cost Governance

Anthropic prompt caching workspace-level: ridurre il 95% dei costi API su un RAG aziendale

28/05/2026

Anthropic prompt caching workspace-level: ridurre il 95% dei costi API su un RAG aziendale

Dal 5 febbraio 2026 Anthropic offre prompt caching a livello di workspace, con cache hit al 10% del prezzo input standard. Ho migrato il mio chatbot RAG aziendale (system prompt da 3.800 token, 340 documenti retrieval context) e misurato un risparmio del 95% sulla parte prompt ricorrente. Ti racconto passo passo la migrazione, gli errori che ho fatto con la cache invalidation, e come stackare caching + batch per arrivare al minimo teorico. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation Claude API Budget IT Tokenization

Tokenizzazione degli LLM e italiano: la tassa nascosta del 64% sulla bolletta API e come ridurla

19/05/2026

Tokenizzazione degli LLM e italiano: la tassa nascosta del 64% sulla bolletta API e come ridurla

Un prompt in italiano consuma mediamente 1,64 volte i token di un equivalente in inglese. Misura verificata su GPT-4 e Claude Opus 4.7 nel 2026, con tre costi aziendali ignorati: bolletta API più alta, context window saturato prima, performance peggiori su lingue meno rappresentate. Analizzo i tokenizer BPE sulle lingue romanze, riporto le misure raccolte nella mia pipeline personale di automazione AI, e propongo tre strategie concrete per ridurre il tokenaggio in produzione. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Claude API Python

DSPy e prompt-as-code: ottimizzare automaticamente i prompt di produzione contro benchmark interni

15/05/2026

DSPy e prompt-as-code: ottimizzare automaticamente i prompt di produzione contro benchmark interni

DSPy (Khattab Stanford, ICLR 2024, arxiv 2310.03714) tratta i prompt come codice: dichiari la signature, fornisci 40-200 esempi di training, un compile bootstrappa il prompt ottimale contro una metrica. Batte il prompt engineering manuale esperto per 5-46% su GPT-3.5 e 16-40% su Llama. Confronto con CO-STAR, tabella decisionale, costi, pattern di integrazione in produzione enterprise. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation Agent systems RPA Claude API Data Sovereignty

Gemini 3.1 Pro Computer Use vs Claude Computer Use: chi vince su RPA enterprise europea

14/05/2026

Gemini 3.1 Pro Computer Use vs Claude Computer Use: chi vince su RPA enterprise europea

Gemini 3.1 Pro integra Computer Use nativo (niente modello separato) con 1M context standard. Claude Computer Use è stabile ma richiede Sonnet 4.6/Opus 4.7 dedicati. Ho benchmarkato entrambi su OSWorld-V e su tre workflow reali (SAP login, estrazione dati gestionale, onboarding cliente) nella mia sandbox. Tabella pricing, latenza P95, accuracy per tipo di task, e considerazioni data sovereignty per aziende europee. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM LLM Automation AI Automation Claude API Developer workflow

Framework CO-STAR per prompt enterprise: checklist applicativa e anti-pattern del prompt engineering 2026

13/05/2026

Framework CO-STAR per prompt enterprise: checklist applicativa e anti-pattern del prompt engineering 2026

CO-STAR (GovTech Singapore, novembre 2023): Context, Objective, Style, Tone, Audience, Response. Checklist rigorosa per prompt enterprise che non assomigliano a blog post casual. Dodici punti di verifica, anti-pattern empirici (esempi negativi nel prompt, risposte suggerite nella domanda, CoT prompting sui modelli thinking), template riutilizzabile e strategia di versioning del prompt come codice con held-out di validazione. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation Claude API Cost Governance Budget IT Tokenization

Claude Opus 4.7 e il nuovo tokenizer: perché la tua bolletta è salita del 35% a prezzo invariato

08/05/2026

Claude Opus 4.7 e il nuovo tokenizer: perché la tua bolletta è salita del 35% a prezzo invariato

Claude Opus 4.7 ha prezzo headline invariato rispetto a 4.6 - $5/$25 per milione di token. Ma dopo tre settimane di esercizio nella mia pipeline ho notato che la bolletta API era salita del 31% a parità di volume di chiamate. La causa: il nuovo tokenizer usa in media +35% token per lo stesso testo, e le cache pre-4.7 sono state invalidate. Ti mostro la diagnostica, i numeri misurati e come ricalcolare il budget. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation Claude API MCP Agent systems Token Optimization

Anthropic Tool Search Tool e Programmatic Tool Calling: agenti con 50+ tool MCP senza saturare il context

04/05/2026

Anthropic Tool Search Tool e Programmatic Tool Calling: agenti con 50+ tool MCP senza saturare il context

Quando un agent LLM ha 50+ tool registrati via MCP, il token overhead del solo prompt di registrazione supera i 20k token e saturare il context è questione di pochi turni. Anthropic ha rilasciato Tool Search Tool e Programmatic Tool Calling per spostare questo overhead da statico a dinamico - ti mostro il setup, i numeri misurati nella mia pipeline, e i trade-off di latenza. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Calendario

Archivi