Categoria

Pagina 1 di 3

Claude API: integrazione LLM di livello produzione

La API di Anthropic (Claude) è il motore LLM che uso più frequentemente per automazioni aziendali: qualità di output superiore, gestione avanzata dei tool, prompt caching per ridurre costi. Integrarla bene richiede attenzione a rate limit, cost tracking, error handling, fallback.

In questa categoria scrivo di integrazione Claude API in applicazioni PHP e pipeline automatizzate: SDK, prompt caching, tool use, streaming, monitoring. Parliamone per un progetto AI, scopri il mio approccio.

Anthropic prompt caching workspace-level: ridurre il 95% dei costi API su un RAG aziendale

Anthropic prompt caching workspace-level: ridurre il 95% dei costi API su un RAG aziendale Dal 5 febbraio 2026 Anthropic offre prompt caching a livello di workspace, con cache hit al 10% del prezzo input standard. Ho migrato il mio chatbot RAG aziendale (system prompt da 3.800 token, 340 documenti retrieval context) e misurato un risparmio del 95% sulla parte prompt ricorrente. Ti racconto passo passo la migrazione, gli errori che ho fatto con la cache invalidation, e come stackare caching + batch per arrivare al minimo teorico. Continua a leggere
Ultima modifica:

Tokenizzazione degli LLM e italiano: la tassa nascosta del 64% sulla bolletta API e come ridurla

Tokenizzazione degli LLM e italiano: la tassa nascosta del 64% sulla bolletta API e come ridurla Un prompt in italiano consuma mediamente 1,64 volte i token di un equivalente in inglese. Misura verificata su GPT-4 e Claude Opus 4.7 nel 2026, con tre costi aziendali ignorati: bolletta API più alta, context window saturato prima, performance peggiori su lingue meno rappresentate. Analizzo i tokenizer BPE sulle lingue romanze, riporto le misure raccolte nella mia pipeline personale di automazione AI, e propongo tre strategie concrete per ridurre il tokenaggio in produzione. Continua a leggere
Ultima modifica:

DSPy e prompt-as-code: ottimizzare automaticamente i prompt di produzione contro benchmark interni

DSPy e prompt-as-code: ottimizzare automaticamente i prompt di produzione contro benchmark interni DSPy (Khattab Stanford, ICLR 2024, arxiv 2310.03714) tratta i prompt come codice: dichiari la signature, fornisci 40-200 esempi di training, un compile bootstrappa il prompt ottimale contro una metrica. Batte il prompt engineering manuale esperto per 5-46% su GPT-3.5 e 16-40% su Llama. Confronto con CO-STAR, tabella decisionale, costi, pattern di integrazione in produzione enterprise. Continua a leggere
Ultima modifica:

Gemini 3.1 Pro Computer Use vs Claude Computer Use: chi vince su RPA enterprise europea

Gemini 3.1 Pro Computer Use vs Claude Computer Use: chi vince su RPA enterprise europea Gemini 3.1 Pro integra Computer Use nativo (niente modello separato) con 1M context standard. Claude Computer Use è stabile ma richiede Sonnet 4.6/Opus 4.7 dedicati. Ho benchmarkato entrambi su OSWorld-V e su tre workflow reali (SAP login, estrazione dati gestionale, onboarding cliente) nella mia sandbox. Tabella pricing, latenza P95, accuracy per tipo di task, e considerazioni data sovereignty per aziende europee. Continua a leggere
Ultima modifica:

Framework CO-STAR per prompt enterprise: checklist applicativa e anti-pattern del prompt engineering 2026

Framework CO-STAR per prompt enterprise: checklist applicativa e anti-pattern del prompt engineering 2026 CO-STAR (GovTech Singapore, novembre 2023): Context, Objective, Style, Tone, Audience, Response. Checklist rigorosa per prompt enterprise che non assomigliano a blog post casual. Dodici punti di verifica, anti-pattern empirici (esempi negativi nel prompt, risposte suggerite nella domanda, CoT prompting sui modelli thinking), template riutilizzabile e strategia di versioning del prompt come codice con held-out di validazione. Continua a leggere
Ultima modifica:

Claude Opus 4.7 e il nuovo tokenizer: perché la tua bolletta è salita del 35% a prezzo invariato

Claude Opus 4.7 e il nuovo tokenizer: perché la tua bolletta è salita del 35% a prezzo invariato Claude Opus 4.7 ha prezzo headline invariato rispetto a 4.6 - $5/$25 per milione di token. Ma dopo tre settimane di esercizio nella mia pipeline ho notato che la bolletta API era salita del 31% a parità di volume di chiamate. La causa: il nuovo tokenizer usa in media +35% token per lo stesso testo, e le cache pre-4.7 sono state invalidate. Ti mostro la diagnostica, i numeri misurati e come ricalcolare il budget. Continua a leggere
Ultima modifica:

Anthropic Tool Search Tool e Programmatic Tool Calling: agenti con 50+ tool MCP senza saturare il context

Anthropic Tool Search Tool e Programmatic Tool Calling: agenti con 50+ tool MCP senza saturare il context Quando un agent LLM ha 50+ tool registrati via MCP, il token overhead del solo prompt di registrazione supera i 20k token e saturare il context è questione di pochi turni. Anthropic ha rilasciato Tool Search Tool e Programmatic Tool Calling per spostare questo overhead da statico a dinamico - ti mostro il setup, i numeri misurati nella mia pipeline, e i trade-off di latenza. Continua a leggere
Ultima modifica:

Monitoring di LLM in produzione: osservabilità su qualità, costi e anomalie nelle pipeline AI

Monitoring di LLM in produzione: osservabilità su qualità, costi e anomalie nelle pipeline AI Deployare un LLM in produzione senza monitoring è come deployare PHP senza log: funziona fino a che non funziona, e capire perché è un incubo. Ti mostro lo stack di osservabilità open source che ho costruito: tracking token e costi per request, latenza p95, evaluation automatica della qualità con LLM-as-judge, alert su comportamenti anomali. Con integrazione Prometheus + Grafana. Continua a leggere
Ultima modifica:

In-context learning e few-shot prompting: il superpotere degli LLM spiegato per integrazioni di produzione

In-context learning e few-shot prompting: il superpotere degli LLM spiegato per integrazioni di produzione Il paper GPT-3 del 2020 si chiama Language Models are Few-Shot Learners non a caso. L'in-context learning, la capacità di un LLM di apprendere un compito dai soli esempi nel prompt senza aggiornare i pesi, è la rivoluzione che ha reso possibile tutto il resto. Nella mia pipeline lo uso per costringere Claude a produrre output strutturati senza fine-tuning, trasferire stile su testi tecnici italiani, incidentare comportamenti. Tutorial pratico con sei pattern reali e trappole comuni. Continua a leggere
Ultima modifica:

Agente AI per analisi tecnica di codebase PHP legacy: architettura con Claude API e tool use

Agente AI per analisi tecnica di codebase PHP legacy: architettura con Claude API e tool use Il primo giorno su un progetto legacy è sempre disorientante: migliaia di file, zero documentazione, tempo limitato. Ho costruito un agente AI con Claude API e tool use per automatizzare l'assessment iniziale: chunking intelligente, navigazione filesystem, generazione di report strutturato con priorità. Ti mostro l'architettura, i prompt che uso, la gestione del contesto lungo e il controllo dei costi. Continua a leggere
Ultima modifica: