Categoria

Cost Governance

Pagina 1 di 1

Cost Governance: tenere sotto controllo la bolletta AI con dati, non con preghiere

Una pipeline AI senza cost governance è una macchina che brucia budget in modo imprevedibile. Il problema non è il prezzo headline: è il moltiplicatore nascosto del tokenizer italiano, le cache mancate al 60-80%, le query globali su corpus che costano centinaia di dollari ognuna. Servono monitoring, cap, prompt caching e routing intelligente.

In questa categoria scrivo di governance dei costi AI: LazyGraphRAG di Microsoft che taglia 700x il costo di query globale, Anthropic prompt caching workspace-level che ha portato il mio RAG aziendale a -95% sui costi API, Claude Opus 4.7 che a prezzo invariato gonfia la bolletta del 31-35% per cambiamento di tokenizer.

Se la tua bolletta AI è fuori controllo e ti serve un'analisi seria con cap e monitoring, parliamone. Oppure scopri il mio approccio al cost engineering AI.

The Real Cost of a Self-Hosted Coding LLM: Energy, ROI and Concurrency on a 16GB GPU

12/07/2026

The companion to the Ornith-vs-Qwable benchmark turns from which model to what it costs. I measured the power a 9B coding model draws on a 16GB GPU, then set the energy bill against Claude's and Copilot's 2026 list prices: the marginal cost per million tokens is one to two orders of magnitude below any API tier. But the card only pays off on real token volume, autocomplete alone loses to Copilot's flat plan, and 16GB is a single-stream device: you scale by adding cards, not developers. Continua a leggere

Ultima modifica: Domenica 12 Luglio 2026, alle 11:35

LLM Integration AI Automation Cost Governance

Vale la pena spostare la mia pipeline su un modello di frontiera? Bilancio di prima mano

09/07/2026

Bilancio esperienziale dopo settimane di pipeline editoriale e di sviluppo su un modello di frontiera: dove il tier superiore ha fatto davvero la differenza (task lunghi, refactoring estesi) e dove il modello standard bastava a metà del costo. Con il caveat onesto reso evidente dall'affaire Fable 5: un modello di frontiera può essere sospeso dall'alto, il che rafforza il punto sulla sostituibilità. Information gain massimo, niente recensione da rumor. Continua a leggere

Ultima modifica: Giovedì 9 Luglio 2026, alle 10:12

LLM Automation GraphRAG RAG Microsoft Research Cost Governance

LazyGraphRAG di Microsoft: 700 volte meno costi per query globale su corpus aziendale

05/06/2026

GraphRAG classico ha un problema: il costo di indicizzazione è proibitivo (centinaia di dollari per corpus medio). LazyGraphRAG Microsoft rimanda l'estrazione relazionale al query time, riduce 700x il costo per query globale e tiene 0,1% del costo indexing del full GraphRAG, vincendo 96/96 comparazioni a parità di GPT-4o. Tutorial: setup su corpus policy aziendale da 340 documenti, configurazione, benchmark sul mio laboratorio. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation Claude API Prompt Caching RAG Cost Governance

Anthropic prompt caching workspace-level: ridurre il 95% dei costi API su un RAG aziendale

28/05/2026

Dal 5 febbraio 2026 Anthropic offre prompt caching a livello di workspace, con cache hit al 10% del prezzo input standard. Ho migrato il mio chatbot RAG aziendale (system prompt da 3.800 token, 340 documenti retrieval context) e misurato un risparmio del 95% sulla parte prompt ricorrente. Ti racconto passo passo la migrazione, gli errori che ho fatto con la cache invalidation, e come stackare caching + batch per arrivare al minimo teorico. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

LLM Automation Claude API Cost Governance Budget IT Tokenization

Claude Opus 4.7 e il nuovo tokenizer: perché la tua bolletta è salita del 35% a prezzo invariato

08/05/2026

Claude Opus 4.7 ha prezzo headline invariato rispetto a 4.6 - $5/$25 per milione di token. Ma dopo tre settimane di esercizio nella mia pipeline ho notato che la bolletta API era salita del 31% a parità di volume di chiamate. La causa: il nuovo tokenizer usa in media +35% token per lo stesso testo, e le cache pre-4.7 sono state invalidate. Ti mostro la diagnostica, i numeri misurati e come ricalcolare il budget. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51