Categoria

Pagina 1 di 1

Cost Governance: tenere sotto controllo la bolletta AI con dati, non con preghiere

Una pipeline AI senza cost governance è una macchina che brucia budget in modo imprevedibile. Il problema non è il prezzo headline: è il moltiplicatore nascosto del tokenizer italiano, le cache mancate al 60-80%, le query globali su corpus che costano centinaia di dollari ognuna. Servono monitoring, cap, prompt caching e routing intelligente.

In questa categoria scrivo di governance dei costi AI: LazyGraphRAG di Microsoft che taglia 700x il costo di query globale, Anthropic prompt caching workspace-level che ha portato il mio RAG aziendale a -95% sui costi API, Claude Opus 4.7 che a prezzo invariato gonfia la bolletta del 31-35% per cambiamento di tokenizer.

Se la tua bolletta AI è fuori controllo e ti serve un'analisi seria con cap e monitoring, parliamone. Oppure scopri il mio approccio al cost engineering AI.

LazyGraphRAG di Microsoft: 700 volte meno costi per query globale su corpus aziendale

LazyGraphRAG di Microsoft: 700 volte meno costi per query globale su corpus aziendale GraphRAG classico ha un problema: il costo di indicizzazione è proibitivo (centinaia di dollari per corpus medio). LazyGraphRAG Microsoft rimanda l'estrazione relazionale al query time, riduce 700x il costo per query globale e tiene 0,1% del costo indexing del full GraphRAG, vincendo 96/96 comparazioni a parità di GPT-4o. Tutorial: setup su corpus policy aziendale da 340 documenti, configurazione, benchmark sul mio laboratorio. Continua a leggere
Ultima modifica:

Anthropic prompt caching workspace-level: ridurre il 95% dei costi API su un RAG aziendale

Anthropic prompt caching workspace-level: ridurre il 95% dei costi API su un RAG aziendale Dal 5 febbraio 2026 Anthropic offre prompt caching a livello di workspace, con cache hit al 10% del prezzo input standard. Ho migrato il mio chatbot RAG aziendale (system prompt da 3.800 token, 340 documenti retrieval context) e misurato un risparmio del 95% sulla parte prompt ricorrente. Ti racconto passo passo la migrazione, gli errori che ho fatto con la cache invalidation, e come stackare caching + batch per arrivare al minimo teorico. Continua a leggere
Ultima modifica:

Claude Opus 4.7 e il nuovo tokenizer: perché la tua bolletta è salita del 35% a prezzo invariato

Claude Opus 4.7 e il nuovo tokenizer: perché la tua bolletta è salita del 35% a prezzo invariato Claude Opus 4.7 ha prezzo headline invariato rispetto a 4.6 - $5/$25 per milione di token. Ma dopo tre settimane di esercizio nella mia pipeline ho notato che la bolletta API era salita del 31% a parità di volume di chiamate. La causa: il nuovo tokenizer usa in media +35% token per lo stesso testo, e le cache pre-4.7 sono state invalidate. Ti mostro la diagnostica, i numeri misurati e come ricalcolare il budget. Continua a leggere
Ultima modifica: