Categoria

Pagina 1 di 1

Prompt Caching: -95% costi API quando il system prompt non lo rispedisci ogni turno

Dal 5 febbraio 2026 Anthropic offre prompt caching a livello di workspace con cache hit al 10% del prezzo input standard. Ho migrato il mio chatbot RAG aziendale (system prompt da 3.800 token, 340 documenti in contesto) e i costi sono crollati del 95%. Eppure nella maggioranza delle integrazioni che vedo le cache sono mancate al 60-80%.

In questa categoria scrivo di prompt caching applicato: setup di Anthropic workspace-level prompt caching, diagnostica delle cache mancate (ordine errato dei chunk, system prompt non stabile, ttl non gestito), strategie di prompt design che massimizzano il cache hit rate.

Se la tua bolletta Claude è alta e sospetti cache mancate, parliamone. Oppure scopri come lavoro.

Anthropic prompt caching workspace-level: ridurre il 95% dei costi API su un RAG aziendale

Anthropic prompt caching workspace-level: ridurre il 95% dei costi API su un RAG aziendale Dal 5 febbraio 2026 Anthropic offre prompt caching a livello di workspace, con cache hit al 10% del prezzo input standard. Ho migrato il mio chatbot RAG aziendale (system prompt da 3.800 token, 340 documenti retrieval context) e misurato un risparmio del 95% sulla parte prompt ricorrente. Ti racconto passo passo la migrazione, gli errori che ho fatto con la cache invalidation, e come stackare caching + batch per arrivare al minimo teorico. Continua a leggere
Ultima modifica: