Categoria

Ollama

Pagina 1 di 1

Ollama: LLM self-hosted in produzione, non solo demo sul laptop

Ollama è il modo più semplice per eseguire LLM su una macchina propria. Su un laptop è una demo divertente; in produzione su un VPS con GPU diventa la base di un sistema self-hosted serio. Cambiano completamente le considerazioni: passthrough GPU, orchestrazione di modelli multipli, persistenza dei pesi, monitoring, quota management.

In questa categoria scrivo di Ollama in produzione: deployment su VPS Hetzner per PMI con vincoli di data sovereignty (i dati non escono dall'UE), containerizzazione con nvidia-container-toolkit per passthrough GPU, gestione dei modelli come persistent volume, orchestrazione di modelli multipli sullo stesso server.

Se devi portare un LLM self-hosted in produzione e vuoi un'architettura affidabile, parliamone. Oppure scopri come lavoro.

Containerizzare LLM self-hosted su VPS con GPU: nvidia-container-toolkit, orchestrazione di modelli multipli

02/03/2026

Containerizzare un LLM self-hosted non è come containerizzare PHP-FPM. Serve nvidia-container-toolkit per passthrough GPU, gestione dei modelli come persistent volume, orchestrazione di modelli multipli (uno generalista, uno specializzato, un embedding model) con routing intelligente per caso d'uso. Ti mostro l'architettura Docker Compose che uso su VPS GPU: configurazione GPU passthrough, persistent cache, health check, monitoring dei VRAM consumption e risposta alle OOM. Continua a leggere

Ultima modifica: Venerdì 19 Giugno 2026, alle 10:51

Ollama LLM Automation Data Ownership Hetzner VPS

LLM self-hosted su VPS Hetzner con Ollama: deployment in produzione per PMI con vincoli di data sovereignty

06/02/2026

Claude API funziona bene, ma alcune PMI non possono mandare i loro dati fuori dall'UE o verso provider americani. La risposta è un LLM self-hosted su GPU europea. Ti racconto la mia pipeline reale: Ollama come punto di partenza, poi il passaggio a llama.cpp con llama-swap per spremere più throughput dallo stesso hardware. Dimensionamento GPU, sicurezza di rete, integrazione con backend PHP, monitoring, e quando il self-hosted vince davvero contro un'API di frontiera. Continua a leggere

Ultima modifica: Giovedì 25 Giugno 2026, alle 13:31