Categoria

Pagina 1 di 1

Ollama: LLM self-hosted in produzione, non solo demo sul laptop

Ollama è il modo più semplice per eseguire LLM su una macchina propria. Su un laptop è una demo divertente; in produzione su un VPS con GPU diventa la base di un sistema self-hosted serio. Cambiano completamente le considerazioni: passthrough GPU, orchestrazione di modelli multipli, persistenza dei pesi, monitoring, quota management.

In questa categoria scrivo di Ollama in produzione: deployment su VPS Hetzner per PMI con vincoli di data sovereignty (i dati non escono dall'UE), containerizzazione con nvidia-container-toolkit per passthrough GPU, gestione dei modelli come persistent volume, orchestrazione di modelli multipli sullo stesso server.

Se devi portare un LLM self-hosted in produzione e vuoi un'architettura affidabile, parliamone. Oppure scopri come lavoro.

Containerizzare LLM self-hosted su VPS con GPU: nvidia-container-toolkit, orchestrazione di modelli multipli

Containerizzare LLM self-hosted su VPS con GPU: nvidia-container-toolkit, orchestrazione di modelli multipli Containerizzare un LLM self-hosted non è come containerizzare PHP-FPM. Serve nvidia-container-toolkit per passthrough GPU, gestione dei modelli come persistent volume, orchestrazione di modelli multipli (uno generalista, uno specializzato, un embedding model) con routing intelligente per caso d'uso. Ti mostro l'architettura Docker Compose che uso su VPS GPU: configurazione GPU passthrough, persistent cache, health check, monitoring dei VRAM consumption e risposta alle OOM. Continua a leggere
Ultima modifica:

LLM self-hosted su VPS Hetzner con Ollama: deployment in produzione per PMI con vincoli di data sovereignty

LLM self-hosted su VPS Hetzner con Ollama: deployment in produzione per PMI con vincoli di data sovereignty Claude API funziona bene, ma alcune PMI non possono mandare i loro dati fuori dall'UE o verso provider americani. La soluzione è un LLM self-hosted su VPS europeo. Ti racconto il processo che ho seguito per mettere Llama 3.3 e Mistral su un Hetzner AX102 in produzione: dimensionamento GPU/RAM, sicurezza di rete, integrazione con backend PHP via API, monitoring e performance reali rispetto a Claude Sonnet. Continua a leggere
Ultima modifica: