Ollama
Pagina 1 di 1
Ollama: LLM self-hosted in produzione, non solo demo sul laptop
Ollama è il modo più semplice per eseguire LLM su una macchina propria. Su un laptop è una demo divertente; in produzione su un VPS con GPU diventa la base di un sistema self-hosted serio. Cambiano completamente le considerazioni: passthrough GPU, orchestrazione di modelli multipli, persistenza dei pesi, monitoring, quota management.
In questa categoria scrivo di Ollama in produzione: deployment su VPS Hetzner per PMI con vincoli di data sovereignty (i dati non escono dall'UE), containerizzazione con nvidia-container-toolkit per passthrough GPU, gestione dei modelli come persistent volume, orchestrazione di modelli multipli sullo stesso server.
Se devi portare un LLM self-hosted in produzione e vuoi un'architettura affidabile, parliamone. Oppure scopri come lavoro.