Categoria

Pagina 1 di 2

Multi-Stack: PHP, Python, Node insieme quando serve davvero

Un'architettura multi-stack non è una vetrina di tecnologie: è la scelta deliberata di usare il linguaggio giusto per il problema giusto. PHP per il dominio applicativo, Python per pipeline AI e RAG, Node per streaming real-time, Go per worker ad alto throughput. Il lavoro vero è far comunicare questi componenti in modo robusto.

In questa categoria scrivo di stack ibridi in produzione: Weaviate 1.30 multi-vector ColBERT per RAG specialistico, protocolli AP2 vs ACP vs UCP di agentic commerce per e-commerce italiani, governance MCP via AAIF Linux Foundation, microservizi cross-language. Architetture disegnate per clienti che cercano performance e mantenibilità.

Se la tua applicazione PHP ha raggiunto il limite e devi evolvere senza riscrivere, parliamone. Oppure scopri il mio approccio alle architetture polyglot.

Il multi-stack peggiore è quello scelto per moda. Il migliore è quello scelto per trade-off espliciti e documentati.

Mistral 3 MoE on-prem EU vs Claude API: quando preferire open-weight europeo per data sovereignty

Mistral 3 MoE on-prem EU vs Claude API: quando preferire open-weight europeo per data sovereignty Mistral Large 3 MoE (2 dicembre 2025) è il primo open-weight frontier-class deployabile on-prem in Europa - 41B attivi / 675B totali, Apache 2.0, addestrato su 3000 H200 francesi. Confronto con Claude Sonnet 4.6 via API: accuracy, latenza P95, costi totali per 1M chiamate, compliance GDPR. Include configurazione Scaleway H100 SXM ($2,73/hr) vs managed Bedrock. Continua a leggere
Ultima modifica:

MCP stateless con SEP-1442: perché rifare il tuo server prima della spec di giugno 2026

MCP stateless con SEP-1442: perché rifare il tuo server prima della spec di giugno 2026 La prossima spec MCP è prevista per giugno 2026 e la proposta SEP-1442 rimuove l'handshake iniziale rendendo ogni request indipendente. Chi ha server MCP production-grade dietro load balancer con session affinity deve rifare l'architettura entro fine Q2. Ti mostro cosa cambia, come preparare il tuo server Node o Python stateless, e quali pattern di capability discovery sostituiscono il vecchio initialize. Continua a leggere
Ultima modifica:

Cloudflare, Coinbase e Lightning hanno appena resuscitato HTTP 402 dopo 29 anni di oblio: ecco come far pagare gli agenti AI che scrapano il tuo sito con Laravel, Symfony e PHP vanilla

Cloudflare, Coinbase e Lightning hanno appena resuscitato HTTP 402 dopo 29 anni di oblio: ecco come far pagare gli agenti AI che scrapano il tuo sito con Laravel, Symfony e PHP vanilla HTTP 402 Payment Required è stato 'reserved for future use' dal 1997. Nel 2026 Cloudflare, Coinbase (x402), Lightning Labs (L402) e Google (AP2) lo hanno finalmente resuscitato per far pagare gli agenti AI che scrapano il web. Ti racconto come ho implementato il pattern nel mio laboratorio personale con Laravel 12, Symfony 7 e PHP vanilla, con numeri reali di 14 giorni di esercizio e la realtà dietro l'hype. Continua a leggere
Ultima modifica:

Servire text/markdown agli agenti AI senza Cloudflare: content negotiation RFC 9110 on-origin con Laravel, Symfony e PHP vanilla

Servire text/markdown agli agenti AI senza Cloudflare: content negotiation RFC 9110 on-origin con Laravel, Symfony e PHP vanilla Claude Code, Cursor e OpenCode mandano già Accept: text/markdown e pagano -80% sui token. Cloudflare ha lanciato 'Markdown for Agents' ma non è l'unica via: implementare la content negotiation RFC 9110 direttamente on-origin ti dà controllo totale senza dipendenze edge. Ti mostro come farlo da Laravel 12, Symfony 7 e PHP vanilla, evitando il falso cloaking di cui parla Mueller. Continua a leggere
Ultima modifica:

Rust per inference edge di modelli leggeri: quando la performance supera la produttività di Python

Rust per inference edge di modelli leggeri: quando la performance supera la produttività di Python Python vince sulla produttività in fase di prototipazione AI. Rust vince in produzione edge quando la latenza e la memoria contano. Framework come Candle, Burn e ort rendono possibile eseguire modelli embedding e di classificazione con binari da 20 MB, latenza sub-millisecondo, memoria bounded. Ti mostro i casi d'uso dove ho sostituito Python con Rust: embedding generator per RAG, classificatori di intent, preprocessing pipeline. Con confronto diretto su benchmark reali. Continua a leggere
Ultima modifica:

Chatbot aziendale con RAG su documentazione interna: guida completa self-hosted per privacy massima

Chatbot aziendale con RAG su documentazione interna: guida completa self-hosted per privacy massima Un chatbot RAG sulle procedure interne risponde correttamente al 75-85% delle domande frequenti senza escalation. Ma il self-hosted cambia tutto: nessun dato esce dall'azienda, compliance GDPR diretta, costi prevedibili. Ti mostro l'architettura completa: ingestione documentale, embedding con modelli locali, pgvector, Laravel per orchestrazione, frontend chat React, deployment su VPS Hetzner. Continua a leggere
Ultima modifica:

SDK TypeScript per consumer di API AI: streaming SSE, error recovery, cost tracking lato client

SDK TypeScript per consumer di API AI: streaming SSE, error recovery, cost tracking lato client Un'applicazione AI consumer-facing richiede un SDK TypeScript robusto lato client: streaming SSE che gestisce reconnect su disconnessione rete, error recovery discriminando errori transitori da permanenti, cost tracking per mostrare il consumo utente, tipizzazione forte sugli output strutturati del backend. Ti mostro l'architettura dell'SDK che ho costruito come libreria interna: API pulita, zero dipendenze browser, supporto React/Vue/vanilla, pattern di ripresa sessione dopo navigazione. Continua a leggere
Ultima modifica:

Go come inference gateway per LLM: perché Golang vince su PHP e Node quando la latenza conta davvero

Go come inference gateway per LLM: perché Golang vince su PHP e Node quando la latenza conta davvero PHP e Node sono ottimi per la logica di dominio, ma come inference gateway per LLM sotto carico soffrono: event loop Node saturabile con chiamate lente, PHP-FPM worker-bound con decine di secondi di attesa per token streaming. Go risolve entrambi: concorrenza nativa con goroutine, latenza sub-10ms sui routing decision, gestione elegante di streaming SSE verso migliaia di client paralleli. Ti mostro l'architettura gateway Go che ho costruito come front-end unificato per modelli LLM eterogenei. Continua a leggere
Ultima modifica:

Symfony 7 come backend di dominio e Python come gateway LLM: architettura production per applicazioni B2B

Symfony 7 come backend di dominio e Python come gateway LLM: architettura production per applicazioni B2B Symfony 7 ha un dominio business ricco ma l'ecosistema AI vive in Python. La soluzione production è un'architettura ibrida: Symfony gestisce dominio, auth e autorizzazione; un servizio Python (LangChain, LlamaIndex, custom) orchestra l'LLM. La comunicazione viaggia via Symfony Messenger su RabbitMQ, Python consuma. Ti mostro il pattern su un portale B2B: schema dei messaggi, error handling cross-stack, tracing distribuito, deployment con Docker Compose. Continua a leggere
Ultima modifica:

Node.js e TypeScript per streaming real-time di LLM: architettura per chat AI a bassa latenza

Node.js e TypeScript per streaming real-time di LLM: architettura per chat AI a bassa latenza Le chat AI moderne richiedono streaming token-per-token a latenza sub-secondo. PHP non è lo strumento giusto per questo: Node.js lo è. Ti mostro l'architettura ibrida che ho implementato: Laravel gestisce sessione e business logic, un servizio Node/TypeScript standalone gestisce lo streaming via SSE verso il browser. Con gestione di backpressure, reconnect, cost tracking e integrazione con Claude API. Continua a leggere
Ultima modifica: