Un modello di embedding gratuito ha appena cambiato i tuoi costi RAG
Granite Embedding R2 di IBM è Apache-2.0, sotto i 100M di parametri, context window da 32K — e gira sull'hardware che hai già.
IBM ha rilasciato questo mese un modello di embedding multilingue che sta sotto i 100M di parametri, gestisce context window da 32K token e ha licenza Apache-2.0. Se la tua pipeline RAG chiama ancora un'API commerciale di embeddings per ogni chunk di documento e ogni query, il costo minimo di quel layer è appena sceso a quasi zero. La domanda di questa settimana non è se valutarlo — è quanto velocemente riesci a far girare il benchmark.
Cosa è cambiato con il rilascio di Granite Embedding R2
IBM ha rilasciato Granite Embedding Multilingual R2 su Hugging Face con licenza Apache-2.0. Il modello sta sotto i 100M di parametri, il che lo mette in una categoria di peso che gira tranquillamente su una singola GPU A10 o L4 — il tipo già presente nella maggior parte degli account cloud mid-market. La capacità principale è un context da 32K token, significativamente più lungo del limite a 512 token che ha costretto la maggior parte dei sistemi RAG in produzione ad adottare strategie di chunking. Il supporto multilingue è integrato di serie, non aggiunto in seguito, e copre abbastanza lingue da fare la differenza per qualsiasi azienda con document set europei o APAC.
Il modello è stato confrontato con altri modelli di retrieval sotto i 100M di parametri e ottiene i migliori punteggi in quella categoria di peso. Apache-2.0 significa nessuna restrizione d'uso, nessun costo per token, nessuna clausola "i dati non devono uscire dalla tua infrastruttura" da negoziare, e nessuna revisione legale prima di andare in produzione con un cliente regolamentato. IBM posiziona questo modello come il layer di retrieval della sua più ampia famiglia Granite 4.0, quindi gli aggiornamenti seguiranno probabilmente una feuille de route di prodotto piuttosto che un calendario di ricerca.
Perché questo cambia i conti sulla dipendenza dalle API di embedding
La maggior parte degli stack RAG costruiti nel 2023–2024 usa di default un endpoint commerciale per gli embeddings. Le ragioni erano sensate all'epoca: integrazione rapida, nessuna GPU da gestire, qualità baseline accettabile. Il problema è che gli embeddings vengono chiamati due volte per ogni retrieval — una volta al momento dell'indicizzazione per ogni chunk di documento, una volta al momento della query per ogni richiesta utente. Su larga scala, è un costo prevedibile e cumulativo senza un tetto naturale.
La context window da 32K cambia più del semplice costo. I limiti di contesto brevi costringevano gli ingegneri a pipeline di chunking che introducono rumore nel retrieval: una clausola contrattuale spezzata su due chunk, un ticket di supporto che perde l'intestazione, un documento di policy che risponde alla domanda solo se letto integralmente. Con 32K di contesto, interi documenti possono essere embeddati come unità singole. Questo semplifica la pipeline di ingestione, riduce la superficie di errore nel retrieval e rende più facile ragionare sulla logica di re-ranking. Meno parti mobili è una riduzione del rischio, non solo una comodità.
La capacità multilingue conta per un segmento specifico di clienti che raramente viene affrontato direttamente: aziende che gestiscono tool interni su più regioni, o vendor SaaS che vendono in mercati non anglofoni. Mantenere modelli di embedding separati per lingua, o accettare un calo di qualità da un modello primariamente in inglese, sono entrambi problemi evitati qui. Un modello, un deployment, un centro di costo.
Parla con Domani AI di come costruirlo →
Cosa fare lunedì mattina come CTO
La mossa di questa settimana è un benchmark circoscritto, non una migrazione completa. Limitalo a 3 giorni di lavoro ingegneristico e produci un unico output: un numero di delta costi su 12 mesi, usando il tuo volume reale di embeddings.
Ecco il framework di calcolo:
- Prendi la tua bolletta API degli embeddings degli ultimi 30 giorni. Moltiplicala per 12 per ottenere una baseline annualizzata.
- Stima il costo self-hosted — una singola GPU L4 su Google Cloud costa circa $0,80–$1,20/ora on-demand, meno con uso riservato. Per la maggior parte delle pipeline sotto i 10M token/giorno, una GPU gestisce il carico con margine.
- Fai girare Granite R2 su un campione di 1.000 documenti del tuo corpus reale. Confronta la qualità del retrieval con i tuoi embeddings attuali usando il tuo set di valutazione esistente. Se non hai un set di valutazione, costruisci questa settimana un golden set da 50 domande — quel lavoro è in ritardo comunque.
- Verifica la tua posizione sulla licenza — Apache-2.0 significa nessuna revisione legale per la maggior parte dei contesti enterprise, ma conferma con il tuo legale se operi in un settore regolamentato.
La migrazione in sé è a basso rischio. I modelli di embedding stanno nel layer di ingestione e query, dietro il tuo vector store. Cambiare il modello richiede la re-indicizzazione del corpus (un'operazione una tantum) e l'aggiornamento della chiamata di embedding per le query. Non tocca il tuo LLM, la logica dei tuoi prompt, né il tuo application layer. Un ingegnere competente può avviare un indice parallelo e fare A/B sulla qualità del retrieval prima di dismettere completamente la dipendenza dall'API.
Cosa costa — e cosa risparmia realisticamente
Il compromesso onesto è la gestione operativa. Un'API commerciale ti dà zero superficie infrastrutturale da gestire. Self-hostare Granite R2 significa che possiedi il deployment, la logica di scaling e lo SLA di uptime. Per un team che già gestisce workload GPU — il che vale per la maggior parte delle aziende AI-forward tra i 50 e i 500 FTE — questo è un onere incrementale, non una nuova capability. Per un team senza infrastruttura GPU oggi, il calcolo è diverso: considera il tempo di setup (stima 2–4 giorni per un deployment containerizzato con health check e autoscale policy) e l'overhead operativo continuativo prima di impegnarti.
Sul lato risparmio: le aziende che embeddano più di 500M token al mese su un'API commerciale tipicamente spendono $500–$2.000/mese solo su quella voce, a seconda del provider e del tier. Self-hosted su una singola GPU riservata porta quel costo a circa $400–$600/mese in compute, con una qualità almeno equivalente alle alternative commerciali sotto i 100M di parametri. Sopra i 2B token/mese, il delta è abbastanza significativo da giustificare un servizio di embeddings dedicato con ridondanza. Sotto i 50M token/mese, il risparmio è reale ma non decisivo — l'argomento più forte è la data residency e la lunghezza del contesto, non il costo. Sappi quale argomento si applica alla tua situazione prima di pianificare la migrazione.
Hai in mente una build simile? → Inizia la conversazione
Start the conversation →