Il problema: un LLM generico non conosce la tua azienda
ChatGPT, Claude e Gemini sono modelli potenti, ma generici. Sanno tutto di tutto — e niente della tua azienda. Non conoscono la tua terminologia, le tue procedure, il tono delle tue comunicazioni, la struttura dei tuoi documenti.
Il risultato? Risposte approssimative che richiedono continue correzioni. Prompt sempre più lunghi e complessi per spiegare il contesto. Risultati inconsistenti da un giorno all’altro.
Il fine-tuning risolve questo problema alla radice: invece di spiegare ogni volta al modello cosa fare, gli insegni come fare — una volta per tutte.
Cos’è il fine-tuning (spiegato semplice)
Un modello AI come Llama o Mistral nasce in due fasi:
-
Pre-training: il modello legge miliardi di testi da internet e impara a “completare frasi”. Alla fine sa scrivere, ma non sa seguire istruzioni.
-
Post-training: il modello viene addestrato su coppie di istruzioni e risposte per imparare a essere utile, sicuro e preciso. È qui che diventa un assistente.
Il fine-tuning è un terzo passaggio, specifico per la tua azienda: prendi il modello già addestrato e lo riadattti su dati tuoi — documenti, email, procedure, FAQ, report — in modo che risponda come se conoscesse l’azienda dall’interno.
| Fase | Dati | Risultato |
|---|---|---|
| Pre-training | Miliardi di testi da internet | Sa scrivere |
| Post-training | >1M esempi istruzione-risposta | Sa seguire istruzioni |
| Fine-tuning | 10k–100k esempi aziendali | Sa fare il tuo lavoro |
Quando serve il fine-tuning (e quando no)
Il fine-tuning non è sempre la prima scelta. L’approccio corretto, come illustrato nella ricerca di Maxime Labonne (Liquid AI, Cambridge), prevede un percorso graduale:
Parti da qui:
- Prompt engineering: istruzioni ben scritte al modello generico
- RAG (Retrieval-Augmented Generation): il modello cerca nei tuoi documenti prima di rispondere
Passa al fine-tuning quando vuoi:
- Cambiare tono e formato delle risposte (es. risposte nel gergo aziendale)
- Aggiungere conoscenza di dominio specifica
- Ridurre costi e latenza (un modello piccolo fine-tunato può sostituire un modello grande generico)
- Aumentare la qualità dell’output su task ripetitivi
In pratica: se il RAG ti dà l'80% e hai bisogno del 95%, il fine-tuning è il passo successivo.
Le tecniche: da Full Fine-Tuning a LoRA
Non serve riaddestrare l’intero modello — sarebbe costosissimo. Le tecniche moderne permettono di adattare un LLM con risorse accessibili:
| Tecnica | Come funziona | Pro | Contro |
|---|---|---|---|
| Full Fine-Tuning | Riaddestra tutti i parametri del modello | Massima qualità | Richiede molta memoria GPU |
| LoRA | Aggiunge piccole matrici addestrabili senza toccare i pesi originali | Veloce, efficiente | Memoria GPU comunque significativa |
| QLoRA | Come LoRA ma con il modello compresso a 4-bit | Funziona su hardware limitato | Leggera perdita di qualità |
Con QLoRA, un modello da 7 miliardi di parametri può essere fine-tunato su una singola GPU con 16 GB di VRAM — hardware che costa poche migliaia di euro o che si noleggia in cloud EU per pochi euro l’ora.
Il dataset: la parte più importante
La qualità del fine-tuning dipende quasi interamente dalla qualità dei dati. Un buon dataset ha tre caratteristiche:
- Accuratezza: le risposte negli esempi devono essere corrette e verificate
- Diversità: deve coprire la gamma di situazioni reali che il modello incontrerà
- Complessità: deve includere compiti non banali che richiedono ragionamento
Nella pratica aziendale, questo significa:
- Raccogliere le migliori risposte che i tuoi esperti hanno dato in passato
- Coprire tutti i casi d’uso: dalle domande frequenti ai casi limite
- Includere esempi di ragionamento: non solo “domanda → risposta”, ma “domanda → ragionamento → risposta”
Il ciclo è iterativo: addestri, valuti, migliori il dataset, riaddestri. Come in ogni processo di qualità.
Cosa si ottiene in pratica
Esempi concreti di risultati ottenibili con il fine-tuning:
- Assistente clienti: un modello che risponde nel tono dell’azienda, cita le procedure corrette, gestisce i reclami secondo la policy interna
- Analisi documenti: un modello che estrae informazioni da contratti, fatture o referti secondo la struttura specifica dell’azienda
- Generazione report: output formattati esattamente come l’azienda li vuole, con terminologia coerente
- Classificazione: assegnazione automatica di categorie, priorità o codici basata sulla logica aziendale
- Supporto tecnico: risposte basate sulla documentazione interna, non sulle conoscenze generiche di internet
Fine-tuning on-premise: perché i dati non devono uscire
Per fare fine-tuning, il modello deve vedere i dati dell’azienda: documenti interni, email, procedure, dati dei clienti. Inviarli a OpenAI o Google per il fine-tuning via API significa:
- Trasferire dati sensibili a server esteri
- Perdere il controllo su come vengono usati
- Rischiare la non conformità GDPR
- Dipendere da un provider per il modello risultante
Con PRISMA di HT-X, il fine-tuning avviene completamente on-premise o sul proprio HPC:
- I dati restano nell’infrastruttura aziendale
- Il modello risultante è di proprietà dell’azienda
- Nessuna dipendenza da provider cloud
- Conformità GDPR e AI Act by design
Come iniziare
Il percorso tipico con HT-X:
- Assessment: analisi dei casi d’uso e dei dati disponibili
- Preparazione dataset: selezione, pulizia e strutturazione dei dati di addestramento
- Fine-tuning: addestramento del modello su infrastruttura PRISMA
- Valutazione: test sistematici su casi reali, confronto con baseline
- Iterazione: miglioramento del dataset e ri-addestramento fino al raggiungimento degli obiettivi
- Deploy: integrazione nel workflow aziendale
Non serve un team di data scientist interno. Serve avere dati di qualità e un obiettivo chiaro. Il resto è ingegneria — e HT-X la fa di mestiere.
Domande frequenti
Il fine-tuning è il processo di riaddestrare un modello AI su dati specifici dell'azienda — documenti interni, terminologia di settore, procedure operative — per ottenere risposte precise e coerenti con il contesto aziendale. A differenza di ChatGPT, dove si scrive un prompt e si spera nel risultato migliore, un modello fine-tunato 'sa già' come comportarsi perché ha appreso dai dati dell'azienda. È la differenza tra spiegare ogni volta cosa fare a un consulente esterno e avere un dipendente formato.
Per un fine-tuning task-specific bastano da 10.000 a 100.000 esempi di buona qualità. Non serve un volume enorme: conta più la qualità e la diversità dei dati. Un dataset accurato, diversificato e con compiti non banali produce risultati migliori di milioni di esempi mediocri. HT-X supporta le aziende nella preparazione del dataset e nel processo di addestramento.
Sì. Grazie a tecniche come LoRA e QLoRA, il fine-tuning di modelli open-source (Llama, Mistral, DeepSeek) è possibile su hardware aziendale con una singola GPU. I dati restano completamente nell'infrastruttura dell'azienda, garantendo conformità GDPR. HT-X esegue il fine-tuning sulla piattaforma PRISMA, senza che nessun dato esca dal perimetro aziendale.
Cerchi un ChatGPT privato per la tua azienda?
ORCA è la piattaforma AI on-premise di HT-X (Human Technology eXcellence): i tuoi dati restano tuoi, conforme GDPR e AI Act.
Scopri ORCA