Fine-tuning: come le aziende possono addestrare un modello AI sui propri dati (e quando conviene)

fine-tuningLLMLoRApost-trainingmodelli AIon-premise

Il problema: un LLM generico non conosce la tua azienda

ChatGPT, Claude e Gemini sono modelli potenti, ma generici. Sanno tutto di tutto — e niente della tua azienda. Non conoscono la tua terminologia, le tue procedure, il tono delle tue comunicazioni, la struttura dei tuoi documenti.

Il risultato? Risposte approssimative che richiedono continue correzioni. Prompt sempre più lunghi e complessi per spiegare il contesto. Risultati inconsistenti da un giorno all’altro.

Il fine-tuning risolve questo problema alla radice: invece di spiegare ogni volta al modello cosa fare, gli insegni come fare — una volta per tutte.

Cos’è il fine-tuning (spiegato semplice)

Un modello AI come Llama o Mistral nasce in due fasi:

Pre-training: il modello legge miliardi di testi da internet e impara a “completare frasi”. Alla fine sa scrivere, ma non sa seguire istruzioni.
Post-training: il modello viene addestrato su coppie di istruzioni e risposte per imparare a essere utile, sicuro e preciso. È qui che diventa un assistente.

Il fine-tuning è un terzo passaggio, specifico per la tua azienda: prendi il modello già addestrato e lo riadattti su dati tuoi — documenti, email, procedure, FAQ, report — in modo che risponda come se conoscesse l’azienda dall’interno.

Fase	Dati	Risultato
Pre-training	Miliardi di testi da internet	Sa scrivere
Post-training	>1M esempi istruzione-risposta	Sa seguire istruzioni
Fine-tuning	10k–100k esempi aziendali	Sa fare il tuo lavoro

Quando serve il fine-tuning (e quando no)

Il fine-tuning non è sempre la prima scelta. L’approccio corretto, come illustrato nella ricerca di Maxime Labonne (Liquid AI, Cambridge), prevede un percorso graduale:

Parti da qui:

Prompt engineering: istruzioni ben scritte al modello generico
RAG (Retrieval-Augmented Generation): il modello cerca nei tuoi documenti prima di rispondere

Passa al fine-tuning quando vuoi:

Cambiare tono e formato delle risposte (es. risposte nel gergo aziendale)
Aggiungere conoscenza di dominio specifica
Ridurre costi e latenza (un modello piccolo fine-tunato può sostituire un modello grande generico)
Aumentare la qualità dell’output su task ripetitivi

In pratica: se il RAG ti dà l'80% e hai bisogno del 95%, il fine-tuning è il passo successivo.

Le tecniche: da Full Fine-Tuning a LoRA

Non serve riaddestrare l’intero modello — sarebbe costosissimo. Le tecniche moderne permettono di adattare un LLM con risorse accessibili:

Tecnica	Come funziona	Pro	Contro
Full Fine-Tuning	Riaddestra tutti i parametri del modello	Massima qualità	Richiede molta memoria GPU
LoRA	Aggiunge piccole matrici addestrabili senza toccare i pesi originali	Veloce, efficiente	Memoria GPU comunque significativa
QLoRA	Come LoRA ma con il modello compresso a 4-bit	Funziona su hardware limitato	Leggera perdita di qualità

Con QLoRA, un modello da 7 miliardi di parametri può essere fine-tunato su una singola GPU con 16 GB di VRAM — hardware che costa poche migliaia di euro o che si noleggia in cloud EU per pochi euro l’ora.

Il dataset: la parte più importante

La qualità del fine-tuning dipende quasi interamente dalla qualità dei dati. Un buon dataset ha tre caratteristiche:

Accuratezza: le risposte negli esempi devono essere corrette e verificate
Diversità: deve coprire la gamma di situazioni reali che il modello incontrerà
Complessità: deve includere compiti non banali che richiedono ragionamento

Nella pratica aziendale, questo significa:

Raccogliere le migliori risposte che i tuoi esperti hanno dato in passato
Coprire tutti i casi d’uso: dalle domande frequenti ai casi limite
Includere esempi di ragionamento: non solo “domanda → risposta”, ma “domanda → ragionamento → risposta”

Il ciclo è iterativo: addestri, valuti, migliori il dataset, riaddestri. Come in ogni processo di qualità.

Cosa si ottiene in pratica

Esempi concreti di risultati ottenibili con il fine-tuning:

Assistente clienti: un modello che risponde nel tono dell’azienda, cita le procedure corrette, gestisce i reclami secondo la policy interna
Analisi documenti: un modello che estrae informazioni da contratti, fatture o referti secondo la struttura specifica dell’azienda
Generazione report: output formattati esattamente come l’azienda li vuole, con terminologia coerente
Classificazione: assegnazione automatica di categorie, priorità o codici basata sulla logica aziendale
Supporto tecnico: risposte basate sulla documentazione interna, non sulle conoscenze generiche di internet

Fine-tuning on-premise: perché i dati non devono uscire

Per fare fine-tuning, il modello deve vedere i dati dell’azienda: documenti interni, email, procedure, dati dei clienti. Inviarli a OpenAI o Google per il fine-tuning via API significa:

Trasferire dati sensibili a server esteri
Perdere il controllo su come vengono usati
Rischiare la non conformità GDPR
Dipendere da un provider per il modello risultante

Con PRISMA di HT-X, il fine-tuning avviene completamente on-premise o sul proprio HPC:

I dati restano nell’infrastruttura aziendale
Il modello risultante è di proprietà dell’azienda
Nessuna dipendenza da provider cloud
Conformità GDPR e AI Act by design

Come iniziare

Il percorso tipico con HT-X:

Assessment: analisi dei casi d’uso e dei dati disponibili
Preparazione dataset: selezione, pulizia e strutturazione dei dati di addestramento
Fine-tuning: addestramento del modello su infrastruttura PRISMA
Valutazione: test sistematici su casi reali, confronto con baseline
Iterazione: miglioramento del dataset e ri-addestramento fino al raggiungimento degli obiettivi
Deploy: integrazione nel workflow aziendale

Non serve un team di data scientist interno. Serve avere dati di qualità e un obiettivo chiaro. Il resto è ingegneria — e HT-X la fa di mestiere.

Domande frequenti

Il fine-tuning è il processo di riaddestrare un modello AI su dati specifici dell'azienda — documenti interni, terminologia di settore, procedure operative — per ottenere risposte precise e coerenti con il contesto aziendale. A differenza di ChatGPT, dove si scrive un prompt e si spera nel risultato migliore, un modello fine-tunato 'sa già' come comportarsi perché ha appreso dai dati dell'azienda. È la differenza tra spiegare ogni volta cosa fare a un consulente esterno e avere un dipendente formato.

Per un fine-tuning task-specific bastano da 10.000 a 100.000 esempi di buona qualità. Non serve un volume enorme: conta più la qualità e la diversità dei dati. Un dataset accurato, diversificato e con compiti non banali produce risultati migliori di milioni di esempi mediocri. HT-X supporta le aziende nella preparazione del dataset e nel processo di addestramento.

Sì. Grazie a tecniche come LoRA e QLoRA, il fine-tuning di modelli open-source (Llama, Mistral, DeepSeek) è possibile su hardware aziendale con una singola GPU. I dati restano completamente nell'infrastruttura dell'azienda, garantendo conformità GDPR. HT-X esegue il fine-tuning sulla piattaforma PRISMA, senza che nessun dato esca dal perimetro aziendale.

Cerchi un ChatGPT privato per la tua azienda?

ORCA è la piattaforma AI on-premise di HT-X (Human Technology eXcellence): i tuoi dati restano tuoi, conforme GDPR e AI Act.

Scopri ORCA