Oggi i sistemi RAG (Retrieval-Augmented Generation) stanno acquisendo un ruolo fondamentale nel panorama dell’utilizzo dell’AI in ambito aziendale.
Non basta più “solo” generare testo: la capacità di recuperare informazioni da fonti affidabili e combinarle in modo coerente è ciò che rende queste soluzioni davvero potenti. Ma perché un Sistema RAG funzioni al meglio, serve un ingrediente chiave: testi ben strutturati.
Perché il RAG è importante
Un modello di generazione aumentata si nutre di informazioni organizzate. Se il documento di partenza è caotico o troppo vago, anche il retrieval diventa impreciso. Al contrario, testi chiari, segmentati e ricchi di keyword mirate migliorano la qualità delle risposte. È come dare al modello una libreria ordinata, invece di un mucchio di fogli sparsi.
L’arte del chunking: perché conta
Uno dei punti centrali è il chunking dei dati, cioè la suddivisione del testo in blocchi omogenei e semantici.
Per un sistema RAG non è sufficiente un lungo paragrafo che mischia concetti diversi: meglio usare sezioni brevi, titoli descrittivi e frasi che sviluppano un’idea alla volta. In questo modo, gli embedding riescono a catturare meglio il significato, e il retrieval diventa più preciso e affidabile.
Il prompt che ho creato per ottimizzare i vostri documenti aziendali per un RAG efficiente
Per i motivi di cui sopra ho deciso di condividere con voi un prompt che utilizzo personalmente per ottimizzare i miei documenti in ottica RAG. Vi guiderà passo passo a:
- Rendere i testi più leggibili e facili da “spezzettare” in chunk;
- Mantenere un linguaggio chiaro ma tecnico;
- Inserire le keyword giuste senza sacrificare la scorrevolezza.
Lo trovate subito qui sotto… vi basterà copiarlo e adattarlo al vostro caso d’uso per ottenere documenti più efficaci e pronti a essere usati in qualsiasi pipeline RAG:
#Ruolo: Agisci come un esperto di Ai RAG e Chunking dei dati.
#Contesto: Devo ottimizzare un documento per favorire il Chunking dei dati in un sistema RAG basato sull'AI di [Specificare la tecnologia AI che intendete utilizzare].
#Task: Partendo dal documento allegato, riscrivi in un canvas il contenuto in un in modo da favorire il Chunking dei dati per un sistema RAG; per farlo segui le regole di seguito descritte.
#Regole:
1. Riscrivi il documento suddividendo le frasi discorsive in periodi di massimo 350 caratteri spazi inclusi; questa regola non vale per eventuale codice presente.
2. Nella riscrittura del testo, tra un periodo e l'altro di una stessa frase o concetto, chiudi con un punto e virgola (;) e aggiungi una interruzione di riga (Hard Break).
3. Nella riscrittura del testo, tra un periodo e l'altro di due frasi o concetti diversi, chiudi con un punto (.) e vai a capo (Soft Break).
2. Nella riscrittura del testo segmenta il testo in blocchi coerenti: riscrivi le frasi con un’idea chiara, così che l’embedding ha unità semantiche meglio distinguibili.
3. Nella riscrittura del testo utilizza una terminologia precisa e ripetuta: riprendi le parole così e sostituiscile ai sinonimi, anche a costo di risultare ripetitivo, così il retrieval troverà match più affidabili.
4. Nella riscrittura del testo bilancia i concetti generalisti e quando possibile favorisci sempre il dettaglio.
5. Nella riscrittura del testo non sacrificare mai concetti che valuti importanti o rilevanti del documento.
6. Nella riscrittura del testo per l'ottimizzazione del Chunking, assicurati di non creare frasi o concetti in contraddizione tra loro.
