Trovi il paper scientifico qui questo articolo è una sintesi.
INTRODUZIONE
L’integrazione pervasiva dei Large Language Models (LLM) nei tessuti connettivi delle moderne architetture aziendali ha generato una dicotomia operativa senza precedenti. Da un lato, assistiamo a un’accelerazione esponenziale nelle capacità di sintesi, analisi semantica e generazione di contenuti, promossa dalla natura probabilistica e creativa dei modelli trasformer pre-addestrati. Dall’altro, l’adozione di questi sistemi in settori critici e altamente regolamentati — quali la finanza, il settore legale, la sanità e la pubblica amministrazione — ha portato ad una crisi di fiducia epistemologica. In questi domini, la verosimiglianza non è un sostituto accettabile della verità, e la fluidità linguistica non può compensare l’assenza di fattualità verificabile.
Il problema fondamentale risiede nella natura intrinseca dei modelli “vanilla”. Un LLM non ancorato (ungrounded) opera come un motore di completamento stocastico che non recupera informazioni, ma le “genera” basandosi su pesi statistici congelati al termine del suo addestramento. In questo paradigma, la risposta a una query aziendale critica — ad esempio, “Qual è l’esposizione al rischio di controparte secondo l’ultima policy interna?” — non è il risultato di una consultazione di un database deterministico, ma una ricostruzione probabilistica che può plausibilmente risultare in una “allucinazione”: una risposta sintatticamente coerente ma fattualmente errata o obsoleta.
La Retrieval-Augmented Generation (RAG) emerge in questo scenario non semplicemente come un’ottimizzazione tecnica per migliorare le metriche di accuratezza, ma come un requisito strutturale di riferibilità (traceability). Vincolando il processo generativo a un contesto recuperato dinamicamente da fonti controllate, il RAG trasforma l’architettura cognitiva dell’AI: da oracolo opaco a analista referenziato.
IL MECCANISMO DI GROUNDING
In un’architettura RAG orientata alla conformità, il prompt non serve solo a definire il tono o lo stile, ma agisce come un vincolo logico rigido. Istruzioni come “Rispondi solo utilizzando il contesto fornito” o “Se l’informazione non è presente nei documenti recuperati, dichiara di non sapere la risposta” forzano il modello a inibire la sua memoria parametrica (la conoscenza acquisita durante il pre-training su internet) a favore della memoria non parametrica (i documenti aziendali recuperati).
Questo vincolo ha un effetto diretto sulla tracciabilità. Quando un modello è costretto a generare una risposta basata esclusivamente su un set di chunk (frammenti di testo) forniti nel prompt, ogni affermazione prodotta può essere mappata direttamente a una frase o a un paragrafo sorgente. Tecniche avanzate di prompting richiedono al modello di inserire citazioni in-line alla fine di ogni asserzione fattuale. Questo crea un legame esplicito tra l’output generato e il record documentale, permettendo agli auditor umani o ai sistemi di monitoraggio automatico di verificare la provenienza di ogni informazione.
Un aspetto critico della riferibilità è garantire che il modello non faccia trapelare informazioni esterne o non autorizzate. In ambienti regolamentati, un prompt RAG deve includere istruzioni negative esplicite (“Negative Constraints”). Studi recenti dimostrano che l’efficacia di questi vincoli dipende dalla struttura del prompt. L’utilizzo di formati strutturati come XML o JSON all’interno del prompt per delimitare il contesto (<context>…</context>) aiuta il modello a distinguere nettamente tra le istruzioni operative e i dati su cui ragionare, riducendo le “injection” accidentali e migliorando l’aderenza alle istruzioni di conformità.
TEMPERATURA E SAMPLING
La riferibilità richiede determinismo: a fronte dello stesso contesto documentale, il sistema dovrebbe idealmente produrre risposte consistenti e fattuali. Qui entra in gioco la gestione dei parametri di inferenza, in particolare la temperatura (T).
La temperatura controlla l’entropia della distribuzione di probabilità del next-token prediction. La letteratura scientifica recente fornisce evidenze chiare sul suo impatto sulla conformità:
- Minimizzazione delle Allucinazioni Specifiche (T < 0.2): Uno studio del 2024 sulle capacità di codifica degli LLM ha dimostrato che le temperature basse (Greedy Decoding o prossime allo 0) riducono significativamente il tasso di allucinazioni. Sebbene il greedy decoding non elimini completamente l’errore, temperature alte provocano un degrado drammatico della fattualità, rendendo il modello propenso a inventare entità non presenti nel contesto.
- Entropia Semantica (Semantic Entropy) come Metrica di Controllo: Un approccio avanzato alla riferibilità, proposto da Farquhar et al. (2024), suggerisce di utilizzare la temperatura non solo come parametro statico, ma come strumento di validazione attiva. Generando risposte multiple a temperature diverse e misurando la Semantic Entropy (la divergenza di significato tra le risposte), è possibile rilevare le confabulazioni. Se il modello, variando la temperatura, produce risposte con significati radicalmente diversi, l’incertezza epistemica è alta e la risposta va scartata come non riferibile/inauditable.
- Alternative alla Temperatura (Min-p Sampling): Nuove tecniche di campionamento come Min-p stanno emergendo come alternative superiori per bilanciare coerenza e creatività. A differenza del Top-p (nucleus sampling), Min-p taglia la coda della distribuzione in modo dinamico basandosi sulla fiducia del token più probabile. Questo garantisce che, anche se il sistema è configurato per essere parzialmente flessibile, non consideri mai token statisticamente irrilevanti che porterebbero a violazioni di compliance.
In sintesi, per un sistema RAG auditabile, la configurazione raccomandata prevede T ≈ 0 per la produzione per massimizzare la precisione estrattiva, supportata da test di robustezza basati su Semantic Entropy in fase di validazione.
METRICHE DI FIDUCIA
Il framework concettuale dominante per la valutazione del RAG è la Triade RAG, composta da tre metriche fondamentali che valutano le interazioni tra Query, Contesto e Risposta. Strumenti come RAGAS (Retrieval Augmented Generation Assessment) forniscono implementazioni matematiche di queste metriche.
Faithfulness (Fedeltà / Groundedness): Questa è la metrica regina per la conformità. Misura quanto la risposta generata è derivabile esclusivamente dal contesto recuperato, senza allucinazioni o conoscenze esterne.
- Si scompone la risposta R in un insieme di affermazioni atomiche S = {s1, s2,…, sn}. Per ogni s, un LLM “giudice” verifica se s è logicamente implicata nel contesto C. Un punteggio inferiore a 1.0 è un segnale di allarme rosso per un sistema di compliance, indicando che il modello sta inventando informazioni.
Context Precision (Precisione del Contesto): Misura il rapporto segnale/rumore nel retrieval. Se il sistema recupera 10 documenti ma solo 1 è rilevante per la risposta, la Context Precision è bassa. Un basso punteggio qui non solo degrada le prestazioni, ma aumenta il rischio che l’LLM si “distragga” con informazioni irrilevanti o contraddittorie, portando a errori di ragionamento.
Answer Relevance: Valuta se la risposta risponde effettivamente alla domanda dell’utente. Una risposta potrebbe essere perfettamente fedele al contesto (Faithfulness = 1.0) ma completamente inutile per l’utente (es. l’utente chiede “Come resetto la password?” e il sistema risponde fedelmente con la storia dell’azienda).
AGENTIC RAG
Mentre il RAG tradizionale segue un flusso lineare, l’Agentic RAG introduce agenti autonomi capaci di pianificare, utilizzare strumenti e riflettere sul proprio operato. Questo paradigma eleva la tracciabilità da semplice “log di retrieval” a “log di ragionamento”.
In scenari ad alto rischio, un agente non si limita a generare una risposta. Implementa loop di Self-Correction (autocorrezione).
- Generazione: L’agente produce una bozza di risposta basata sui documenti.
- Verifica (Audit Interno): L’agente (o un secondo agente “Critico”) analizza la bozza. Verifica ogni citazione: “Il link al documento X supporta davvero l’affermazione Y?”.
- Iterazione: Se la verifica fallisce (bassa Faithfulness), l’agente riscrive la risposta o esegue una nuova ricerca mirata per colmare la lacuna. Questo processo di “pensiero” (Chain of Thought) può essere salvato nel log di audit. In caso di errore, gli investigatori possono vedere non solo cosa il modello ha risposto, ma perché ha ritenuto corretta quella risposta e quali passaggi di verifica ha eseguito.
L’Agentic RAG permette di instradare le query verso lo strumento più appropriato. Per una domanda sul saldo contabile, l’agente non usa un LLM probabilistico, ma invoca uno strumento deterministico (es. API SQL) per interrogare un database strutturato. Per la spiegazione della polizza, usa il RAG vettoriale. L’agente orchestratore funge da “switch” intelligente. La tracciabilità qui diventa la capacità di registrare quale “tool” è stato invocato e con quali parametri. Questo è fondamentale per dimostrare che i calcoli numerici critici non sono stati “allucinati” dall’LLM ma calcolati da sistemi certificati.
In conclusione, il RAG rappresenta molto più di un’architettura tecnica; è un contratto di fiducia tra l’organizzazione, i suoi dati e i suoi utenti. In momento storico in cui l’AI permea processi decisionali critici, la capacità di dire “Ecco perché abbiamo dato questa risposta” non è un optional, ma la fondazione stessa della legittimità operativa.
E SE AVETE RESISTITO FINO A QUI…
VEDIAMO COME USARE CHESHIRECAT-AI COME RAG E OTTIMIZZARE LA RIFERIBILITÀ
Perché proprio Cheshirecat e non altri, tipo Ollama + OpenWebUI? Fondamentalmente per due motivi, il primo (totalmente trascurabile) sono un grandissimo fan del progetto e per quanto possibile sono attivo nella community. Il secondo motivo (questo decisamente importante), abbiamo la possibilità di fare un test simulando un ambiente aziendale in pochi minuti e con un unico strumento.
La prima cosa da fare dopo l’installazione è stabilire cosa può fare un admin rispetto a cosa può fare un utente. Se vogliamo testare un sistema aziendale gli admin devono essere gli unici a poter gestire i file nella memoria vettoriale e gli utenti potranno solamente fare richieste. Dobbiamo quindi gestire i permessi nel pannello di configurazione.
Passiamo poi alla configurazione dei parametri per fare in modo che si comporti effettivamente come un RAG aziendale. Sempre dal pannello di configurazione possiamo scegliere l’embedder, il modello e la temperatura, che come abbiamo visto è importante come parametro per mantenere alta la fattualità delle risposte del modello.
Adesso possiamo anche impostare un prompt di sistema o simile usando il plugin Cheshire Cat Prompt Settings.
Adesso facciamo domande al chatbot e analizziamo il perché ha risposto in quel modo. Questa cosa possiamo farla facilmente proprio grazie alle funzionalità di Cheshirecat, per ogni risposta data ha un tasto “Why this response” che ci mostrerà esattamente che memoria ha utilizzato per rispondere e nei dettagli della memoria dichiarativa i file da cui ha preso le informazioni, i metadati, ecc.

