ChatGPT, magia?

ChatGPT è uno strumento informatico ormai conosciuto da quasi tutti e utilizzato da molti, consente di avere risposte a quesiti sottoposti in forma testuale. Così come LLama (Meta) ed altri, ChatGPT è un LLM, ovvero un modello di linguaggio esteso, una delle tante tipologie di modelli di intelligenza artificiale.

Ma come funziona un LLM?

Un LLM si basa principalmente su questi due aspetti/processi:

  • Matrice degli Embeddings: ogni parola in un vocabolario di prefissata grandezza (le parole inserite nel vocabolario sono quelle maggiormente ricorrenti) viene suddivisa in unità significative rappresentate all’interno di un calcolatore ognuna con un numero intero detto token, per esempio la parola atomo potrà essere suddivisa in “atom” e “o” questo perchè il modello vuole poi poter ottimizzare l’aspetto semantico nella sua rappresentazione numerica e poter “capire” che anche atom(-)i e atom(-)ico, fanno parte dello stesso contesto di significato. Una frase diventerà quindi una lista di numeri (anche gli spazi, i segni di punteggiatura e le etichette di inizio e fine savranno un loro dedicato valore numerico), organizzati come vettori di dimensione predefinita (che sarà la massima lunghezza della frase). Utilizzando le informazioni appena organizzate si forma una matrice (una specie di tabella) dove ogni riga è un determinato token e ogni colonna un parametro (più parametri significa più descrittori, ovvero la migliore capacità del sistema di astrarre e quindi cogliere più sfumature). Ogni parametro viene calcolato in modo che parole con significati e contesti simili abbiano valori simili. Prendiamo solo ad esempio un’ improponibile matrice degli embeddings con due parametri, ogni parola potrebbe essere visivamente mappata su un piano cartesiano, ecco che due parole come casa e abitazione saranno molto vicine nell’ipotetico piano, grattugia e pianoforte saranno ad una distanza molto grande. Le matrici degli embeddings hanno centinaia o migliaia di parametri, spazi ovviamente non rappresentabili graficamente .
  • Meccanismo di Attenzione: la matrice degli embeddings non riesce a considerare il contesto dato anche dalle altre parole presenti nelle vicinanze, ad esempio ne Il gatto insegue il topo che si nasconde sotto il divano, topo e divano avranno con molta probabilità una bassa correlazione nella matrice degli embeddings. Il meccanismo di attenzione riesce invece a focalizzarsi su specifiche parti della frase come il topo e sotto il divano e trovare una correlazione, ma come? Utilizzando la rappresentazione QKV: Query, Key, Value. Questa rappresentazione è uno stratagemma trovato dai ricercatori per mimare un sistema di ricerca contestuale: query rappresenta la nostra richiesta sottoforma di token, e la coppia key(chiave)-value(valore) rappresenta i token che hanno sequenzialmente nella loro generazione una probabilità più alta (la funzione softmax in uscita del blocco computazionale fondamentale di un LLM è utilizzato infatti per ottenere una distribuzione di probabilità per ogni token nel vocabolario) in correlazione all’input (query). Il meccanismo di attenzione, implementato con delle reti neurali di milioni di paramentri (ciò che ne determina la complessità costruttiva e computazionale) appositamente addestrate, è poi utilizzato in parallelo su diverse parti della frase in modo da ottenere un risultato valido.

Si fa presto a fare due conti per capire che un LLM di qualità occupa in memoria diversi GB. Tanto per fare un esempio LLama 3.2 con 70 miliardi di parametri (nel momento in cui scrivo, uno dei migliori modelli in circolazione) per poter essere eseguito su un computer con con 64GB di RAM, i suoi parametri devono essere sottocampionati a (soli) 4bit (per fortuna senza inficiare in maniera sostanziale sulla precisione dello stesso).

Se non avete capito niente va bene lo stesso, ma questo nostro vecchio articolo potrà tornarvi utile.

Studio Cerello & Chesini srl © 2025

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *