Citazione di: hafssol il 02 Mag 2026, 16:29Come un po' tutte le cose del giro dei Wu MIng, è una mattonata e va un po' filtrata di qualche eccesso ideologico/complottista, però questo pezzo offre spunti di riflessione e segnalazioni di lettura interessanti, sia sulle dinamiche dell'utilizzo dei sistemi di IA, sia su modi di "resistenza" al predominio dei soliti noti tecnologici, se non altro da prendere in considerazione nelle varie alternative agli strumenti che popolano ormai le nostre vite, per lavoro o semplice abitudine quotidiana.
https://www.wumingfoundation.com/giap/2026/04/resistenze-ia/
Su questo tema se posso porto un contributo derivato dall'esperienza diretta. Un paio di mesi fa mi sono imbarcato in un progetto di generazione di quiz a risposta multipla. Per farlo ho pensato di utilizzare Gemini, che nella versione base gratuita mi consentiva di chiedere la generazione di domande su un dato tema, con 4 possibili risposte, soluzione, spiegazioni, criteri di classificazione e livelli di difficoltà. Il livello di comprensione e i testi prodotti dall'IA sono francamente impressionanti. Capisci che cj sia qualche cosa di artefatto solo a causa di alcune forme standardizzate (frequente: "Capisco perfettamente la tua frustrazione..." a fronte di un qualsiasi problema segnalato) ma per il resto come suggeritore, correttore e anche generatore di testi liberi è potentissimo. Ora, quando ho iniziato a richiedere le domande (in un formato standard di testo) pensavo che si potesse fare praticamente di tutto e così mi era stato promesso con qualche piccola limitazione da Gemini. Ho presto dovuto fare i conti con delle limitazioni: la quantità dei dati producibili (Token disponibili) e l'assenza di una memoria oltre la sessione. Ciò comportava la necessità di limitare il numero di domande da richiedere (max poche decine alla volta) e l'elevata probabilità di rigenerare più volte le stesse domande. Mi sono attrezzato con le opportune strutture dati e routines di controllo nel mio progetto per gestire ed eliminare I doppioni e diciamo che il processo funzionava abbastanza bene, con contenuti di ottima qualità. Era solo molto lento e faticoso, tra copia incolla di testi e gestione dei potenziali doppioni da valutare e semmai scartare. Per agevolarmi la vita, ho pensato di abbonarmi alla versione Pro: 1000000 di token anzichè 5000. Mi aspettavo di poter richiedere non dico 1000 domande alla volta ma almeno 2-300. Qui sono cominciati i problemi di una totale dissociazione tra gli accordi presi e gli enunciati fatti da una parte e quanto effettivamente prodotto dall'altra. L'accordo iniziale era: produci 1000 domande su un Tema, es. Cinema, suddiviso per generi, produzioni e/o periodi, e mandamele anche in più blocchi successivi. Questa era una richiesta gestibile a suo dire senza problemi. Invece sono iniziate le catastrofi. Mi sono ritrovato domande ripetute N volte, argomenti richiesti e mai sfiorati, fino a veri e propri errori di contestualizzazione e risposte (da Franco Califano di Latina a Carmen Consoli bolognese e decine di chicche del genere), domande inconsistente (chi ha vinto nel 2024) o tautol9giche (di che colore era il cavallo bianco di Napoleone), classificazioni a capocchia a centinaia. Ho via via irrigidito e blindato il protocollo di generazione, richiedendo domande su argomenti sempre più specifici e sezionato: 30 sul Western all'italiana, 20 su Hitchcock, ecc. Ogni volta ricevendo rassicurazioni che il nuovo protocollo avrebbe risolto i problemi. Ho chiesto un aiuto per rintracciare tutte le domande duplicate tra quelle già acquisite: Ti ritorno in testi delle 1000 domande, tu le confronti a due alternative due (sono circa 500000 confronti, con la potenza di calcolo che ha ci mette pochi secondi) e mi segnali le coppie sospette. Niente da fare. La cosa strana è che le prime 2 o 3 coppue le individuava correttamente, poi sfarfallava completamente individuando pochi casi ruspetto a quelli reali e pure sbagliati. Lo stesso per le domande: se gliene chiedi 10, sono accurate; man mano che aimenti il numero, inizuano le invenzioni. Alla mia furiosa richiesta di spiegazioni dopo l'ennesimo fallimento ho ricevuto delle spiegazioni che mi hanno lasciato assai perplesso. La prima è che le domande vengono generate mediante dei modelli statistico-predittivi e già questo non me lo aspetto da un sistema che se gli chiedi spiegazioni ben più complessa sul 730 o su argomenti scientifici ti risponde perfettamente a tono. La statistica la capisco per la distribuzione iniziale, potrei ancora capire l'eccesso di doppioni se non specifico niente, ma se ti dico dall'inizio 10 domande su Sordi e 10 su Star Wars quando passo alla kung-fu non mi aspetto che mi spuntino altre domande su Sordi. Il secondo grande problema è la mancata applicazione del fact-checking alle domande generate, scelta fatta presumibilmente per privilegiare la velocità a scapito della realtà. Il meccanismo di generazione statistico piazza Califano a Latina, la mancata verifica (What a katzaw am I sauing?) c'è lo lascia. Il terzo problema è l'assoluta incapacità (non so se voluta a questo punto) di rispettare un piano prestabilito e concordato. Immaginate il Cinema di cui sopra: 50 blocchi ben distinti e separati di 20 domande in media. Inizio con la commedia all'italiana: Sordi 20, Totò 20, Gassman 15, ecc. Poi passo ai western, alla fantascienza, ecc. Sempre con suddivisioni in settaggio. Ora certo mi posso aspettare qualche replica tra argomenti confinanti (stesso film con Sordi e Totò), ma non di ritrovarmi domande sulla commedia all'italiana nel filone dei film giapponesi. L'IA che interloquire con me ha dichiarato di essere una specie di intermediario che passa le richieste ad una piattaforma la quale oltre ad operare sempre con dei processi di generazione statistici in pratica non riesce o non può o Jon vuole adottare dei pattern prestabiliti. Per questo genera le prime 3 o 10 domande perfette, controlla i primi 2 o 3 duplicati correttamente, poi si perde. Da un lato ricorre agli stessi schemi (domande ripetute), dall'altro approssimazione fatti e risposte (allucinazioni ed errori fattuali). Ora, io sono estremamente sconcertato. Mi occupo di informatica dagli anni 80: un ciclo che confronti a due a due 1000 oggetti è una cosa semplicissima, la parte complicata è l'analisi semantica che ti porta a dire che una domanda è equivalente ad un'altra. Questo dovrebbe essere il compito dell'IA e se gli dò due domande secche da confrontare lo fa benissimo. Se gliene dò 1000 (ma anche 100, 200) impazzisce. Come ti ho detto, paradossalmente il modello potente a pagamento funziona molto peggio di quello gratuito. Non risolve il problema dei duplicati ma degrada la qualità dei contenuti tra allucinazioni e falsi.
Poi magari è bravissima (l'IA) a superare il test del gatto ( se qualcuno è interessato glielo racconto, temo di aver annoiato abbastanza).