Chat GPT

Aperto da RG-Lazio, 18 Mar 2023, 18:53

0 Utenti e 1 Visitatore stanno visualizzando questa discussione.

Discussione precedente - Discussione successiva

mr_steed

*
Lazionetter
* 11.288
Registrato

hafssol

*
Lazionetter
* 12.411
Registrato
 Come un po' tutte le cose del giro dei Wu MIng, è una mattonata e va un po' filtrata di qualche eccesso ideologico/complottista, però questo pezzo offre spunti di riflessione e segnalazioni di lettura interessanti, sia sulle dinamiche dell'utilizzo dei sistemi di IA, sia su modi di "resistenza" al predominio dei soliti noti tecnologici, se non altro da prendere in considerazione nelle varie alternative agli strumenti che popolano ormai le nostre vite, per lavoro o semplice abitudine quotidiana.
https://www.wumingfoundation.com/giap/2026/04/resistenze-ia/ 

Pippo Jones

*
Lazionetter
* 208
Registrato
Citazione di: hafssol il 02 Mag 2026, 16:29Come un po' tutte le cose del giro dei Wu MIng, è una mattonata e va un po' filtrata di qualche eccesso ideologico/complottista, però questo pezzo offre spunti di riflessione e segnalazioni di lettura interessanti, sia sulle dinamiche dell'utilizzo dei sistemi di IA, sia su modi di "resistenza" al predominio dei soliti noti tecnologici, se non altro da prendere in considerazione nelle varie alternative agli strumenti che popolano ormai le nostre vite, per lavoro o semplice abitudine quotidiana.
https://www.wumingfoundation.com/giap/2026/04/resistenze-ia/
Su questo tema se posso porto un contributo derivato dall'esperienza diretta. Un paio di mesi fa mi sono imbarcato in un progetto di generazione di quiz a risposta multipla. Per farlo ho pensato di utilizzare Gemini, che nella versione base gratuita mi consentiva di chiedere la generazione di domande su un dato tema, con 4 possibili risposte, soluzione, spiegazioni,  criteri di classificazione e livelli di difficoltà. Il livello di comprensione e i testi prodotti dall'IA sono francamente impressionanti. Capisci che cj sia qualche cosa di artefatto solo a causa di alcune forme standardizzate (frequente: "Capisco perfettamente la tua frustrazione..." a fronte di un qualsiasi problema segnalato) ma per il resto come suggeritore, correttore e anche generatore di testi liberi è potentissimo. Ora, quando ho iniziato a richiedere le domande (in un formato standard di testo) pensavo che si potesse fare praticamente di tutto e così mi era stato promesso con qualche piccola limitazione da Gemini. Ho presto dovuto fare i conti con delle limitazioni: la quantità dei dati producibili (Token disponibili) e l'assenza di una memoria oltre la sessione. Ciò comportava la necessità di limitare il numero di domande da richiedere (max poche decine alla volta) e l'elevata probabilità di rigenerare più volte le stesse domande. Mi sono attrezzato con le opportune strutture dati e routines di controllo nel mio progetto per gestire ed eliminare I doppioni e diciamo che il processo funzionava abbastanza bene, con contenuti di ottima qualità.  Era solo molto lento e faticoso, tra copia incolla di testi e gestione dei potenziali doppioni da valutare e semmai scartare. Per agevolarmi la vita, ho pensato di abbonarmi alla versione Pro: 1000000 di token anzichè 5000. Mi aspettavo di poter richiedere non dico 1000 domande alla volta ma almeno 2-300. Qui sono cominciati i problemi di una totale dissociazione tra gli accordi presi e gli enunciati fatti da una parte e quanto effettivamente prodotto dall'altra. L'accordo iniziale era: produci 1000 domande su un Tema, es. Cinema, suddiviso per generi, produzioni e/o periodi, e mandamele anche in più blocchi successivi. Questa era una richiesta gestibile a suo dire senza problemi. Invece sono iniziate le catastrofi. Mi sono ritrovato domande ripetute N volte, argomenti richiesti e mai sfiorati, fino a veri e propri errori di contestualizzazione e risposte (da Franco Califano di Latina a Carmen Consoli bolognese e decine di chicche del genere), domande inconsistente (chi ha vinto nel 2024) o tautol9giche (di che colore era il cavallo bianco di Napoleone), classificazioni a capocchia a centinaia. Ho via via irrigidito e blindato il protocollo di generazione, richiedendo domande su argomenti sempre più specifici e sezionato: 30 sul Western all'italiana, 20 su Hitchcock, ecc. Ogni volta ricevendo rassicurazioni che il nuovo protocollo avrebbe risolto i problemi. Ho chiesto un aiuto per rintracciare tutte le domande duplicate tra quelle già acquisite: Ti ritorno in testi delle 1000 domande, tu le confronti a due alternative due (sono circa 500000 confronti, con la potenza di calcolo che ha ci mette pochi secondi) e mi segnali le coppie sospette. Niente da fare. La cosa strana è che le prime 2 o 3 coppue le individuava correttamente, poi sfarfallava completamente individuando pochi casi ruspetto a quelli reali e pure sbagliati. Lo stesso per le domande: se gliene chiedi 10, sono accurate; man mano che aimenti il numero, inizuano le invenzioni. Alla mia furiosa richiesta di spiegazioni dopo l'ennesimo fallimento ho ricevuto delle spiegazioni che mi hanno lasciato assai perplesso. La prima è che le domande vengono generate mediante dei modelli statistico-predittivi e già questo non me lo aspetto da un sistema che se gli chiedi spiegazioni ben più complessa sul 730 o su argomenti scientifici ti risponde perfettamente a tono. La statistica la capisco per la distribuzione iniziale, potrei ancora capire l'eccesso di doppioni se non specifico niente, ma se ti dico dall'inizio 10 domande su Sordi e 10 su Star Wars quando passo alla kung-fu non mi aspetto che mi spuntino altre domande su Sordi. Il secondo grande problema è la mancata applicazione del fact-checking alle domande generate, scelta fatta presumibilmente per privilegiare la velocità a scapito della realtà. Il meccanismo di generazione statistico piazza Califano a Latina,  la mancata verifica (What a katzaw am I sauing?) c'è lo lascia. Il terzo problema è l'assoluta incapacità (non so se voluta a questo punto) di rispettare un piano prestabilito e concordato. Immaginate il Cinema di cui sopra: 50 blocchi ben distinti e separati di 20 domande in media. Inizio con la commedia all'italiana: Sordi 20, Totò 20, Gassman 15, ecc. Poi passo ai western, alla fantascienza, ecc. Sempre con suddivisioni in settaggio. Ora certo mi posso aspettare qualche replica tra argomenti confinanti (stesso film con Sordi e Totò), ma non di ritrovarmi domande sulla commedia all'italiana nel filone dei film giapponesi. L'IA che interloquire con me ha dichiarato di essere una specie di intermediario che passa le richieste ad una piattaforma la quale oltre ad operare sempre con dei processi di generazione statistici in pratica non riesce o non può o Jon vuole adottare dei pattern prestabiliti. Per questo genera le prime 3 o 10 domande perfette, controlla i primi 2 o 3 duplicati correttamente, poi si perde. Da un lato ricorre agli stessi schemi (domande ripetute), dall'altro approssimazione fatti e risposte (allucinazioni ed errori fattuali). Ora, io sono estremamente sconcertato. Mi occupo di informatica dagli anni 80: un ciclo che confronti a due a due 1000 oggetti è una cosa semplicissima, la parte complicata è l'analisi semantica che ti porta a dire che una domanda è equivalente ad un'altra. Questo dovrebbe essere il compito dell'IA e se gli dò due domande secche da confrontare lo fa benissimo. Se gliene dò 1000 (ma anche 100, 200) impazzisce. Come ti ho detto, paradossalmente il modello potente a pagamento funziona molto peggio di quello gratuito. Non risolve il problema dei duplicati ma degrada la qualità dei contenuti tra allucinazioni e falsi.
Poi magari è bravissima (l'IA) a superare il test del gatto ( se qualcuno è interessato glielo racconto, temo di aver annoiato abbastanza).

mr_steed

*
Lazionetter
* 11.288
Registrato
Citazione di: Pippo Jones il 08 Mag 2026, 22:10Su questo tema se posso porto un contributo derivato dall'esperienza diretta. Un paio di mesi fa mi sono imbarcato in un progetto di generazione di quiz a risposta multipla. Per farlo ho pensato di utilizzare Gemini, che nella versione base gratuita mi consentiva di chiedere la generazione di domande su un dato tema, con 4 possibili risposte, soluzione, spiegazioni,  criteri di classificazione e livelli di difficoltà. Il livello di comprensione e i testi prodotti dall'IA sono francamente impressionanti. Capisci che cj sia qualche cosa di artefatto solo a causa di alcune forme standardizzate (frequente: "Capisco perfettamente la tua frustrazione..." a fronte di un qualsiasi problema segnalato) ma per il resto come suggeritore, correttore e anche generatore di testi liberi è potentissimo. Ora, quando ho iniziato a richiedere le domande (in un formato standard di testo) pensavo che si potesse fare praticamente di tutto e così mi era stato promesso con qualche piccola limitazione da Gemini. Ho presto dovuto fare i conti con delle limitazioni: la quantità dei dati producibili (Token disponibili) e l'assenza di una memoria oltre la sessione. Ciò comportava la necessità di limitare il numero di domande da richiedere (max poche decine alla volta) e l'elevata probabilità di rigenerare più volte le stesse domande. Mi sono attrezzato con le opportune strutture dati e routines di controllo nel mio progetto per gestire ed eliminare I doppioni e diciamo che il processo funzionava abbastanza bene, con contenuti di ottima qualità.  Era solo molto lento e faticoso, tra copia incolla di testi e gestione dei potenziali doppioni da valutare e semmai scartare. Per agevolarmi la vita, ho pensato di abbonarmi alla versione Pro: 1000000 di token anzichè 5000. Mi aspettavo di poter richiedere non dico 1000 domande alla volta ma almeno 2-300. Qui sono cominciati i problemi di una totale dissociazione tra gli accordi presi e gli enunciati fatti da una parte e quanto effettivamente prodotto dall'altra. L'accordo iniziale era: produci 1000 domande su un Tema, es. Cinema, suddiviso per generi, produzioni e/o periodi, e mandamele anche in più blocchi successivi. Questa era una richiesta gestibile a suo dire senza problemi. Invece sono iniziate le catastrofi. Mi sono ritrovato domande ripetute N volte, argomenti richiesti e mai sfiorati, fino a veri e propri errori di contestualizzazione e risposte (da Franco Califano di Latina a Carmen Consoli bolognese e decine di chicche del genere), domande inconsistente (chi ha vinto nel 2024) o tautol9giche (di che colore era il cavallo bianco di Napoleone), classificazioni a capocchia a centinaia. Ho via via irrigidito e blindato il protocollo di generazione, richiedendo domande su argomenti sempre più specifici e sezionato: 30 sul Western all'italiana, 20 su Hitchcock, ecc. Ogni volta ricevendo rassicurazioni che il nuovo protocollo avrebbe risolto i problemi. Ho chiesto un aiuto per rintracciare tutte le domande duplicate tra quelle già acquisite: Ti ritorno in testi delle 1000 domande, tu le confronti a due alternative due (sono circa 500000 confronti, con la potenza di calcolo che ha ci mette pochi secondi) e mi segnali le coppie sospette. Niente da fare. La cosa strana è che le prime 2 o 3 coppue le individuava correttamente, poi sfarfallava completamente individuando pochi casi ruspetto a quelli reali e pure sbagliati. Lo stesso per le domande: se gliene chiedi 10, sono accurate; man mano che aimenti il numero, inizuano le invenzioni. Alla mia furiosa richiesta di spiegazioni dopo l'ennesimo fallimento ho ricevuto delle spiegazioni che mi hanno lasciato assai perplesso. La prima è che le domande vengono generate mediante dei modelli statistico-predittivi e già questo non me lo aspetto da un sistema che se gli chiedi spiegazioni ben più complessa sul 730 o su argomenti scientifici ti risponde perfettamente a tono. La statistica la capisco per la distribuzione iniziale, potrei ancora capire l'eccesso di doppioni se non specifico niente, ma se ti dico dall'inizio 10 domande su Sordi e 10 su Star Wars quando passo alla kung-fu non mi aspetto che mi spuntino altre domande su Sordi. Il secondo grande problema è la mancata applicazione del fact-checking alle domande generate, scelta fatta presumibilmente per privilegiare la velocità a scapito della realtà. Il meccanismo di generazione statistico piazza Califano a Latina,  la mancata verifica (What a katzaw am I sauing?) c'è lo lascia. Il terzo problema è l'assoluta incapacità (non so se voluta a questo punto) di rispettare un piano prestabilito e concordato. Immaginate il Cinema di cui sopra: 50 blocchi ben distinti e separati di 20 domande in media. Inizio con la commedia all'italiana: Sordi 20, Totò 20, Gassman 15, ecc. Poi passo ai western, alla fantascienza, ecc. Sempre con suddivisioni in settaggio. Ora certo mi posso aspettare qualche replica tra argomenti confinanti (stesso film con Sordi e Totò), ma non di ritrovarmi domande sulla commedia all'italiana nel filone dei film giapponesi. L'IA che interloquire con me ha dichiarato di essere una specie di intermediario che passa le richieste ad una piattaforma la quale oltre ad operare sempre con dei processi di generazione statistici in pratica non riesce o non può o Jon vuole adottare dei pattern prestabiliti. Per questo genera le prime 3 o 10 domande perfette, controlla i primi 2 o 3 duplicati correttamente, poi si perde. Da un lato ricorre agli stessi schemi (domande ripetute), dall'altro approssimazione fatti e risposte (allucinazioni ed errori fattuali). Ora, io sono estremamente sconcertato. Mi occupo di informatica dagli anni 80: un ciclo che confronti a due a due 1000 oggetti è una cosa semplicissima, la parte complicata è l'analisi semantica che ti porta a dire che una domanda è equivalente ad un'altra. Questo dovrebbe essere il compito dell'IA e se gli dò due domande secche da confrontare lo fa benissimo. Se gliene dò 1000 (ma anche 100, 200) impazzisce. Come ti ho detto, paradossalmente il modello potente a pagamento funziona molto peggio di quello gratuito. Non risolve il problema dei duplicati ma degrada la qualità dei contenuti tra allucinazioni e falsi.
Poi magari è bravissima (l'IA) a superare il test del gatto ( se qualcuno è interessato glielo racconto, temo di aver annoiato abbastanza).


Non hai provato a spostare il tuo progetto su Claude?

Contenuto sponsorizzato
Acquistando tramite questo link contribuisci a sostenere il nostro sito, senza costi aggiuntivi per te.

Splash

Sostenitore
*****
Lazionetter
* 39.750
Registrato
Non è il modello a pagamento ad essere inferiore, ma il contesto più grande ad aumentare il numero di allucinazioni.
L'AI non può fare fact-checking, come hai detto si basa su dei modelli statistici pesati ed in base a quello ti risponde con le risposte più "vicine" al contesto che gli stai passando. Il ciclo che facevi te con il codice, è deterministico, mentre l'AI (che poi, in maniera corretta ma diminutiva viene chiamato next-token predictor) non lo è.
Io utilizzo Claude per lavoro, in ambito informatico, ed è migliorato tantissimo, ma può sempre sbandare sia per colpe sue, sia perché certe cose che noi diamo per scontate, lui non le capisce dalla richiesta e non le possiede in memoria come gli esseri umani.
Per il tuo caso d'uso, ti suggerirei di specificare te una fonte di verità (tipo, scrivi a Gemini di utilizzare il catalogo IMDB per definire la tipologia dei film e salvare i dati utilizzati in un file CSV, suddivisi per categoria, anno, registi, attori etc e poi utilizzare quel file come fonte di verità per processarlo successivamente, con nuove sessioni che hanno uno script non molto complesso, cosi la sessione principale non diventa gigantesca). Probabilmente è una cazzata, ma è più semplice da controllare e da gestire se gli dai delle istruzioni chiare e meno possibilità di decidere cose da sè. Se non l'hai già fatto, consiglio pure l'utilizzo delle skills, che magari gemini chiama con altro nome.

Gio

Sostenitore
*****
Lazionetter
* 10.833
Registrato
Non è che funziona male. È più difficile da usare. Per lavori come il tuo, io ti consiglio di creare un agente, che è una cosa complessa (diventerà un mestiere prima o poi). Un agente è un operatore di IA con una propria identità creato per svolgere compiti specifici. Devi definire il suo ruolo, il contesto in cui deve operare, i risultati attesi, le modalità di comportamento, il modo con cui deve ragionare. I risultati che avrai dipendono dal profilo che avrai creato (se crei il profilo di un ingegnere difficilmente otterrai poesie indimenticabili, così come non avrai modelli statistici attendibili da un poeta).  Puoi chiedere anche aĺl'IA generica di crearti le istruzioni per il tipo di agente che desideri.
Poi devi addestrarlo. Devi dargli i dati che deve elaborare, quelli che deve ritenere attendibili, quelli che deve scartare e le regole di utilizzo (es. I collegamenti che può o non può fare, il comportamento che deve tenere di fronte a dati non esaustivi etc.). Più sei preciso, più precise saranno le risposte che otterrai.
Il controllo dovresti farlo fare ad un altro agente creato  col compito di controllare, con le sue regole specifiche (se fai controllare alla stessa IA che non risponde esattamente è probabile che questa non rilevi l'inesattezza o la replichi).
Parti dal presupposto che l'IA ti restitusce quello che chiedi così come lo chiedi,  esplicitamente o implicitamente. Se il risultato non è quello atteso, probabilmente  non sei stato preciso nella richiesta o non hai fornito tutti i dati necessari.
Quello che succede con gli uomini. Se  ti fa male il ginocchio vai da un ortopedico. Se il parere lo chiedi ad un avvocato o ad un oculista, quelli ti rispondono, ma non è che non "funzionano" se non ti rispondono bene. Non è a loro che devi chiedere o non hanno tutti i dati per rispondere come ti aspetti (banalizzo un po', ma per intenderci).

Pippo Jones

*
Lazionetter
* 208
Registrato
Grazie a tutti dei suggerimenti, cercherò di farne tesoro e metterli in pratica. Resto perplesso sull'adozione sistematica di processi statistici e probabilistici (che ho appunto scoperto a mie spese). Si applica perfettamente al test del gatto che citavo ieri, ma un sistema davvero intelligente non dovrebbe applicarli per tutto. Mi sta enormemente bene per la semantica (ed invece anche lì ha fallito miseramente, considerando diverse domande identiche in cui cambiava il tempo del verbo: Chi ha scritto... Chi scrisse) ma non per problemi strettamente deterministici. Che poi la stessa IA sembra comprendere perfettamente, essendo in grado di generare routines VBA anche piuttosto complesse a fronte di richieste abbastanza sintetiche, con tanto di cicli annidati che più deterministici di così non si può). Certamente non mi sono mai occupato di IA fino a 2 mesi fa e non ho ancora compreso bene le regole e le strategie da adottare, ma il fatto stesso di dovermene preoccupare mi dà l'idea di una tecnologia (direi per fortuna,  ma questa cosa negli ambiti sbagliati potrebbe invece diventare una vera tragedia) non ancora matura e non proprio affidabile. Desumere in base al calcolo delle probabilità di dov'è Franco Califano invece di leggerlo direttamente da Wikipedia, anche se arrivasse a dare l'informazione corretta, secondo me è come applicare la teoria dei quanti per risolvere un problema di terza elementare. Ma forse sono io ad essere anziano e non più al passo con i tempi   :o

Contenuto sponsorizzato
Acquistando tramite questo link contribuisci a sostenere il nostro sito, senza costi aggiuntivi per te.
Contenuto sponsorizzato
Acquistando tramite questo link contribuisci a sostenere il nostro sito, senza costi aggiuntivi per te.
Contenuto sponsorizzato
Acquistando tramite questo link contribuisci a sostenere il nostro sito, senza costi aggiuntivi per te.
Discussione precedente - Discussione successiva