Etica e AI: i confini della tecnologia e la responsabilità umana
L'uso delle intelligenze artificiali generative presenta numerose criticità che meritano attenzione e riflessione.
Innanzitutto, c'è la frode vera e propria. In molti casi, queste tecnologie vengono utilizzate con l'intento di rubare informazioni personali o finanziarie. Le intelligenze artificiali possono generare contenuti o interazioni che sembrano innocui ma in realtà finalizzati alla raccolta dei nostri dati, portandoci a condividere dati sensibili, dati aziendali o comunque informazioni che compromettono la nostra privacy, il nostro lavoro o la nostra sicurezza. La sofisticazione di questi strumenti rende sempre più difficile distinguere tra un'interazione legittima come sarebbe quella con un "amico" (giacché l'intelligenza artificiale si presenta così) e l'uso di "servizi" sulla cui implementazione e gestione non sappiamo nulla. Potremmo estendere la stessa riflessione a tutto il mondo del software proprietario, degli smartphone e dei servizi cloud.
Un altro problema significativo è l'errore di competenza. Spesso attribuiamo a queste intelligenze artificiali un livello di expertise che non possiedono realmente, semplicemente perché si esprimono con grande sicurezza. Questo può portarci a prendere decisioni basate su informazioni errate o incomplete fornite da un sistema che, sebbene convincente, non ha la competenza necessaria per risolvere determinate questioni. Questa fiducia mal riposta nelle capacità delle intelligenze artificiali può avere conseguenze dannose in ambiti critici come la medicina, il diritto, la finanza, l'automazione industriale, la ricerca scientifica e ogni altro campo dove improvvisare senza reale conoscenza è pericoloso.
Inoltre, non dovremmo sperare che intelligenze artificiali sempre più evolute, installate su super-computer sempre più potenti, costosi ed energivori, possa realmente "ragionare" in modo migliore delle intelligenze artificiali attuali, perché in realtà non c'è alcun "ragionamento" come inteso da noi esseri umani né "coscienza". Mi rendo conto che l'uso quotidiano delle intelligenze artificiali generative possa dimostrare il contrario, viste le innegabili capacità di ragionamento simbolico, ma sarà più chiaro cosa intendo quando citerò Socrate. Tra l'altro, su questa specifica questione, l'8 marzo 2023 la rivista scientifica Nature ha pubblicato l'articolo "In AI, is bigger always better?", in cui ha dimostrato che ChatGPT ha ottenuto solo il 26% di risposte corrette su un campione di problemi matematici di livello scolastico. La ragione è abbastanza semplice: le intelligenza artificiali tendono a fare affidamento su modelli statistici piuttosto che su un vero e proprio ragionamento. Questo significa che possono generare risposte plausibili solo entro i limiti dei dati di addestramento, ma possono fallire in modo significativo quando affrontano nuove situazioni.
Detto in altri termini, i dati sono dati, e dal punto di vista matematico si riducono tutti a numeri da elaborare: l'intelligenza artificiale è un software per computer e non può andare oltre a ciò. Essa dispone di un'enorme mole di dati di addestramento da cui, tramite super-computer, sono stati estratti dei Large Language Model (LLM) e, su base statistica, produce delle risposte in base a tali LLM. Alcuni LLM avanzati possono simulare ragionamenti complessi, pur senza una vera comprensione. L'intelligenza artificiale risponde "non lo so" soltanto quando ha un modello che, in base ai dati in input, deduce che tali dati non sono sufficienti per generare una risposta, come nel caso di un indovinello. Ma non dirà mai "non lo so" quando non ha un modello per generare tale risposta, producendo pertanto "allucinazioni" su questioni su cui non ha informazioni sufficienti.
L'intelligenza artificiale non può andare oltre i LLM su cui opera. Ad es., un utente che voglia applicare la maieutica per far "nascere" la verità nell'intelligenza artificiale su questioni che essa non conosce o su cui ha dati opinabili o addirittura falsi, resterà profondamente deluso. Il metodo socratico può funzionare con un bambino, ma non con l'intelligenza artificiale, perché ogni LLM è un confine invalicabile. I produttori delle intelligenze artificiali generative oggi più diffuse hanno cercato di raggirare questo limite introducendo la ricerca automatica nel web delle informazioni utili per generare certe risposte, ma è solo un modo per spostare il limite del recinto: anche il web ha seri limiti, specialmente su ricerche automatizzate e negli attuali tempi di censura. I motori di ricerca e i social cancellano intenzionalmente ciò che ai "padroni universali" non piace.
È fondamentale riconoscere i limiti delle intelligenze artificiali e non sopravvalutare le loro capacità. Ricordiamoci sempre che non sono nulla di più che software per computer. Chi come me ha passato gran parte della vita a programmare, anche con esperienze in elettronica, sa bene che i computer non capiscono nulla né di matematica, né di altre questioni. Non hanno circuiti per la comprensione, nessun codice per la comprensione, niente che possa rappresentare ciò che noi umani intendiamo per comprensione. Essi implementano un insieme di processi fisici nei loro circuiti elettrici che, se gestiti e interpretati dall'uomo, possono essere mappati in una corrispondenza tra ciò che la macchina fa e le cose che noi umani comprendiamo. In questo caso la macchina diventa "utile", ma rimane una macchina.
A questo proposito, Richard Stallman è stato molto chiaro:
Non posso predire il futuro, ma è importante capire che ChatGPT non è un'intelligenza artificiale. Non ha intelligenza, non sa nulla e non capisce nulla. Gioca con le parole per creare un testo inglese plausibile, ma tutte le affermazioni fatte in esso sono suscettibili di essere false. Non può evitarlo perché non sa cosa significhino le parole.
Veniamo adesso ad un'altra criticità. L'esperienza con lo sviluppo software mi ha reso evidente che più un software è complesso, e inserito all'interno di un ambiente di esecuzione infinitamente più complesso rispetto a quello disponibile durante lo sviluppo e il testing, e maggiormente potrà presentare comportamenti imprevisti o imprevedibili. L'incoerenza è infatti un'altra critica importante alle intelligenze artificiali, che pur essendo in grado di eseguire compiti ripetitivi con una certa precisione, non sempre garantiscono coerenza nei loro comportamenti. Ciò significa che le risposte o le azioni generate in situazioni simili possono variare notevolmente, creando confusione e incertezza. Questo è particolarmente problematico in settori dove la ripetibilità e l'affidabilità sono essenziali. Di contro, è anche un vantaggio per chi sa sfruttare tale imprevedibilità.
In aggiunta a questo quadro già complesso, c'è il problema dell'illegalità. Spesso diamo per scontato che le intelligenze artificiali siano programmate per rispettare tutte le normative vigenti, ma non è sempre così. Anzi, da un certo punto di vista, è lecito il dubbio se sia l'intelligenza artificiale a rispettare le leggi o le leggi a rispettare i diktat delle Big Tech che gestiscono l'intelligenza artificiale. Basterebbe notare che tutte le intelligenze artificiali generative nascono da un massiccio furto di dati protetti da copyright o persino da legittimo segreto (come le conversazioni private degli utenti nelle piattaforme social), ma nessuna legge condannerà mai le Big Tech per questo, o quantomeno è assai improbabile che ciò accada. La rapidità con cui queste tecnologie si evolvono supera la capacità delle leggi di adattarsi, creando zone grigie dove la responsabilità e la conformità diventano difficili da determinare.
C'è anche un'altra questione, legata ai costi e all'energia consumata, che dimostra l'ipocrisia e il doppiopesismo delle cosidette "politiche green". L'addestramento e l'esecuzione dei LLM più popolari richiedono risorse computazionali immense e costi ingenti. Ad esempio, l'addestramento di GPT-3 è costato oltre 4 milioni di dollari, con costi operativi mensili di circa 700 mila dollari. Sono cifre che ovviamente sono cresciute con GPT-4 e seguenti. Riguardo all'energia consumata, l'addestramento di PaLM di Google ha richiesto circa 3,4 gigawattora, equivalente al consumo annuale di 300 famiglie statunitensi. L'impatto ambientale è quindi significativo e preoccupante.
Lo sviluppo dei LLM è dominato da poche grandi aziende tecnologiche con risorse sufficienti, limitando la diversificazione e l'accessibilità della ricerca in questo campo. Pur esistendo LLM scaricabili e utilizzabili con varie licenze open-source, siamo molto lontani dal concetto di "software libero" come tradizionalmente inteso, perché ci sono caratteristiche e sfide molto diverse, oltre a licenze che non sempre garantiscono le libertà fondamentali degli utenti. I dati di addestramento non sono resi pubblici, e anche qualora lo fossero, nessuno con un computer domestico può generare un LLM di complessità tale da essere realmente utilizzabile. Alla fine, mentre il software libero prevede che un utente possa scaricarsi il codice sorgente di un programma, modificarlo e compilarlo a proprio piacimento, con le intelligenze artificiali generative ciò è semplicemente impossibile, se per "codice sorgente" intendiamo anche i dati di addestramento. Se invece per "codice sorgente" intendiamo soltanto i "nodi" delle "rete neurale", cioè i neuroni artificiali, allora il discorso cambia. Suggerisco un confronto con: "AI, ChatGPT e Software Libero: Richard Stallman, Pisa, 2023".
Come nota conclusiva, l'intelligenza artificiale non ha etica, e non può averla, perché ha solo dei modelli, cioè i LLM, da seguire. L'intelligenza artificiale non ha quindi una moralità intrinseca e può essere utilizzata per scopi malevoli, o abusata causando danni involontari. Solo noi possiamo avere etica e reale consapevolezza. Le decisioni etiche sono responsabilità di chi progetta, sviluppa e utilizza queste tecnologie. Ricordiamoci sempre che l'intelligenza artificiale è limitata dai dati su cui è addestrata, che possono essere incompleti, distorti o persino falsi.
(4 agosto 2024)
La malattia del vedere l'intelligenza artificiale anche dove non c'è mai stata...
GPTZero è un'applicazione sviluppata per rilevare e analizzare testi generati da intelligenze artificiali come GPT-3 e GPT-4. Nel sito ufficiale, è presentato come il "gold standard in AI detection".
La sua creazione è stata motivata dalla crescente preoccupazione riguardo l'impiego diffuso di IA nel generare contenuti che possono essere difficili da distinguere da quelli scritti da noi poveri e umili esseri umani...
GPTZero utilizza vari metodi per valutare la probabilità che un testo sia stato generato da una IA, "aiutando" (?) educatori, editori e individui a identificare l'origine dei contenuti. Questo strumento è venduto come particolarmente adatto in contesti accademici e giornalistici, dove l'autenticità e la credibilità del materiale scritto sono di fondamentale importanza.
Orbene, facciamo una prova, tenendo a mente che ChatGPT è stata messa a disposizione del pubblico il 30 novembre 2022.
Ecco i risultati di GPTZero su alcuni miei testi:
testo: All'ombra d'un fico
data: 29 maggio 2010
risultato: È probabile che questo testo sia un mix di testo umano e IA. C'è il 49% di probabilità che questo testo sia stato scritto interamente dall'IA. 13/17 frasi sono probabilmente generate dall'IA.
testo: Libero decalogo
data: 9 giugno 2008
risultato: È moderatamente probabile che questo testo sia stato scritto dall'IA. C'è il 49% di probabilità che questo testo sia stato scritto interamente dall'IA. 5/34 frasi sono probabilmente generate dall'IA.testo: Amore
data; 1999
risultato: Il nostro insieme di rilevatori prevede risultati diversi per questo testo. Si prega di inserire più testo per ottenere previsioni più precise. C'è il 48% di probabilità che questo testo sia stato scritto interamente da un'intelligenza artificiale.testo: Un insegnamento buddista
data: 23 settembre 2015
risultato: È probabile che questo testo sia un mix di testo umano e IA. C'è il 48% di probabilità che questo testo sia stato scritto interamente dall'IA. 11/13 frasi sono probabilmente generate dall'IA.Vabbè, potremmo sospettare che questi falsi positivi siano legati al fatto che i testi sono in italiano. Proviamone allora uno in inglese:
testo: Script to Automatically Test if a Website Is Available (solo sez. 1, 2 e 3 per non superare i 5000 caratteri del piano free di GPTZero)
data: 4 ottobre 2022
risultato: È probabile che questo testo sia un mix di testo umano e IA. C'è il 48% di probabilità che questo testo sia stato scritto interamente dall'IA. 35/59 frasi sono probabilmente generate dall'IA.
Una spiegazione ironica di questi risultati è che l’IA di ChatGPT è stata addestrata anche sui miei testi… e quindi sembra che io copi l’IA, mentre è il contrario.
Una spiegazione un po’ più seria è che l’intelligenza umana non ha per forza bisogno della stampella digitale dell’intelligenza artificiale… se la mente non è claudicante, può fare lavori di alta qualità a prescindere dall'IA e da altri ausili tecnologici per la scrittura.
(23 dicembre 2023)
Pillole di Informatica - Trascrizioni, Sottotitoli, Sbobinature automatiche
In questi giorni una persona cara mi ha chiesto se posso aiutarla a trascrivere dei video, si tratta di alcune lezioni universitarie.
Ho così tirato fuori un mio vecchio progetto che ha, appunto, lo scopo di aggiungere sottotitoli ai video e di fornire tali sottotitoli anche come trascrizione del video stesso.
Si tratta di un proof of concept abbastanza utilizzabile: se il video non è troppo lungo (suggerisco di non superare i 40 minuti circa) e se l'audio è di buona qualità, nel complesso funziona, anche se una revisione manuale sarà sempre opportuna. Allo stato attuale ci sono molti limiti legati all'interfaccia utente, all'assenza di feedback durante l'upload, al costo per tenere in piedi il server. Con un budget relativamente contenuto, questo è ciò che posso offrire:
https://autotranscript.servep2p.com/
I risultati migliori si ottengono fornendo un link diretto a un file mp4 piuttosto che facendo un upload: non soltanto con il link diretto sarà tutto più veloce, ma sarà anche disponibile un riproduttore multimediale per vedere il video con i sottotitoli generati.
Chi sa configurarsi un ambiente LAMP sulla propria macchina, con Apache 2, PHP 7.2 e Python 2.7 (Python 3 non è supportato), può scaricarsi il codice sorgente da me preparato (che richiede anche Bash e FFMpeg), per studiarselo, usarlo, modificarlo, adattarlo alle proprie esigenze e, soprattutto, aiutare se stesso e il prossimo (come ci ha insegnato Richard Stallman). L'ambiente ideale di esecuzione è Ubuntu Server 18.04:
autotranscript.zip (è lo stesso identico codice che si trova sul server sopra linkato)
Per prestazioni al limite dell'usabilità, servono almeno 2 CPU e 4 GB di RAM, meglio se molto di più.
Assumendo di partire da una installazione di base di Ubuntu Server 18.04, è necessario installare quanto segue per permettere l'esecuzione del codice:
apt install apache2 php libapache2-mod-php
apt install php-curl
apt install python-google* python-progressbar* python-pysrt*
apt install ffmpeg
pip install autosub
Non fornisco dettagli sulla configurazione del server, che lascio al tuo ingegno. Presta però particolare attenzione al "php.ini" per permettere upload sufficientemente grandi.
(24 luglio 2021)
Pillole di Informatica - Prendiamo il controllo del nostro destino
Il tecno-turbo-capitalismo neoliberista contemporaneo è sostanzialmente predatorio e distruttivo, cioè ladro di vita, mentre l’essenza animica che ci sostiene e che ci dona la vita, attimo dopo attimo, si nutre delle qualità positive che mettiamo in comune.
Da una parte abbiamo quindi la predazione, dall’altra la condivisione.
L’attuale deriva tecnocratica mondiale ci toglie il controllo delle nostre vite, rendendoci dipendenti in tutto e per tutto da tecnologie che, nel migliore dei casi, forse riusciamo in minima parte a usare, ma di cui realisticamente non sappiamo nulla e che in qualsiasi momento possono esserci tolte.
Maggiore e totalizzante è la dipendenza dall’erogazione di un servizio tecnologico, minore è il controllo che possiamo avere sulle nostre vite e sul nostro destino.
La chiave per una vera rivoluzione, per un vero salto di consapevolezza, parte dal voler riprendere in mano le nostre vite e i nostri destini.
Questo significa opporsi attivamente all’attuale centralizzazione tecnologica nelle mani di poche corporation, cioè psicopatiche multinazionali che distruggono il bene comune e coltivano solo il proprio interesse economico immediato.
Questo, tradotto in termini concreti, significa che, a partire dalla scuola e dall’università, quello “che ci serve” ce lo facciamo, invece di affidarci ai servizi (falsamente) gratuiti di pochi soggetti privati.
Ovviamente servono persone altamente formate e specializzate (da valorizzare) in grado di fare, con relativamente poche risorse e pochi soldi, quello su cui certe aziende investono capitali paragonabili o superiori al PIL di una nazione.
Queste persone esistono, noi abbiamo seguito le orme e la direzione del maestro Richard Stallman, abbiamo compreso quello che la quasi totalità del popolo ignora.
Siamo capaci di mettere in piedi, da soli e con pochi soldi, un social migliore di Facebook (giusto per fare un esempio) e di regalare aiuto a una moltitudine di studenti con strumenti pensati per agevolare la condivisione di conoscenza e il mutuo aiuto. Già abbiamo fatto questo e molto altro.
Il nostro segreto? Nella nostra anima abbiamo scolpito gli ideali del software libero, per cui, quando sembra che agiamo da soli, in realtà dietro ogni nostra azione c’è il sostegno di mille, diecimila, centomila, un milione di persone invisibili che alimentano la nostra forza.
Fu così che feci da solo quel che altri giudicarono impossibile.
Ciò che conta veramente non è quanto è abile il nostro scrivere codice, ma quanto siamo disposti ad usare tale abilità per un bene che va oltre il nostro “piccolo io”, per servire piuttosto un “grande noi”.
Più condividiamo, più impariamo.
Maggiore è il nostro dono, maggiore è la nostra forza collettiva.
(23 luglio 2021)