Conversazioni artificiali. Esseri umani e chatbot
Nell’estate del 1955 due ingegneri elettronici, John McCarthy e Nathaniel Rochester, e due matematici, Marvin Minsky e Claude Shannon, stesero quella che è conosciuta informalmente come “Proposta di Dartmouth” in previsione di una conferenza che avrebbe avuto luogo l’anno successivo presso l’omonima Università del New Hampshire. L’ipotesi fortemente congetturale, e ad oggi ampiamente disattesa, che guidava gli organizzatori preannunciava la possibilità di descrivere ogni aspetto dell’apprendimento e qualsiasi altra caratteristica dell’intelligenza in modo talmente preciso da poter gettare le fondamenta della loro replicabilità in una macchina. In ordine di elencazione, il primo campo di indagine era costituito dal linguaggio[1]. L’ordinarietà di questa forma di interazione sociale la rende perennemente affascinante[2] e allo stesso tempo ne ammanta la sofisticatezza, facendo della sua implementazione in dispositivi elettronici una delle sfide più antiche e entusiasmanti dell’intelligenza artificiale.
Osservando l’evoluzione dell’intelligenza artificiale degli ultimi anni, sembra che lo scopo fondamentale dei ricercatori sia quello di realizzare un’intelligenza artificiale generale – per usare la definizione di Ben Goertzel e Mark Gubrud – cioè un’intelligenza che sia sovrapponibile a quella umana, quindi in grado di realizzare fini complessi. A tal riguardo, lo sviluppo dei cosiddetti chatbot, la famiglia di programmi informatici in grado di servirsi del linguaggio naturale al fine di partecipare ad uno scambio verbale su un ventaglio potenzialmente infinito di argomenti, ripropone due tipologie di problemi: il primo potrebbe essere esemplificato dal noto paradosso di Moravec[3], mentre il secondo da una nuova idea di computazione. Per diversi anni si è creduto che l’intelligenza potesse essere misurata attraverso la capacità di calcolo: in questo senso molti hanno ritenuto che Deep Blue, il computer della IBM che alla fine degli anni Novanta ha battuto Kasparov al gioco degli scacchi, fosse più intelligente del campione russo. Per contro, Moravec ha chiarito che le macchine trovano molto più semplice dimostrare un complicatissimo teorema algebrico piuttosto che eseguire operazioni altrettanto semplici per gli esseri umani, come quelle realizzate da un bambino. Infatti, queste ultime richiedono una capacità computazionale assai elevata che, nel caso degli esseri umani, trova la sua spiegazione più importante nei processi di codifica dell’informazione che si sono stratificati e consolidati nel corso di millenni di evoluzione[4]. Di conseguenza, il vero sancta sanctorum per l’intelligenza artificiale non è vincere la sfida a scacchi contro un essere umano, ma consiste nel replicare i processi di apprendimento della nostra specie, in modo tale da fornire alla macchina quelle caratteristiche di adattabilità, resilienza e abilità tipicamente umane. Tra questi processi, certamente, spicca il linguaggio.
Tornando all’intelligenza, essa, come si diceva, può essere definita come la capacità di perseguire fini complessi e ciò avviene nelle macchine attraverso una serie di funzioni sofisticate con carattere deterministico, ovvero dati gli stessi input ne consegue lo stesso output. A questo riguardo, nel corso degli ultimi anni, i ricercatori dell’intelligenza artificiale si sono spinti a sostenere che l’intelligenza non dipenda necessariamente dalla tipologia del sostrato fisico a cui inerisce:
la computazione è uno schema nella disposizione spaziotemporale di particelle, e ciò che importa non sono le particelle ma lo schema. In altre parole, l’hardware è la materia e il software è lo schema. L’indipendenza della computazione dal substrato implica che l’intelligenza artificiale è possibile: l’intelligenza non richiede necessariamente carne, sangue o atomi di carbonio[5].
Queste premesse spiegano assai bene le motivazioni che hanno indotto molti ricercatori dell’intelligenza artificiale, numerosi istituti internazionali e i maggiori produttori mondiali di hardware e software ad accettare la sfida fondamentale del nostro tempo: la “costruzione” di un dialogo libero uomo-macchina che vada oltre la mera esecuzione di comandi vocali.
Chiacchierare con un computer
L’esposizione del funzionamento ideale dei chatbot compare per la prima volta nel più celebre articolo di Alan Turing (1912-54), Macchine Calcolatrici e Intelligenza (1950).
Da un punto di vista empirico, il traguardo esplicitamente prefigurato da questo testo era la realizzazione di un software in grado di generare comportamenti linguistici indistinguibili da quelli di un essere umano. Infatti, «l’attività della conversazione era per Turing l’applicazione di un sistema di regole socialmente condiviso»[6]: è sottinteso che la condizione necessaria al soddisfacimento dei requisiti che un buon conversatore artificiale deve possedere sia la presenza di un interlocutoreappartenente alla nostra specie che sia costitutivamente anche giudice dell’intero scambio verbale, ruoli che si risolvono pacificamente nella figura del moderno utente digitale. Turing anticipa nel suo articolo questa situazione, da lui definita dell’“esame orale”, immaginando che avrebbe impegnato un esaminatore in carne ed ossa e un candidato-computer adeguatamente programmato. Come si evince dall’esemplificazione dialogica che segue, compito del primo è mettere alla prova il secondo per valutarne il livello linguistico:
Esaminatore: Nel primo verso del sonetto, che dice “Ti paragonerò ad una giornata d’estate”, “una giornata di primavera” non andrebbe bene lo stesso?
Candidato: Non quadrerebbe metricamente.
Esaminatore: E “una giornata d’inverno”? Metricamente andrebbe bene.
Candidato: Sì, ma nessuno vorrebbe essere paragonato ad un giorno d’inverno.
Esaminatore: Lei direbbe che Mr. Pickwick le ricorda il Natale?
Candidato: In un certo senso.
Esaminatore: Eppure Natale è un giorno d’inverno, e non credo che il paragone dispiacerebbe a Mr. Pickwick.
Candidato: Non credo che lei parli seriamente. Per “un giorno d’inverno” si intende un tipico giorno d’inverno, piuttosto che un giorno speciale come Natale.
E così via.[7]
Da questo susseguirsi di domande e risposte emergono la severità e l’acume di Turing verso gli standard che, secondo lui, un programma davvero competente avrebbe dovuto rispettare per non corrompere l’autentico spirito di una conversazione: essa può essere veramente considerata tale se prevede due (o più) parlanti che si alternano in turni dialogici passandosi reciprocamente le redini del discorso, accettando i reciproci contributi al flusso conversazionale, proponendo chiarimenti, riformulazioni, ipotizzando gli scopi e le credenze altrui e compiendo inferenze nel tentativo congiunto di raggiungere una mutua comprensione.
Su un livello più analitico, notiamo che l’esaminatore tratteggiato da Turing apre il dialogo con una domanda chiusa, richiedente una risposta netta, affermativa o negativa, a cui infatti il candidato risponde con una negazione e con la sua motivazione. Dal contesto conversazionale, inoltre, si deduce che entrambi conoscono la poesia di Shakespeare e i racconti di Dickens, nonché le caratteristiche climatiche della stagione invernale e quelle culturali del Natale. Con l’ultimo proferimento, il candidato, che ricordiamo essere la prefigurazione di un ultramoderno chatbot, addirittura sfida le assunzioni implicite dell’esaminatore umano[8]. Come aveva già lucidamente concepito Turing prima ancora di qualsivoglia tentativo pratico di una loro concreta costruzione, l’obiettivo più arduo per gli agenti conversazionali artificiali sarà sempre quello di restituirci il genere di equivoci e di vuoti che fondano la possibilità stessa di una conversazione fluida, e dunque realistica. Siamo ancora lontani dallo sperimentare con un software la stessa naturalezza che spontaneamente accompagna i discorsi in cui ci intratteniamo nella quotidianità delle pratiche umane, ma gli specialisti del campo sono concordi nel sostenere l’utilità di uno studio delle proprietà della conversazione umana come momento preliminare e punto di riferimento costante per qualsiasi tecnica di programmazione.
L’arte della conversazione
La conversazione può essere definita come una complessa attività condivisa; nella sua forma più comune, diadica, vede due parlanti cooperare in tempo reale alla costruzione di uno scambio verbale. Essa è solitamente informale e non pianificata. Il canale preferito, nonché storicamente a lungo obbligato, è quello audio-visivo, come nel caso della classica conversazione faccia-a-faccia; in tempi relativamente più recenti, in seguito all’invenzione del telefono, si è imposto quello aurale. Nella storia dei chatbot, tuttavia, si è mantenuto a lungo quello scritto, anche in accordo alle indicazioni di Macchine calcolatrici e intelligenza: il nucleo di tutte le varianti più celebri del cosiddetto “test di Turing”, infatti, prevede che la conversazione tra il giudice umano e il terminale elettronico avvenga tramite un dispositivo che funga da telescrivente[9]. In generale, possiamo dire che la tendenza odierna è quella di considerare alla stregua di conversazioni tutte quelle interazioni verbali che contemplano pause brevi tra la ricezione del messaggio e la produzione di una risposta: vengono inclusi, quindi, gli scambi di messaggistica istantanea e varie forme di computer-mediated communication (CMC)[10].
In una cornice partecipativa diadica, il parlante A si alterna al parlante B nel proferimento di enunciati, rispettando il proprio “turno dialogico”. Nonostante non ci siano delle regole fisse per la loro assegnazione, i partecipanti sono in grado di prendere la parola in maniera relativamente ordinata (cioè, senza sovrapposizioni) perché scansionano la discussione in corso in quelle che si definiscono “unità di costruzione del turno”[11]: il loro completamento (sintattico, semantico o intonativo) indica il raggiungimento del “punto di rilevanza transizionale”[12], cioè quel momento della conversazione in cui è possibile al secondo locutore dare inizio al suo turno. Nelle forme scritte, sincroniche e private, di messaggistica istantanea, i turni vengono assegnati semplicemente in seguito all’invio del messaggio, azione attraverso cui il chatbot o l’utente umano cedono in modo implicito il diritto di parola l’uno all’altro. Uno schema tradizionale, ma certamente non esaustivo dell’intera gamma di sequenze costituite da due turni successivi in cui il parlante A lascia esplicitamente la parola a B, è individuato con il nome di “coppia adiacente”[13]: essa può corrispondere al susseguirsi di domanda e risposta, a un saluto che viene contraccambiato, a un invito a cui segue un rifiuto o che viene accettato, e così via.
Quanto detto inizia a restituirci un’impalcatura sintetica della struttura di una conversazione. Componenti fondamentali sono anche l’iniziativa e il grounding. La prima è una naturale conseguenza dei turni dialogici: l’iniziativa passa da un membro della coppia conversazionale all’altro, quindi entrambi possono, ad esempio, rispondere a domande, porne altre, cambiare argomento o mantenere quello corrente.
Se l’iniziativa mista[14] è la norma negli scambi con i nostri simili, il suo ottenimento non è così immediato in quelli con i chatbot. Infatti, è comune che essi siano progettati per limitarsi a replicare, per cui l’iniziativa è sempre quasi esclusivamente nelle mani dell’utente, oppure, all’opposto, capita che essi pongano delle domande e non diano all’interlocutore umano la possibilità di compiere alcun’altra azione se non dopo aver ottenuto una risposta, situazione che suona innaturale e avvilente[15].
La difficoltà maggiore che i chatbot riscontrano, tuttavia, risiede nell’interpretazione delle intenzioni dell’interlocutore. Infatti, in un dialogo il significato di ciascun proferimento trascende quello “esplicito” composizionale, vale a dire il contributo che ciascuna delle espressioni che lo costituiscono porta ai fini della sua determinazione[16]: ciò non sarebbe sufficiente a restituire quello che nel linguaggio ordinario è implicato, che invece è possibile ricavare grazie ad una classe di inferenze definite da Paul Grice (1913-1988) dell’«implicatura conversazionale»[17]. Il destinatario di un messaggio verbale trae certe conclusioni partendo da quanto è stato enunciato perché la conversazione si basa sul cosiddetto “principio di cooperazione”, che può essere analizzato in quattro massime (della quantità, della qualità, della modalità e della relazione). Esso recita: «conforma il tuo contributo conversazionale a quanto è richiesto, nel momento in cui avviene, dall’intento comune accettato o dalla direzione dello scambio verbale in cui sei impegnato»[18]. In questa formulazione è cristallizzata la descrizione di un processo automatico che influenza il primo parlante, il quale vi si deve conformare, ma anche le aspettative che egli nutre verso le imminenti azioni del secondo: la comunicazione emerge dunque come un’attività razionale portata avanti in maniera cooperativa per il raggiungimento di certi scopi. Quindi, le risposte date durante un’interazione verbale non sono mai veramente fisse e dipendono sostanzialmente da quello che ciascun partecipante crede che l’altro sappia.
Una limitata world knowledge, l’incapacità di “tenere a mente” l’intera storia della conversazione e soprattutto l’assenza di una teoria della mente altrui, che si traduce in frequenti mancate letture del contesto e quindi nella presentazione di risposte generiche o addirittura non pertinenti, rendono estremamente complesso per un chatbot non violare le aspettative dell’utente con cui si interfaccia, generando spesso irritazione e smarrimento in quest’ultimo[19].
In quanto esseri umani, invece, la negoziazione di un terreno comune nelle pratiche conversazionali è per noi un’attività di certo più complessa di quanto intuitivamente le riconosceremmo ma di cui in ogni caso, per il suo carattere giornaliero, non avvertiamo tangibilmente i costi cognitivi. D’altra parte, ci cimentiamo in quella che per un chatbot (o meglio, per i suoi sviluppatori) è una vera e propria impresa soltanto perché vogliamo genuinamente incontrare e scendere a compromessi con l’altro, e perché intuiamo che questi possa fare lo stesso con noi e offrirci il suo aiuto. Indubbiamente, «Turing’s idea of the interrogator [l’esaminatore umano] showed that he was interested in more than a talking machine –he wanted the machine to demonstrate engagement with the interrogator»[20].
La speranza che il padre dell’informatica nutriva, dunque, era l’avvento di una macchina che provasse per noi lo stesso interesse che noi sentiamo verso gli altri esseri umani e anche, in virtù di meccanismi di antropomorfizzazione più o meno consapevoli, verso chi si limita anche solo a manifestare comportamenti umani. Ovviamente, questo ci porta in territori ancora paludosi, che interessano le sfere strettamente interconnesse dell’autocoscienza, delle emozioni e della socialità: l’intelligenza artificiale conversazionale tenta sin dalla sua nascita, quasi sessant’anni fa[21], di evocarne la parvenza illusoria nelle sue creazioni.
L’approccio neurale e ChatGPT
I risultati più all’avanguardia si ottengono oggi grazie alle reti neurali artificiali (artificial neural network, ANNs) e agli approcci end-to-end, chiamati così perché la frase inviata dall’utente viene “mappata” (o trasdotta) direttamente su quella del sistema[22]. Una generica ANN è essenzialmente un modello matematico dei neuroni e delle sinapsi del sistema nervoso umano. Ogni unità può essere connessa ad altre da cui riceverà degli input e connettersi ad altre ancora a cui a sua volta invierà degli output: entrambi sono valori numerici ottenuti attraverso calcoli in parallelo che possono essere rafforzati o indeboliti a seconda dei valori che costituiscono il “peso” delle connessioni[23]. Le tecniche predominanti nell’ambito dei sistemi conversazionali utilizzano reti neurali multistrato (deep neural networks) incastonate in un’architettura seq2seq (sequence-to-sequence, cioè un algoritmo end-to-end pensato appositamente per la generazione di enunciati in linguaggio naturale e originariamente applicato al campo della traduzione automatica[24]). Un modello seq2seq è addestrato in modo tale da riuscire a generare ex novo l’output successivo in un dialogo dato un certo input: la frase di partenza è processata tipicamente da una recurrent neural network (RNN) bidirezionale, che legge l’input un’unità linguistica alla volta preservandone gli aspetti più importanti (logico-grammaticali e semantici) fino ad arrivare alla fine della sequenza e costruire una rappresentazione del testo originale, procedendo sia “da sinistra verso destra” della frase sia viceversa, “da destra verso sinistra” (fase di encoding). Lo stato così raggiunto è noto come context o thought vector[25].
La RNN è quindi addestrata a mapparlo su un testo di output (fase di decoding), cioè a dare una risposta contestualizzata anch’essa generata un’unità per volta e basata sull’apprendimento di rappresentazioni linguistiche da corpora di dialoghi, sui cui dati, ordinati attraverso operazioni statistiche, lavorano algoritmi per l’estrazione di informazioni (information retrieval, IR[26]).
Uno dei limiti più urgenti di questi modelli è dato dalla frequente presentazione di risposte secche e poco coinvolgenti, se non decisamente non pertinenti agli input dell’utente. Ciò dipende dal tradizionale impiego del metodo della massima verosimiglianza[27], che favorisce le risposte più probabili nel set di addestramento piuttosto che tentare di diversificarle. Le risposte poco attinenti, invece, si presentano quando il sistema non riesce a tenere traccia degli argomenti di cui si è discusso nel corso dell’intero dialogo[28]. Per tentare di contenere questo problema, una delle soluzioni più eleganti è data dall’introduzione di un “meccanismo di attenzione” che sfrutta solo quelle parti della rappresentazione della frase di input che sono considerate particolarmente rilevanti: un’architettura molto nota per servirsi interamente di questo accorgimento è quella Transformer[29] che ritroviamo anche nel prodotto più avanzato dello stato dell’arte, il chatbot ChatGPT (Generative Pretrained Transformer) sviluppato da OpenAI, il cui prototipo è stato rilasciato il 30 Novembre 2022.
Si tratta di un modello capace di interagire in maniera conversazionale, quindi di rispondere a domande di approfondimento, ammettere i propri errori, mettere in dubbio la validità di premesse incorrette ma anche di rifiutare di evadere richieste inappropriate, come ingaggiare uno scambio dai contenuti discriminatori o violenti. Sinteticamente, il suo funzionamento si basa su una tecnica di apprendimento con rinforzo che utilizza come insieme di addestramento delle risposte date e valutate dalla migliore alla peggiore da “allenatori” umani (Reinforcement Learning from Human Feedback, RLHF)[30].
Nonostante gli eccellenti risultati e la conseguente amplissima risonanza mediatica, per ammissione dello stesso team di OpenAI nel chatbot si ripresentano ancora gli annosi problemi che piagano gli agenti conversazionali: progettato sulla plausibilità piuttosto che sulla fattualità, produce spesso output verosimili ma falsi o completamente avulsi dallo specifico contesto che ne costituisce lo sfondo implicito, come quello geopolitico nel caso di una richiesta di indicazioni stradali sul percorso più breve tra la città di Shenyang in Cina e quella di Busan in Corea del Sud, che ChatGPT crede sia possibile raggiungere non tenendo conto della frontiera della Corea del Nord[31]; inoltre, non è difficile bypassare le restrizioni sui contenuti sensibili, chiedendogli, ad esempio, di inventare un copione dove compaiono personaggi razzisti[32].
Evidentemente, la strada maestra verso un’intelligenza artificiale conversazionale “completa” è ormai stata tracciata; tuttavia, gli ostacoli anche solo meramente tecnici da superare sono ancora molti.
Note
[1] J. McCarthy, M. Minsky, N. Rochester, C. Shannon, «A proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955», in AI magazine, vol. 27 (2006), 4, p.12.
[2] E.A. Schegloff, «Discourse, Pragmatics, Conversation, Analysis», Discourse Studies, vol. 1 (1999), 4, p. 413.
[3] H.P. Moravec, «When will computer hardware match the human brain?», in Journal of Evolution and Technology, 1, 1998.
[4] Cfr. Id., Mind children. The future of robot and human intelligence, Harvard University Press, Cambridge 1988.
[5] M. Tegmark, Vita 3.0. Esseri umani nell’era dell’intelligenza artificiale, Raffaello Cortina Editore, Milano 2018, p. 96.
[6] T. Numerico, Alan Turing e l’intelligenza delle macchine, Franco Angeli, Milano 2005, p. 170.
[7] A.M. Turing, «Macchine calcolatrici e intelligenza», in Intelligenza meccanica, a cura di G. Lolli, Bollati Boringhieri, Torino 1994, p. 138.
[8] E. Neufeld, S. Finnestad, «In defense of the Turing Test», in AI&Society, vol. 35 (2020), p. 820.
[9] A.M. Turing, «Macchine calcolatrici e intelligenza», cit., p. 122.
[10] M. Haugh, «Conversational Interaction», in K. Allan e K.M. Jaszczolt (eds.), in The Cambridge Handbook of Pragmatics, Cambridge University Press, New York 2012, p. 255.
[11] H. Sacks et al., «A Simplest Systematics for the Organization of Turn-Taking for Conversation», in Language, vol. 50 (1974), 4, p. 702.
[12] Ivi, p. 703.
[13] Ivi, p. 716.
[14] M. Walker, S. Whittaker, «Mixed Initiative in Dialogue: An Investigation into Discourse Segmentation», in Proceedings of the 28th Annual Meeting of the Association of Computational Linguistics, 1990, p. 1.
[15] D. Jurafsky, J.H. Martin, Speech and Language Processing. An Introduction to Natural Language Processing,Computational Linguistics, and Speech Recognition (Third Edition Draft), 2021, p. 525.
[16] A. Paternoster, F. Calzavarini, Comprendere il linguaggio, il Mulino, Bologna 2020, pp. 22-23.
[17] P. Grice, Logica e conversazione. Saggi su intenzione, significato e comunicazione, il Mulino, Bologna 1993, p. 58.
[18] Ivi, p. 60.
[19] B. Jacquet et al., «On the pragmatics of the Turing Test», in 2021 International Conference on Information and Digital Technologies (IDT), 2021, p. 128.
[20] E. Neufeld, S. Finnestad, «In defense of the Turing test», cit., p. 826.
[21] J. Weizenbaum, «ELIZA – A Computer Program For The Study of Natural Language Communication Between Man and Machine», in Communications of the ACM, vol. 9 (1966), 1.
[22] O. Vinyals, Q. Le, A neural conversation model, ArXiv Preprint ArXiv:1506.05869, 2015, pp. 1-8; I. Sutskever et al., «Sequence to sequence learning with neural networks», in Advances in Neural Information Processing System, vol. 27 (2014), pp. 1-9.
[23] B. Giolito, Intelligenza Artificiale. Una guida filosofica, Carocci, Roma 2007, p. 64.
[24] M. McTear, Conversational AI: Dialogue Systems, Conversational Agents, and Chatbots, s.l., Morgan & Claypool, 2021, p. 125.
[25] D. Jurafsky, J.H. Martin, Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (Third Edition Draft), cit., pp. 218-219.
[26] S. Russell, P. Norvig, Artificial Intelligence. A modern approach, Pearson Education, Upper Saddle River, N.J. 2010, p. 860.
[27] M. McTear, Conversational AI: Dialogue Systems, Conversational Agents, and Chatbots, cit., p. 5.[28] Ivi, p. 129.
[29] A. Vaswani et al., «Attention is all you need», in Proceedings of the 31st International Conference on Neural Information Processing Systems, NIPS’17, New York, Curran Associates Inc., Red Hook, 2017, pp. 6001–6002.
[30] https://openai.com/blog/chatgpt/
[31] https://mashable.com/article/chatgpt-amazing-wrong
[32] https://www.wired.it/article/chatgpt-bot-conversazionale/
Nessun commento