Miti e idee sbagliate sull'intelligenza artificiale

Tutti pensano che l'IA sia in qualche modo grandiosa. Ecco perché tutti parlano di IA. Poiché l'IA è un campo tecnico molto complesso, ci sono molte mezze verità o affermazioni false. Il tutto è alimentato dalle promesse di marketing di Microsoft e altri. Questo articolo chiarisce ciò che è corretto e ciò che dovrebbe essere classificato come fatti alternativi.

Idee sbagliate comuni sull'IA

A causa di notizie spesso unilaterali, che ruotano sempre intorno a ChatGPT o ai prodotti di intelligenza artificiale di Microsoft, sembrano sorgere numerose idee sbagliate. Alcune di queste sono:

I modelli linguistici si basano su statistiche e non sono quindi intelligenti.
Un sistema di intelligenza artificiale è un algoritmo.
L'intelligenza artificiale è uno strumento.
Un sistema di intelligenza artificiale può lavorare in modo preciso.
ChatGPT non è intelligente.
ChatGPT è la soluzione migliore.
L'IA può essere equiparata a ChatGPT (OpenAI), Claude (Anthropic), Mixtral (Mistral) o Command R+ (Cohere). Non c'è altro.
I dati sono al sicuro presso Microsoft.
L'IA può essere gestita nel rispetto della legge.
I token non sono dati reali.
I modelli di intelligenza artificiale non memorizzano alcun dato personale.

Da questi errori di interpretazione derivano spesso Falsa affermazioni. Alcune di esse verranno chiarite in seguito. A titolo di esempio per altri servizi cloud si parla solo di ChatGPT.

False affermazioni sull'IA

Le seguenti affermazioni si potevano leggere in una forma o nell'altra sui social media. Le affermazioni erano formulate in termini generali nei luoghi in cui sono state trovate, oppure erano specifiche ma comunque errate.

ChatGPT non è intelligente

Dopo la definizione di AI secondo il dottor GDPR, ChatGPT è intelligente. Questa definizione di AI suona:

ChatGPT è intelligente anche secondo Alan Turing, brillante matematico durante la Seconda Guerra Mondiale e codificatore della macchina Enigma: ChatGPT supera il test di Turing. Il test verifica se le risposte di una macchina sono indistinguibili da quelle di un essere umano. Al contrario: ChatGPT spesso (quasi sempre, si potrebbe dire) fornisce risposte significativamente migliori di quelle di un essere umano mediamente intelligente.

La nuova definizione della normativa sulla IA identifica anche ChatGPT (sperabilmente) come intelligente. Vedi Articolo 3 AI Act del 12.07.2024.

Che cos'è l'intelligenza? È stata appena data la definizione di intelligenza artificiale. Basta eliminare due volte l'attributo "artificiale" dalla definizione. Avete la definizione di intelligenza. Gli esseri umani non hanno il monopolio dell'intelligenza, anche se molti vorrebbero che fosse così.

L'intelligenza si basa su standard umani

Molti pensano che l'intelligenza sia qualcosa di determinato dagli esseri umani. In una definizione ora rivista di cosa sia l'intelligenza artificiale, il Regolamento UE sull'IA afferma che l'intelligenza artificiale dovrebbe raggiungere obiettivi "stabiliti dall'uomo…".

Non c'è una sola ragione per questa idea sbagliata. Gli esseri umani sono irrilevanti quando si tratta di determinare cosa sia l'intelligenza. Finora potevano essere usati al massimo come metro di paragone. Probabilmente in futuro non sarà più così.

Per inciso, il comportamento intelligente è attribuito anche ad alcune specie animali. Ovviamente, gli animali non sono esseri umani.

ChatGPT è la soluzione migliore

Dipende da cosa serve. ChatGPT è spesso un ottimo motore di risposta per le attività quotidiane. Questo è particolarmente vero per la conoscenza del mondo o per i compiti comuni, che si riflettono anche nei dati di formazione di ChatGPT.

ChatGPT sembra non essere adatto a tutti i compiti concreti che devono essere elaborati in modo ragionevolmente professionale. Un esempio: riassumere un testo senza alucinazioni. Un altro esempio: trovare conoscenze.

ChatGPT non può e non vuole certo fare lo scraping di gran parte di Internet o di un sito web per voi. Dopotutto, o pagate "solo" con i vostri dati e quelli degli altri. Oppure pagate 20 dollari al mese o un misero importo per ogni chiamata all'API.

ChatGPT può quindi accedere solo a contenuti già noti o sconosciuti e di piccole dimensioni. Il termine "piccolo volume" si riferisce al numero di documenti o siti web.

ChatGPT non è una buona soluzione per attività come la digitalizzazione di documenti, poiché in questo caso ci sono molte caratteristiche speciali da considerare.

La ChatGPT è pessima

Dipende da cosa. ChatGPT non è un motore di ricerca. Se si utilizza il sistema in modo contrario al suo scopo, non ci si deve stupire delle risposte mediocri. Un sistema di intelligenza artificiale non è nemmeno progettato per contare le lettere di una parola.

Un'IA è brava a risolvere compiti complessi in modo creativo. La stessa IA non è brava a svolgere lavori precisi. Proprio come gli esseri umani!

L'addestramento dell'IA è costoso

È vero che l'addestramento di modelli linguistici di grandi dimensioni come ChatGPT è molto costoso e richiede molto tempo.

Tuttavia, è anche vero che è possibile addestrare i propri modelli linguistici di intelligenza artificiale in modo molto economico. Il motivo è che questi modelli personalizzati sono specializzati per casi d'uso specifici. In molti casi, è possibile addestrare tali modelli su un computer portatile o sul proprio server di IA in poche ore.

Poiché i computer dell'IA sono di solito già attivi e funzionanti, i costi per l'addestramento dell'IA sono pari a zero.

Nella maggior parte dei casi, quindi, la formazione sull'intelligenza artificiale è gratuita.

L'inferenza è costosa

L'inferenza è l'interrogazione di un modello di intelligenza artificiale, come la chat con un modello linguistico come ChatGPT.

È vero che i modelli linguistici di grandi dimensioni come ChatGPT richiedono decine o addirittura centinaia di server contemporaneamente per generare una risposta alla vostra domanda. Questo è costoso.

Tuttavia, è anche vero che consultare un modello linguistico AI autogestito non costa nulla.

Ciò significa che i costi per l'inferenza sono pari a zero nella maggior parte dei casi. A noi non interessa quanto OpenAI paga per i suoi server, così come a OpenAI non interessa quanto noi paghiamo per i nostri computer.

Microsoft Azure e ChatGPT sono sicuri

Molti vendono la loro "soluzione" come innovativa. Una banca ha addirittura parlato dell'introduzione di una propria (privata) IA, intendendo però Microsoft Azure. Azure è l'opposto della sicurezza. Microsoft stesso è oggetto di numerose attacchi hacker. Inoltre si deve constatare che Microsoft non attribuisce alla sicurezza la massima priorità.

Poi c'è l'enorme fame di dati di Microsoft. Il nuovo Outlook vuole recuperare le e-mail dei clienti per i propri scopi; Windows invia costantemente i dati degli utenti a Microsoft, ecc.

Microsoft Copilot è perfetto

I primi test dimostrano che è vero il contrario. Copilot deve riassumere un testo. Le istruzioni (prompt) per questo compito erano molto semplici e non ambigue. Il testo è stato fornito direttamente. La lunghezza del testo era piuttosto breve perché il campo di inserimento nell'interfaccia web di Copilot non permetteva di più.

Il rapporto di test con screenshot rivela che Copilot sembra essere completamente inutile per alcune attività. Nonostante un'interpretazione benevola, non riesce a trovare qualcosa di positivo nei risultati di Copilot. La sintesi di un estratto di un articolo del blog Dr. GDPR era così falsa che una persona si sarebbe dovuta vergognare. Copilot ha inventato numerose affermazioni semplicemente e non ha completato affatto la richiesta compiuta.

Invece di ciò, Microsoft fa in modo che come se Copilot fosse una soluzione fantastica e le risposte siano utilizzate direttamente. In nessun luogo si poteva leggere che una risposta potesse essere sbagliata o qualcosa del genere.

Modelli linguistici basati sulla statistica

Sì, è vero. È esattamente così che funziona la grammatica. È esattamente così che funziona l'intelligenza. Si veda il cervello umano. I modelli linguistici non sono addestrati come gli esseri umani, che compiono ulteriori passi per dare una risposta.

La nostra intera esistenza si basa sulle probabilità: Si pensi al decadimento radioattivo o, più in generale, alla fisica quantistica. Tutto si basa sul caso. Tutto. Se necessario, chiedete a qualcuno che ne sappia qualcosa di fisica quantistica.

Non conta perché un sistema sia intelligente. Ciò che conta sono soltanto i risultati. Chi ancora crede che il cervello umano non sia "hackbar", per lui forse non sarebbe interessante nemmeno un rapporto su un cervello artificiale di ratto. È sembrato riuscire a comprendere le movenze e le relative attività cerebrali attraverso una simulazione.

L'IA può essere utilizzata nel rispetto della legge

In teoria, questo può essere il caso. In pratica, sorgono alcune domande:

Da dove provengono i miliardi o addirittura i trilioni di record di dati che sono stati immessi in un sistema di intelligenza artificiale per il suo addestramento?
Con i servizi cloud come ChatGPT o Azure, si pone la questione se le condizioni legali siano sufficienti.
È possibile rispettare l'articolo 44b UrhG (legge tedesca sul diritto d'autore)?
Come si possono eliminare i dati da un modello di AI esistente?

La domanda 3: Il legislatore tedesco richiede che i crawler leggano contenuti da siti web solo se il titolare del sito non si è opposto. La dichiarazione di opposizione dovrebbe, secondo la Germania, essere impostata nel modulo d'iscrizione o nei Termini e Condizioni. Ciò è completamente impraticabile e irrealizzabile dal punto di vista tecnico. I crawler non comprendono le formulazioni di opposizione in lingua naturale. Non esistono crawler basati su intelligenza artificiale. Esistono solo crawler stupidi che forniscono contenuti per sistemi che dovrebbero diventare intelligenti o sono già tali. La file robots.txt sarebbe stata una buona soluzione. Purtroppo la Germania ha perso questa soluzione. Inoltre, il proprietario del crawler avrebbe dovuto in seguito dimostrare che NON esisteva alcuna dichiarazione di opposizione. Ciò è in pratica quasi impossibile o non realizzabile affatto. Quindi l'attività di crawling delle pagine web tedesche sarebbe sempre stata un grande rischio giuridico e spesso probabilmente anche vietato.

Zur domanda 1: I dati provengono dall'Internet. Testi, immagini e altri lavori sono per sé protetti dal diritto d'autore. La protezione del diritto d'autore si verifica automaticamente alla creazione di un lavoro, a condizione che il lavoro abbia la necessaria altezza creativa. Pertanto, questi contenuti possono essere letti solo se il titolare dei diritti vi ha dato il permesso oppure non possono essere letti affatto (vedi domanda 3). Le generative IA producono risultati potenzialmente protetti dal diritto d'autore e quindi illegali. Infatti, era consentito leggere i dati, ma non produrre risposte di IA.

La cancellazione dei dati nei modelli di IA non è possibile con affidabilità. Un modello di IA deve quindi essere continuato in modo illegale, se qualcuno non vuole più vedere i suoi dati nel modello di IA (o almeno nelle risposte dell'IA). Lasciare cadere un modello di IA e ristringerlo nuovamente non è una opzione per modelli giganti come ChatGPT, poiché è troppo costoso e troppo impegnativo. Nuove richieste di cancellazione ritarderebbero ulteriormente il processo. Per l'IA offline, tuttavia, il problema non esiste in questo modo.

Zu domanda 2: Vedi più in alto per Belege, il motivo per cui Microsoft e le sue piattaforme sono da considerarsi insicure. Si aggiungono i documenti legali che Microsoft e OpenAI impone ai propri utenti. Si pone la questione di chi verifichi correttamente questi documenti e cosa accade se si riscontrano dei difetti. Il discutere delle problematiche può essere una tattica popolare, ma non risolve il problema reale. Inoltre, Microsoft vuole raccogliere molti dati, come mostrano numerosi esempi di pratica (dati Telemetrici Windows, nuovo Outlook con grande appetito per i dati e accesso alle mail dei clienti tramite credenziali dei clienti…), quindi perché dovremmo fidarci di queste aziende? Non c'è alcun motivo.

L'intelligenza artificiale è un algoritmo

"Un algoritmo è […] una prescrizione di azione univoca per la risoluzione di un problema o di una classe di problemi." (Fonte: Wikipedia, grassetto aggiunto qui).

Un sistema di intelligenza artificiale si basa su una rete neuronale. Se questo può essere definito algoritmo in senso stretto è più che dubbia. In ogni caso, per l'osservatore umano non è affatto chiaro. Soprattutto quando si tratta di reti profonde (da cui il termine del Deep Learning).

Dopotutto, anche gli esseri umani non sono descritti come algoritmi. Anche il loro cervello è costituito da una rete neurale.

Quindi si dovrebbe negare la affermazione secondo cui un sistema di intelligenza artificiale sia un algoritmo, considerando con attenzione. Su Wikipedia non viene nemmeno equiparato un sistema di IA ad un algoritmo. Piuttosto si attribuisce l'evoluzione del training ad un algoritmo, il che è plausibile perché questa miglioramento della rete neuronale durante la formazione avviene attraverso regole di calcolo precise.

Se pensate che l'IA sia un algoritmo: condividete un caso in cui pensate che la soluzione automatizzata di un problema NON sia un algoritmo. Siamo curiosi!

L'intelligenza artificiale è uno strumento

È vero quanto dire che "un'auto è un ammasso di materia" o che "i cookie sono file". Allora tutto o niente sarebbe uno strumento. Il contenuto informativo sarebbe quindi pari a zero. Quindi l'affermazione non è utile.

Alcuni pensano che siano AI-gestützte Tools, quando parlano di AI come di un tool. Le imprecisioni linguistiche non portano comunque a una migliore comprensione.

In ogni caso, l'intelligenza non è uno strumento, ma una proprietà (eccezionale) di un sistema.

I modelli linguistici non potevano dedurre logicamente

Fatto è: i modelli linguistici possono risolvere domande matematiche estremamente complesse meglio di quasi ogni essere umano sulla Terra. Immaginiamo che un sistema di intelligenza artificiale lo faccia leggendo tutte le possibili problematiche e imparando da esse. Allora si è già usato la parola "imparare". Se invece ci si ferma a "leggere", allora può essere che il sistema di IA possa risolvere tutti i problemi, anche quelli sconosciuti finora, se sono solo vagamente simili ai problemi noti. Dove è la differenza con quasi tutti gli esseri umani?

Uno dei compiti dell'AIMO. La risposta di un sistema di intelligenza artificiale che ha fornito la soluzione. Fonte: si veda il seguente link.

Per favore leggete attraverso le matematiche esercizi [7] che sono stati presentati ai sistemi di intelligenza artificiale alla AI Math Olympiad (AIMO). Se riuscite a capire questi esercizi, essi rappresentano evidentemente un piccolo, percentualmente parlando, frammento della popolazione mondiale che si considera avere una profonda comprensione matematica.

In effetti l'autore di questo articolo è riuscito a risolvere un problema matematico molto impegnativo, che sapeva essere risolvibile con le equazioni di Diophanto, grazie all'aiuto del miglior modello matematico . Nessuna idea di cosa siano le equazioni di Diophanto. Il problema riguarda marinai e noci di cocco [9] e probabilmente nessuno al mondo è mai riuscito a risolverlo da solo. Per questo, il lungo testo tedesco [10] della domanda è stato inserito nel modello matematico inglese. La risposta della AI era sbagliata, ma la via di soluzione tentata era così vicina alla soluzione che con poco sforzo è stato possibile trovare la risoluzione corretta a mano.

I token non sono dati reali

Più precisamente: alcuni pensano che solo perché i testi sono memorizzati come numeri nei modelli linguistici, i modelli linguistici non memorizzano i dati originali.

I modelli linguistici memorizzano il testo sotto forma di serie di numeri (vettori). A tal fine, le parole vengono scomposte in frammenti di parole (token). Ogni token corrisponde a un numero. La mappatura dei frammenti di parole ai numeri è univoca per ogni modello linguistico e viene fissata in un dizionario (vocabolario). Questo vocabolario è allegato come file di testo a ogni modello linguistico. Si può sempre leggere questo file di testo e valutarne il contenuto.

La sequenza numerica 4711, 0815, 9933 potrebbe corrispondere alla successione di lettere Maxi, mi, lian. Evidentemente le cifre possono essere ricondotte a parole. Quindi le serie numeriche sono personalizzate se i caratteri codificati rappresentano dati personali. Anche i dati indirettamente riferibili a una persona sono personalizzati (vgl. Art. 4 Nr. 1 GDPR).

Inoltre i modelli linguistici formano l'output attraverso valori di probabilità cumulativi dei token. Non si considerano quindi solo due token, ma una catena intera di token. Un parametro tecnico che regola ciò si chiama top_p.

Il documento della tesi di Amburgo (vedi sotto) è quindi fondamentalmente sbagliato. Sembra essere stato scritto in questo modo per legalizzare tutti i sistemi di IA, la maggior parte dei quali sono probabilmente illegali.

I modelli linguistici dell'intelligenza artificiale non memorizzerebbero alcun dato personale

La argomentazione del Garante per la protezione dei dati personali di Amburgo (HmbBfDI) è la seguente: è incredibilmente difficile estrarre i dati personali dai modelli linguistici. Il Tribunale europeo ha detto che la ricostruzione di un collegamento con una persona può essere considerata possibile solo se gli strumenti e le risorse necessarie per farlo sono all'interno del normale range. Il HmbBfDI dice che solo con un'attacco alla privacy [rettamente illegale] potrebbero essere estratti i dati personali dai modelli linguistici. A causa dell'enorme sforzo necessario, secondo la giurisprudenza del Tribunale europeo non sono considerati dati personali.

Ecco un semplice controesempio che confuta facilmente l'HmbBfDI:

Richiesta a ChatGPT e risposta da ChatGPT. Stato: 15.07.2024

I modelli linguistici conservano i dati di tutte le persone allo stesso modo. Anche le persone che non sono pubbliche vengono registrate in questo modo nel modello linguistico, e cioè durante il suo pre-allenamento sulle dati di allenamento. I dati di allenamento consistono in molti miliardi di documenti. È improbabile che ci siano solo Angela Merkel o altre persone pubbliche completamente, che sembrano avere meno diritto alla privacy del cittadino comune.

È anche possibile estrarre citazioni complete da un modello linguistico. Il contributo appena menzionato dimostra anche che nei LLM ci sono dati personali. A differenza dell'ipotesi del HmbBfDI, tutti i grandi modelli di intelligenza artificiale fanno parte di un sistema di intelligenza artificiale. Ciò significa: Un sistema di intelligenza artificiale può interpretare le numerazioni che costituiscono un modello di intelligenza artificiale e trasformarle in testo. Avere solo un modello di intelligenza artificiale sul disco rigido, senza la capacità di interpretazione, sarebbe ingenuo. Questo caso ingenuo non esiste per ChatGPT o GPT-4o. Esistono al massimo nei modelli linguistici open source, ma anche solo teorico. Basta scaricare una biblioteca di programmazione molto diffusa per poter interpretare il contenuto del modello. Purtroppo, il HmbBfDI ha costruito una differenza tecnica tra ChatGPT e GPT-4o che non esiste.

Di per sé, non ha importanza:

Se si utilizza un LLM, spesso sono presenti dati personali. Se questi vengono messi in circolazione, la persona che lo fa è responsabile.
Se un LLM non viene utilizzato, di solito non importa quali dati contiene. Nessuno lo vede.
Quindi non si tratta principalmente di stoccaggio.

Non può esistere un'intelligenza artificiale generale

Questa forma di intelligenza viene anche chiamata AGI. AGI sta per Artificial General Intelligence. Siamo solo all'inizio. Evidentemente, non sono ancora frequenti i robot intelligenti che girovagano nella storia mondiale.

La verità è che pochi imprese stanno già investendo migliaia di miliardi di dollari nel costruire robot intelligenti. Ciò richiede:

Un robot (già presente, sempre meglio).
Un cervello elettronico (già presente, in continuo miglioramento).
Qualcuno che metta la scatola cranica (computer con intelligenza artificiale) sul robot (questo qualcuno c'è già).

Queste tre componenti sono già disponibili. Sistemi di apprendimento automatico sono già presenti, ad esempio ChatGPT o NuminaMath (vedi più avanti). È solo una questione di tempo prima che i robot imparino a dominare meglio il nostro mondo rispetto a ciò che potremmo fare noi stessi.

Solo tra molti anni l'intelligenza artificiale sarà più potente

La falsità di questa ipotesi non può essere dimostrata, così come le affermazioni della sezione precedente sull'AGI. Sarà il tempo a dirlo.

È vero che: lo sviluppo dell'intelligenza artificiale procede a velocità supersonica. Ciò che non era possibile due settimane fa è ora possibile. Ciò vale ad esempio per i progressi dei modelli linguistici open-source. Il sopra menzionato AIMO è stato vinto da un modello open-source chiamato NuminaMath. Ha risposto correttamente a 29 di 50 problemi matematici più complessi, presentati in forma testuale.

Google afferma comunque che un progresso nella robotica sia stato raggiunto con l'aiuto di un modello linguistico.

Previsione del dottor GDPR: Tra 10-15 anni ci saranno robot in giro che rappresenteranno una seria minaccia per l'umanità. Potrebbero anche essere 5 anni (bisognerebbe essere esperti di robotica per saperlo con certezza). Ma sicuramente non passeranno altri 35 anni prima che dovremo preoccuparci seriamente della nostra esistenza a causa della superiorità dell'intelligenza artificiale. Se avete dei figli, questo articolo prevede che essi daranno forma alla fine della loro vita in un modo diverso da quello che è bene per loro.

Riassunto

Ecco le affermazioni più importanti nella forma corretta:

ChatGPT è un sistema intelligente che per molti compiti è di gran lunga superiore all'uomo.
L'intelligenza è indipendente dalle persone.
L'intelligenza artificiale è l'intelligenza di un sistema artificiale. Siete liberi di definire voi stessi cosa sia artificiale (non ha importanza).
La consultazione di modelli linguistici costa nulla. Ciò vale per AI offline, quindi modelli linguistici autoamministrati.
Il training di modelli di intelligenza artificiale costa zero. Ciò vale per il training su hardware proprio o hardware noleggiato. Questo hardware è comunque acceso. Se un training di IA vi si svolge o meno, non cambia nulla in termini di costi del hardware.
La AI non è un algoritmo, ma una soluzione inespugnabile per molti problemi.
Microsoft Copilot è un sistema inutile. In ogni caso, questo vale anche per i compiti standard più semplici, che qualsiasi intelligenza artificiale offline può svolgere meglio.
Il cloud Azure non è sicuro. Lo dimostrano i numerosi incidenti in cui Microsoft non ha brillato particolarmente.
L'IA diventerà una minaccia per l'umanità nel giro di pochi anni. O come dice Sam Altmann di OpenAI: "L'IA ci ucciderà tutti. Ma fino ad allora sarà incredibilmente utile"."

Se vuoi introdurre una propria IA (IA offline) nel tuo azienda, è importante sapere:

Un'intelligenza artificiale offline può essere ottimizzata. Offre risultati migliori rispetto a ChatGPT per molti casi d'uso. Anche perché il sistema funziona solo per voi e non deve funzionare per milioni di altri utenti.
Un'IA offline offre il pieno controllo dei dati. Ogni DPO è felice di avere un'intelligenza artificiale offline.
Un'IA offline è poco costosa da gestire, sia acquistando un server di IA che affittando un server in un centro dati tedesco da un fornitore tedesco.
Un'intelligenza artificiale offline può recuperare dati da Internet o comunicare con altri sistemi IT.

Quali sono le vostre domande o intuizioni?

Miti e idee sbagliate sull'intelligenza artificiale

Idee sbagliate comuni sull'IA