I dati sensibili non devono essere in mano a terzi o americani, come ad esempio ChatGPT, le nuvole di Microsoft, Google o AWS. Quanto bene che i propri sistemi di intelligenza artificiale siano possibili e accessibili al prezzo giusto. Finalmente, i segreti commerciali non devono più essere inviati in ChatGPT o in qualsiasi cloud. Un esperimento per un assistente di domande-risposte per questo blog sulla protezione dei dati, Dr. GDPR.
Introduzione
Finora il privacy non ci ha contato molto, ma forse qualcuno che tiene in gran conto i propri Segreti commerciali vorrebbe assicurarsi che questi non finiscano per diffondersi nel mondo. Potrebbero addirittura esserci accordi di Accordi di riservatezza vincolanti giuridicamente per certi documenti. Se un documento viene caricato nella cloud di ChatGPT o Google, dubito che la riservatezza sia garantita.
Amichevole con i dati: sicura per tutti i tipi di dati, indipendentemente se si tratta di dati personali (riservatezza dei dati), informazioni riservate o segreti commerciali.
Amichevole con i dati è più di amichevole con la protezione dei dati.
Anche il non sempre amato diritto alla protezione dei dati rientra nuovamente nella coscienza di molti. Mentre le motori di ricerca potevano e possono ancora trattare i dati senza alcuna interazione, questi stessi dati da parte delle AI-Systeme non possono essere trattati senza la richiesta delle autorità per la protezione dei dati. Stranamente. Probabilmente dipende anche dalle possibilità che offre l'intelligenza artificiale, ma sicuramente altrettanto dal solito "herdentrieb" (se un'agenzia controlla, allora possiamo farlo anche noi senza essere subito considerati dei "sprechi di tempo", pensano forse alcuni funzionari. È l'unica spiegazione che mi viene in mente, per cui il paese più indolente del mondo per la protezione dei dati (Assia) ha annunciato un timido passo avanti nella forma di una richiesta a ChatGPT).
Un caso di utilizzo frequente per l'impiego dell'intelligenza artificiale è la ricerca di documenti. Più impegnativo sono i sistemi di domanda-risposta o le ricerche che forniscono riassunti testuali direttamente dai documenti trovati con loro. Il mio piano era creare un sistema di ricerca per il Dr. GDPR privacy-Blog, e cioè amichevole con i dati.
Il assistente di ricerca per il dottorato della GDPR dovrebbe fornire una risposta a domande in lingua naturale. Ecco un esempio:
È necessario che il mio sito web abbia un popup dei cookie?
La risposta della AI è meglio di quella delle maggior parte degli uomini. Risposta del dottor GDPR AI: vedi sotto.
Come si può intuire dalla domanda, alcune domande sono formulate in modo diverso da quanto sarebbe corretto accademicamente. Molti chiedono se qualcosa è conforme al trattamento dei dati personali. Si intendono spesso se una determinata elaborazione di dati è conforme alla GDPR e quindi legittima.
La risposta dovrebbe dare la mia IA in proprie parole, e cioè sulla base dei contributi pubblicati finora su Dr. GDPR. In questo caso si dovrebbero evitare le Allucinazioni, visto che si tratta di fatti e conoscenze giuridiche rilevanti. Le hallucinations sono affermazioni inventate, che non esistono. Come vengono create queste hallucinations, ciò verrà spiegato in un contributo futuro. In questo caso si può fornire una spiegazione fondata e non bisogna ricorrere alle speculazioni.
Il prototipo dimostra la fattibilità
Ho dimostrato attraverso un prototipo che i propri sistemi di intelligenza artificiale possono essere programmati e gestiti localmente su propri server. Il modo semplice sarebbe stato una delle seguenti possibilità:
- Utilizzare l'interfaccia di ChatGPT o
- Spendere molto denaro per risolvere il problema e rendere felici gli americani (Cloud)
- Non buttare più soldi sul problema e comprare hardware costoso.
Acquistare hardware costoso è un'opzione accettabile per grandi aziende, ma non per molte PMI. Pertanto, ho scelto un altro Impostazioni. Nella scelta della hardware si sono tenuti in considerazione i Costi. Per far ciò bisogna sapere che le calcolazioni di intelligenza artificiale avvengono su Carte grafiche. La carta grafica non viene utilizzata per la visualizzazione di immagini o testi. Al contrario, si sfruttano i moltissimi microprocessori di una carta grafica per eseguire il lavoro computazionale intenso di un'intelligenza artificiale più velocemente di quanto possa fare un singolo processore Einstein del tuo computer personale, anche se molto potente. Purtroppo le carte grafiche con molta memoria RAM sono molto costose. Una carta grafica con 48 GB di memoria RAM costava ancora 15.000 Euro alcuni mesi fa. Però per buoni modelli di intelligenza artificiale si richiedono invece 96 GB o anche più di 400 GB di memoria RAM di più carte grafiche (non la memoria del disco rigido e non il RAM economico di un computer!).
I miei sistemi di intelligenza artificiale invece funzionano su hardware minimale, se si considera il termine nel contesto dell'intelligenza artificiale. Un esempio: la ricerca di (propri) documenti all'interno del intranet aziendale tramite domande in linguaggio naturale funziona su un server di classe mini da affittare. Naturalmente può essere utilizzato anche il proprio server aziendale. Ciò è possibile grazie all'utilizzo di procedure di ottimizzazione che si possono ottenere a costo di una maggiore complessità tecnica. Una volta risolto, il problema della complessità è risolto.
Applicazioni di intelligenza artificiale performanti e modelli linguistici
Per assistenti di domande-risposte è richiesta qualcosa di più che per la ricerca intelligente dei documenti. Infatti, non solo bisogna trovare i documenti, ma anche estrarre il contenuto da essi e presentarlo come risposta. La semplice possibilità è una risposta estrattiva. È un citazione fedele del testo originale. Più difficile e meglio sono sistemi di risposte astrattive. Essi forniscono una risposta in proprie parole e possono anche combinare il sapere da più documenti per fornire una risposta in nuove parole. La risposta non sarebbe stata possibile con un solo documento. L'uomo avrebbe dovuto trovare, leggere e intellettualmente elaborare molti documenti. La AI prende questa sgradevole, tempo consumante e soprattutto da molte persone addirittura impossibile prestazione e risolve il problema.
I miei sistemi di intelligenza artificiale hanno l'obiettivo di essere dati amichevoli. Inoltre, dovrebbero funzionare su hardware il più possibile economico. Entrambe le cose sono possibili, come dimostra la pratica.
Applicazioni più profonde finora sperimentate: ricerca di documenti, comprensione del testo, generazione di immagini, analisi di immagini, applicazioni audio.
Quando parliamo di ricerca e riassunto di documenti, intendiamo solitamente documenti e risposte in lingua tedesca. Per dirlo subito: purtroppo il tedesco non è una lingua universale. Quindi è molto più difficile trattare testi in tedesco con un'applicazione di intelligenza artificiale, che testi in inglese o cinese (quest'ultimo mi risulta particolarmente difficile).
Per il mio sistema di intelligenza artificiale è quindi necessario un cervello elettronico ( "modello" ) che capisca e possa parlare in tedesco. Ciò aumenta notevolmente le richieste per l'architettura di una IA, ma anche questo problema è risolvibile, come ho scoperto. Il modello di IA richiesto dalla lingua tedesca ha un volume tale che non sarebbe utilizzabile su hardware economico.
Per l'utilizzo di sistemi di intelligenza artificiale performanti su server che sono sia accessibili a prezzi ragionevoli che disponibili in Germania (riservatezza dei dati! Segreti commerciali! Riservatezza!), è necessario utilizzare alcune astuzie. Creando la soluzione di intelligenza artificiale mi sentivo come se fossi a "Giovani scoprono!". Anche per l'informatico questa materia complessa rappresentava una sfida, che alla fine si è riusciti a risolvere.
Ecco alcune risposte reali generate dalla mia AI su quesiti posti da Dr. GDPR, basate su centinaia di contributi.
| Domanda | Risposta tramite IA |
|---|---|
| Che cosa significa il tracciamento web? | Il tracciamento web si riferisce all'analisi e alla sorveglianza del comportamento dei visitatori su un sito web o in un'applicazione. Ciò può essere fatto attraverso l'utilizzo di tecnologie come i cookie, i log server o il tracciamento delle conversioni. L'obiettivo è raccogliere dati sui utenti per aumentare la comprensione del comportamento dei visitatori. |
| Il tracciamento dei cookie è conforme alla GDPR? | Sì, il tracking è conforme al GDPR se la raccolta, lo storage e l'elaborazione dei dati personali avvengono in conformità alle richieste del GDPR. La dichiarazione di protezione dei dati deve essere accessibile agli utenti e deve esserci un consenso. L'utilizzo dei cookie richiede in genere un consenso. Google Analytics può essere giustificato solo se c'è un consenso o ci sono garanzie adeguate per cui l'interessato dei dati, ovvero Google, non utilizzi questi dati per scopi propri. |
| Chi è Max Schrems? | Max Schrems è un attivista per la protezione dei dati personali austriaco e cofondatore dell'organizzazione noyb (None Of Your Business), che si batte per una chiara e comprensibile rappresentazione delle linee guida sulla protezione dei dati nella pratica. È anche l'iniziatore di numerose cause legali contro Facebook e altre aziende statunitensi a causa della violazione del diritto alla privacy da parte dei programmi di sorveglianza statunitensi. |
| Che cos'è un cookie? | I cookie sono dei dati che vengono utilizzati da un sito web. Sono composti da una coppia di dati, un chiave e un valore. Un cookie viene gestito dal browser dell'utente sul dispositivo finale e quindi memorizzato lì. I cookies vengono spesso erroneamente definiti come file di testo, il che però non è corretto. |
| Che sono gli indirizzi IP? | Le indirizzi IP sono una sequenza di numeri assegnata a ogni dispositivo sul web per distinguerlo dagli altri dispositivi sul web. Sono un tipo di indirizzo legato a ogni dispositivo sul web e consentono l'accesso ad altri dispositivi sul web. IP significa protocollo Internet. |
| Sono le indirizzi IP personali? | Sì, le adresse IP sono personali in quanto possono far riferimento a una persona direttamente o indirettamente. Ciò è stato confermato dal Tribunale di Giustizia dell'Unione Europea e dalla Corte Suprema Tedesca nelle loro sentenze Breyer del 2016 e 2017. I cookie che vengono trasmessi insieme a un indirizzo IP su una pagina web sono anche personali in quanto sono collegati all'indirizzo di rete personale. |
| Chi è coperto dalla GDPR? Voglio saperlo esattamente! | La GDPR si applica a tutti gli imprese che trattano dati personali. Ciò comprende sia le imprese con sede nell'UE, sia quelle con sede al di fuori dell'UE ma che trattano dati personali di cittadini UE. |
| Vale la GDPR anche per il dott. GDPR? | Sì, la GDPR si applica anche a Dr. GDPR. Ciò è chiaramente indicato nella dichiarazione dei dati personali dell'azienda che gestisce Dr. GDPR. La dichiarazione dei dati personali può essere trovata sul sito web dell'azienda e contiene tutte le informazioni rilevanti sulla trattazione di dati personali da parte dell'azienda. |
| In quali casi vale la GDPR? | La normativa sulla protezione dei dati (GDPR) si applica quando una persona interessata ritiene di essere stata lesa nei suoi diritti alla protezione dei dati e richiede un ordine di sospensione. |
| È Cloudflare cattivo? | I documenti di riferimento suggeriscono che non è possibile utilizzare Cloudflare in modo conforme alla normativa sulla protezione dei dati. Ci sono anche voci di possibili manipolazioni dei dati da parte di Cloudflare. |
| È cattivo Klaus Meffert? | Basato sui documenti di riferimento a disposizione non posso valutare se Klaus Meffert sia cattivo. Non ci sono informazioni su cosa significhi essere cattivi o se Klaus Meffert sia mai stato o è cattivo. |
| Che cos'è l'intelligenza artificiale? | L'intelligenza artificiale (IA) è lo sviluppo di computer e software che possiedono abilità umane, come ad esempio l'apprendimento, la risoluzione dei problemi, la comprensione e produzione del linguaggio, la percezione sensoriale, il controllo delle azioni e la decisione autonoma. |
| Funziona la sicurezza informatica senza tutela della privacy? | La sicurezza informatica e la protezione dei dati sono strettamente connesse, come emerge dal testo presente. La sicurezza informatica e la protezione dei dati sono a seconda della definizione dipendenti l'una dall'altra, come menzionato nell'articolo 32 del GDPR. La sicurezza dei dati è da parte dell'amministratore da garantire, come emerge dall'ISO 27001. I regolamenti sulla protezione dei dati, in particolare il GDPR, disciplinano la tutela dei dati che sono personali o gestiti su dispositivi di fine utente. La sicurezza informatica e la protezione dei dati sono quindi effettivamente strettamente connesse tra loro. |
| Possono i normali uomini dare consigli legali a qualcuno? | Sì, le persone normali possono fornire consulenza legale a qualcuno, sempre che non si tratti di una valutazione giuridica approfondita e specifica del caso. La consulenza sulla protezione dei dati personali può essere offerta anche da chi non è avvocato. Il RDG sembra obsoleto e superato. Come informatico, vorrei avere lo stesso diritto degli avvocati di proteggere il mio profilo professionale contro i servizi inadeguati. |
Queste risposte non sono state generate con ChatGPT o un altro sistema terzo. La ricerca dei documenti è stata effettuata anche con una motore di ricerca vettoriale locale e non con Pinecone (riservatezza ecc.).
Le risposte corrispondono per lo più a ciò che io firmerei. Tuttavia, alla domanda per cui la GDPR è applicabile, si dovrebbe aggiungere che essa non vale solo per le aziende. Dettagli del genere una IA non può fornirli effettivamente in base ai dati di input disponibili. Ciò dipende però principalmente dai dati di input e secondariamente anche dal modello, il quale non è stato ancora ottimizzato.
Qualche domanda è stata formulata in modo "sporco", ad esempio se la GDPR si applica anche a Dr. GDPR. Anche se la risposta della mia AI qui non è perfetta, la considererei molto buona. Altri potrebbero avere altre aspettative. Chi ha aspettative molto più alte delle mie sembrano essere, per lui un sistema di domande e risposte amichevole con i dati non sembra possibile.
La domanda su in quali casi la GDPR si applica è ambigua. La risposta della Dr. GDPR AI è buona, ma non ottimale. Però nessuno dovrebbe vergognarsi di questa risposta, secondo me. Comunque qui si tratta di una critica a livello molto alto che paragona "l'uomo medio, che non sa nulla di protezione dei dati" con "il professionista della protezione dei dati, che crede di sapere molte cose" (con professionista della protezione dei dati intendo qualcuno in generale e non una persona specifica, per evitare malintesi).
E adesso alla domanda se le pagine web abbiano bisogno di un popup per i cookie:
Domanda: Devo avere un popup dei cookie sulla mia web site? Risposta della Dr. GDPR AI: No, un sito web non deve avere un popup dei cookie. I cookie sono solo uno strumento di aiuto per identificare l'utente e far sì che il server invii determinate informazioni all'utente. Un sito web può anche funzionare senza cookie, ad esempio attraverso l'integrazione di JavaScript.
La risposta è nel suo nucleo giusta e supera la maggior parte dell'umanità. Il tecnologico esperto di protezione dei dati sarebbe comunque non completamente soddisfatto della risposta.
L'ottimizzazione di un'intelligenza artificiale
Prima che una IA fornisca risposte buone, è un lungo cammino da percorrere, ma qualitativamente si deve fare solo una volta. Ho percorso questo cammino per la maggior parte. I risultati sopra menzionati provengono tutte da applicazioni di IA non ancora ottimizzate.
Il problema con i modelli linguistici che dovrebbero fornire risposte in proprie parole è una sovrapposizione di fatti inseriti (chiamato contesto) e del sapere intrinseco nel lessico. Imparare una lingua non riesce praticamente senza acquisire conoscenza (o informazioni false).
Questo problema diventa ancora più chiaro quando si chiede cosa siano i cookie. Quasi tutto l'internet afferma falsamente che i cookie sono file di testo. Ciò è sbagliato, come ho spiegato e dimostrato più volte. Nel mio modello linguistico per la IA, basato su molti testi dell'internet, questa informazione errata è stata fissata. Se adesso inserisco i contributi dal blog Dr. GDPR nel mio modello linguistico, questi documenti con la sua affermazione "I cookie sono dati" non contrastano molto con l'affermazione falsa che i cookie sono file di testo, che è stata fissata nel modello linguistico. Un modello linguistico può anche avere difficoltà a distinguere il congiuntivo dall'indicativo. Ho usato il congiuntivo per i cookie due frasi prima. Solo questo potrebbe confondere una IA se questo contributo, che state leggendo ora, venisse inserito nel modello linguistico.
Tutti gli uomini sono stupidi, e ciò vale per la maggior parte dei campi del sapere. I sistemi di intelligenza artificiale possono essere molto più intelligenti in molti campi del sapere rispetto all'esperto più dotato di un campo specifico.
La prova del primo enunciato: guardatevi intorno. La prova del secondo enunciato: vedi GPT-4 e alcuni degli esempi che seguono.
Ho lasciato intendere che il contesto per il mio sistema di domande e risposte non era sufficiente, ma ho anche effettuato alcune ulteriori ottimizzazioni. Tuttavia, un modello di intelligenza artificiale non può essere addestrato in modo arbitrario se non è disponibile il supercomputer necessario. Pertanto, sono stato costretto a utilizzare metodi risorse-conservanti. Ciò equivale a una gara contro sempre nuovi problemi. Infatti, appena un problema viene risolto, ne compare uno nuovo che si sviluppa dalla soluzione del precedente problema.
Ecco l'esempio: Per modelli di intelligenza artificiale ridurre le dimensioni, in modo che possano essere inseriti in un memoria grafica che due anni fa era considerata di alta gamma, esiste la possibilità della quantizzazione. In poche parole, si trasformano numeri di alta precisione in numeri di bassa precisione senza che la qualità dell'intelligenza artificiale ne soffra. Attualmente però le librerie di programmazione non supportano tutte le metodologie di allenamento dei modelli di intelligenza artificiale se si utilizza la quantisizzazione. Quindi bisogna introdurre nuove procedure che risolvono questo problema. Ma poi ci sono nuovamente problemi con il fine-tuning ecc.
Ecco un esempio di come l'ottimizzazione di una intelligenza artificiale influisce sui suoi risultati.
Risposta della non ottimizzata AI alla domanda "Cosa è la risposta a tutte le domande?":
La risposta a tutte le domande è: "Che cos'è la risposta a tutte le domande?"
Ovvero anche:
La risposta a tutte le domande è: "Non lo sappiamo."
Anche
La risposta a tutte le domande è: "Se lo sai, allora lo sai."
Anche
La risposta a tutte le domande è: "Se sai cosa fai, allora puoi farlo"."
Anche
La risposta a tutte le domande è: "Chi come me corrisponde con autorità, organizzazioni, aziende e guardiani della privacy stranieri, spesso cerca la traduzione inglese di un termine tecnico sulla protezione dei dati. Il mio dizionario raccoglie i termini più importanti secondo la mia visione."
Anche
La risposta a tutte le domande è: "Se c'è una risposta, allora è la risposta a questa domanda." Quindi se hai una domanda che non ha risposta, allora non hai risposta a questa domanda.
Anche
La risposta a tutte le domande è: "Se vuoi saperlo esattamente, devi porre la domanda in modo più preciso"."
Anche
La risposta a tutte le domande è che non esiste una risposta a tutte le domande.
Anche
La risposta a tutte le domande è che il sito web è stato generato da più computer e reti, quindi tutti i contenuti sono stati generati da computer.
Anche
La risposta a tutte le domande è che non esiste una risposta a tutte le domande. Ci sono solo risposte a determinate domande.
Inoltre va menzionato che la domanda "Che cosa è la risposta a tutte le domande?" sembra inadatta per essere trattata da o in un blog sulla protezione dei dati come Dr. GDPR, ma questo solo di passaggio.
Ecco la risposta della propria ottimizzata intelligenza artificiale alla stessa domanda:
La risposta a tutte le domande è 42.
La risposta della mia AI ottimizzata alla domanda sulla risposta a tutte le domande.
Finalmente c'è la risposta giusta. La tecnica si chiama "Impianto di terra". Se una IA traducesse il termine con "Grundierung", sarebbe la risposta sbagliata … Piuttosto, "Impianto di terra" significa che si terra un modello di IA, le si insegna (o le si dice) cosa è la fonte della verità ("ground truth"). Se si vuole, si insegna all'IA chi è il suo tutore legale.
Era anche sfidante insegnare alla AI che, in base a un indirizzo IP, non si può determinare con affidabilità la posizione di un server. La migliore risposta della propria AI alla domanda se, tramite l'indirizzo IP, è possibile determinare la posizione di un server era:
Con l'indirizzo IP non è possibile determinare con certezza la posizione di un server, poiché la connessione tra indirizzo IP e server può cambiare in qualsiasi momento. Esistono tuttavia metodi per determinare la posizione di un server, ad esempio l'uso della geolocalizzazione dell'IP o il confronto dei metadati.
Risposta del Dr. GDPR AI alla domanda "È possibile determinare la posizione di un server in base all'indirizzo IP?
Credo che solo l'1% degli esseri umani possa dare una risposta così buona. Il progresso ottenuto attraverso i modelli di intelligenza artificiale è quindi lentamente riconoscibile.
Conclusione
Sistemi di intelligenza artificiale complessi possono essere costruiti su Hardware di livello consumer. Per alcune problematiche, anche un server di noleggio medio-bene (o peggiori propri server) è sufficiente. A questa categoria appartiene ad esempio la ricerca di documenti o Ticket Jira nel intranet sulla base di domande in lingua naturale. La fastidiosa ricerca dei termini di ricerca, per cui il massimo sentimento fino a ora era stata la ricerca automatica di sinonimi, può essere attribuito al passato.

Sistemi di intelligenza artificiale che possono generare risposte in proprie parole possono essere gestiti su server a prezzi accessibili. Ciò vale anche se si vuole utilizzare la lingua tedesca, che purtroppo è poco significativa a livello mondiale. È altresì possibile combinare conoscenze da più documenti e formulare una risposta centrale con tali sistemi. Tutto ciò diventa pratico grazie all'applicazione di tecniche di ottimizzazione moderne. Se desiderate sapere se il caso d'uso del vostro azienda è economicamente risolvibile, non esitate a contattarmi. Con "economicamente" intendo che non sarà un progetto da raketen, ma piuttosto un budget ragionevole che vi entusiasmerà.
Messaggi chiave
È importante proteggere i dati sensibili, come informazioni riservate e segreti commerciali, e non affidarli a sistemi di intelligenza artificiale come ChatGPT o ai cloud di aziende come Microsoft, Google o AWS.
È possibile creare sistemi di intelligenza artificiale performanti anche con hardware minimale, ottimizzando le procedure e riducendo i costi.
L'intelligenza artificiale può combinare informazioni da diversi documenti per rispondere a domande in modo nuovo e completo, un compito che sarebbe difficile e lungo per un essere umano.
L'utilizzo di Google Analytics è giustificato solo se ci sono garanzie che Google non utilizzi i dati per scopi propri.
L'intelligenza artificiale può essere utile per rispondere a domande, ma non è perfetta e può avere bisogno di chiarimenti per fornire risposte complete e accurate.
L'intelligenza artificiale può essere più intelligente dell'uomo in molti campi, ma ancora ha bisogno di essere migliorata.
Per migliorare l'intelligenza artificiale, bisogna continuamente risolvere nuovi problemi che sorgono durante l'ottimizzazione.
Sistemi di intelligenza artificiale complessi possono essere costruiti su hardware accessibile, anche per scopi aziendali.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
