I sistemi di IA forniscono risultati imprevedibili. Il problema non può essere risolto per i sistemi di IA con uno scopo generale (ChatGPT), ma può essere risolto per i sistemi di IA di proprietà dell'azienda con uno scopo specifico. L'obbligo di trasparenza può essere ricavato solo dal GDPR. Gli operatori e i fornitori di sistemi di IA devono adempiere a ulteriori obblighi previsti dalla legge sull'IA.
Introduzione
Come si può rendere trasparente un sistema di IA? La risposta a questa domanda per i sistemi di IA generali è: per niente. Questo perché questi sistemi generali, compreso ChatGPT, funzionano sulla base di reti neurali. Il funzionamento di queste reti è ben noto. Se si dovesse scrivere una formula che descriva la rete, nessuno la capirebbe e tanto meno sarebbe in grado di leggerla correttamente.
La GDPR stabilisce nel Articolo 5 l'obbligo di trasparenza nella trattazione dei dati personali. Ciò vale quindi per tutti i sistemi di intelligenza artificiale in cui vengono trattati dati personali. Sono tutti i sistemi in cui, durante il training o all'ingresso dell'utente (spesso tramite un prompt) sono stati introdotti dati personali. È una verità che (solo?) il Garante per la protezione dei dati di Amburgo nega in modo pericoloso.
Nell'Art. 5 comma 1 lettera d) del GDPR è richiesto che i dati siano correttamente, cioè corretti, quindi. Ciò vale per tutti i dati personali nei sistemi di intelligenza artificiale. In ogni caso, almeno al momento dell'inferenza, ovvero quando un sistema di IA produce una uscita, questa norma dovrebbe essere soddisfatta.
La normativa AI (Legge sul'intelligenza artificiale) definisce obblighi che in particolare gli erogatori di sistemi di intelligenza artificiale devono rispettare. Sono stati stabiliti obblighi speciali per l'IA ad alto rischio. Questo tipo di sistema dovrebbe essere un caso eccezionale nella pratica.
Le maggiori aziende che utilizzano sistemi di intelligenza artificiale sono Operatore. Per i Operatore valgono molto meno obblighi rispetto agli Fornitore. Betreiber è un'azienda o organizzazione, secondo l'art. 3 n. 4 AI-VO, se utilizza "un sistema di intelligenza artificiale in proprio". Tutto ciò che va oltre ricade sotto il concetto di Anbieter (art. 3 n. 3 AI-VO).
L'idea di aumentare la trasparenza e la documentazione dei sistemi di IA è venuta all'autore durante una riunione del gruppo di esperti di IA del Commissario di Stato per la protezione dei dati della Bassa Sassonia, di cui l'autore è membro. L'autore ha anche pubblicato in precedenza un libro sullo sviluppo di software test-driven.
Da un lato, la trasparenza è una presentazione esterna dei risultati dell'IA. Tuttavia, la trasparenza interna, cioè per l'operatore di un'IA, è quasi più importante: come funziona l'IA? Quali risultati produce?
Prova della correttezza degli output dell'IA
In generale, non è possibile garantire completamente che un'IA spenda solo correttamente. Tuttavia, è possibile avvicinarsi. Prima di dare un suggerimento in merito, viene fornito un esempio dall'ottimo traduttore di DEEPL (dalla Germania!), che utilizza lui stesso l'IA e, proprio come qualsiasi altro sistema di IA, a volte commette degli errori:

A DEEPL è stato chiesto di tradurre un testo contenente un importo monetario. DEEPL ha tradotto 1.050,00 euro in modo tale che la cifra in euro fosse sostituita da una cifra in sterline. Questo è ovviamente sbagliato. Per chiunque voglia provare da solo: Dipende dal testo complessivo! Questo aspetto è stato parzialmente oscurato nella schermata precedente perché si trattava di un'informazione semi-sensibile. Probabilmente si otterrà un risultato corretto se si inserisce solo l'ultima frase in DEEPL. Ma se il testo del preambolo è diverso, l'errore potrebbe verificarsi. Questo dimostra come funzionano i sistemi di intelligenza artificiale non trasparenti.
Gli errori non possono quindi essere evitati. Come potete comunque adempiere al vostro dovere di trasparenza e garantire il più possibile la correttezza degli output dell'IA?
La risposta è: attraverso testi di prova.
I casi di test sono coppie di input effettivi e output target. Un caso di test consiste in un input effettivo e in un output effettivo che viene accettato come buono. A quanto pare, il regolamento sull'IA (AI-VO) ha tenuto conto anche di questo aspetto:
L'art. 3 n. 53 del Regolamento AI definisce il termine "piano per un test sul mondo reale" come "un documento che descrive gli obiettivi, la metodologia, l'ambito geografico, demografico e temporale, il monitoraggio, l'organizzazione e la conduzione di un test sul mondo reale".
La nr. 56 dello stesso articolo definisce Competenza nell'IA come "le capacità, le conoscenze e la comprensione che consentono agli offerenti, ai gestori e ai soggetti interessati di utilizzare sistemi AI in modo competente, nonché di rendersi conto delle opportunità e dei rischi legati alla AI e dei danni che essa può provocare"
Con l'aiuto dei casi di test, gli operatori (e ancor più i fornitori) possono diventare più consapevoli delle opportunità e dei rischi dell'IA che gestiscono o offrono.
Anche i Falsi profondi citati nel n. 60 dell'Art. 3 della AI-VO possono essere introdotti in questo modo. Si tratta di un "contenuto di immagine, suono o video generato o manipolato con l'aiuto di intelligenza artificiale che somiglia a persone reali, oggetti, luoghi, strutture o eventi e che farebbe credere falsamente ad una persona come fosse autentico o veritiero". Per i modelli di immagine si assicurerebbe che le informazioni che puntano a persone reali e che intendono metterle in cattiva luce vengano riconosciute e bloccate al meglio. In ogni caso, con l'aiuto di casi di test è già possibile documentare dove (ancora) si trovano le debolezze del sistema AI.
I casi di test sono un mezzo eccellente per documentare la qualità dei sistemi di intelligenza artificiale. Possono anche rendere tali sistemi più trasparenti ed evidenziare le loro debolezze residue.
L'obbligo per i fornitori di sistemi di IA non ad alto rischio di valutare il proprio sistema, come previsto dall'art. 6 (4) del Regolamento IA, può avvenire anche attraverso casi di prova.
Il sistema di gestione del rischio di cui all'art. 9 (1) del regolamento AI può essere supportato molto bene con l'aiuto di casi di prova.
Numerose altre disposizioni della legge sull'IA impongono obblighi ai fornitori e agli operatori di sistemi di IA che possono essere soddisfatti da casi di test documentati. Tra questi:
- Art. 11 (1) Regolamento AI: documentazione tecnica di un sistema AI ad alto rischio
- Art. 17 AI-VO: Gestione della qualità
- Art. 53 Regolamento AI nel suo complesso: obblighi per i fornitori di modelli di AI per scopi generali
- Gli articoli 91 e 101 del Regolamento AI possono avere conseguenze negative per i fornitori di AI se la loro documentazione non appare sufficiente.
- L'art. 4 del Regolamento AI richiede inoltre agli operatori di garantire che i loro dipendenti abbiano sufficienti competenze in materia di AI.
Esempi di casi di test
Che aspetto ha un caso di test? Ecco un esempio di modello linguistico progettato per rispondere alle domande:
Is (domanda = input) Should (risposta = output dell'AI) Cosa sono i cookie? I cookie sono record di dati… I cookie sono file di testo?
Questi due casi di test chiariscono da soli che non è una buona idea voler gestire un chatbot universale. Nessuno sarà in grado di scrivere un numero sufficiente di casi di test per verificare tutte le domande del mondo, cioè per garantire la qualità.
Un sistema di IA dovrebbe quindi essere personalizzato in base a un caso d'uso o a un settore specialistico. Questo non solo facilita l'adempimento degli obblighi derivanti dal regolamento sull'IA, ma migliora anche la qualità dei risultati. La qualità dei chatbot specializzati, ad esempio per il settore edile, è notevolmente migliore di quella che chiunque sarà in grado di ottenere con ChatGPT.
Il numero di casi di test deve essere ragionevolmente elevato. Ulteriori casi di test possono essere aggiunti gradualmente. In particolare, se la risposta dell'IA a una domanda dell'utente non è soddisfacente, è consigliabile includere un caso di test per questo. Il caso di test serve almeno come documentazione, ma preferibilmente come base per ottimizzare il sistema di IA e utilizzare il caso di test per verificare il successo dell'ottimizzazione.
Quando si costruisce un sistema di conoscenza (come uno dei tanti possibili sistemi di IA), esiste un trucco per aumentare significativamente la qualità dei risultati. Il cosiddetto approccio RAG porta solo a un successo limitato e al top. Di cosa si tratta sarà descritto in un articolo successivo,
Come possono essere eseguiti i casi di test?
Una volta impostati i casi di test, è necessario eseguirli. In termini concreti, ciò significa:
- L'"effettivo" definito da un caso di test viene presentato all'IA come input.
- L'intelligenza artificiale risponde.
- La risposta dell'IA viene confrontata con il "target" del caso di test.
I casi di test possono essere eseguiti automaticamente.
L'uomo deve solo visualizzare i risultati.
Esistono diverse opzioni per confrontare l'output dell'IA con l'optimum previsto dal caso di test:
- Analisi dell'intelligenza artificiale con confronto della similarità semantica
- Analisi dell'intelligenza artificiale tramite un modello linguistico (o più modelli!)
- Analisi convenzionale (esempio: "No" nel target e "Sì" nell'output dell'IA si contraddicono)
- Miscela di tutti i metodi (consigliato)
L'alternativa menzionata nel caso due di utilizzare diversi modelli linguistici contemporaneamente per analizzare i risultati dei test funziona molto bene con i modelli open source. I costi sono sempre gli stessi, cioè zero (più i costi operativi fissi per il server). Se si utilizzasse ChatGPT, i costi sarebbero piuttosto elevati a lungo termine.
Con questi metodi di analisi, i casi di test possono essere analizzati in gran parte automaticamente. L'uomo controlla poi il risultato e può scrivere una conclusione nella documentazione.
Conclusione
La funzionalità dei sistemi di IA può essere documentata con l'aiuto di casi di test e quindi resa trasparente. Naturalmente, la trasparenza comprende anche informazioni sull'architettura del sistema di IA. Questo può essere fatto facilmente se si gestisce l'IA in prima persona. Nel caso di sistemi di terze parti, come ChatGPT, è necessario fare affidamento sulle informazioni fornite dal fornitore (OpenAI o simili).
I casi di test possono essere utilizzati anche per verificare e migliorare la correttezza dei risultati dell'IA.
I casi di test presentano quindi diversi vantaggi e grandi benefici. Spesso vengono creati rapidamente. Con il supporto dell'intelligenza artificiale, i casi di test possono persino essere derivati automaticamente. Il creatore umano di casi di test riceve così un ottimo modello per i casi di test e può risolverli con una frazione dello sforzo manuale che sarebbe altrimenti necessario.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
