Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Intelligenza Artificiale: I benefici dei sistemi di intelligenza artificiale propri dell'azienda, con esempio pratico

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Articolo in formato PDF (solo per gli abbonati alla newsletter)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

I dati sono un prezioso materiale, soprattutto quando si tratta di segreti commerciali. Ma anche i dati riservati e personali non dovrebbero essere condivisi con terzi (come ChatGPT) per motivi legali. I propri sistemi di intelligenza artificiale offrono, oltre alla confidenzialità, il vantaggio della grande flessibilità e dell'adattamento preciso alle richieste specifiche. Un rapporto di pratica.

Introduzione

Il fatto che semplicemente è semplice, era un slogan di un operatore di telefonia mobile. Semplicemente il nuovo falso, si potrebbe dire spesso per applicazioni intensivamente dati. La protezione dei dati non interessa molti veramente. Quando si tratta di dati degli dipendenti, dati verificati contrattualmente come riservato, basi di brevetti o altri segreti commerciali, le aziende sono più sensibilizzate. Infine, nessuno vuole avere problemi legali. La voglia di portare il conoscenza interna dell'azienda nel mondo è probabilmente anche meno diffusa.

Intelligenza Artificiale: L'approccio giuridico verifica cosa è forse permesso e chiarisce i rischi. Il approccio tecnico fornisce sistemi dati amici e risolve molte questioni giuridiche da solo.

Agire in modo costruttivo al posto di discutere è una buona strategia, credo. Gli avvocati hanno sempre abbastanza da fare anche allora.

È semplice utilizzare ChatGPT, ma alcuni lo fanno in modo molto facile zulasten del beneficio. Da ciò si può già capire che pensare è più difficile che agire falsamente o in modo subottimale. Anche sforzi maggiori sono accettati se gli sforzi stessi sono abbastanza piccoli, ma spesso ripetuti. Meglio 100 volte un piccolo sforzo con un alto totale di sforzo che una volta un grande sforzo con un totale molto più basso.

Recentemente Zoom ha formulato nuove condizioni d'uso per la sua software di conferenze video. Con ciò, Zoom si riserva il diritto di utilizzare quasi a piacere i dati raccolti durante le conferenze video su Zoom. Inclusi sono anche la diffusione dei propri dati, compresi trascrizioni e l'utilizzo per l'apprendimento automatico ("allenamento di un'intelligenza artificiale"). Ciò non sarebbe accaduto con una soluzione amichevole ai dati da parte di un fornitore tedesco. Lo stesso valeva per il proprio sistema. Ora tutti gli utenti di Zoom potrebbero avere un problema.

Tutti gli utenti di Zoom hanno potenzialmente un problema perché preferiscono utilizzare sistemi gratuiti di terze parti invece di soluzioni più datenfreudliche.

Grazie a Zoom per l'aiuto decisionale.

Se non lo si fa più facile di così, almeno si utilizza la Interfaccia ChatGPT attraverso un proprio programma. Con ciò possono essere create molte applicazioni. ChatGPT porta con sé, oltre alle straordinarie capacità, diverse gravi problematiche:

  • ChatGPT è molto lento.
  • La maggior parte dei dati della AI ChatGPT sono irrilevanti per le applicazioni aziendali (carico ostruzionistico, favorisce le allucinazioni, rallenta il sistema, aumenta la vulnerabilità agli errori).
  • Tutti i dati finiscono a OpenAI e quindi a Microsoft.
  • Al momento di utilizzare ChatGPT i dati non sono sicuri (vedi l'ottimizzazione tardiva, mancanza di consenso, fuga di dati, politica delle aziende americane ecc.).
  • ChatGPT si basa su conoscenze generali obsolete.
  • ChatGPT non conosce i documenti della sua azienda e speriamo che non li conosca mai nemmeno.
  • ChatGPT costa denaro, e ciò dipende dal numero di pezzi di testo (Tokens) elaborati. Caricare un PDF più grande e analizzarlo vi farà già perdere qualcosa. Una programmazione sbagliata (infinite loop o ricorsione) può rovinare ogni budget in breve tempo.
  • ChatGPT non è facilmente estendibile.

Se le vostre risposte verranno utilizzate anche per il training del modello di intelligenza artificiale di un terzo o per la regolazione fine, non potrà più essere garantita la protezione dei dati e la confidenzialità. Un modello linguistico impara infatti non solo la grammatica e la struttura di una lingua, ma anche conoscenze. Le conseguenti carenze sono piuttosto fastidiose e contraddittorie che un problema giuridico. Ciò significa contemporaneamente che questi problemi non possono essere risolti con mezzi giuridici.

Intelligenza artificiale offline come soluzione per aziende e amministrazioni.

Ulteriori informazioni. ([1])

Lo stesso può essere detto per generatori di immagini come Dall-E o Midjourney. Molti di questi generatori si basano sull'approccio chiamato Stable Diffusion. Pressoché tutti i metodi rilevanti di questo tipo utilizzano il set di dati LAION. Questo ha utilizzato l'estrazione dei dati Common Crawl per trovare siti web che includono immagini con descrizione delle stesse. Common Crawl è a sua volta un grande estratto di quasi qualsiasi sito web. Se quindi uno dei suoi vostri immagini è finito nel set di dati delle immagini, non sarà nella forma originale. Piuttosto, il vostro logo aziendale (logo, immagine del prodotto ecc.) è stato incorporato in una struttura di archiviazione nei neuroni artificiali del set di dati AI di un terzo. Estrarre l'immagine da lì non è possibile. Invece dovrebbe essere ricomputato il modello AI. Se lo farà, è dubbio. Comunque sia, il training è una complessa e reattiva attività con la raccolta di dati impegnativa.

Sistemi di intelligenza artificiale propri dell'azienda

Tutti i problemi sopra menzionati sono risolti se il vostro azienda utilizza un e proprio sistema di intelligenza artificiale. Questo tipo di sistemi li chiamo sistemi di intelligenza artificiale locali o autarchici. Questi sistemi non richiedono una connessione internet e potrebbero stare nel miglior caso sotto il vostro tavolo da lavoro.

Questi vantaggi hanno sistemi di intelligenza artificiale propri dell'azienda:

  • Controllo dei dati completi: Decidono quali dati di addestramento o modelli di intelligenza artificiale preaddestrati vengono utilizzati.
  • Chiedete le vostre informazioni e non quelle trovate in internet: utilizzate i documenti e i media aziendali.
  • Alta velocità: In ogni caso, il vostro sistema sarà più veloce di ChatGPT se lo desiderate. Il numero dei vostri utenti sarà nettamente inferiore a quello delle popolari piattaforme di intelligenza artificiale. Inoltre potrete ridurre notevolmente la quantità di dati.
  • Qualsiasi adattabilità: Leggi di più in basso.
  • Grande varietà di applicazioni: Ricerca semantica, comprensione del testo, Assistenti domanda-risposta, Generatore di immagini, Trascrizione audio, e via dicendo.

Ecco un esempio di come funziona in pratica il sistema locale per la vostra azienda. L'esempio è stato testato su un server a basso costo e funziona, ma è ancora in fase di sviluppo e potrebbe avere una versione più completa alla fine. La mancata conclusione non è un problema importante e dipende solo dalla mia priorità.

Ricerca semantica per documenti aziendali

Cercate i vostri documenti, il Sistema di bigliettazione (ad esempio Jira), le vostre pagine Intranet e molto altro con un sistema intelligente. Fate diventare tutti i vostri documenti una base di conoscenza e riunite la vostra conoscenza aziendale in un cervello elettronico.

Per tipi di documenti standard come PDF si possono utilizzare facilmente routine di importazione senza che ci siano ulteriori costi per voi. La Adobe Cloud è in questo senso superflua. Tutto quello che può essere eseguito automaticamente nel vostro azienda comporta un'alta attualità e più tempo libero per tutti, tranne che per le macchine.

Una ricerca di intelligenza artificiale non è una motore di ricerca, ma una ricerca semantica. Le intelligenze artificiali sono molto bravi a cercare strutturalmente, semanticamente o forse anche in modo vago. Sono però cattive nel condurre ricerche precise, sebbene ciò sia in generale possibile. Ciò è del resto analogo all'uomo.

Per questo propongo un approccio a più fasi che il ChatGPT non può nemmeno affrontare:

  1. Optimizzazione: Riconoscimento di errori di scrittura o sinonimi cattivi nei termini di ricerca. In questo modo " CommonCrawl" diventa una proposta per un termine probabilmente voluto.
  2. Cerca con una motore di ricerca tradizionale. Ciò è soprattutto sensato quando si cerca " Common Crawl ". Una IA è così sotto-dimensionata per questo tipo di ricerca che fornisce risultati pessimi.
  3. Ricerca semantica: Questo tipo di ricerca si presta particolarmente bene per le domande formulate in lingua naturale. Un esempio: „Con l'aiuto dell'indirizzo IP di un server, è possibile determinare la sua ubicazione?
  4. Risposta a una domanda posta in proprie parole. Ad esempio, la mia AI risponde alla domanda numero 3 con: "In base all'indirizzo IP non è possibile determinare con sicurezza la posizione di un server, poiché la connessione tra l'indirizzo IP e il server può cambiare in qualsiasi momento. Ci sono però metodi per determinare la posizione di un server, ad esempio utilizzando la geolocalizzazione dell'IP o confrontando i metadati." La AI di Bing risponde invece falsamente con "Sì" e cita fonti che intendono giustificare la risposta errata.
  5. Transparenza: Poiché un'intelligenza artificiale può dare risposte completamente false, come dimostra la ricerca di Bing di Microsoft, la guida dell'utente dovrebbe essere adeguatamente configurata. Con ciò intendo non solo indicazioni, ma anche l'esibizione delle fonti che hanno condotto al risultato e altro ancora.

Per la ricerca in questo blog utilizzo da poco un server molto economico, che non ha nemmeno una scheda grafica capace di riconoscere l'intelligenza artificiale. Le schede grafiche potenti (GPUs con capacità CUDA) di Nvidia vengono usate per le applicazioni di intelligenza artificiale perché possono eseguire calcoli molto più veloci rispetto ai processori comuni (CPUs).

Se il mio server è attualmente disponibile, cliccando sui collegamenti menzionati nei punti 1 e 2 sopra citati, si ottengono risultati reali della mia ricerca. La ricerca semantica posso farla anch'io, ma non ho affittato un server che sia in rete; piuttosto mi servo del mio server AI (il secondo, diverso da quello cattivo sopra citato) per lavori di sviluppo.

I risultati seguenti sono quelli che la mia ricerca produce al primo livello se si sbaglia e ciò viene riconosciuto:

Cerca con errori di scrittura. È stato dimenticato uno spazio. (l'immagine è stata tradotta automaticamente).

Non c'è nulla di emozionante nel correggere un piccolo errore di scrittura. Tuttavia, la ricerca integrata da WordPress, che ha richiesto alcuni anni di sviluppo, non restituisce alcun risultato se il termine di ricerca non compare nei post del blog.

La mia ricerca riconosce alcuni errori di scrittura. A tale scopo è stato creato un Vocabolario dei termini che compare in (quasi) tutti i miei contributi. Solo questi termini sono "giusti" o adatti per una ricerca sui miei documenti. Come ottimizzazione, un termine di ricerca errato viene corretto e inserito nel campo di ricerca nella forma più probabile. Se WordPress non trova alcun risultato, viene fornito direttamente un risultato per il termine di ricerca corretto. Altrimenti viene data una risposta costruttiva con l'avviso "Mi scuso".

Se un termine di ricerca non contiene spazi vuoti, è ovviamente una domanda che una IA non potrebbe rispondere in modo competente. Quindi per questo caso non viene avviata una ricerca semantica, ma solo una normale ricerca.

Se il termine di ricerca è più lungo, potrebbe essere una domanda. Inizialmente vengono visualizzati i risultati della ricerca WordPress (se disponibili). Successivamente seguono i risultati della ricerca AI semantica. Ecco un esempio:

Risultato per una domanda complessa. (l'immagine è stata tradotta automaticamente).

Sembra incredibile che la ricerca classica abbia trovato un risultato. Ciò è probabilmente dovuto al fatto che la mia domanda viene spesso utilizzata per dimostrare le prestazioni della mia IA. Nella pagina dei risultati di ricerca è chiaramente indicato che il risultato proviene dalla ricerca classica e sono stati trovati 18 risultati dalla ricerca non precisa. La ricerca non precisa è una macchina di ricerca vettoriale su hardware minimale.

Esempio contrario a ciò è il risultato della ricerca su Bing:

Risposta errata su Bing, aggiornamento: 28.07.2023. (l'immagine è stata tradotta automaticamente).

Come si può vedere, Bing fornisce la risposta "Sì" alla domanda posta. La risposta è falsa perché le IP spesso non fanno riferimento a un server specifico e se lo facessero, questa assegnazione potrebbe essere diversa dopo una sola seconda.

WordPress non trova risultati per domande di ortografia come la seguente: "Sono i cookies dati personali?" La parola "cookies" è stata qui scritta erroneamente con solo un "o". Al contrario, si trovano risultati utilizzando la ricerca semantica su un modello linguistico:

La ricerca semantica trova anche risultati con errori di scrittura nella parola chiave principale. (l'immagine è stata tradotta automaticamente).

La ricerca di intelligenza artificiale è stata con questo risultato un successo. Ciò che qui non si capisce bene, perché ancora non programmato: la mia ricerca di intelligenza artificiale fornisce non solo un documento come risultato, ma può anche identificare la posizione del testo in cui è stato trovato. Poiché per la ricerca viene creato un indice sui documenti in modo tale che ogni documento venga suddiviso in piccoli pezzi. Questi pezzi possono essere cercati meglio di un lungo testo. Avrei quindi potuto mostrare nel risultato della ricerca il rilevante pezzo, invece di mostrare l'intero documento.

Il contributo trovato risponde alla domanda con grande precisione, come si può vedere dal seguente estratto del testo del contributo:

Estratto dal colpo che dà la risposta alla domanda posta. (l'immagine è stata tradotta automaticamente).

La prossima fase è quella di rispondere direttamente nel risultato della ricerca, e il meglio è farelo in modo astrattivo. Astrattivo significa dare una sintesi con nuove parole. Lo stesso fa anche l'uomo. Una sorta di pre-fase sarebbe la cosiddetta estrattiva sintesi, che assomiglia a un citazione.

Recentemente ho descritto un già realizzato Showcase per un assistente di domande e risposte per documenti aziendali. I dettagli si trovano nel post collegato.

Conclusione

Con un sistema di intelligenza artificiale interno all'azienda possono essere risolti numerosi casi d'applicazione. Tali sistemi sono amichevole con i dati. Essi consentono il pieno controllo sui flussi di dati.

L'esempio con la Ricerca di Documenti è solo uno dei molti casi d'uso. La logica di ricerca non è ancora completamente programmata, ma già mostra cosa si può fare. Esegue un processo su un server che puoi affittare per "un euro e mezzo" presso un fornitore tedesco, se non hai un tuo server disponibile. Le possibilità di adattamento alle esigenze individuali sono quasi infinite.

Chi vuole investire pochi centinaia al mese, ottiene un server AI piuttosto performante. Con questo si possono utilizzare anche modelli linguistici molto sviluppati in lingua tedesca. Ma è anche possibile generare a larga scala immagini. Invece di creare cinque volte un'immagine con DALL-E, fino a quando non si ottiene un buon risultato, lasciate semplicemente generare centinaia di immagini. La vostra AI impara poi a capire quali immagini vi piacciono e a eliminare in futuro i risultati scadenti.

Come per tutti i Cloud-Diensti, i sistemi di intelligenza artificiale terzi sono problematici non solo in termini di riservatezza, ma anche in termini di costi (Pay per use). Con sistemi locali, che appartengono alla vostra azienda, questi costi non esistono. Pagate solo il canone mensile per il vostro server, che può essere un affitto o le spese operative. Questi costi sono gestibili e attraenti per chiunque abbia realmente un beneficio da tali sistemi di intelligenza artificiale. Senza grandi benefici, comunque, l'utilizzo di ChatGPT non è veramente giustificato.

Se il rispetto della privacy e la confidenzialità non sono un problema, potete almeno pensare a utilizzare programmaticamente l'interfaccia di ChatGPT. La intelligenza artificiale rende comunque, in qualsiasi modo, economicamente risolvibili problemi che fino a poco tempo fa erano nemmeno risolvibili o lo erano con un grande sforzo.

Parliamo volentieri con voi se volete creare un sistema di intelligenza artificiale per il vostro azienda o utilizzare una connessione a un sistema di terze parti per ridurre le attività manuali. Utilizzando connessioni a sistemi di intelligenza artificiale di terze parti, almeno alcuni dei problemi relativi ai dati possono essere ridotti. Ad esempio, i dati personali possono essere automatizzati fino a un certo grado e modificati.

Messaggi chiave

È meglio utilizzare sistemi di intelligenza artificiale interni per proteggere i dati sensibili e avere maggiore controllo rispetto all'utilizzo di servizi esterni come ChatGPT.

ChatGPT e altri modelli di intelligenza artificiale online presentano rischi per la sicurezza dei dati e la privacy aziendale. È meglio utilizzare sistemi di intelligenza artificiale locali per mantenere il controllo sui dati e garantire la riservatezza.

Un sistema di intelligenza artificiale locale per le aziende è più veloce, personalizzabile e sicuro rispetto alle piattaforme online.

La ricerca AI può dare risposte sbagliate e non sempre è trasparente. È importante che le persone sappiano come funzionano queste tecnologie e che siano in grado di valutare le informazioni che forniscono.

Un sistema di intelligenza artificiale può essere usato per cercare informazioni in documenti in modo molto preciso e utile, anche se ci sono errori di ortografia.

Investire in un server AI permette di utilizzare modelli linguistici e generare immagini in modo efficiente e con un controllo maggiore sui dati.

Ulteriori informazioni

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Bullshit Basics: Il Google Tag Manager non è una domanda cookie-free: un esempio