Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Konstgjord intelligens: Fördelarna med företagsägda kisystem, med praktexempel

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

Data är en värdefull råvara, särskilt när det gäller affärssekretess. Men även personuppgifter och förtroendeskapade data bör inte lämnas till tredje part (som ChatGPT) av juridiska skäl. Egna AI-system ger utöver sekretessen fördelen med stor flexibilitet och punktlig anpassning till specifika krav. En praktikrapport.

Inledning

Vi har en slogan från ett mobiloperatör som säger att det är enkelt. Men för datadrivna tillämpningar kan man ofta säga att det nya "enkla" är fel. Många intresserar sig inte särskilt för dataskydd. När det gäller anställdas uppgifter, som konfidentiella uppgifter enligt avtal, patentgrundlagen eller andra affärshemligheter, är företag mer medvetna. Till slut vill ingen ha rättsliga problem. Önskan att företagsintern kunskap ska spridas ut i världen är sannolikt inte så vanlig.

Konstig intelligens: Den rättsliga tillvägagångssätt undersöker vad som kan vara tillåtet och klarar risker. Den tekniska ansatsen ger datavänliga system och löser många rättsliga frågor själv.

Att konstruktivt agera snarare än att argumentera är en bra strategi, tycker jag. Advokater har också nog med att göra även då.

Det är enkelt att använda ChatGPT, men vissa gör det till sin nackdel. Det visar redan att eftertanke är svårare än falskt eller underoptimalt agerande. Även större ansträngningar accepteras om de bara är ganska små och upprepas ofta. Bättre 100 gånger en liten ansträngning med ett totalt högt sammanlagt arbete än 1 gång en mellersta stor ansträngning med ett totalt betydligt lägre sammanlagt arbete.

Nyligen hade Zoom som tillhandahållare av en programvara för videokonferenser utarbetat nya användningsvillkor. Med det har Zoom gett sig själv rätt att använda de data som erhållits i Zoom-videokonferenser på ett nästan obegränsat sätt. Inkluderad är också spridning av era data, inklusive transkriptioner och användning för maskinellt lärande ("träning av en AI"). Det hade inte hänt med en datadriven lösning från Tyskland. Eftersom det inte heller hade blivit ett problem med er egen system. Nu har alla Zoom-användare potentiellt ett problem.

Alla Zoom-användare har i princip ett problem, eftersom de föredrar att använda kostnadsfria tredjepartsprogram istället för datavänliga lösningar.

Tack till Zoom för hjälpen med att fatta beslutet.

Om man inte gör saken lättare än lätt, kan man i alla fall använda ChatGPT-gränsyta via ett eget program. Med det kan många tillämpningar skapas. ChatGPT bringar förutom fantastiska förmågor flera dödliga problem med sig:

  • ChatGPT is sehr langsam.
  • De flesta data från ChatGPT-roboten är ointressanta för företagsanvändning (hindrande ballast, främjar hallucinationer, försnabbar systemet, ökar felkänsligheten).
  • All data ends up at OpenAI and thus at Microsoft.
  • På ChatGPT är data inte säkra (se senare införd opt-out istället för samtycke, dataläcka, amerikansk företagspolitik etc.).
  • ChatGPT bygger på föråldrat allmänt kunnande.
  • ChatGPT känner inte till era företagsdokument och kommer aldrig att lära sig om dem heller.
  • ChatGPT kostar pengar, och det beroende på antalet bearbetade textbitar (tokens). Att läsa in ett större PDF och analysera det gör dig redan något fattigare. En felaktig programmering (infinite loop eller rekursion) förstör varje budget snabbt.
  • ChatGPT är inte fritt utbygglig.

Om dina inmatningar också används för Trainings av AI-modell hos en tredje part eller för justering, kan du inte längre garantera integritet och sekretess. Ett språkmodell lär sig nämligen inte bara grammatik och struktur i en språk, utan tar också på sig kunskap. De därpå följande bristerna är mer besvärande och kontraproduktiva än ett juridiskt problem. Det innebär samtidigt att dessa problem inte kan lösas genom lag.

Avsynningsbaserad intelligens som lösning för företag och myndigheter.

Ytterligare information. ([1])

Liknande kan sägas till Bildgeneratörer som Dall-E eller Midjourney. Många av dessa generatörer bygger på metoden kallad Stable Diffusion. Nästan alla relevanta procedurer i denna typ använder LAION-databasen. Den har använt sig av Common Crawl-datatillgången för att hitta webbsidor som innehåller bilder med bildbeskrivningar. Common Crawl är en enorm tillgång av nästan vilka webbsidor som helst. Om ett av era bilder hamnat i databasen, så inte i sin renaste form. Istället har er företagsbild (logotyp, produktbild osv.) landat i form av strukturerad lagring i de artificiella neuronnätverken hos en tredje parts AI-databas. Att få bort det där är nästan omöjligt. Istället skulle man behöva återberäkna hela AI-modellen. Om den som äger modellen kommer att göra det, är osäkert. Det är ju en enormt rekenintensiv uppgift med krävande datainsamling.

Eget företagsartificiell intelligenssystem

Alla de ovan nämnda problemen är ditt företags ansvar, om du använder ett eget AI-system. Denna typ av system kallar jag lokala AI-system eller autarka AI-system. Dessa system behöver ingen internetuppkoppling och skulle i bästa fall kunna stå under ditt skrivbord.

Dessa fördelar har in-house system för artificiell intelligens:

  • Fullständig datahantering: Du bestämmer vilka träningsdata eller förtränade AI-modeller som används.
  • Fråga er data och inte internetet: Matade era företagsdokument och media.
  • Hög hastighet: I alla fall kommer ditt system att vara snabbare än ChatGPT, om du vill. Antalet användare kommer att vara betydligt lägre än för populära AI-plattformar. Dessutom kan ni minska datamängden markant.
  • Oanpassningsfrihet: Mer om det nedan.
  • Stor bredd av tillämpningsfall: Semantisk sökning, Textförståelse, Fråga-svar-assistenten, [Bildgenererare], Ljudtranskription, och mycket mer.

Här ett exempel från praktiken, vad som är möjligt med ett lokalt system för ert företag. Exemplet kör på en Low Cost-server och fungerar. Det är dock fortfarande i utveckling och kan i slutändan se mycket mer ut än vad det gör idag. Den avslutade färdigställningen har inget stort samband med min prioritering.

Semantisk sökning för företagsdokument

Genomgå alla dina dokument, Biljettsystem (t.ex Jira), din intranät och mycket mer med ett intelligent system. Gör en kunskapsbas av alla dina dokument och förena allt ditt företagskunskap i ett elektroniskt hjärta.

För standarddokumenttyper som PDF kan man lätt använda importrutiner utan att det medför några ytterligare kostnader för er. Adobe Cloud behövs i alla fall inte i detta avseende. Allt som kan automatiseras inom ert företag leder till hög aktualitet och mer fritid för dem som inte är maskiner.

En AI-sökning är inte en sökmotor, utan en semantisk sökning. AI-system är mycket bra på att söka strukturerat, semantiskt eller kanske också vagt. De är dock dåliga på att utföra exakta sökningar, även om det i princip är möjligt. Det är faktiskt analogt till människor.

Därför föreslår jag en flerstegsansats som ChatGPT inte kan uppnå:

  1. Optimering: Identifiera skrivfel eller dåliga synonymer i sökordet. Så blir "CommonCrawl" ett förslag till en sannolikt avsett term.
  2. Sök med en vanlig sökmotor. Detta är främst meningsfullt när du letar efter „Common Crawl“. En AI är så underutvecklad vid denna typ av sökning att den ger dåliga resultat.
  3. Semantisk sökning: Denna typ av sökning är särskilt lämplig för frågor som ställs på naturliga språket. Ett exempel: „Kan med hjälp av en servers IP-adress lokaliseras?
  4. Utmatning av en svar på en fråga i egna ord. Till exempel svarar min AI till frågan under punkt 3 med: "Med hjälp av IP-adressen kan man inte pålitligt bestämma var en server befinner sig, eftersom anslutningen mellan IP-adressen och servern kan ändras när som helst. Det finns dock metoder för att bestämma var en server befinner sig, till exempel genom att använda IP-geolokalisering eller jämföra med metadata." Bing-AI svarar istället felaktigt med "Yes" och nämner källor som vill styrka den falska svaret.
  5. Öppenhet: Eftersom en AI kan ge ut falska svar, som Microsofts Bing-sökning visar, bör användargränsen vara anpassad. Med det menar jag inte bara tips, utan också att ange källorna som ledde till resultatet och lite mer.

För att söka i den här bloggen använder jag sedan en tid tillbaka en mycket billig server, som inte ens har en grafikkort med kraft för att kunna köra AI-program. Kraftfulla grafikkort (CUDA-förmögna GPUs) från Nvidia används för AI-användningar eftersom de kan utföra beräkningar snabbare än vanliga processorer (CPUs).

Om min server är tillgänglig just nu ger ett klick på länkarna i punkterna 1 och 2 verkliga resultat från min sökning. Semantisk sökning kan jag också göra, men då har jag inte hyrt in en server som finns på internet. Istället används den hyrda AI-servern (server nummer två, vilken är bättre än den tidigare dåliga servern) för utvecklingsarbete.

Följande resultat slår ut vid en första nivå om ni misslyckas och det upptäcks:

Sök med skrivfel. Ett mellanslag är glömt. (bilden översattes automatiskt).

Det är ingenting spännande med att korrigera en liten skrivfel. Men redan WordPress inbyggda sökning, som har ett antal års utvecklingsarbete bakom sig, ger ingen träff när sökordet inte finns i blogginläggen.

Min sökning upptäcker några skrivfel. Till detta har ett Vokabulär av termer byggts upp, som förekommer i (nästan) alla mina inlägg. Endast dessa termer är "rätt" respektive lämpliga för en sökning över mina dokument. Som optimering korrigeras ett felaktigt sökbegrepp och skrivs in i sökrutan i den sannolikt rätta formen. Om WordPress inte hittar något resultat, ges direkt ett resultat för det korrigera sökordet. Annars ges en konstruktiv återkoppling med "Tänkte du på" -meddelandet.

Om en sökterm inte innehåller något mellanslag är det uppenbart ingen fråga som en kI skulle kunna svara på kompetent. Därför startas här heller inget semantiskt sök, utan bara en normal sökning.

Om sökordet är långare, kan det vara en fråga. Först visas resultaten från WordPress-sökningen (om de finns). Därefter följer resultaten från semantisk AI-sökning. Här ett exempel:

Resultat för en komplex fråga. (bilden översattes automatiskt).

Det är förvånande att den klassiska sökningen hittar ett träff. Detta beror sannolikt på att frågan jag ställer ofta används för att visa upp min AI:s prestationer. I resultatet visas transparent att träffen kommer från den traditionella sökningen och 18 träffar från den osära sökningen. Den osära sökningen är en vektorbaserad sökmotor som kör på minimal hårdvara.

Som ett motexempel här är resultatet från en sökning på Bing:

Felaktig svar i Bing, senast uppdaterad den 28.07.2023. (bilden översattes automatiskt).

Som syns är Bing svarar "yes" på frågan. Svaret är felaktigt eftersom IP-adresser ofta inte hänvisar till en specifik server och om de gör det kan denna koppling se ut annorlunda efter en sekund.

WordPress hittar inte någon träff på skrivfel-frågor som till exempel "Är Cokies personuppgifter?" där ordet "Cookies" har skrivits med endast ett "o". Istället hittas träffen via semantisk sökning över ett språkmodell:

Semantisk sökning hittar träffar även vid skrivfel i huvudsökordet. (bilden översattes automatiskt).

Artificiell intelligens-sökningen är med denna träff lyckad. Vad som inte blir tydligt, eftersom det ännu inte är färdigutvecklat: Min artificiell intelligens-sökning levererar inte bara ett dokument som träff, utan kan också ange platsen i texten ungefär exakt. För att söka efter detta skapas en index över dokumentet på så sätt att varje dokument delas upp i handfasta bitar. Dessa bitar är lättare att söka igenom än ett långt textstycke. Jag hade alltså kunnat visa det relevanta bitalet i sökresultatet istället för hela dokumentet.

Den hittade artikeln svarar på frågan mycket exakt, som ett utdrag ur artikeln visar:

Utdrag från frågan som ger svar på den ställda frågan. (bilden översattes automatiskt).

Nästa steg är att ge svaret direkt i sökresultatet, och det är bäst om man gör det abstraktivt. Abstraktiv betyder att en sammanfattning ges på nya ord. Människor gör också så. En förlöpande steg skulle vara den s.k. extraktiva sammanfattningen, som liknar ett citat.

Nyligen har jag beskrivit en redan genomförd Showcase för en fråga-svar-assistent för företagsägda dokument. Mer information hittar du i den länkade artikeln.

Sammandrag

Med ett internsystem för kognitivitet kan många användningsfall lösas. Sådana system är datadriven. De tillåter full kontroll över datatrafik.

Exemplet med Dokumentensökning är bara ett av många användningsfall. Sökalgoritmen är ännu inte fullständigt implementerad, men den visar redan vad som är möjligt. Den körs på en server som man kan hyra för "ett äpple och ett ägg" hos en tysk leverantör, om ingen egen server finns tillgänglig. Anpassningsmöjligheterna till individuella behov är nästan obegränsade.

Om du vill investera ett par hundra i månaden får du en riktigt kapabel AI-server. Då kan du använda utvecklade språkmodeller även på svenska. Du kan också massproducerat generera bilder. Istället för att fem gånger skapa ett bild med DALL-E, tills resultatet är bra, låt dig bara hundra bilder genereras. Din AI lär sig då vilka bilder du tycker om och sorterar ut dåliga resultat i framtiden.

Som med alla Cloud-Dienster är AI-tredjepartsystem inte bara problematiskt vad gäller sekretessen, utan också vad gäller kostnaderna (Pay per use). Med lokala system, som tillhör ert företag, finns det inga sådana kostnader. Ni betalar bara månadshyran för er server, som antingen består av en hyreskostnad eller driftskostnad. Dessa kostnader är överskådliga och attraktiva för alla som verkligen har nytta av sådana AI-system. Utan större nytta är det inte heller särskilt meningsfullt att använda ChatGPT.

Om integritet och sekretess inte är ett problem kan du åtminstone tänka på att använda ChatGPT-gränsen programmatiskt. Artificiell intelligens löser i alla fall, oavsett hur, ekonomiska problem som tidigare var svåra eller omöjliga att lösa.

Tala med mig gärna om ni vill ha ett eget AI-system för ert företag eller använda en gränssnitt till ett tredjepartsystem för att minska manuella arbeten. Vid användning av gränssnitt till AI-system från tredje part kan åtminstone några av dataproblemen minskas. Till exempel kan personuppgifter automatiskt på viss nivå anonymiseras.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Konstgjord intelligens: verk av upphovsmän och deras skydd