Hvad er de primære fordele ved at bruge egne KI-systemer sammenlignet med platforme som ChatGPT?

Egenbyggede KI-systemer giver fuld datakontrol, hvilket sikrer sikkerhed og privatliv. Derudover er de ofte hurtigere og mere effektive, da de er skræddersyet til virksomhedens specifikke behov.

Hvilke risici er der ved at bruge tredjeparts AI-platforme?

Brug af tredjepartsleverandører indebærer risici som datatab, manglende kontrol med dataene og potentielt upassende eller forældede oplysninger. Desuden kan følsomme forretningsdata hos disse leverandører være usikre og blive brugt til træningsformål.

Hvordan adskiller egenbyggede KI-systemers hastighed og effektivitet sig fra eksterne løsninger?

Egenbyggede KI-systemer er typisk hurtigere og mere effektive, da de ikke er begrænset af spændvidden af eksterne platforme, og data kan behandles direkte på stedet. Dette fører til en hurtigere responstid og lavere latenstid.

Hvordan fungerer semantisk søgning i denne systems kontekst?

Semantisk søgning forstår betydningen bag søgeordene og leverer svar i egne ord i stedet for blot at finde tilsvarende resultater. Den bruger et ordforråd af almindeligt forekommende termer til at rette stavefejl og levere relevante resultater.

Hvilke forskelle er der mellem semantisk søgning og søgning via en traditionel søgemaskine?

Semantisk søgning er mindre følsom over for stavefejl og forstår spørgsmålet, mens en traditionel søgning kun leder efter nøjagtige matches. Semantisk søgning retter fejl og leverer derfor mere præcise svar, mens en traditionel søgning ofte fejler, når søgeordet ikke forekommer nøjagtigt.

Hvilke fordele er der ved at have et eget AI-system for en virksomhed?

Et eget KI-system giver fuld kontrol over dataflow, reducerer afhængigheden af eksterne platforme og giver dermed mere fleksibilitet og sikkerhed for følsomme forretningsdata.

Hvordan kan AI hjælpe virksomheder med datahåndtering?

KI-systemer kan effektiv finde og udnytte informationer i virksomheds dokumenter via semantisk søgning, hvilket optimerer manuelle processer og fremskynder informationsindsamlingen.

Kunstig intelligens: Fordele ved at have egen AI-systemer i virksomheden, med praksis eksempel

Data er en værdifuld ressource, især når det handler om forretningshemmeligheder. Men også fortrolige og personlige data skal ikke udleveres til tredje part (som ChatGPT) på grund af lovgivning. Egen AI-systemer tilbyder både den fordel af fortrolighed samt en stor fleksibilitet og præcise justering efter konkrete krav. En praksisrapport.

Indledning

Vi har en slogan fra en mobiltelefonoperatør: "Simpel er simpel". Men simpel er ikke altid rigtigt, når det gælder datadrevne anvendelser. Mange mennesker interesserer sig ikke rigtig omkring privatlivets fred. Når det handler om medarbejderdata, som er fortrolige data ifølge aftale, patentgrundlag eller andre erhvervssekretesse, så bliver virksomheder mere bevidste. Efter alt ønsker ingen at få retslige problemer. Den ønske om at udlevere virksomhedens interne viden til verden udenfor er sandsynligvis ikke meget udbredt.

Kunstig intelligens: Den juridiske tilgang undersøger, hvad der muligvis er tilladt og afgør risikoen. Den tekniske tilgang leverer datavenlige systemer og løser mange juridiske spørgsmål selv.
At konstruktivt handle i stedet for at argumentere er en god strategi, synes jeg. Advokater har også selv da nok at gøre.

Det er nemt at bruge ChatGPT. Nogle gør det meget let, til skade for nytten. Derved kan man allerede se, at eftertanke er sværere end falsk eller suboptimal adfærd. Så meget som større anstrengelser bliver taget i betragtning, hvis de kun er små nok og ofte opstår. Man foretrækker 100 gange en lille anstrengelse med en samlet højere samlet indsats end 1 gang en middels stor anstrengelse med en samlet meget lavere samlet indsats.

Nyligt har Zoom som leverandør af software til videokonferencer udformet nye brugsvilkår. Derved giver Zoom sig selv retten til at bruge alle data, der er blevet modtaget i Zoom-videokonferencer, næsten uden begrænsning. Det inkluderer også udbredelse af dine data, herunder transkription og brug for maskinelt læring („træning af en AI“). Dette ville ikke være sket med en datadriven løsning fra Tyskland. Lige så lidt ville det være blevet et problem med dit eget system. Nu har alle Zoom-brugere potentielt et problem.

Alle Zoom-brugere har potentieligt et problem, fordi de foretrækker at bruge fiktivt gratis tredjeparts-systemer fremfor datavenlige løsninger.
Tak til Zoom for hjælpen ved at træffe en beslutning.

Hvis man ikke gør det lettere end let, kan man i hvert fald bruge ChatGPT-Grænseflade via et eget program. Derved kan mange anvendelser oprettes. ChatGPT bringer ved sine fantastiske evner flere usundt problemer med sig:

ChatGPT er meget langsommeligt.
De fleste data fra ChatGPT-AIer uheldigt for virksomhedsapplikationer (hindrende ballast, fremmer hallucinationer, forlænger systemet, øger fejlanfældighed).
Alle data lander hos OpenAI og dermed hos Microsoft.
Til ChatGPT er data ikke sikre (se senere indføjet opt-out – i stedet for samtykke, datalæk, amerikansk firmaer politik osv.).
ChatGPT bygger på forældede allmene kendsgerninger.
ChatGPT kender ikke dine virksomhedsdokumenter og vil håbevis også aldrig blive bekendt med dem.
ChatGPT koster penge, og det afhænger af antallet af behandlet tekststykke (tokens). Et større PDF indlæst og analyseret, gør dig allerede noget fattigere. En forkert programmering (endeløs løkke eller rekursion) gør hverken et budget i kort tid til intet.
ChatGPT er ikke til at udvide på en hvilken som helst måde.

Hvis dine indgivelser også bruges til Trainings af AI-modellen hos en tredje part eller til Feinjustering, kan du ikke længere være sikker på, at dine personlige oplysninger og privatliv bliver beskyttet. Et sprogmodel lærer nemlig ikke kun grammatikken og struktur af et sprog, men også noget vedrørende det. De ulemper, der følger hermed, er snarere til at være irriterende og kontraproduktive end en juridisk sag. Det betyder samtidig, at disse problemer ikke kan løses gennem retslige midler.

Offline-AI som løsning for virksomheder og myndigheder.
Yderligere oplysninger. ([1])

Det samme kan sagtens til Billedegeneratorer som Dall-E eller Midjourney. Mange af disse generatoreer bygger på den tilgang kaldet Stable Diffusion. Næsten alle relevante metoder i denne type bruger LAION-databasen. Denne har brugt Common Crawl-datatilførsel til at finde hjemmesider, der indeholder billeder med beskrivelse af billederne. Common Crawl er en gigantisk tilførsel af næsten hvilke hjemmesider som helst. Hvis et af jeres billeder har landet i billedsamlingen, så ikke rent og skræddersyet. I stedet er jeres virksomhedsbillede (logo, produktbillede osv.) blevet lagret i en struktureret form i de kunstige neuroner af AI-databasen til et andet firma. At få billedet ud igen er næsten umuligt. I stedet ville det være nødvendigt at genkalibrere hele AI-modellen. Hvis ejeren af modellen vil gøre dette, er der dog tvivl om. Det er en meget rekenintensiv opgave med krævende dataindsamling.

Egen AI-teknologi til virksomheder

Alle ovennævnte problemer er væk, hvis dit firma bruger eget AI-system. Denne type af systemer kalder jeg lokale AI-systemer eller autarkiske AI-systemer. Disse systemer har ikke brug for en internetforbindelse og kunne i bedste fald stå under din skrivebord.

Dette har fordele ved egen systemer af kunstig intelligens:

Full data control: Iagtægge, hvilke træningsdata eller forudtrænede AI-modeller, der anvendes.
Spørg efter din egen data og ikke internets data: Spis dine virksomhedsdokumenter og -medier.
Høj hastighed: I hvert fald vil dit system være hurtigere end ChatGPT, hvis det er noget du ønsker. Antallet af brugere på jeres platform vil være betydeligt lavere end de tilsvarende tal for populære AI-platforme. Desuden kan I reducere datamængden markant.
Enhver tilpasningsevne: Læs mere nedenfor.
Store bredde af anvendelsesfald: Semantisk søgning, tekstforståelse, spørgsmål-til-svar-assistenten, Billeddannelse, lydkladdtranskription, og meget mere.

Her et eksempel fra praksissen, hvad der kan gøres med et lokalt system for dit firma. Eksemplet kører på en Low Cost-server og fungerer. Det er dog stadig i udvikling og vil være meget mere end nu tilfældet når det er færdigt. Den udfordring, der skal overkommes før det er færdigt, har ikke så meget med min prioritering at gøre.

Semantisk søgning af virksomhedsdokumenter

Gennemse dine dokumenter, dit Billetsystem (f.eks Jira), dine intranetsider og meget mere med et intelligent system. Omsæt alle dine dokumenter til en kendsgerningsdatabase og foren din virksomhedsviden i et elektronisk hoved.

For standarddokumenttyper som PDF kan man let bruge importruter, hvorved der ikke opstår nogen ekstra omkostninger for jer. Adobe Cloud er i dette punkt overflødigt. Alt hvad der kan udføres automatisk i jeres virksomhed, medfører en høj aktuelighed og mere fritid til alle, der ikke er maskiner.

En AI-søgning er ikke en søgemaskine, men en semantisk søgning. Kunstig intelligens er meget god til at søge struktureret, semantisk eller måske også uscharp, de er dog dårlige til at udføre præcise søgeresultater, selv om det i teorien er muligt. Det er overlagt analogt til mennesker.

Derfor foreslår jeg en flergående tilgang, som ChatGPT slet ikke kan leve op til:

Optimering: At genkende skrivefejl eller dårlige synonymer i søgeordene. Så bliver „CommonCrawl“ til en forespørgsel om et sandsynligvis menet ord.
Søg med en traditionel søgemaskine. Dette er især meningsfuldt, hvis du søger efter „Common Crawl“. En AI bliver så underudfordret ved denne slags søgning, at den leverer dårlige resultater.
Semantisk søgning: Denne type søgning egner sig særligt godt til spørgsmål, der stilles på naturlig måde. Et eksempel: „Kan med hjælp af en servers IP-adresse dennes placering fastslås?
Udlevering af en svar på en stillet spørgsmål i eget ordvalg. Til spørgsmålet under punkt 3 svarer min AI f.eks. med: „Med hjælp af IP-adressen kan man ikke pålideligt fastslå, hvor et server er placeret, da forbindelsen mellem IP-adressen og serveren kan ændre sig i det hele taget. Der findes dog metoder til at fastslå, hvor en server er placeret, fx ved brug af IP-geolokalisering eller sammenligning af metadata.“. Bing's AI svarer imidlertid forkert med „Yes“ og nævner kilder, der vil begrunde den forkerte svar.
Gennemsigtighed: Da en AI i hvert fald kan give forkerte svar, som Microsofts Bing-søgning viser, bør brugerfladen være tilrettelagt på den måde. Hermed mener jeg ikke kun advarsler, men også udlevering af kilderne, der førte til resultatet og meget mere.

Til søgning i denne blog bruger jeg siden kort tid siden en meget gunstig server, der ikke engang har en grafikkort med kI-færdighed. Levestrømsfærdige grafikker (CUDA-færdige GPUs) fra Nvidia anvendes til kI-anvendelser, fordi de kan udføre beregninger mange gange hurtigere end almindelige procesorer (CPUs).

Så længe min server er tilgængelig, giver en klik på henvisningerne i punkt 1 og 2 reelle resultater af min søgning. Semantisk søgning kan jeg også gøre, men jeg har ikke lejet en server, der står på internettet. I stedet bruger jeg den lejede AI-server (server nummer to, forskellig fra ovennævnte dårlige server) til udviklingsarbejde.

Følgende resultater udstøder min søgning på niveau ét ud, hvis du gør en fejl og det bliver opdaget:

Søg med skrivefejl. Et mellemrum er blevet glemt. (billedet blev automatisk oversat).

Det er ikke noget spændende i at korrigere en lille skrivefejl. Men selv WordPress' egen søgning, der har haft flere år med udviklingsarbejde bag sig, finder ingen træffer, hvis søgeordet ikke forekommer i blogindlæggene.

Min søgning genkender nogle skrivefejl. Til dette er opbygget en Vokabular af Termer der forekommer i (næsten) alle mine bidrag. Kun disse termer er "rigtige" eller egnet til en søgning over mine dokumenter. Som optimering bliver en fejlagtig søgeord korrektet og indskrevet i søgerfeltet. Hvis WordPress ikke finder nogen træffer, bliver der direkte vist et resultat for det korrigerede søgeord. I ellers tilfælde bliver med "Mente De" besked givet en konstruktiv feedback.

Hvis en søgeord ikke indeholder mellemrum, er det åbenbart ingen spørgsmål, som en AI kunne besvare kompetent. Så starter man heller ikke en semantisk søgning, men en helt normale søgning.

Hvis søgeordet er længere, kunne det være en spørgsmål. Først vises søgeresultaterne fra WordPress (hvis de findes). Derefter følger søgeresultaterne fra den semantiske AI-søgning. Her et eksempel:

Resultat for en kompleks spørgsmål. (billedet blev automatisk oversat).

Det er bemærkelsesværdigt, at den klassiske søgning finder en match. Dette skyldes dog nok blot, fordi spørgsmålet ofte bruges til at vise min AI's evne. I søgeresultatet vises åbenbart, at en match kommer fra den traditionelle søgning og 18 matches fra den uskarpe søgning er fundet. Den uskarpe søgning er en vektor-søgemaskine på minimal hardware.

Som modbevis her er resultatet fra en søgning i Bing:

Forkert svar i Bing, opdateret til: 28.07.2023. (billedet blev automatisk oversat).

Som man kan se, giver Bing svaret "Yes" på spørgsmålet. Svaret er forkert, for IP-adresser viser ikke altid til en bestemt server og hvis de gør det, så kan denne tilknytning se ud forskelligt et øjeblik senere.

WordPress finder ingen match på skrivefejl-forsøg som denne: "Er Cokies personlige data?" Her er ordet "Cookies" blevet forkert skrevet med kun ét "o". Modellen finder dog en match ved hjælp af semantisk søgning over et sprogmodel:

Semantisk søgning finder også træffere ved skrivefejl i hovedsøgeord. (billedet blev automatisk oversat).

Den AI-søgning er med dette hit succesfuld. Det her bliver ikke tydeligt, fordi det endnu ikke er færdigprogrammeret: Min AI-søgning leverer ikke kun et dokument som hit, men kan også navngive fundstedet i teksten halvvejs præcist. Fordi søgningen skaber en indeks over dokumenterne på en sådan måde, at hvert dokument bliver delt op i håndlige stykker. Disse stykker kan bedre gennemgås end en lang tekst. Jeg kunne derfor have vist det relevante stykke i søgeresultatet frem for hele dokumentet.

Den fundne artikel svarer meget præcist på spørgsmålet, som følger af følgende uddrag fra artiklen:

Ekstrakt fra det, der rammer, og giver svar på spørgsmålet. (billedet blev automatisk oversat).

Den næste trin er at svar direkt i søgeresultatet udgives, og det bedst af alle abstraktivt. Abstraktiv betyder, at en sammenfattelse gives på nye ord. Det gør mennesket også. En fortrinsvis trin ville være den såkaldte extraktive sammenfattelse, der ligner et citat.

Nyligt har jeg beskrevet en allerede udført Showcase for en spørgsmål-til-svar-assistent til egen dokumenter fra virksomheder. Læs mere om det i den linkede artikel.

Konklusion

Med et intern AI-system kan mange anvendelsesfald løses. Sådanne systemer er Databarnevenlig. De tillader fuldstændig kontrol over datastrømme.

Eksemplet med den Dokumentensøgning er kun ét af mange anvendelsesfald. Søge-logikken er endnu ikke fuldt udprogrammeret, men viser allerede hvad der kan gøres. Den kører på en server, som man kan leje for et "æble og en ægge" hos en tysk leverandør, hvis ingen egen server er til rådighed. Anpasningsmulighederne til individuelle behov er næsten uendelige.

Hvis du ønsker at investere en håndfuld hundrede kroner om måneden, får du en ret levestende AI-server. Derved kan du bruge meget udviklede sprogmodeller også på dansk. Men det er også muligt at massevis af billeder genereres. I stedet for at lave fem billeder med DALL-E og så til sidst få et godt resultat, lad bare hundrede billeder genereres. Din AI lærer så selv, hvilke billeder du synes om og sorter derefter fremtidige dårlige resultater ud.

Som ved alle Cloud-Dienster er AI-tredjesystemer ikke kun problematiske med hensyn til privatlivet, men også hvad angår omkostningerne (Pay per use). Ved lokale systemer, der tilhører dit firma, findes disse omkostninger ikke. I betaler blot den månedlige pris for din server, som enten består af en lejepris eller driftskostnader. Disse omkostninger er overskuelige og attraktive for enhver, der virkelig har nytte af sådanne AI-systemer. Uden større nytte er det heller ikke rigtig værd at anvende ChatGPT.

Hvis beskyttelse af personlige oplysninger og fortrolighed ikke er et problem, kan du i det mindste overveje at bruge ChatGPT's interface programmagtigt. Kunstig intelligens gør i hvert fald problemer økonomisk løselige, uanset hvordan de forekommer, som før var umulige eller kun kunne løses med betydelig indsats.

Tal med mig, hvis du ønsker at oprette et eget AI-system til din virksomhed eller bruge en interface fra et tredjeparts system for at reducere manuel arbejde. Ved brug af interfaces til AI-systemer fra tredje part kan mindst nogle af dataproblemerne reduceres. Eksempelvis kan personlige data automatisk til en vis grad ændres.