AI giver enorme muligheder og rummer samtidig store risici. Af begge grunde skræmmer AI mange mennesker. De hævder derfor, at AI kun er baseret på statistik og ikke har noget med menneskelig intelligens at gøre. Det, de glemmer, er, at hele vores eksistens er baseret på statistik.
Den statistiske faktor for vores eksistens
Man læser ofte om språkmodeller, at disse LLMs kun bygger på at finde det næste sandsynlige ord til det sidst genererede ord og udgive det. Det bliver så gjort ord for ord. Og så kommer det ud, hvad andre tager for en intelligent skabt tekst. I stedet for ord bliver der i virkeligheden behandlet såkaldte token. Simplificeret sagt er token noget som ligner orddele eller lydelement. Token bruges til at opnå kompression og også til at kunne erfare længere eller sammensatte ord semantisk bedre.
Selv den Hamborgs databeskyttelsesrådgiver bruger dette argument til at sige, han er ikke ansvarlig for AI. Fordi AI ikke behandler persondata. Der kommer bare meget lidt godt ud af det. Det mangler blot grundlag, som man kan bevise. Følgende udtalelse kunne være nok til at imødegå dette:
Sprogmodeller forudsiger, hvad det næste ord sandsynligvis vil være. Det er ikke intelligent.
Sprogmodeller siger, at det næste ord pasende til den givne kontekst sandsynligvis vil følge. Det er intelligent.
Mange mennesker er ikke opmærksomme på den del, der står med fed skrift: den bliver normalt ikke nævnt.
Tysk grammatik
Mennesket kan også betegnes som en såkaldt Token-Papagei. Begrebet stammer fra nogen, med hvem forfatteren talte om tekniske detaljer vedrørende AI. Denne person mente, at sprogmodeller blot er Token-Papageier. De efterligner således det, de en gang først blev indtrænede på gennem træningsdata.
Warum er også en Token-Papagei er? Når vi taler om den tyske grammatik, så ser vi som modersmålssproget folk, at denne bygger på Sandsynligheder. Vi lærer, hvilke ord og begreber der passer sammen med andre ord og begreber. Dertil lærer vi sandsynligheder. Men vores hjerne gemmer det princip bag sproglæring så godt for os, at vi ikke bemærker, at grundprincippet bag grammatikken er meget enkelt. Kun siden opkomsten af Transformer-ansatzen i 2017, der er en meget vigtig grundlag for den nuværende AI, blev det muligt, at selv den naive datalog kan forstå det, hvis han vil.
Vi kan vente til den hellige dag med aldrig-aldrig …
Det er grammatisk korrekt, men ville en modersmålstalende sige det på den måde?
Når en udlandsk person ændrer en Idiom på grund af uvidenhed (eller et dårligt minde) og giver den tilbage i en anden, men grammatisk korrekt form, så erkender vi personen som udlandsk. Fordi vi har set den afvigende sandsynlighedsfordeling.
Radioaktivt henfald
Lad os starte med et citat fra Wikipedia, som enhver fysiker nok ville sige:
Henfaldstiden for hver enkelt atomkerne er tilfældig.
Kilde: Wikipedia
Det betyder: Når du observerer et partikel, ved du ikke, hvor længe dette partikel eksisterer. Eller anderledes: Du kan ikke vide, hvor længe dette partikel eksisterer. Du kan det ikke vide, fordi at vide ville være en overtrædelse af det anerkendte fysiske verdensbillede. Denne viden er derfor ikke mulig. Hvis du har interesse i mere, anbefaler jeg populærvidenskabelige bøger som Werner Heisenbergs eller Albert Einsteins.
Hvor lang tid tager det for et radioaktivt stof som uran at holde op med at stråle? Det spørgsmål kan man generelt ikke svare på, når man ser på en uranpartikel. For advokater: Dette spørgsmål kan ikke besvares, ikke engang "i princippet". Igen: Spørgsmålet om, hvornår et radioaktivt stof ikke længere er radioaktivt, kan ikke besvares, når man ser på en partikel.
Halveringstiden er tiden, efter hvilken radioaktiv stråling fra en stof (radioaktivt nuklid) halverer sig selv. Hvorledes beregner man denne tal? I hvert fald gælder: "Tidspunktet for omvandlingen af et enkelt atomkern kan ikke forudsagt blive…" (Kilde: Halveringstiden/Wikipedia). Halveringstiden udregnes som "statistisk middel" (sammenlignende kilde).
Radioaktiv dannelsesfald er en tilfældighed, der bygger på statistik.
Kvantefysik
Kvantefysikken blev kendt med Albert Einsteins opdagelse i år 1905. Han opdagede, at lys ikke kan forstås som en kontinuerlig stråle, men snarere som små pakker, de såkaldte kvanta. Dette her er ingen fysikforelæsning. For ikke at provokere for mange fysikere skal nævnes, at der findes en bølge-partikel-dualisme, der kan observeres ved lys. Dette fører til det såkaldte Dobbelt-spalte eksperiment, som sikkert er den bedste bevis for vores uheld i at forstå vores egen eksistens. ([1])
Laseren er for eksempel baseret på kvantefysikkens resultater. Selv GPS, som er grundlaget for navigationssystemet i din bil eller på din smartphone, ville ikke eksistere uden kvantefysik. GPS er til gengæld baseret på meget præcise atomure, som kun findes, fordi vi kan forstå deres princip med kvantefysikken.

Tunnel-effekten fra Flash-lagring bygger også på kvantefysik. I korthed: uden kvantefysik ville denne artikel ikke være skrevet på en computer, den ville ikke nå frem til jer over internettet via SSD-hårddisk, og selv om du har en (betalings- eller hurtig) computer, så er det heller ikke nødvendigt. Over et smartphone behøver vi slet ikke tale.
I den kvantefysik findes derimod tilfældige begivenheder, der er principielt usigeligt at forudsige – også dengang man har alle tilgængelige oplysninger om et kvantensystem.
Kilde: Quantenzufall, Fettdruck added. Andre kilder: Werner Heisenberg, Albert Einstein osv.
Det går så vidt, at der ikke kan være et perfekt vakuum. For det ville gå ud over Heisenbergs usikkerhedsrelation.
Hvis du vil vide mere: Werner Heisenberg, Niels Bohr, Richard Feynmann og Albert Einstein har skrevet forståelige bøger om emnet, som andre ikke har meget at tilføje.
Intelligens baseret på et neuralt netværk
Selvønskede kan intelligens afbildes på alle måder, men et neuralt net har vist sig at være særligt effektivt. Det bruges både i hovedet og i det kunstige AI-hoved.
Neurale netværk behandler kun tal, intet andet.

I alle dine neuroner lander alle signaler i form af analoge værdier, der manifestere sig som strøm og spænding. Aktionspotentialer i neuroner leder de elektriske signaler videre („usynlig behandling").

På et tidspunkt sker der et "output". Din mund bevæger sig, fordi de tilsvarende muskler har modtaget talkommandoen fra hjernen via rygmarven. Tallene er strømme og spændinger.
Analoge signaler kan konverteres til digitale signaler. En vis nøjagtighed går tabt i processen, fordi analoge signaler er kontinuerlige, og digitale signaler er diskrete. Kontinuerlig betyder for eksempel, at der er et vilkårligt antal tal mellem 0 og 1. Diskret betyder, at der kun er et begrænset antal tal mellem 0 og 1. Hvor mange tal det drejer sig om i det digitale system, afhænger af den anvendte nøjagtighed. Det er let at se, at det ikke er vigtigt, om der er et uendeligt antal tal mellem 0 og 1 eller "kun" 100.000 milliarder tal. Tabet af nøjagtighed ved konvertering fra analoge til digitale signaler er ubetydeligt. Analoge og digitale systemer kan derfor betragtes som ækvivalente i denne henseende, hvilket de nuværende AI-systemer beviser, som ofte er mennesker langt overlegne (med undtagelse af dig, selvfølgelig).
Alt er et tal
Sprogmodeller bygger på tokens. Tokens bliver til tal. Dertil bruger man en Ordbog. Det er så simpelt, at man egentlig ikke behøver at tale om det her. Her et uddrag fra det offentligt tilgængelige ordbog af GPT-2:

Det mærkelige "G" foran nogle tokens er en indikator for, at det pågældende token skal udgøre begyndelsen af et ord. Alle tokens uden denne indikator må ikke være i begyndelsen af et ord. GPT-2-ordbogen har 52.000 poster.
Alle open source-sprogmodeller har en ordbog af denne type, som du kan downloade og se som en tekstfil.
Hvad med Billeder? De kender Dall-E eller Midjourney. Førstedelen foregår således:
- Din tekst (prompt) bliver konverteret til tal og sendt ind i DALL-E AI-modellen.
- DALL-E behandler disse tal via et neuralt netværk, der kun regner med tal.
- Det endelige resultat er et tal. Disse tal fortolkes som pixels.
Et billedepunkt kaldes Pixel. Ved en RGB-farvekanal og en farvetæthed på 24 bit har et pixel 3 bytes: 1 byte til rød, 1 byte til grøn og 1 byte til blå. Hvert byte kan tage værdier mellem 0 og 255. Et pixel består af tre tal.
Og hvad med tale, dvs. lydsignaler? En MP3-fil eller din indspillede stemme består af vibrationer ("bølgeform"). Din hjerne behandler (sandsynligvis) to kanaler: Den ene kanal er det venstre øre, den anden er det højre øre. I hjemmebiografen kender du 5.1 eller lignende. De 5 står for de 4 hjørnehøjttalere og centerhøjttaleren. Tallet 1 står for bashøjttaleren. Lydsignaler kan derfor omdannes til tal, som dit stereoanlæg eller din mobiltelefon viser.
Alle andre signaler kan også omformes til tal. Ved Thermometer er det temperaturen som talværdi, ved Erdbeinsensor er det styrken af bebenet (ca. på Richterskalaen). Andre signaler er allerede digitalt. Tag for eksempel en Excel-tabel med omsætningstal.
Alle signaler kan omdannes til tal.
Kontrolkommandoer kan derimod udføres ved at sende tal til aktuatorer.
En aktuator, som f.eks. din mund eller din hånd, styres ved at sende tal til aktuatoren. Sådan er det bare. Hvor er den hemmelige ingrediens her? Der er ingen. At der også er kemiske processer involveret, er en detalje, som tilsyneladende ikke er nødvendig, og som skyldes de biologiske systemers natur. Hvis du ser anderledes på det, ville det være godt, hvis du kunne bidrage med et par argumenter.
Udtalelser om statistik
Meninger er ikke rigtige beviser. De bør kun nævnes her, så ingen tror, at forfatteren står alene med sin mening.
Andres meninger
Fra en 30-minutters samtale med en medarbejder fra DEEPL i november 2024 fremgik det: Medarbejderen er datalog og forstår teknisk funktion af sprogmodeller. Hans faglige fokus er på lingvistik, hvilket ikke er så overraskende med hensyn til DEEPL. Han samtykker med forfatteren i, at statistik også er grundlag for menneskelig intelligens. Han ser også, at robotter bliver mere magtfulde. At ikke hver eneste datalog har disse indsigt viser det ovennævnte eksempel med token-papagaiet (begrebet stammer fra en anden datalog, der måske endnu ikke har fundet sin udgangspunkt).
Prof. Dr. Maximilian Wanderwitz er professor i økonomisk ret og IT-ret. Han publicerer meget om emnet AI. Efter sin forelæsning den 26.11.2024 i Mainz blev han spurgt af forfatteren efter sin mening. Herr Wanderwitz bekræftede, at hans opfattelse også er, at statistik er et vigtigt element i menneskelig intelligens og at han ser det analogt til AI.
En T-Systems ansat, der i sin virksomhed er ansvarlig for digitale systemer, bekræftede dette den 26.11.2024 også: Han ser statistik som et element af menneskelig intelligens lige så meget som i kunstig intelligens.
Sam Altmann, medstifter af OpenAI ser den magi af AI så stor ud, at AI vil overgå mennesket i en uovertruffelig grad. "Overgå" her betyder "uovertruffeligt meget". At overgå intelligens med noget andet end intelligens selv synes svært forestillingsværdigt.
Definition af (kunstig) intelligens
Forfatteren foreslår (siden allerede 03.04.2024) følgende definition af Kunstig Intellighed:
Som Kunstig Intellighed betegnes et kunstigt system, der forsøger, at løse et problem også ved en uskarpe opgave på en ikke konkret angivet, lösningorienteret måde og til dette består af eksisterende med nytt viden kombineret og konklusioner trukket.
Definition af begrebet kunstig intelligens. Kilde: Klaus Meffert, dr-dsgvo.de
Du kan selv bestemme, hvad et kunstigt system er. Det er ikke vigtigt. EU's 27 medlemslande ser i gennemsnit forskelligt på det. Dette gennemsnit kaldes den demokratiske proces. EU ser en maskine som en forudsætning for AI. Denne begrænsning er unødvendig og arrogant. Det har også vist sig, at diesel kan være miljøvenligt. At udelukke dette på forhånd var unødvendigt og forkert.
Så hvad er intelligens? Det samme, bortset fra at intelligens ikke (nødvendigvis) er kunstig. Det giver os følgende definition:
Som Dåsehed betegnes et System, der forsøger, at løse et Problem også ved en uskarpe opgave på en ikke konkret angivet, lösungsorienteret måde og til dette består eksisterende med nyt Viden kombineret og Slutsatser trukket.
Definition af begrebet intelligens. Kilde: Klaus Meffert, dr-dsgvo.de
Definitionen af intelligens er identisk med definitionen af AI, med undtagelse af adjektivet "kunstig".
Dit syn på sagen
Mener du, at AI "kun" er baseret på statistik og derfor ikke er et intelligent system? Så ville det være rart at vide, hvilket princip, hvis ikke statistik, den menneskelige intelligens er baseret på. Din definition af AI eller intelligens vil med glæde blive taget i betragtning, hvis du har en anden end den, der er nævnt ovenfor, og finder den bedre. Desuden ville det være godt at vide, hvor argumentet er, når nogen siger: "AI er baseret på statistik". Korrekt, men hvor er pointen?
Konklusion
Statistik er grundlaget for vores eksistens. Den bedste teori, vi har, er nok kvanteteorien. Den beskriver vores virkelighed på en ekstremt præcis måde. Enhver, der tvivler på kvantefysikken, benægter sin egen eksistens.
Fordi simpelt er (for) simpelt?
Hovedårsagen til, at nogle antager, at statistik som mekanisme er for simpel til at skabe intelligens.
Fordi det enkle bare er enkelt. Vi er nødt til at give slip på antagelsen om, at utrolige mekanismer som det, vi kalder intelligens, skal være baseret på komplicerede principper. Det faktum, at et system ikke er kompliceret nok, er ikke et argument for, at det ikke kan være effektivt.
Intelligenz er i sin natur meget enkel. Den bygger (typisk) på et neuralt net, der behandler tal og lærer ved hjælp af eksempler. Eksempler er par af Er (indgang) og Skal (udgang), eller også blot "Er"-par (f.eks. tyske tekster), som anses for at være korrekte.
Det er rigtigt, at det tyske sprog (og mange andre sprog rundt om i verden) er baseret på statistik. Faktum er, at tekst kan konverteres til tal. Det samme gælder for billeder, tale og andre sensorværdier. Neurale netværk beregner altid kun med tal. Der er ingen tekst, ingen lyd og intet billede i din hjerne, kun tal.
Det er også rigtigt, at vi (og også I) lærer tysk sprog og grammatik ved hjælp af eksempler. Lige så meget som AI. Der bruges en mekanisme til dette, der hedder Opmærksomhed. I AI hedder den "Attention". Det er dog også muligt uden Attention, som viser aktuelle tekniske tilgange. Det er også ligegyldigt, hvordan intelligens opstår, fordi der ikke blot én vej til at nå et mål.
Hvordan et mål eller en intelligens opnås, er fuldstændig irrelevant (set over en længere periode).
Nogle tilgange er dog mere effektive end andre.
AI-systemer lærer som regel (stadig) af data fra mennesker. En vigtig kilde er internettet. Men robotter lærer som mennesker, hvis de har en AI-hjerne med sig. De kan lære af eksempler i deres erfarne miljø. Disse robotter findes allerede. Det er ikke teori, det er virkelighed. Husholdningsrobotter og andre robothjælpere i hverdagen vil snart kunne fås for flere tusinde euro.
Tanken om, at kunstig intelligens er noget kvalitativ anderledes end intelligens hos mennesket, fører udenom virkeligheden. Selv hvis AI er en meget god simulation af intelligens: Hvad gør det for en forskel?
Brug AI som en kapabel medarbejder i dit firma. Brugen af AI er meget varierende! AI fungerer bedst til specifikke anvendelsesfald.
Opdatering: Den europæiske sprogmodel Teuken
Svært at tro, men sandt. Den europæiske sprogmodel kaldet Teuken er netop blevet offentliggjort (26/11/2024).
Første tests er meget lovende. I et praktisk eksempel vises, hvad Teuken kan gøre. Derfor blev den første del af dette indlæg indført i Teuken-LLM og skulle sammenfattet blive. Opgaven var en sammenfattelse på 3 sætninger. Her er resultatet:
Sætning 1: Sprogmodeller som GPT-3 er baseret på at bestemme og udtale det mest sandsynlige ord for det tidligere genererede ord.sætning 2: Tokens er en måde at repræsentere længere ord eller sætninger på i en mere komprimeret form. De kan også repræsentere semantisk mere kompleks information.sætning 3: Argumentet om, at AI ikke behandler personlige data, er forkert og viser et grundlæggende forståelsesproblem for AI.sætning 4: Mennesker kan kaldes "token papegøjer", fordi de demonstrerer gentagelsen af, hvad de har lært i træningsdata.sætning 5: Tysk grammatik er baseret på sandsynligheder. Dette er intuitivt for mennesker og bruges ubevidst, når de lærer sprog.Sætning 6: Transformatortilgangen var et gennembrud inden for AI, der gjorde det muligt for selv ikke-eksperter at forstå det grundlæggende i sprogbehandling.Teksten forklarer forskellige aspekter af GPT-3-sprogmodellen og tysk grammatik.>>> det var 6 sætninger. jeg vil have et resumé i 3 sætningerSandt, her er den sammenfattede version:1. Sprogmodeller som GPT-3 bruger tokens i stedet for ord.2.Mennesker kan kaldes "token papegøjer", fordi de demonstrerer gentagelsen af det, de har lært i træningsdata.3.I første omgang leverede Teuken 6 sætninger i stedet for 3. Men disse 6 sætninger var meget gode. Anmodningen til Teuken om at levere et resumé i 3 sætninger blev derefter også opfyldt. Resultatet er imponerende, selv om der er en lille stavefejl.
Hvad der er slående: Teuken placerer "Sætning 1", "Sætning 2" osv. foran de genererede sætninger. Ifølge forfatterens observationer har andre AI-modeller ikke gjort dette hidtil.
Teuken-7B-instruct-commercial-v0.4 fra openGPT-X blev brugt. Heraf licensoplysningerne:
Lizenzangabe (Teuken reklame):
Copyright 2024 openGPT-X
Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License.
Nøglebudskaber i denne artikel
Sprogmodeller arbejder ikke bare ord for ord, men med såkaldte tokens. Det er mindre enheder af ord eller stavelser.
Mennesker kan også beskrives som symbolske papegøjer, fordi vi ligesom AI lærer og anvender sandsynlighedsbaserede sprogregler.
Radioaktivt henfald er en tilfældig proces, hvor halveringstiden beregnes som en statistisk middelværdi. Det er ikke muligt at forudsige, hvornår et individuelt atom vil henfalde.
Kvantefysik er en del af vores hverdag, f.eks. i lasere, GPS og flash-hukommelse.
Uden kvantefysik ville der hverken være computere eller internet.
I kvantefysikken er der uforudsigelige hændelser, og et perfekt vakuum kan ikke eksistere.
Intelligens kortlægges i AI-systemer ved hjælp af neurale netværk, der kun behandler tal.
Analoge signaler kan konverteres til digitale med et meget lille tab af nøjagtighed.
Alt er et tal: Sprogmodeller som GPT-2 bruger en ordbog med 52.000 poster til at oversætte tekst til tal. Billeder omdannes også til tal (pixels) af modeller som DALL-E. Lydsignaler og andre målte værdier kan også repræsenteres som tal. Aktuatorer (som f.eks. menneskelige lemmer) styres ved hjælp af tal.
Statistik er en vigtig del af både menneskelig intelligens og AI.
Konklusion i korte træk
AI er et system, der løser problemer og bearbejder ny information. Det lærer af eksempler og arbejder med tal. Det er det samme med menneskelig intelligens.
Statistik er vigtig for vores verden, og kvanteteorien beskriver det bedst. Intelligens er simpelthen struktureret: Den er baseret på neurale netværk, der behandler tal.
Kunstig intelligens er ikke anderledes end menneskelig intelligens i praksis – den kan være lige så nyttig. Virksomheder bør bruge AI til at blive mere effektive.
Om disse centrale udsagn


My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
