DeepSeek är främst det kraftfulla språkmodellen R1, som utvecklats av ett kinesiskt företag. Det är en öppen källkodsmodell som ses som en konkurrent till ChatGPT och utmärker sig genom effektiva träningsmetoder och 'Mixture of Experts'-metoden.

Hur skiljer sig DeepSeek-appen från de öppen källkodade modellerna?

DeepSeek-appen (Cloud-versionen) är känd som osäker och en risk för dataskälighet. Till skillnad därav erbjuder DeepSeek:s öppen källkodsmallar fullständig dataskälighet eftersom de kan köras lokalt och inte kräver någon dataöverföring.

Vad är en Mixture-of-Experts (MoE)-arkitektur?

MoE-modeller som DeepSeek använder en arkitektur där endast utvalda delar av det neurala nätverket – de så kallade experterna – aktiveras för varje input. Detta möjliggör en effektiv bearbetning och minskar den beräkningsmässiga belastningen jämfört med traditionella modeller.

Vilka fördelar erbjuder öppen källkod-AI-modeller som DeepSeek?

Öppen källkodade modeller som DeepSeek kan köras på prisvärd hårdvara, vilket möjliggör en lokal implementering. Detta förbättrar resultatkvaliteten och sparar kostnader, särskilt vid intensiv användning och undviker beroendet av molntjänster.

Vilken roll har IT Klub Mainz vid utvecklingen och användningen av DeepSeek?

IT-klub erbjuds AI-rådgivning, skräddarsydda lösningar för intelligenta AI-assistenter och vidareutbildningar för att stödja och främja användningen av Open Source AI-modeller som DeepSeek.

DeepSeek: AI-revolutionen från Kina också som en säker variant

DeepSeek är både osäkert (molnapplikationen) och mycket säkert (open source-modellen). I detta fokusdokument om DeepSeek, som har tagits fram av AI-expertgruppen inom IT Klub Mainz & Rheinhessen, tittar vi närmare på bakgrunden till DeepSeek, appen och de olika DeepSeek-modellerna. Först och främst: varje företag kan uppnå mer med AI med öppen källkod än med ChatGPT.

Vad är DeepSeek?

Med "DeepSeek" avses främst det Exceptionell språkmodell namnet R1 som publicerats av en kinesisk firma med samma namn, DeepSeek. AI-språkmodeller kallas också för LLMs, vilket står för "Large Language Model".

Det som är möjligt med en DeepSeek-modell med öppen källkod är i princip också möjligt med kraftfulla modeller med öppen källkod från andra leverantörer (även från Europa).

Med hjälp av R1 har DeepSeek lyckats skapa ett språkmodell som är lika bra som "ChatGPT". DeepSeek har väckt upprördhet, eftersom deras app på grund av kvaliteten hos R1 bröt alla rekord inom kort tid och fick maximal uppmärksamhet.

Vad är det som gör DeepSeek så speciellt?

På grund av många utmärkande egenskaper har DeepSeek AI-Marknaden rört upp. Den DeepSeek-appen blev snabbt den mest nedladdade appen. Några av anledningarna till framgången:

Hög intelligensfaktor

DeepSeeks modeller kan ha ett mycket stort antal neuroner samtidigt som de bara kräver en bråkdel av dem per uppgift. DeepSeek har också uppfunnit sofistikerade träningsmetoder.

Effektivare utbildnings- och svarsbeteende

Genom selektiv aktivering av experter minskar sig Beräkningsinsats betydligt i jämförelse med modeller vars neurala nät alltid är fullt aktiviserat.

Lägre kostnader

Genom den selektiva modellarkitekturen är Kostnaderna för driften betydligt lägre än vid modeller som ChatGPT från OpenAI.

Öppen källkod och säker

Varje kan bli "OpenAI": DeepSeek-modellerna är fritt tillgängliga och kan lokalt drivas. Den lokala versionen fungerar utan någon dataöverföring. Följande grafik illustrerar detta:

Bilden visar grundprincipen för en modell med öppen källkod. Den kan helt enkelt laddas ner som en fil och skickar inga data någonstans. Bilden har skapats med AI-stöd. (bilden översattes automatiskt).

AI-modeller med öppen källkod kan implanteras i AI-system genom att man helt enkelt laddar ner en fil. Modellen skickar inte någon data någonstans. Som en analogi kan du föreställa dig en textfil som inte kan kommunicera med någon eller något.

Recept för framgång publicerat

Till råga på allt har DeepSeek avslöjat hur vem som helst kan skapa sin egen AI-modell för att konkurrera med ChatGPT.

Vad betyder "DeepSeek"?

Termen "DeepSeek" används ofta som en synonym för olika termer som har olika innebörd:

Term	Meaning	Properties
DeepSeek	Chinese company	“AI recipe” given away, startup?, strokes of genius
DeepSeek R1	Powerful language model	Open source, highly powerful, best data security
DeepSeek App	Application for smartphones	No data security, vaporized the stock market, based on R1
Student models	Smart LLMs with compact size	Open source, best data security, R1 was the teacher

Ist DeepSeek sicher?

App för smartphones (molnversion)

DeepSeek-appen anses vara extremt osäker. Den bör i allmänhet inte användas, inte ens för rent privata ändamål.

Open-Source Varianten

DeepSeeks modeller med öppen källkod, inklusive de praktiska destillatmodellerna, kan laddas ner och användas helt lokalt/autonomt på din egen hårdvara. Som ett resultat erbjuder de fullständig datasäkerhet. Dataöverföring till tredje part kan uteslutas. Detta innebär att DeepSeeks AI-modeller är säkrare i open source-versionen än molnlösningar som de från OpenAI eller Microsoft.

Lagrad kunskap

En enorm mängd världskunskap lagras i varje AI-modell via träningsdata. DeepSeek, ett kinesiskt företag, förvrängde vissa fakta av politiska skäl och lagrade dem på ett tvivelaktigt sätt i flaggskeppsmodellen R1 som erbjuds. Det finns nu modeller som har korrigerat detta.

När det gäller AI-applikationer som söker efter företagskunskap gynnas företagskunskapen i allmänhet i utbredda processer som RAG och det kinesiska imperativet undertrycks och görs ofarligt.

What bedeutet „Mixture of Experts“?

Mixture of Experts" (MoE) är en arkitektur för neurala nätverk där flera specialiserade undernätverk ("experter") existerar parallellt, medan en routing-mekanism ("gatekeeper") avgör vilka experter som ska aktiveras för den aktuella uppgiften.

Transformatormetoden

Transformer är en allmänt använd AI-metod för "intelligenta" modeller. I konventionella Transformer-modeller används alla parametrar i modellen för varje fråga. MoE-modeller delar däremot upp sin kapacitet i flera specialiserade undernät, som vart och ett är optimerat för specifika typer av indata eller uppgifter.

Optimerad arkitektur

När en MoE-modell tar emot en input använder den först en router (även kallad "gating network"). Routern avgör vilken av de tillgängliga experterna som är bäst lämpad för den specifika uppgiften. Vanligtvis aktiveras bara en eller två experter per token, medan de övriga förblir inaktiva.

Andra MoE-modeller

DeepSeek uppfann inte MoE-metoden (men den gav upphov till andra innovationer). Till exempel tillhandahöll det franska företaget Mistral en modell med denna arkitektur i slutet av 2023.

Hur är DeepSeek R1 uppbyggt?

DeepSeek-modellerna bearbetar indata genom att endast aktivera ett fåtal delar av den elektroniska hjärnan – de så kallade experterna – beroende på vilken fråga som ställs.

Schematisk bild av en Mixture-of-Experts-arkitektur. Routern tilldelar ingångar
till motsvarande experter. Diagrammet genererades med AI-stöd. (bilden översattes automatiskt).

Denna arkitektur erbjuder flera betydande fördelar jämfört med konventionella modeller med en tät struktur och förklarar varför MoE-modeller som DeepSeek-MoE kan vara mycket kraftfulla med relativt liten datorinsats. Principen kan jämföras med den mänskliga hjärnan: när man talar används främst talcentret och andra delar är knappt eller inte alls aktiva.

Viktiga komponenter i en MoE-modell

MoE-modeller som DeepSeek R1 använder sig av följande innovationer:

Router-nätverk: Bestämmer vilka AI-experter som ska aktiveras för vilken del av inmatningen (token).
Expertnätverk: Specialiserade neuronnätverk som varje gång är tränat på specifika uppgifter.
Expertviktningar: De vikter som routern beräknar, som bestämmer hur stor inverkan varje expert har på slutresultatet.
Viktade Summa: Kombinera utgifterna från olika experter baserat på de vikter som routern tilldelat.

Sammanfattat

AI-modeller med öppen källkod blir allt bättre och mer effektiva.
Modeller som DeepSeek R1 kan drivas med prisvärd hårdvara.
Lokala implementeringar förbättrar kvaliteten på resultaten och sparar kostnader när de används mer intensivt.
DeepSeek-appen (Cloud) ska inte användas under några omständigheter.
Instruktionerna för att skapa "ChatGPT 2.0" är allmänt tillgängliga och fria att använda.
Modeller med öppen källkod skapar oberoende av molntjänster och appar från tredje part.

Om IT-Klubbens expertgrupp för AI

IT-Klubben kan visa upp koncentrerad IT-kompetens. AI-expertgruppen ger stöd med praktiska erbjudanden och rekommendationer om tekniska och juridiska aspekter. Fokus ligger på skräddarsydda lösningar för intelligenta AI-assistenter och riktad vidareutbildning.

Om IT-klubben

IT Klub Mainz & Rheinhessen grundades med målet att representera branschen för företag i regionen. Som ett nätverk erbjuder IT Klub sina medlemmar kunskapsöverföring, vidareutbildning, främjande av unga talanger och platsmarknadsföring.

Fokusdokument DeepSeek som PDF

Randnotiz

Den här artikeln skapades med hjälp av AI som ett utdrag ur PDF-filen (men inte bara med AI).

Textutdraget för det här inlägget, som bara sökmotorer kan se, kallas för ett "utdrag". Det skapades också med hjälp av AI.

Bilden till artikeln genererades med AI. De två diagrammen har också genererats med AI-stöd.

Den PDF som finns att ladda ner var, med undantag för innehållet, även den skapad med hjälp av AI:

Även denna mini-illustration "AI-assisterad skapelse" har skapats med AI. Det börjar sakta bli tråkigt (men på ett positivt sätt!) …

Den som pratar om AI och erbjuder AI-konsulting och AI-lösningar bör också använda AI själv. Det är precis vad som händer här. Fler exempel följer i kommande artiklar, t.ex. AI-assistenternas mycket effektiva generering av programkod (AI-programmering).

DeepSeek: AI-revolutionen från Kina också som en säker variant

Vad är DeepSeek?