DeepSeek: Rewolucja AI z Chin również jako bezpieczny wariant

DeepSeek jest zarówno niezabezpieczony (aplikacja w chmurze), jak i bardzo bezpieczny (model open source). Niniejszy dokument poświęcony DeepSeek, który wyłonił się z grupy ekspertów AI z IT Klub Mainz & Rheinhessen, przedstawia tło DeepSeek, aplikację i różne modele DeepSeek. Po pierwsze: każda firma może osiągnąć więcej dzięki sztucznej inteligencji open source niż dzięki ChatGPT.

Czym jest DeepSeek?

Z "DeepSeek" jest głównie mowa o niesamowitym modelu językowym R1, który został opublikowany przez chińską firmę o nazwie „DeepSeek”. Modeli języka komputerowego nazywa się również LLMs, co jest skrótem od "Large Language Model".

To, co jest możliwe dzięki modelowi open source DeepSeek, jest zasadniczo możliwe również dzięki potężnym modelom open source innych dostawców (również z Europy).

Z pomocą R1 DeepSeek udało się stworzyć model językowy, który jest tak dobry jak „ChatGPT”. DeepSeek zrobił na swoim miejscu poruszenie, ponieważ ich aplikacja ze względu na jakość R1 w krótkim czasie przebiła wszystkie rekordy i uzyskała maksymalną uwagę.

Co sprawia, że DeepSeek jest tak wyjątkowy?

W wyniku licznych wybitnych cech DeepSeek poruszył rynek AI. Aplikacja DeepSeek została w krótkim czasie najczęściej pobieraną aplikacją. Niektóre z powodów sukcesu:

Wysoki współczynnik inteligencji

Modele DeepSeek mogą mieć bardzo dużą liczbę neuronów, jednocześnie wymagając tylko ułamka z nich na zadanie. DeepSeek opracował również zaawansowane metody szkolenia.

Bardziej efektywne szkolenie i reagowanie

Poprzez selektywną aktywację ekspertów zmniejsza się znacznie koszt obliczeniowy w porównaniu z modelami, których sieć neuronowa jest zawsze pełniowo aktywowana.

Niższe koszty

Poprzez selektywną architekturę modelu koszty eksploatacji są znacznie niższe niż w przypadku modeli takich jak ChatGPT od OpenAI.

Otwarte i bezpieczne oprogramowanie

Każdy może zostać "OpenAI": Modele DeepSeek są dostępne bezpłatnie i mogą być uruchamiane lokalnie. Wersja lokalna nie wymaga żadnego transferu danych. Poniższy wykres ilustruje to:

Obrazek przedstawia podstawową zasadę działania modelu open source. Można go po prostu pobrać jako plik i nie wysyła nigdzie żadnych danych. Obraz został stworzony przy wsparciu AI. (obraz został przetłumaczony automatycznie).

Modele AI o otwartym kodzie źródłowym można wszczepić do systemów AI, po prostu pobierając plik. Model nie wysyła nigdzie żadnych danych. Jako analogię, wyobraźmy sobie plik tekstowy, który nie może komunikować się z nikim ani z niczym.

Przepis na sukces opublikowany

Co więcej, DeepSeek ujawnił, w jaki sposób każdy może stworzyć własny model sztucznej inteligencji, aby konkurować z ChatGPT.

Co oznacza termin "DeepSeek"?

Termin "DeepSeek" jest często używany jako synonim różnych terminów, które mają różne znaczenia:

Term	Meaning	Properties
DeepSeek	Chinese company	“AI recipe” given away, startup?, strokes of genius
DeepSeek R1	Powerful language model	Open source, highly powerful, best data security
DeepSeek App	Application for smartphones	No data security, vaporized the stock market, based on R1
Student models	Smart LLMs with compact size	Open source, best data security, R1 was the teacher

Czy DeepSeek jest bezpieczny w użyciu?

Aplikacja na smartfony (wersja w chmurze)

Aplikacja DeepSeek jest uważana za wyjątkowo niebezpieczną. Zasadniczo nie powinna być używana, nawet do celów czysto prywatnych.

Warianty open source

Modele open-source DeepSeek, w tym poręczne modele destylatów, można pobrać i obsługiwać całkowicie lokalnie/autonomicznie na własnym sprzęcie. W rezultacie oferują one pełne bezpieczeństwo danych. Transfer danych do stron trzecich jest wykluczony. Oznacza to, że modele AI DeepSeek są bezpieczniejsze w wersji open source niż rozwiązania chmurowe, takie jak te od OpenAI lub Microsoft.

Przechowywana wiedza

Ogromna ilość wiedzy o świecie jest przechowywana w każdym modelu sztucznej inteligencji za pośrednictwem danych treningowych. DeepSeek, chińska firma, zniekształciła niektóre fakty z powodów politycznych i przechowywała je w wątpliwy sposób we flagowym modelu R1 w ofercie. Obecnie istnieją modele, które to poprawiły.

W przypadku aplikacji AI, które sprawdzają wiedzę firmy, wiedza firmy jest generalnie faworyzowana w szeroko rozpowszechnionych procesach, takich jak RAG, a chiński imperatyw jest tłumiony i nieszkodliwy.

What bedeutet „Mixture of Experts“?

Mixture of Experts" (MoE) to architektura sieci neuronowych, w której kilka wyspecjalizowanych podsieci ("ekspertów") istnieje równolegle, podczas gdy mechanizm routingu ("strażnik") decyduje, którzy eksperci powinni zostać aktywowani do bieżącego zadania.

Podejście transformatorowe

Transformer jest szeroko stosowanym podejściem AI dla "inteligentnych" modeli. W konwencjonalnych modelach Transformer wszystkie parametry modelu są używane dla każdego zapytania. Z drugiej strony modele MoE dzielą swoje możliwości na kilka wyspecjalizowanych podsieci, z których każda jest zoptymalizowana pod kątem określonych typów danych wejściowych lub zadań.

Zoptymalizowana architektura

Gdy model MoE otrzymuje dane wejściowe, najpierw korzysta z routera (znanego również jako "sieć bramkowania"). Router decyduje, którzy z dostępnych ekspertów najlepiej nadają się do tego konkretnego zadania. Zazwyczaj tylko jeden lub dwóch ekspertów na token jest aktywowanych, podczas gdy pozostali pozostają nieaktywni.

Inne modele MoE

DeepSeek nie wynalazł podejścia MoE (ale wprowadził inne innowacje). Na przykład francuska firma Mistral dostarczyła model o tej architekturze pod koniec 2023 roku.

Jaka jest struktura DeepSeek R1?

Modele DeepSeek przetwarzają dane wejściowe, aktywując tylko kilka części elektronicznego mózgu – tak zwanych ekspertów – w zależności od zadawanego pytania.

Schematyczna reprezentacja architektury Mixture-of-Experts. Router przypisuje dane wejściowe
do odpowiednich ekspertów. Schemat został wygenerowany przy wsparciu sztucznej inteligencji. (obraz został przetłumaczony automatycznie).

Architektura ta oferuje kilka znaczących zalet w porównaniu z konwencjonalnymi modelami o gęstej strukturze i wyjaśnia, dlaczego modele MoE, takie jak DeepSeek-MoE, mogą być bardzo wydajne przy stosunkowo niewielkim wysiłku obliczeniowym. Zasada jest porównywalna z ludzkim mózgiem: podczas mówienia centrum mowy jest używane głównie, a inne części są prawie wcale lub wcale nie są aktywne.

Ważne elementy modelu MoE

Modele MoE, takie jak DeepSeek R1, wykorzystują następujące innowacje:

Sieć routerów: Określa, które eksperci AI będą aktywowani dla którego części wprowadzonej informacji (Token).
Ekspertowe sieci: Specjalizowane sieci neuronowe, które są odpowiednio trenowane do określonych zadań.
Ekspertowe wagę: Wagi obliczone przez router, które określają, jak mocno każdy ekspert przyczynia się do ostatecznego wyniku.
Średnia ważona: Złącz wydatki różnych ekspertów na podstawie przydzielonych przez router wag.

Podsumowanie

Modele AI typu open source stają się coraz lepsze i wydajniejsze.
Modele takie jak DeepSeek R1 mogą być obsługiwane na niedrogim sprzęcie.
Lokalne implementacje poprawiają jakość wyników i oszczędzają koszty, gdy są używane bardziej intensywnie.
Aplikacja DeepSeek (Cloud) nie powinna być używana w żadnych okolicznościach.
Instrukcje tworzenia "ChatGPT 2.0" są publicznie dostępne i darmowe.
Modele open source zapewniają niezależność od usług w chmurze i aplikacji innych firm.

O grupie ekspertów ds. sztucznej inteligencji Klubu IT

Klub IT może wykazać się skoncentrowaną wiedzą informatyczną. Grupa ekspertów AI zapewnia wsparcie w postaci praktycznych ofert i zaleceń dotyczących aspektów technicznych i prawnych. Koncentruje się na niestandardowych rozwiązaniach dla inteligentnych asystentów AI i ukierunkowanych dalszych szkoleniach.

O klubie IT

IT Klub Mainz & Rheinhessen został założony w celu reprezentowania branży dla firm w regionie. Jako sieć, IT Klub oferuje swoim członkom transfer wiedzy, dalsze szkolenia, promocję młodych talentów i marketing lokalizacji.

Focus Paper DeepSeek jako PDF

Randnotiz

Ten artykuł został stworzony przy pomocy AI jako wyciąg z PDF (ale nie tylko przy pomocy AI).

Fragment tekstu tego postu, który mogą zobaczyć tylko wyszukiwarki, nazywany jest "fragmentem". Został on również stworzony przy pomocy sztucznej inteligencji.

Obraz do artykułu został wygenerowany przy użyciu sztucznej inteligencji. Dwa diagramy zostały również wygenerowane przy wsparciu sztucznej inteligencji.

Plik PDF do pobrania został, z wyjątkiem treści, ponownie stworzony przy pomocy sztucznej inteligencji:

Obraz został przetłumaczony automatycznie.

Ta mini-ilustracja "AI-assisted creation" również została wygenerowana za pomocą AI. To powoli staje się nudne (ale w pozytywny sposób!) …

Każdy, kto mówi o sztucznej inteligencji i oferuje doradztwo w zakresie sztucznej inteligencji oraz rozwiązania AI, powinien również sam korzystać z AI. Tak właśnie dzieje się w tym przypadku. W kolejnych artykułach pojawią się dalsze przykłady, takie jak wysoce wydajne generowanie kodu programu przez asystentów AI (programowanie AI).

Jetzt testen

DeepSeek: Rewolucja AI z Chin również jako bezpieczny wariant

Czym jest DeepSeek?