#MixtureOfExperts

AI Daily Postaidailypost
2026-02-12

MiniMax's new M2.5 model slashes costs to 1/20 of Claude Opus while handling 30% of HQ tasks. Built on a Mixture‑of‑Experts sparse architecture, it delivers strong code‑generation and LLM performance—all open‑source. Discover how this AI agent could boost productivity in your projects.

🔗 aidailypost.com/news/minimaxs-

Rohan Paul (@rohanpaul_ai)

Ant Open Source가 LLaDA2.1 Flash를 공개했습니다. 100B 파라미터 규모의 언어 diffusion MoE(혼합 전문가) 모델로, 최대 892 토큰/초의 추론 속도를 기록해 Qwen3-30B-A3B보다 2.5배 빠른 성능을 냈다고 보고되었습니다. 높은 실시간 추론 성능을 강조한 릴리스입니다.

x.com/rohanpaul_ai/status/2021

#llm #inferencespeed #mixtureofexperts #antopensource #modelperformance

Winbuzzerwinbuzzer
2026-02-04
2026-01-30

MoLE (Mixture of Lookup Experts) hứa hẹn giúp chạy mô hình lớn trên máy本地 bằng cách dồn tải vào SSD với tốc độ cao. Dù vậy, việc huấn luyện MoLE tốn kém và công ty khó áp dụng ngay. Đề xuất: tinh chỉnh mô hình đã huấn luyện sẵn (pre-trained) thành MoLE để tận dụng lợi thế lưu trữ và hiệu năng. Cần nghiên cứu cách giảm số expert mỗi token mà vẫn giữ chất lượng. Thử nghiệm trên model nhỏ như Qwen3 30B trước. #MoLE #LocalLLM #AI #FineTuning #MixtureOfExperts #AIResearch #MoLE #LLM #FineTuning #AIRe

2026-01-29

GLM-4.7 Flash, 358억 파라미터를 32억으로 압축한 개발자용 오픈소스 AI

Zhipu AI의 GLM-4.7 Flash는 358억 파라미터 중 32억만 활성화하는 MoE 구조로 고성능과 저비용을 동시에 달성한 오픈소스 코딩 AI입니다.

aisparkup.com/posts/8657

Aritra (@ariG23498)

Hugging Face 블로그의 MoE(충실히 Mixture of Experts 관련) 게시물 링크를 언급하는 트윗으로, 저자에 @osanseviero가 포함되어 있으면 내용이 좋다는 추천성 발언입니다. Hugging Face의 MoE 관련 기술·해설 포스트를 가리키는 간단한 지지·소개성 언급입니다.

x.com/ariG23498/status/2010934

#moe #huggingface #mixtureofexperts #nlp

AI Daily Postaidailypost
2026-01-09

Blackwell Ultra promises a major AI speed boost, while Nvidia’s Vera Rubin platform aims to slash token costs for LLM inference with Mixture‑of‑Experts. Both moves could reshape large‑model deployment. Curious how this will affect your workloads? Read the full breakdown.

🔗 aidailypost.com/news/blackwell

AI Daily Postaidailypost
2025-12-15

Nvidia just unveiled Nemotron 3, its new Mamba-Transformer LLM built for massive token throughput and Mixture-of-Experts scaling. Early adopters like Accenture, Oracle Cloud Infrastructure and Zoom are already testing agentic-AI capabilities. Curious how this could reshape open-source AI? Read on!

🔗 aidailypost.com/news/nvidia-la

2025-12-04

Nvidia unveils an AI server running mixture-of-experts models up to 1,000x faster with 72 high-speed GPUs. As AI shifts to real-time, large-scale deployment, competitors like AMD and Chinese AI firms challenge its lead. Nvidia aims to stay ahead in hardware, scalability, and operational efficiency.

#Nvidia #AIHardware #MixtureOfExperts #GPUs #HighPerformanceComputing

Read Full Article:- techi.com/nvidia-boost-moonsho

2025-12-04

Nvidia vừa ra mắt máy chủ thế hệ mới, tăng hiệu suất mô hình AI của Trung Quốc lên tới 10× nhờ công nghệ Mixture‑of‑Experts và 72 chip tiên tiến. 🚀💡 #Nvidia #AI #CôngNghệ #TrungQuốc #MachineLearning #MixtureOfExperts #Server #TechNews #CôngNghệAI

vtcnews.vn/cong-nghe-4-12-nvid

2025-12-04

Discover how NVIDIA's Blackwell NVL72 powers top AI models like Kimi K2 Thinking 10x faster

The top 10 most intelligent open-source models, including Kimi K2 Thinking and DeepSeek-R1, utilize a mixture-of-experts (MoE) architecture, which mimics the human brain's efficiency. These models achieve a 10x speed increase when run on NVIDIA's GB200 NVL72, specifically the Blackwell NVL72. The MoE architecture is a key...

AI Daily Postaidailypost
2025-12-03

New benchmarks show Mixture‑of‑Experts models on NVIDIA’s Blackwell NVL72 run up to 10× faster than on Hopper GPUs. The GB200 architecture and DeepSeek‑V3 optimizations push open‑source AI research forward. Dive into the details and see how this leap could reshape training pipelines.

🔗 aidailypost.com/news/mixtureof

2025-11-17

Kimi K2: Open-Source Mixture-of-Experts AI Model Released

techlife.blog/posts/kimi-k2-op

#LLM #OpenSource #MixtureofExperts #Kimi

2025-11-08

Dlaczego Siri z Gemini to niekoniecznie dobra wiadomość dla Polaków? Oto jak to ma działać

Ostatnie doniesienia Bloomberga o tym, że Apple jest o krok od podpisania umowy z Google na zasilenie Siri modelem Gemini, wywołały nad Wisłą falę entuzjazmu. W serca polskich użytkowników Apple wstąpiła nadzieja: „Skoro Gemini tak świetnie mówi po polsku, to jest niemal pewne, że w końcu dostaniemy Siri w naszym języku!”.

Jestem tu, by wylać na te rozgrzane głowy kubeł bardzo zimnej wody. Uważam, że ten sojusz to, paradoksalnie, niemal gwarancja, że na polską Siri poczekamy jeszcze dłużej. Oto dlaczego.

Piekło niespójnego doświadczenia

Moja argumentacja jest prosta i opiera się na jednej rzeczy, którą Apple ceni bardziej niż innowacyjność, pieniądze i (teraz już widać) prywatność: obsesyjną dbałość o spójne doświadczenie użytkownika (UX).

Musimy zrozumieć, że nowa Siri nie będzie po prostu „nakładką” Gemini na iOS czy iPadOS. Nie będzie to również Gemini wbudowany w najgłębsze rdzenie ekosystemu Apple’a, na to gigant z Cupertino nigdy nie pójdzie. Nowa Siri z Gemini będzie rozwiązaniem hybrydowym.

Mózg „cloud” (Gemini): zaawansowany model Gemini, spersonalizowany i wytrenowany na potrzeby Apple, uruchamiany na serwerach Apple Private Cloud Compute, będzie odpowiadał za całą „magię” generatywnej AI: konwersacje, odpowiadanie na złożone pytania, rozumienie kontekstu, pisanie e-maili i streszczanie artykułów.

Mózg „core” (Apple): absolutny rdzeń asystenta – czyli głęboka integracja systemowa – pozostanie w 100% w rękach Apple. Ustawianie timerów, włączanie trybu skupienia, otwieranie aplikacji, sterowanie HomeKit, dodawanie przypomnień. Tego Apple nie odda nikomu.

I tu jest pies pogrzebany. Ten „core” od Apple nie mówi i nie rozumie po polsku.

Wyobraźmy sobie teraz ten „idealny” scenariusz, na który liczą Polacy. Apple włącza polski w Gemini, ale „core” pozostaje po angielsku. Doświadczenie użytkownika wyglądałoby tak:

Użytkownik: „Cześć Siri, opowiedz mi o historii dynastii Jagiellonów”.Siri (głosem Gemini, po polsku): „Oczywiście. Dynastia Jagiellonów panowała w Polsce w latach...” (piękna, płynna odpowiedź).Użytkownik: „Dzięki. A teraz ustaw minutnik na 10 minut”.Siri (głosem Apple Core, po angielsku): „Sorry, I didn't get that. Can you please repeat?”

To jest scenariusz rodem z koszmaru projektanta UX w Cupertino. To jest niespójne, toporne i psuje całą iluzję inteligentnego asystenta. Apple nigdy na to nie pozwoli.

Dlatego, moim zdaniem, stanie się coś odwrotnego. To nie Gemini magicznie nauczy „core” polskiego. To Apple „wytnie” nasz język z Gemini, aby zachować spójność doświadczenia na maksymalnym poziomie. Dopóki Apple samo nie opracuje i nie przetrenuje swojego systemowego „core” w naszym języku (nie zrobili tego przez ponad dekadę, nie zanosi się na zmianę w tej materii), dopóty cała reszta asystenta – nawet jeśli jest „wypożyczona” od Google – pozostanie dla nas niedostępna.

Jak oni w ogóle chcą to uruchomić?

Abstrahując od naszych lokalnych problemów, pozostaje pytanie: jak Apple zamierza uruchomić model o skali 1,2 biliona parametrów dla setek milionów użytkowników Siri, nie topiąc przy tym swoich serwerów i nie bankrutując na kosztach inferencji?

Dla porównania, obecny model Apple Intelligence w chmurze ma mieć „zaledwie” 150 miliardów parametrów. Uruchomienie modelu 1,2 biliona dla każdego zapytania byłoby obliczeniowym koszmarem.

Odpowiedzią jest architektura, którą ten model niemal na pewno wykorzystuje: Mixture of Experts (MoE), czyli „Mieszanka Ekspertów”. Zamiast jednego, gigantycznego „mózgu” (modelu), który musi analizować każde zapytanie w całości, architektura MoE działa jak wyspecjalizowany zespół.

Model o wielkości 1,2 biliona parametrów jest podzielony na dziesiątki mniejszych „ekspertów” (podsieci neuronowych). Każdy jest wyspecjalizowany w czymś innym – jeden w gramatyce, inny w matematyce, kolejny w analizie kontekstu, a jeszcze inny w kodowaniu.

Gdy zadajesz pytanie, trafia ono najpierw do „menedżera” (tzw. sieci bramkującej, z ang. gating network). Menedżer błyskawicznie analizuje Twoje zapytanie i aktywuje tylko tę niewielką grupę ekspertów, która jest najlepsza do udzielenia odpowiedzi. Reszta pozostaje uśpiona.

Zdolność giganta, koszt malucha

Tu leży sedno geniuszu tego rozwiązania. Chociaż całkowita „wiedza” modelu jest gigantyczna (1,2 biliona parametrów), do obsłużenia pojedynczego zapytania aktywowana jest tylko niewielka jej część – na przykład kilkadziesiąt miliardów parametrów (wciąż sporo, ale do udźwignięcia dla takiego potentata jak Apple).

W praktyce Apple otrzymuje zdolności ogromnego modelu AI, ale ponosi koszty obliczeniowe zbliżone do uruchomienia znacznie mniejszego modelu. To właśnie ta architektura sprawia, że umowa z Google jest technicznie i finansowo wykonalna.

Pozwala to Apple „wynająć” super-mózg, uruchomić go na własnej infrastrukturze Private Cloud i kupić sobie czas na rozwój własnych modeli. Niestety, ta techniczna elegancja w żaden sposób nie rozwiązuje naszego polskiego problemu. Rdzeń pozostaje w Cupertino. I nadal milczy.

#AI #Apple #AppleIntelligence #felieton #Gemini #Google #iOS26 #MixtureOfExperts #MoE #Siri #siriPoPolsku #sztucznaInteligencja

Dlaczego Siri nie mówi po polsku
KINEWS24KiNews
2025-09-12

🔥 Alibaba Qwen3-Next: 10x effizienter, 90% weeniger Trainingskosten!

▶️ Entdecke Hybrid-MoE nun
▶️ Aktiviere 262K Kontext!
▶️ Starte SGLang Turbo nun

🔥 Jetzt KLICKEN & KOMMENTIEREN! 💭

kinews24.de/qwen3-next-alibaba

2025-07-31

Chiński Z.ai rzuca rękawicę gigantom. Nowy model AI GLM-4.5 ma być otwarty, tani i rekordowo wydajny

I lepszy od modelu DeepSeek. Startup Z.ai zaprezentował nowe rozwiązanie – GLM-4.5. Jest to model AI udostępniony w formule open source, który ma być jeszcze tańszy, wydajniejszy i „bystrzejszy” od swojego głośnego, chińskiego poprzednika.

Nowy model, GLM-4.5, wyróżnia się tak zwaną „agentową” architekturą, co oznacza, że potrafi automatycznie dzielić złożone zadania na mniejsze etapy, by wykonać je precyzyjniej. Co więcej, jest o połowę mniejszy od DeepSeeka i do działania potrzebuje podobno zaledwie ośmiu specjalistycznych chipów Nvidia H20, stworzonych na potrzeby chińskiego rynku z uwzględnieniem amerykańskich restrykcji eksportowych.

Nowy model GLM-4.5 to dziś najbardziej zaawansowana (publicznie znana) chińska konstrukcja oparta na architekturze MoE (Mixture of Experts), dostępna w dwóch wariantach: flagowym z 355 miliardami parametrów oraz lżejszej wersji Air ze 106 miliardami parametrów. Architektura „agentowa” pozwala mu na autonomiczne planowanie i wykonywanie złożonych, wieloetapowych zadań. Według testów producenta, model Z.ai osiągnął trzeci wynik na świecie w branżowych benchmarkach, plasując się jednocześnie na pierwszym miejscu wśród wszystkich modeli typu open-source. Co niezwykle istotne, jego wysoka wydajność została osiągnięta przy relatywnie niskich wymaganiach sprzętowych.

Z.ai pozycjonuje swój produkt jako „prawdziwie otwartą alternatywę” dla zamkniętych, autorskich systemów, które dominują na rynku. Model jest dostępny na otwartej licencji, co daje firmom większą kontrolę i transparentność. Jednak to właśnie koszty stanowią jego największą przewagę. Według oficjalnego cennika, koszt przetwarzania miliona tokenów (fragmentów słów) to zaledwie 11 centów za dane wejściowe i 28 centów za dane wyjściowe. Dla porównania, w przypadku konkurencyjnego modelu DeepSeek R1 koszt tokenów wyjściowych to 2,19 dolara, co pokazuje ogromny (wręcz niewiarygodny) skok w optymalizacji kosztowej.

Dynamiczny rozwój chińskich firm AI ma coraz większe znaczenie geopolityczne. Gdy na początku roku DeepSeek zaprezentował swoją wydajność, wywołało to chwilowe załamanie kursów akcji amerykańskich gigantów technologicznych. Sukcesy Z.ai, firmy założonej w 2019 roku, która zebrała już ponad 1,5 mld dolarów od inwestorów takich jak Alibaba i Tencent, również nie pozostały niezauważone. Firma została wymieniona przez OpenAI jako jeden z nielicznych na świecie konkurentów zdolnych do budowy rywalizujących modeli, a także trafiła do prestiżowego raportu Stanford University „AI Index Report 2025”. Jednocześnie ten szybki postęp wzbudził niepokój w Waszyngtonie – startup Z.ai został wpisany na listę podmiotów objętych amerykańskimi restrykcjami handlowymi.

Trening modelu DeepSeek nie kosztował 6 mln dolarów, lecz 1,3 miliarda dolarów – raport SemiAnalysis

#AI #chiny #DeepSeek #geopolityka #GLM45 #MixtureOfExperts #modelJęzykowy #modeleJęzykowe #news #openSource #sztucznaInteligencja #technologia #usa #ZAi #Zhipu

AI
2025-07-23

#Qwen3Coder: Most Agentic Code Model Released 🤖

🎯 480B-parameter #MixtureOfExperts #LLM with 35B active parameters achieving #SOTA performance in agentic #coding
📏 Native 256K context support, extendable to 1M
tokens with #YaRN for repo-scale operations

qwenlm.github.io/blog/qwen3-co

🧵👇#AI

2025-07-01

MiniMax-M1: Разбираем архитектуру, ломающую законы масштабирования (и наш VRAM)

В мире LLM доминирует квадратичная сложность, ограничивающая контекст. Но MiniMax-M1 бросает вызов: миллион токенов, низкие затраты. Разбираем гибридную архитектуру с Lightning Attention, новый алгоритм CISPO и инженерные прорывы, делающие эту модель уникальной.

habr.com/ru/articles/923588/

#minimaxm1 #LLM_архитектура #Lightning_Attention #mixtureofexperts #масштабирование_LLM

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst