LOL丶诺诺
LCK年度剧情!NS坏事做尽,LCK杯10进9,HLE被淘汰谁在搞鬼?【联盟那些事儿】
#比赛 #淘汰 #英雄联盟 #HLE #ZEUS
On a #OuigoTrainClassique 63 to Brussel-Zuid hauled by a #HLE 18, ready for #FOSDEM tomorrow!!!!! (@ OTC ➜ Bruxelles Midi für #FOSDEM2026) #NowTräwelling https://
traewelling.de/status/6918651
Бенчмарк конца эпохи — Humanity’s Last Exam
Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта, вроде меня (шучу). Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д. Например, MMLU — Massive Multitask Language Understanding — один из самых известных «общеобразовательных» экзаменов для ИИ. Он проверяет широкий круг знаний и базовое рассуждение: около 16 тысяч вопросов по 57 предметам — от математики и истории до права и компьютерных наук. Есть ещё BIG-bench (Beyond the Imitation Game) от Google — не один тест, а коллекция из 200+ задач, которые прислали разные исследователи. Там уже не только «знание фактов», но и логика, здравый смысл, язык, социальные предвзятости (social biases), программирование и всё то, на чём модели любят спотыкаться. Есть и более «узкие» бенчмарки:
No Peanut November
Day 5 predictions:
CFO win - TES lose
TL lose - HLE win
#LoL #LeagueOfLegends #FirstStand #CFO #TES #TL #HLE
Day 4 predictions:
TL lose - CFO win
KC lose - HLE win
#LoL #LeagueOfLegends #FirstStand #HLE #CFO #TL #KC
Today is third day of First Stand tournament and I want make predictions.
Today matches:
CFO lose - HLE win
KC lose - TES win
And team places at the end of Round Robin Stage:
1. HLE (Korea)
2. TES (China)
3. CFO (Taiwan)
4. TL (USA)
5. KC (France)
#LoL #LeagueOfLegends #FirstStand #HLE #TES #CFO #TL #KC
Large language models doubled their performance last month
https://kocka.news/en/article/software/113/large-language-models-doubled-their-performance-last-month
Megduplázták a teljesítményüket a nagy nyelvi modellek az elmúlt hónapban
https://kocka.news/hu/article/szoftver/112/megduplaztak-a-teljesitmenyuket-a-nagy-nyelvi-modellek-az-elmult-honapban
#KI, #News, #Benchmark, #HLE
Neuer Benchmark lässt alle Sprachmodelle alt aussehen: https://www.linux-magazin.de/news/neuer-benchmark-laesst-alle-llms-alt-aussehen/
@Zuggucker ich fand es immer spannend, dass in der #DDR quasi von Anfang bis Ende in zwei Etagen gefahren wurde, ja, auch aus der Not heraus; während es bei der #Bundesbahn praktisch keine DoStos gab. „Die Passagiere mögen das nicht.“ war, angeblich, die Begründung. Ach ja? #HLE, anyone?