#LLMArena

2026-01-31

"Chính thức phát hành 'LLM Arena' - công cụ so sánh từng mô hình AI cục bộ với tính năng ẩn danh, điều chỉnh siêu tham số, xuất JSON và không cần đám mây. Mời kiểm thử & góp ý cải thiện! #LLMArena #AI #ThửNghiệmLLM / A local LLM Arena for side-by-side comparisons: blind testing, hyperparam customization, JSON export, zero-cloud. Feedback needed! #LLMArena #LocalLLM"

reddit.com/r/LocalLLaMA/commen

2026-01-30

Bài viết trên Reddit cho biết ứng dụng LLM Arena vừa gỡ bỏ tùy chọn xóa hội thoại, thay thế bằng chức năng lưu trữ (archive) và không phân biệt trạng thái đăng nhập. Người dùng phát hiện hướng dẫn cũ "search và tab để xóa" đã không còn hiệu lực. #LLMArena #AI #Vietnam #ThongTin #Reddit #HuongDan

reddit.com/r/singularity/comme

2025-12-01

Как я выбираю LLM (large language model) для своих задач?

На учебных курсах часто задают вопрос: «Вы что‑то понимаете в LLM, поэтому скажите — какая LLM лучше?» Правильного ответа на этот вопрос нет. Число LLM растет в геометрической прогрессии, идет специализация, как по типу обрабатываемого контента, так и по области применения. Вдобавок возможности LLM растут от версии к версии, поэтому идеальной LLM не существует — ведь выбранная модель может показывать хорошие результаты по одним задачам, но плохо работать по другими. Данная статья — это лишь мой взгляд на инструменты выбора и вызова LLM, а также возможность получить бесплатный доступ из России к множеству LLM через агрегаторы.

habr.com/ru/companies/otus/art

#llm #llmмодели #llmприложения #llmarena #llmагент #llmагенты #выбор_модели

2025-08-27

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena ? Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference , когда пользователь выбирает то, что ему субъективно больше нравится. TL/DR: * Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+ ; * У нас есть отобранная команда аннотаторов и автоматический фильтр качества; * Мы научились фильтровать фрод и мусорные промпты лучше , чем стандартные крауд-платформы;; * Теперь мы можем быстро тестировать новые модели и выдавать предрейтинг до массового запуска.

habr.com/ru/articles/941072/

#llm #llmarena #краудсорсинг #ии #ai #оценка_моделей #нейросети #machinelearning #ml #open_source

2025-06-26

Вселенная OpenAI: полный путеводитель по семейству моделей GPT в 2025 году

(версия статьи актуальна на 26 июня 2025 года) OpenAI за несколько лет превратила ChatGPT из экспериментального проекта в полноценного цифрового помощника, который умеет не только писать тексты, но и думать, видеть, слышать и даже спорить. Это стало настоящим поворотным моментом в истории ИИ и индустрия вошла в новый цикл развития. Появились тысячи приложений на базе LLM, десятки компаний сменили стратегию, а работа с языковыми моделями стала повседневной реальностью. Новые версии выходят регулярно, и если вы чувствуете себя потерянными в этом потоке, то вы не одиноки. Мы специально подготовили этот материал, чтобы рассказать обо всех ключевых GPT-моделях и сопутствующих инструментов OpenAI, чем они отличаются и какую из них выбрать для своих задач.

habr.com/ru/articles/922052/

#llm #llmarena #gpt #openai #ии #chatgpt #sora #gpt4 #gpt3

2025-06-20

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Привет! Меня зовут Роман Куцев, я основатель LLM Arena . У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности. Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM. Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.

habr.com/ru/articles/920150/

#llm #llmarena #датасет #dataset #ai #ии #разметка_данных #валидация_данных

2025-03-31

Как предъявлять бездушным машинам, чтобы они тебя понимали. Гайд про промпт-инжинирингу

Если вам кажется, что нейросети тупят, не справляются с задачами или делают все как-то через раз — не спешите списывать их со счетов. Возможно, проблема не в них, а в том, как вы у нее спрашиваете. LLM — не универсальное решение всех задач. Это предикативные модели, обученные на массивных объемах текстов, и их поведение напрямую зависит от того, что именно вы им подаете на вход. Промпт в этом контексте — полноценный интерфейс взаимодействия, инструкция, способ задать контекст. Если вводите плохой промпт, получаете плохой результат. Это не случайность, не артефакт, а вполне ожидаемое следствие некорректной постановки задачи.

habr.com/ru/articles/895810/

#llm #ии #искусственный_интеллект #промпты #промптинжиниринг #llmarena

2025-03-24

Как выбрать LLM-модель, которая заберет у вас работу

Пока одни спорят, заменит ли ИИ людей, другие уже выбирают, какую нейросеть поставить себе в напарники. ChatGPT, Claude, Mistral, а еще китайские модели, которые неожиданно набирают популярность — надо бы разобраться в этом хаосе. Не стоит полагаться только на отзывы или случайные тесты. Разбираемся, по каким критериям действительно стоит оценивать LLM, чтобы выбрать мощную и полезную модель, а не просто хорошо обученного бота.

habr.com/ru/articles/893642/

#llm #llmмодели #ии #нейросеть #chatgpt #claude #yandexgpt #qwen #llmarena

2025-03-06

От ресторанов до банков: какие компании доверяют ИИ важные задачи

Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли реальные кейсы: как крупные компании уже используют искусственный интеллект, что из этого вышло и какие технологии стоят за успехом.

habr.com/ru/articles/888476/

#ии #искусственный_интеллект #ai #llmarena #claude_37_sonnet #gpt4o

2025-02-24

Люди больше не нужны? Профессии, которые уже заменил ИИ

2023 - 2024 годы стали переломными для искусственного интеллекта. Развитие технологий ускорилось, а внедрение нейросетей затронуло буквально все сферы жизни. Мощные мультимодальные модели, такие как GPT-4 от OpenAI и Gemini Ultra от Google, теперь способны анализировать не только текст, но и изображения, аудио, код и даже сложные бизнес-данные. И вроде бы все здорово — ИИ избавляет нас от рутины, ускоряет работу и помогает автоматизировать процессы. Но вместе с этим появляется и тревога: а не останемся ли мы без работы? Этот страх небезоснователен — согласно анализу Goldman Sachs , к 2035 году из-за ИИ может исчезнуть до 300 миллионов рабочих мест по всему миру. Однако прогноз McKinsey Global Institute немного сглаживает панику: к 2030 году появится 20–50 миллионов новых профессий. Так какие же специальности ИИ уже успешно вытесняет, а какие пока держатся — давайте разбираться.

habr.com/ru/articles/884810/

#ии #llm #llmarena #openai #gpt #gemini #qwen #claude #deepseek

2025-02-13

Феномен DeepSeek: разбираем причины шума вокруг нейросети

Понедельник, 27 января, начался с крупнейшего однодневного падения компании в истории фондового рынка США. Акции NVIDIA упали на 18%, а прибыль снизилась на $589 миллиардов. А все из-за китайской версии «синего кита» — точнее, выхода ИИ-модели DeepSeek-R1. Издание The New Yorker назвало ситуацию «Sputnik moment», по аналогии с отправкой первого человека в космос. Тогда США осознали свое отставание от технического прогресса — и вот опять. Но почему это вдруг произошло так резко? Ведь DeepSeek и другие китайские, европейские нейросети существовали и до 2025 года. Давайте разберемся, почему все вдруг обратили внимание на чат-бота из Поднебесной, когда вокруг так много аналогов.

habr.com/ru/articles/882162/

#ии #deepseek #ai #llm #llmarena #openai #gpt

2024-12-26

Будущее LLM: 7 прогнозов на 2025 год

Языковые модели, или LLM, продолжают впечатлять своим развитием. Технологии становятся умнее, их возможности шире, а применение в бизнесе и жизни — еще полезнее. В 2024 году LLM обрели зрение и память, получили доступ к актуальной информации и подтянули знания в кодинге. Чего ожидать от 2025 года? Собрал наиболее правдоподобные прогнозы и добавил свои. Спойлер: Джарвиса, который будет делать за нас всю работу, ждать не стоит.

habr.com/ru/articles/870002/

#искусственный_интеллект #llm #llmarena #finetuning #rag #agi #o1preview #openai #gpt

2024-10-14

[Перевод] Как устроен бенчмарк LLM? Знакомство с оценкой моделей

В условиях, когда полным ходом идет (генеративная) революция искусственного интеллекта, каждый день появляются новые крупные языковые модели (LLM). Существуют общие модели и усовершенствованные версии этих общих моделей для конкретных целей. В настоящее время на Huggingface размещено около 750 000 различных моделей . Но как выбрать ту, которая подойдет вашим целям? Найти модель, которая лучше всего подойдет для поставленной задачи, сложно. Также определить, что такое «хорошая производительность» при выполнении некоторых задач, может быть непросто. Существует ряд доступных бенчмарков, которые помогут вам сравнить эти LLM. В этой статье объясняются основы оценки LLM и подробно рассматриваются общие метрики оценки и бенчмарки LLM.

habr.com/ru/articles/850218/

#FEval #BBH_(Big_Bench_Hard) #GPQA #MMLUPRO #LLM_бенчмарк #llmarena #benchmarking

2024-09-30

[Перевод] Как оценить качество LLM модели

Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей. Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны: Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга». LLM не всегда правильно излагают факты; это явление называется «галлюцинациями». LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться. Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений? Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее ), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.

habr.com/ru/articles/846748/

#Машинное_обучение #LLM #DeepEval #RAG #LMSys #LLMArena #PromptBench #llm_arena #HELM #MMLU #HellaSwag #BIGBench_Hard

2024-09-24

[Перевод] Полный гид по бенчмаркам LLM: подробный каталог

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились. В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.

habr.com/ru/articles/845510/

#Бенчмарки #LLM #AlpacaEval #MTBench #llmarena #TrustLLM #TruthfulQA #SycophancyEval #CyberSecEval

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst