Lmst

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Новости об ИИ выходят быстрее, чем успеваешь их переварить: релизы моделей, таблицы бенчмарков, заявления про "революцию" и "конец профессий". Эта статья научит,что проверять, когда выходит новая модель, как читать бенчмарки, на что смотреть в model/system card , чтобы понимать реальный смысл анонса, чем open-weight отличается от закрытых моделей и почему это влияет на рынок. А заодно, как читать без паники и самообмана статьи вроде "ИИ отнимет у вас работу".

https://habr.com/ru/articles/1003130/

#нейросети #искусственный_интеллект #LLM #бенчмарки #Claude_Sonnet_46 #Gemini_31_Pro #GPT52 #SWEbench #ARCAGI2 #сравнение_моделей_ИИ

OpenAI stuft SWE-bench Verified offiziell als unbrauchbar ein.

Das Problem ist zweigeteilt: Zum einen lernen Modelle die Lösungen aus Open-Source-Repos im Training auswendig. Zum anderen sind viele Unit-Tests fehlerhaft und lehnen korrekten Code ab, nur weil eine API unerwartet genutzt wurde.

Die Branche muss auf SWE-bench Pro wechseln. Durch private Codebasen und proprietäre Daten wird Training Leakage physisch verhindert. #OpenAI #SWEbench #AI
https://www.all-ai.de/news/news26/openai-bench-swe

Latent.Space (@latentspacepod)

OpenAI가 SWE-Bench Verified의 자발적 지원 중단(폐기)을 발표했습니다. SWE-Bench는 소프트웨어 엔지니어링 성능 벤치마크로, 커뮤니티 내 포화 상태에 도달했다는 논의가 있었습니다. 이번 공지를 통해 OpenAI는 관련 팟캐스트와 분석 자료도 함께 공개하며 향후 표준 평가 체계의 변화를 시사했습니다.

https://x.com/latentspacepod/status/2026027529039990985

#openai #benchmark #ai #swebench #research

MiniMax (official) (@MiniMax_AI)

simonw가 검증한 SWE-bench 평가에서 MiniMax M2.5가 동일한 평가 설정 하에 강한 결과를 보였다는 독립적 분석을 소개하는 트윗입니다. SWE-bench Verified를 이용한 비교 검증 결과를 언급하며 MiniMax M2.5의 성능이 주목받고 있다는 점을 알립니다.

https://x.com/MiniMax_AI/status/2024646767325958285

#minimax #m2.5 #swebench #benchmark

Google just rolled out Gemini 3.1 Pro, smashing the GPQA Diamond benchmark at 94.3% and climbing to an Elo 2 on LiveCodeBench Pro. It also tops SWE‑Bench, showing leaps in AI reasoning, scientific knowledge, and vibe‑coding. Curious how it reshapes open‑source AI research? Read the full breakdown. #Gemini3_1Pro #GPQADiamond #LiveCodeBenchPro #SWEBench

🔗 https://aidailypost.com/news/google-unveils-gemini-31-pro-hits-943-gpqa-diamond-coding-elo-2

Simon Willison (@simonw)

공식 SWE-bench 리더보드의 2026년 2월 업데이트에 대한 노트를 작성했다는 게시. 보너스 사이드 퀘스트로 'Claude for Chrome'이 차트를 다시 그려 막대에 퍼센트 라벨을 추가하도록 요청하는 내용 언급 — 벤치마크 업데이트 및 시각화/도구 관련 논의.

https://x.com/simonw/status/2024346931632492827

#benchmark #swebench #claude #chrome #llm

Anthropic's new Claude Sonnet 4.6 just smashed the SWE-bench leaderboard with a 79.6% pass rate while costing only a fifth of Opus. That's a huge leap for AI-assisted software engineering and a strong signal for enterprise AI adoption. Curious how it stacks up against OSWorld benchmarks? Dive into the details. #Anthropic #ClaudeSonnet #SWEbench #EnterpriseAI

🔗 https://aidailypost.com/news/anthropics-sonnet-46-hits-796-swe-bench-costs-onefifth-opus

같은 AI 모델이 다르게 작동하는 이유, 시스템 프롬프트의 숨은 영향력

같은 AI 모델도 시스템 프롬프트에 따라 완전히 다른 코딩 에이전트가 됩니다. 6개 제품 분석과 실험으로 증명된 프롬프트의 영향력을 소개합니다.

https://aisparkup.com/posts/9274

MiniMax M2.5, 시간당 1달러로 실행하는 코딩 에이전트

MiniMax M2.5는 시간당 1달러로 실행 가능한 코딩 에이전트입니다. SWE-Bench 80.2% 달성하며 실무 도입의 경제적 장벽을 낮춥니다.

https://aisparkup.com/posts/9245

Akshay (@akshay_pachaar)

MiniMax M2.5가 공개되었으며 오픈소스로 배포된다. SWE 벤치에서 SOTA 성능을 기록(점수 80.2)했다고 발표되어 개발자 및 리서치 커뮤니티에서 주목될 만한 신모델 릴리스임.

https://x.com/akshay_pachaar/status/2022003608532009321

#minimax #opensource #sota #swebench

Qwen3-Coder-Next 출시, 3B 활성 파라미터로 코딩 에이전트 시장 진입

Alibaba Qwen 팀이 코딩 에이전트 특화 모델 Qwen3-Coder-Next를 출시했습니다. 80B 파라미터 중 3B만 활성화하는 희소 MoE 구조로 비용 효율성과 성능을 동시에 달성했습니다.

https://aisparkup.com/posts/8965

CHOI (@arrakis_ai)

짧은 언급으로 SWE-bench에서 'Verified 93.7%'라는 결과가 제기되었습니다. 벤치마크 성능 관련 놀라운 점수를 지적하는 트윗으로, SWE-bench 관련 최신 평가 결과로 해석됩니다.

https://x.com/arrakis_ai/status/2018688221400482081

#swebench #benchmark #evaluation

Claude Code 개발팀이 밝히는 AI 에이전트 평가의 모든 것

AI 에이전트 개발 시 평가 시스템을 어떻게 구축할까? Anthropic이 Claude Code 개발 경험을 바탕으로 공개한 실전 가이드. 에이전트 유형별 평가 전략과 20-50개 태스크로 시작하는 로드맵을 소개합니다.

https://aisparkup.com/posts/8156

Michelle Bakels (@MichelleBakels)

AI 코딩 에이전트 구축 관련 강연 요약과 코드 평가 현황을 다루는 내용입니다. 'Hard Won Lessons from Building Effective AI Coding Agents'(Nik Pash, Cline) 영상과 'State of Code Evals'에서 SWE-bench, Code Clash 및 최신 코딩 벤치마크(SOTA)들을 정리한 John Yang의 요약이 포함된 링크를 공유하고 있습니다.

https://x.com/MichelleBakels/status/2008934971495297359

#aicodingagents #codeevals #benchmarks #swebench

MiniMax M2.1: Python 넘어 Rust·Java까지, 실무 다중언어 코딩 특화 AI 모델

MiniMax M2.1은 Python을 넘어 Rust, Java, Golang 등 실무 다중 언어에 특화된 오픈소스 AI 모델. Claude Sonnet 4.5 능가하는 성능과 실무 활용성을 소개합니다.

https://aisparkup.com/posts/7727

Cập nhật bảng xếp hạng SWE-rebench tháng 11/2025 với các mô hình mới: **Claude Code**, **GPT-5.2**, **DeepSeek v3.2** (mô hình mã nguồn mở tiên tiến) và **Devstral 2** (chạy cục bộ). Các hệ thống thử nghiệm 47 nhiệm vụ hợp quy GitHub mới, cải thiện minh bạch với chỉ số **cached-tokens**.

#AI #DeepSeek #Devstral #LậpTrình #SWEbench #MôHìnhAI #TechVN

https://www.reddit.com/r/LocalLLaMA/comments/1pozr6f/claude_code_gpt52_deepseek_v32_and_selfhosted/

🚀 OpenAI’s new GPT‑5.2 Thinking shows collaborative AI that can plan, code, and debug full‑stack web apps end‑to‑end. With long‑context windows and structured reasoning it tackles SWE‑Bench challenges and even orchestrates agentic workflows. Curious how this could reshape web development? Dive into the details. #GPT52Thinking #SWEBench #LongContextAI #AgenticWorkflows

🔗 https://aidailypost.com/news/gpt-52-thinking-emerges-collaborative-ai-endtoend-web-builds

Claude Opus 4.5 tops SWE‑bench in 7 of 8 languages, beating Sonnet 4.5 by 15%. The win spans Java, Python and other major stacks, showing Anthropic’s multilingual edge in AI‑assisted coding. Curious how the models compare? Dive into the benchmarks and see what this means for open‑source developers. #ClaudeOpus45 #Sonnet45 #SWEbench #MultilingualAI

🔗 https://aidailypost.com/news/claude-opus-45-leads-swebench-7-8-languages-15-ahead-sonnet-45

Claude Opus 4.5, AI 코딩 벤치마크 1위 달성하고 가격은 80% 내렸다

Anthropic의 Claude Opus 4.5가 AI 코딩 벤치마크 1위를 달성하면서도 API 가격을 80% 인하했습니다. Chrome과 Excel 직접 제어 기능까지 추가된 업계 판도 변화를 소개합니다.

https://aisparkup.com/posts/6958

Opus 4.5 vừa lấy lại vị trí #1 trên bảng xếp hạng SWE-bench, nhưng với cách biệt rất nhỏ so với Gemini 3 (chỉ 0.2%). Opus 4.5 vẫn đắt hơn các mô hình khác đạt điểm cao. Cần đặt giới hạn bước (step limit) tối thiểu 100 để đạt hiệu suất tối đa.

#LLM #AI #Opus45 #Gemini3 #SWEbench #Vietnamese #tritue #congnghe

https://www.reddit.com/r/LocalLLaMA/comments/1p5wjia/opus_45_only_narrowly_reclaims_1_on_official/

#SWEbench

Client Info