#CodingBenchmark

2026-01-28

Tôi đã phát triển bộ đánh giá mã nguồn "SanityHarness" và thử nghiệm trên 49 mô hình/agent AI (bao gồm Kimi K2.5). Kết quả chi tiết được công bố trên bảng xếp hạng "SanityBoard" với 6 ngôn ngữ lập trình. Đáng chú ý: nhiều dịch vụ AI tính phí quá đắt như Codebuff ($7.5 cho 9 task), trong khi các nền tảng như Kimi CLI rẻ hơn đáng kể. #AI #CodingBenchmark #VietnameseAI #LậpTrình #MôHìnhAI #KimiK25 #ĐánhGiáAI

reddit.com/r/LocalLLaMA/commen

2025-09-17

Kimi-K2 0905 tăng hiệu suất đáng kể, lọt top 3 mã nguồn mở trên SWE-rebench. DeepSeek V3.1 cải thiện tốc độ xử lý token. Qwen3-Next-80B-A3B hoạt động tốt dù không chuyên code. Grok 4 của xAI lần đầu xuất hiện và nằm trong top đầu. 52 task mới được cập nhật tháng 8/2025.

#AI #TríTuệNhânTạo #MachineLearning #CodingBenchmark #ĐánhGiáMôHình

reddit.com/r/LocalLLaMA/commen

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst