Tôi đã phát triển bộ đánh giá mã nguồn "SanityHarness" và thử nghiệm trên 49 mô hình/agent AI (bao gồm Kimi K2.5). Kết quả chi tiết được công bố trên bảng xếp hạng "SanityBoard" với 6 ngôn ngữ lập trình. Đáng chú ý: nhiều dịch vụ AI tính phí quá đắt như Codebuff ($7.5 cho 9 task), trong khi các nền tảng như Kimi CLI rẻ hơn đáng kể. #AI #CodingBenchmark #VietnameseAI #LậpTrình #MôHìnhAI #KimiK25 #ĐánhGiáAI
https://www.reddit.com/r/LocalLLaMA/comments/1qp4ftj/i_made_a_coding_eval_and_ran_it_again