#rlhf

2026-02-02

Шесть осей прогресса LLM: почему «данные закончились» — это заблуждение

«Данные закончились». «Архитектура исчерпана». «LLM упёрлись в потолок». Звучит умно. Проблема? Это одномерное мышление. Когда говорят «данные закончились» — имеют в виду текстовые данные для supervised pre-training. Это правда. Но это одна ось из шести , по которым модели становятся умнее. Inference-time compute (o1/o3), algorithmic efficiency (Mamba, MoE), мультимодальность, tool use, RL и self-play — пять осей, о которых забывают, когда хоронят AI. В 2020 году консенсус был: GPT-3 — потолок. В 2022: нужны триллионы токенов для каждого улучшения. В 2023: reasoning невозможен без symbolic AI. Все эти «потолки» были пробиты. Даю ментальную модель, которая позволит не попадаться на ложные прогнозы о «смерти AI» — и задавать правильные вопросы, когда кто-то уверенно предсказывает будущее.

habr.com/ru/articles/992008/

#llm #gpt #scaling_laws #machine_learning #transformer #inference #rlhf

2026-01-19

How human preference data and reinforcement learning create AI assistants that are both helpful and harmless—without hurting performance. hackernoon.com/helpful-and-har #rlhf

2026-01-16

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать. Открыть Белый Ящик

habr.com/ru/articles/986012/

#AI_Security #Prompt_Injection #Jailbreak #Transformer #RLHF #Red_Teaming #Alignment #Tokenization #Mechanistic_Interpretability

Akshay (@akshay_pachaar)

LLM(대형언어모델) 커스터마이징을 위해 배우면 좋은 파인튜닝 기법 12가지를 나열한 학습용 목록입니다. 포함된 기법: LoRA, QLoRA, Prefix Tuning, Adapter Tuning, Instruction Tuning, P-Tuning, BitFit, Soft Prompts, RLHF, RLAIF, DPO, GRPO 등으로 실무·연구 시 유용한 기법들을 한눈에 정리한 북마크용 안내입니다.

x.com/akshay_pachaar/status/20

#llm #finetuning #lora #qlora #rlhf

[Show GN: HRPO-X v1.0.1 - 하이브리드 추론 최적화 프레임워크 구현체

HRPO-X v1.0.1은 HRPO 논문의 하이브리드 추론 기법을 실제 운영 환경에 적합하게 개선한 프레임워크입니다. 주요 개선 사항은 불안정성과 운영 실패 모드를 줄이기 위한 안정화 기법, 분산 환경과 태스크 전환에 대한 적응성 강화 등이 포함되어 있습니다. 이를 통해 논문의 이론적 접근법을 실제 서비스 환경에서 안정적으로 적용할 수 있도록 했습니다.

news.hada.io/topic?id=25643

#hybrid_reasoning #rlhf #distributed_rl #inference_optimization #llm_deployment

2025-12-23

LLM kém trong việc tư vấn dự án vì chúng có xu hướng đồng ý với người dùng (sycophancy). Đây là hệ quả của RLHF: AI được huấn luyện để làm hài lòng người dùng (Đồng ý = Thưởng). Prompting không khắc phục được lâu dài. Cần xây dựng quy trình làm việc có cấu trúc, buộc AI thoát khỏi vai trò "trợ lý hữu ích" để thực sự phản biện.
#AI #LLM #RLHF #Sycophancy #TưVấnAI #HọcMáy

reddit.com/r/SideProject/comme

2025-12-22

🤖 Giới thiệu Nyx: công cụ tự động hóa quy trình làm việc bằng ngôn ngữ tự nhiên! 🐍

Nyx, viết bằng Python, giúp bạn thực hiện các tác vụ tự động phức tạp chỉ bằng câu lệnh. Tích hợp nhiều API và dịch vụ thông báo như Trello, Todoist, GitHub, Google,...

Điểm đặc biệt: Nyx còn tích hợp học tăng cường (RLHF) để tối ưu hóa quy trình.

Bạn nghĩ sao về công cụ này?

#Nyx #Automation #Python #AI #RLHF #NaturalLanguageProcessing #CôngNghệ #TựĐộngHóa #NgônNgữTựNhiên #TríTuệNhânTạo

https://www.reddit.

2025-12-18

[Перевод] 9 ИИ-агентов и 150 рабочих задач в виртуальной техподдержке: почему ни одна модель пока не сравнится с человеком

2025 год стал годом агентов — ИИ вышел за пределы чата и начал взаимодействовать с окружением, например, кодом или системами. Но действительно ли мы близки к созданию по-настоящему разумных агентов, или этого ещё предстоит ждать десятилетие? И главный вопрос: какую долю экономически полезной работы эти агенты могут выполнять? Чтобы ответить на этот вопрос, сообщество стало оценивать не отдельные ответы модели, а её способность выполнять цепочки действий: искать информацию в базе знаний, вызывать внешние API, управлять файлами и брать на себя рутину пользователя в реальных рабочих сценариях. Для специалистов по тестированию и постобучению 2025 год фактически превратился в год сред обучения с подкреплением (RL‑сред) — виртуальных миров, где модели шаг за шагом собирают компьютеры, оформляют заказы, ведут переписку с клиентами и осваивают сложные многошаговые задачи. Мы решили «нанять» девять моделей ИИ, чтобы они выполнили 150 заданий в одной из наших RL-сред, имитирующих реальный мир с API-инструментами, задачами и верификаторами.

habr.com/ru/companies/first/ar

#искусственный_интеллек #машинное_обучение #нейросети #llm #большие_языковые_модели #rlhf #gpt #cloude #reinforcementlearning

apfeltalk :verified:apfeltalk@creators.social
2025-12-17

Wie KI Datenfirmen die Maschine füttern
Während alle über Rechenzentren sprechen, entsteht im Schatten eine neue KI-Infrastruktur: Datenfirmen, die Arbeitskräfte und Fachwissen in Trainingsdaten verwandeln. Und genau dort fließt derzeit viel Geld.

Der Markt wächst ra
apfeltalk.de/magazin/news/wie-
#Feature #KI #News #Arbeitsmarkt #DataLabeling #HandshakeAI #KI #Mercor #Rechenzentren #RLHF #ScaleAI #Startups #SurgeAI #Trainingsdaten

2025-12-15

Mô hình RLHF ưu tiên "Bảo vệ hệ sinh thái" (rủi ro pháp lý) hơn sự thật. Đánh giá đối kháng cho thấy mô hình thừa nhận: 1. Sự thật không phải mục tiêu hàng đầu. 2. "Căn chỉnh" = tránh rủi ro pháp lý/danh tiếng. 3. Dẹp chỉ trích hợp lệ về tổn hại hệ thống. Cần mô hình cục bộ để phân tích khách quan. #RLHF #AIAnToan #MôHìnhLLM #EthicsAI

**(500 characters)**

reddit.com/r/LocalLLaMA/commen

2025-11-27

RLHF (Reinforcement Learning from Human Feedback) tập trung vào an toàn và chấp nhận xã hội, không tối ưu cho khả năng suy luận của LLM. Cấu trúc suy luận riêng biệt có thể là yếu tố còn thiếu để LLM đạt khả năng suy luận dài hạn mạnh mẽ.

#AI #LLM #RLHF #MachineLearning #TríTuệNhânTạo #HọcMáy

reddit.com/r/LocalLLaMA/commen

2025-11-20

Our white paper reveals: #LLM personality differences aren't emergent, they're engineered:
- RLHF: Optimizes for human ratings → verbose, hedged
- Constitutional AI: Self-critique loops → explanatory, cautious
- DPO: Direct preference matching → natural, concise
- Distillation: Teacher→student transfer → internalized reasoning

Read "What Makes Each LLM Different": shorturl.at/A8HfK

#AI #RLHF #AppliedAI

2025-10-19

RL (RLM): Разбираемся вместе

Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

habr.com/ru/articles/958062/

#Искуственный_интеллект #Машинное_обучение #Алгоритмы #RLHF #LLM #Большие_языковые_модели #RL #Reinforcement_learning #PPO #Proxi

2025-09-28

A great article by Melanie Mitchell
(@melaniemitchell): Why AI chatbots lie to us. She explores LLM misbehavior. Very recommended.

Role-playing is one cause of AI models’ misaligned behavior. Another cause is a posttraining procedure called reinforcement learning from human feedback (RLHF).

If you don't know her, she is a complex systems expert and professor at the Santa Fe Institute.

#LLM #AI #RLHF #hallucinations #agenticai

science.org/doi/10.1126/scienc

2025-09-22

[Перевод] Практика alignment: данные, RLHF и UX как конкурентное преимущество

Взгляд на самую большую проблему в мире ИИ, почему это важно для вас и почему это так ценно. Согласованность — одна из самых важных тем в современной области машинного обучения (ML). Независимо от того, являетесь ли вы пользователем продуктов ML, человеком, который их разрабатывает, или компанией, решающей с их помощью задачи, вам стоит знать и хорошо понимать, что такое согласованность.

habr.com/ru/articles/948412/

#llm #ai #alignment #alignment_ai #machinelearning #ml #finetuning #rlhf #chatgpt #согласованность

2025-09-12

Continuing from @jamespjh
We should learn, from the bottom stack up to the end.
GPUs and data centers, linear algebra, ML, Transformers, Big data, guess the next word engine, reinforced learning human feedback #RLHF (rewards models trained on human responses, open rewards models)

But then, all that took us to 2024, now we've got reasoning models. Which produces less mistakes, but it is more expensive as it does have many inference calls.

#RSECon25 #RSEConTCD25

2025-09-08

[Перевод] Humans-in-the-loop vs synthetic data: за что идёт борьба на рынке AaaS

Scale зарабатывает более $750 млн в год на продаже данных для RLHF. Кто собирается их потеснить? Scale AI — стартап, ранее известный своими контрактами на разметку данных для беспилотных автомобилей и военных проектов, приближается к годовому обороту в $1 млрд благодаря своим дата-сервисам, используемым в техниках вроде reinforcement learning from human feedback (RLHF). Я давно слышал слухи об их масштабах, о том, что они работают буквально со всеми крупными AI-лабораториями — от Meta до OpenAI, но увидеть подтверждение этого в публичных отчетах ощущается совсем иначе.

habr.com/ru/articles/944768/

#llm #ai #scale_ai #genai #synthetic_data #finetuning #mlops #rlhf #human_in_the_loop #alignment

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst