#AI_security

2026-02-12

Почему промпт-инъекции — это симптом, а не болезнь безопасности ИИ

Что вы представляете, когда кто-то говорит об AI-driven компании? Может быть, как чат-боты улучшают опыт клиентов? Может быть, как сотрудники разворачивают любые модели для своих нужд? А может, как ИИ-агенты разбирают кучу электронных писем и назначают встречи в календаре, копилоты пишут код за разработчиков и исправляют баги? Красиво. Но что в этой красивой истории может пойти не так и почему безопасность систем искусственного интеллекта не ограничивается защитой от джейлбрейков и промпт-инъекций, разберёмся в этой статье.

habr.com/ru/companies/alfa/art

#LLM #ИИассистенты #ИИагенты #AI_Security #AI_Red_teaming #Промптинъекции #OWASP

2026-02-11

Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций

ИИ-ассистенты все чаще используются не только как вспомогательные инструменты, но и как часть корпоративных процессов — с доступом к данным, внутренним системам и инфраструктуре. При этом многие защитные решения, которые кажутся надежными, на практике оказываются уязвимыми для промт-инъекций — атак, заставляющих модель раскрывать информацию, которую она не должна выдавать. Сегодня не существует универсальных методов, полностью исключающих промт-инъекции в LLM. Это делает их источником долгосрочных рисков для организаций, проходящих ИИ-трансформацию. Проблема актуальна не только для IT- и ИБ-специалистов, но и для обычных пользователей. Теория подробно описана, однако без практики ее сложно воспринимать как реальную угрозу. На связи Андрей Давид, руководитель отдела продуктов клиентской безопасности в Selectel . Под катом разберем, почему такие атаки остаются актуальной угрозой для LLM-приложений и как на практике выглядит их эксплуатация — на примере обучающей игры «Защищ[AI]». Это «интерактивный киберполигон», где можно безопасно попробовать атаковать ИИ-ассистента и увидеть, почему одних «запретов в системном промте» недостаточно. Под кат!

habr.com/ru/companies/selectel

#ai_security #промтинъекции #промт #ии #llm #ai #selectel

2026-02-11

Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций

ИИ-ассистенты все чаще используются не только как вспомогательные инструменты, но и как часть корпоративных процессов — с доступом к данным, внутренним системам и инфраструктуре. При этом многие защитные решения, которые кажутся надежными, на практике оказываются уязвимыми для промт-инъекций — атак, заставляющих модель раскрывать информацию, которую она не должна выдавать. Сегодня не существует универсальных методов, полностью исключающих промт-инъекции в LLM. Это делает их источником долгосрочных рисков для организаций, проходящих ИИ-трансформацию. Проблема актуальна не только для IT- и ИБ-специалистов, но и для обычных пользователей. Теория подробно описана, однако без практики ее сложно воспринимать как реальную угрозу. На связи Андрей Давид, руководитель отдела продуктов клиентской безопасности Под кат!

habr.com/ru/companies/selectel

#ai_security #промтинъекции #промт #ии #llm #ai #selectel

2026-02-09

Prompt Worms Часть 2: Я проверил на практике — 31 уязвимость в экосистеме AI-агента

В первой части мы разобрали теорию Prompt Worms — самореплицирующихся атак через AI-агентов. OpenClaw был назван «идеальным носителем». В этой части я проверил на практике: скачал репозиторий, залез в код, прощупал инфраструктуру и нашёл 31 уязвимость в 4 слоях экосистемы. Ноль санитизации на 867 строк мозга, timeout вместо approval, бэкдор-«пасхалка» в коде, утечка хешей паролей в маркетплейсном SaaS, и 14 слепых зон в их собственной threat model. Три дня, ~4,500 строк трассировки, 14 kill chains с PoC

habr.com/ru/articles/994230/

#prompt_injection #ai_agents #llmattack #openclaw #ai_security #threat_model #supply_chain_attack #mitre_atlas #pentesting #prompt_worms

2026-01-31

Регуляторные документы РФ по безопасности ИИ — с чем мы вступаем в 2026 год

Что было интересного в 2025 году по безопасности ИИ? Помимо развития AI-агентов и их протоколов, гардрейлов, и появления фреймворков, для российского рынка важно отметить появление нескольких новых официальных документов. О них и поговорим, так как я искренне считаю, что они выводят нашу нормативно-правовую базу на уровень одной из самых развитый и проработанных в мире. Но этот пост - не просто обзор) Я расскажу и о своих соображениях о том, как управлять доступом AI-агентов, данными для GenAI-систем, и уязвимостями таких систем.

habr.com/ru/articles/986800/

#ai_security #llm #aiагенты #кибербезопасность #нормативные_документы #регуляторика #ии

2026-01-25

"Không thể sống thiếu AI agents, nhưng đôi khi chúng 'quá láo' và làm hỏng file 😭. AgentShield ra đời từ ý tưởng sáng tạo của một hacker sau buổi đá banh cuối tuần - theo dõi thay đổi file thời gian thực và 'trở lại' trong 1 click 🦔. MIỄN PHÍ + mã nguồn mở từ @tomsun28. Hiện chỉ test trên macOS, clone repo để góp phần sửa lỗi nếu cần 😄 #AI_Security #BảoMậtAI #CodeSafety #AnToanLapTrinh"

i.redd.it/f2zd9d0mngfg1.png

2026-01-20

Сканеры ML-моделей: разбор инструментов и некоторых методов обхода их проверок

Не у всех нас имеется достаточное количество ресурсов (вычислительных, умственных и других) для проектирования и обучения моделей машинного обучения с нуля. Поэтому кажется логичным взять уже готовые модели — к счастью, за нас многое уже сделано. Для понимания масштаба: на одном только HF уже доступно для скачивания более двух миллионов моделей. Не все они были загружены авторитетными компаниями или экспертами, не все имеют десятки тысяч скачиваний в сутки. Даже изначально легитимные открытые репозитории могут оказаться источником риска. Компания Mitiga недавно поделилась статистикой о проценте репозиториев в мире AI/ML, содержащих уязвимости критического или высокого уровня опасности в GitHub Actions Workflows. В этой статье я расскажу о том, какие существуют инструменты для проверки ML-моделей, как они сканируют артефакты различных ML-фреймворков, о том, какой еще функционал заложен в них. А в финале несколькими способами попробуем обойти проверки рассматриваемых инструментов.

habr.com/ru/companies/pt/artic

#ai_model_scanners #ai_security #mlsecops #information_security

2026-01-19

RLM-Toolkit v1.2.1: Теоретические основы и оригинальные разработки

От теоремы Шеннона 1948 года до pip install rlm-toolkit 2026 года. 78 лет фундаментальной науки в одной библиотеке.

habr.com/ru/articles/986702/

#RLM #LLM #RAG #криптография #AES256 #Information_Bottleneck #сжатие_контекста #MCP #AI_Security #SENTINEL

2026-01-18

RLM-Toolkit: Полное руководство по обработке 10M+ токенов

Почему LangChain не справляется с 10M+ токенов? Разбираемся в RLM — новой парадигме обработки контекста с InfiniRetri (100% accuracy на Needle-in-Haystack), CIRCLE-безопасностью и поддержкой 75+ провайдеров. Полный туториал с кодом.

habr.com/ru/articles/986280/

#RLM #LLM #RAG #InfiniRetri #LangChain #AI_Security #Python #контекст #токены #embeddings

2026-01-16

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать. Открыть Белый Ящик

habr.com/ru/articles/986012/

#AI_Security #Prompt_Injection #Jailbreak #Transformer #RLHF #Red_Teaming #Alignment #Tokenization #Mechanistic_Interpretability

2026-01-12

Как «думает» ИИ: гроккаем разреженные автоэнкодеры (SAE)

В этой статье разберём исследование от компании Anthropic, которое демонстрирует практическую возможность вскрытия «черного ящика» больших языковых моделей для обеспечения их контролируемости и безопасности с помощью разреженных автоэнкодеров (SAE - Sparse AutoEncoders). И в конце, попробуем поуправлять поведением модели - заставим думать, что она Санта Клаус 🎅.

habr.com/ru/articles/981964/

#Сезон_ИИ_в_разработке #LLM #interpretable_ml #interpretability #interpretable_AI #искусственный_интеллект #ai_security #Steering #SAE #Sparse_AutoEncoder

[NIA가 전망한 2026년 12대 AI·디지털 트렌드 [28p PDF]

NIA(한국지능정보사회진흥원)는 2026년의 주요 AI 및 디지털 트렌드 12가지를 전망했습니다. 주요 트렌드로는 AI 인프라 패권 경쟁, AI 에이전트의 자동화와 협업, 피지컬 AI의 산업 현장 적용, 6G와 위성통신의 융합, AI 보안 기술의 발전, 자국 기술 주권 확보, 버티컬 AI의 확산, 양자기술의 발전, 지속 가능한 에너지 인프라의 전환, 온디바이스 AI를 통한 개인화 서비스, AI 기반 바이오 혁명, 그리고 AI 미디어가 주도하는 콘텐츠 혁신 등이 포함됩니다.

news.hada.io/topic?id=25657

#ai_trends #digital_innovation #physical_ai #quantum_technology #ai_security

2025-12-17

AI đang mở ra làn sóng mới cho thế hệ kỹ sư trẻ Việt Nam! Các tiến bộ về mô hình tổng hợp, AI agents, bảo mật AI và dữ liệu lớn đang thúc đẩy học tập, nghiên cứu và ứng dụng AI trong trường đại học và doanh nghiệp. #AI #CôngNghệ #KỹSư #Innovation #Vietnam #Tech #AI_Security #BigData

NONE

vietnamnet.vn/ung-dung-ai-xu-h

2025-11-27

3 главных инсайта о «взломах» LLM из исследования StrongREJECT

Всем привет! Погружаюсь в новую для себя область AI Security, в связи с чем решил написать несколько обзоров на самые обсуждаемые исследования и статьи по этой теме. Сегодня поговорим про взлом LLM и неожиданные выводы исследования StrongReject. Джейлбрейкнуть

habr.com/ru/companies/datafeel

#AI_security #AI_safety #Benchmark #Jailbreak #LLM #StrongREJECT #Strong #REJECT

2025-11-26

AI security на практике: атаки и базовые подходы к защите

Привет, Хабр! Я Александр Лебедев, старший разработчик систем искусственного интеллекта в Innostage. В этой статье расскажу о нескольких интересных кейсах атак на ИИ-сервисы и базовых способах защиты о них. В конце попробуем запустить свой сервис и провести на нем несколько простых атак, которые могут обернуться серьезными потерями для компаний. А также разберемся, как от них защититься.

habr.com/ru/companies/innostag

#ai_security #безопасность_ии #безопасность_llm #guardrails #alignment #mlops #ml #ai

2025-11-04

Тестирование AI-систем и роль MCP-сервера: теория и практика глазами QA

MCP — это язык, на котором AI учится общаться с инструментами. Но если дать ему слишком много «слов», получится хаос. В статье можно узнать, почему MCP нужно курировать, где начинаются риски безопасности и как этот протокол помогает сделать взаимодействие с AI осмысленным и надёжным. Почему MCP важен ->

habr.com/ru/articles/963012/

#MCP #QA #qa_testing #AIтестирование #безопасность_AI #Neon_MCP #AI_security #Model_Context_Protocol

2025-10-29

GPT-OSS Safeguard – Biện pháp bảo vệ AI mã nguồn mở sắp được công bố! Công nghệ tập trung vào an ninh và tính minh bạch cho AI. Tham khảo thêm từ cộng đồng phát triển. #GPT_OSS #AI_Security #AI_BảoVệ #Mã_Nguồn_Mở #OpenSource_ETC

reddit.com/r/LocalLLaMA/commen

2025-10-12

🎯 AI
===================

Executive summary: "LLM Security 101" maps the attack surface of generative AI systems by cataloging existing defenses (alignment, filtering, guardrails) and the failure modes that enable misuse. The report organizes defenses as internal alignment techniques versus external guardrail models and examines prompt defense systems and practical limitations.

Technical details:
• Alignment techniques discussed include reward-modeling and supervised fine-tuning approaches and their residual failure modes where adversarial or ambiguous inputs can trigger undesired behavior.
• External guardrails are treated as separate model layers or middleware that mediate inputs/outputs; the document highlights cases where context leakage, chaining with RAG, or model extraction enable bypass.
• Prompt-level attacks covered include classical prompt injection, jailbreak patterns, and context-manipulation that exploit tokenization or system instruction precedence.

Analysis:
• The core observation is an architectural gap: defenses embedded in the model (alignment) and defenses external to the model (guardrails) have complementary strengths but also distinct blind spots. Open-source stacks expose model internals that simplify extraction and fine-tuned abuse; closed-source stacks rely more on external filters which can be probed and bypassed.
• Compositional pipelines such as RAG increase attack surface because retrieved context can reintroduce malicious instructions or sensitive data.

Detection (conceptual):
• Monitor anomalous prompt patterns and contextual shifts that deviate from baseline user behavior.
• Track unexpected sensitivity of outputs to small context changes, indicative of prompt injection vectors.
• Correlate unusual retrieval items in RAG pipelines with downstream harmful outputs to surface poisoning attempts.

Mitigation (conceptual):
• Combine layered defenses: model-level alignment plus external runtime guardrails and output sanitization.
• Employ adversarial testing and red-teaming focused on prompt manipulation, RAG context poisoning, and extraction probes.

Limitations:
• The document emphasizes that no single control eliminates risk; trade-offs exist between openness, functionality, and attack surface. Practical controls can reduce but not eliminate specific classes of abuse.

🔹 LLM #GenAI #AI_security #prompt_injection #RAG

🔗 Source: hiddenlayer.com/innovation-hub

2025-08-11

📢 Failles de prompt injection dans OpenHands : exfiltration zéro‑clic de tokens GitHub via rendu d’images
📝 Source: Embrace The Red (blog) — Des chercheurs en sécurité décrivent des **...
📖 cyberveille : cyberveille.ch/posts/2025-08-1
🌐 source : embracethered.com/blog/posts/2
#AI_security #OpenHands #Cyberveille

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst