#generative_models

2025-12-29

Детектор AI-сгенерированных изображений: от идеи до честной оценки качества

Всем привет! Меня зовут Татьяна Кутузова , я работаю в Wildberries & Russ ML-инженером. Вместе с Иваном Горбуновым и Елисеем Мягких мы занимаемся разработкой AI-детектора изображений, который помогает отличать реальные фотографии от сгенерированных нейросетями. Детектор появился из практической потребности: генеративные модели стали достаточно хороши, чтобы их результат массово попадал в пользовательский контент, и платформе понадобился автоматический способ с этим работать. Создание такого инструмента — это не только обучение модели, но и большое количество инженерных, продуктовых и методологических решений: что считать генерацией, на каких данных обучаться, как обеспечить устойчивость к новым моделям и как интегрировать детектор в реальные процессы. В этой статье рассказываем, как мы подошли к созданию AI-детектора: от выбора архитектуры и данных до продуктовых границ и сценариев применения. Отдельное внимание уделяем тому, как в таких задачах корректно оценивать качество модели, какие метрики имеют смысл и почему их интерпретация не менее важна, чем сами числа.

habr.com/ru/companies/wildberr

#метрики #ai #machinelearning #data_science #computervision #компьютерное_зрение #transformers #generative_models #генеративный_ии #нейросети

2025-12-24

Дискуссия «GenAI reality check: ловушка эффективности, тяжесть техдолга и битва за прод»

Делимся инсайтами с дискуссии на Conversations. Эксперты из X5 Tech, MWS AI, Яндекс R&D и Северсталь об эффективности AI-ассистентов, актуальных трендах и подходах к внедрению решений, а также о работе с ожиданиями бизнеса. Как отличить настоящую продуктивность AI-ассистентов от иллюзии ускорения и на какие метрики стоит ориентироваться? Какие есть тренды в AI-решениях? Как правильно выстраивать процесс внедрения моделей, чтобы избежать разрыва между ожиданиями бизнеса и реальной готовностью продукта? Как строить процесс создания решений, которые будут production-ready? Ответы и выводы – в нашем материале!

habr.com/ru/companies/just_ai/

#разработка #искусственный_интеллект #generative_models #genai #llm #конференция #метрики #ожидание_и_реальность

2025-11-28

Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!

habr.com/ru/companies/sberbank

#генерация_видео #kandinsky #multimodality #sberai #sberdevices #generative_models #kandinsky_5 #airi #texttoimage #texttovideo

2025-10-20

Мы открыли для всех доступ к Kandinsky Video

Ура! Состоялся публичный релиз Kandinsky Video в Telegram-боте GigaChat и Kandinsky . Модель умеет создавать видео по тексту и оживлять изображения. Узнать, как генерировать

habr.com/ru/companies/sberbank

#генерация_изображений #генерация_видео #kandinsky_4 #kandinsky_5 #sberai #generative_models #texttoimage #imagetovideo

2025-10-19

Внутренние представления интерактивных мировых моделей

Вы не задумывались, почему у нас уже есть Sora/Veo и бесконечный поток нагенерированных роликов, но "Матрица" интерактивных миров где можно действовать всё ещё есть только в лабораториях? Разбираем, что мешает получить 24 FPS интерактивного видео на флагманской видеокарте, как модели запоминают мир и зачем им обучаемое сжатие контекста.

habr.com/ru/articles/957958/

#world_models #generative_models #generative_ai #genie_3

2025-10-14

Часть 2. Победа над каракулями: бенчмарки Attention/ControlNet/Canva и готовые рецепты

Привет, чемпионы! Мы детально разобрали природу проблемы и изучили арсенал методов. Теперь перейдем к самому важному — практическим результатам. Я протестировал каждый подход на реальной задаче создания инфографики "Agentic AI Explained" и готов показать, что действительно работает.

habr.com/ru/companies/datafeel

#ml #ai #nlp #prompt #texttospeech #textonphoto #generative_models #gemini #gpt #canva

2025-07-17

Дискуссия: RnD на стероидах: вычислительная революция, AI-агенты с суперпамятью и новая эра кибербезопасности

На сцене Conversations в этот раз собрались эксперты из SberAI, Авито, Т-Банка и Raft, чтобы вместе с Just AI обсудить автономных агентов с суперпамятью, вызовы vibe-coding и новую эру кибербезопасности. Вашему вниманию — расшифровка интереснейшей дискуссии! О скорости изменений в индустрии и методах отслеживания важных технологических релизов, перспективах вычислительной революции, альтернативах NVIDIA и безопасности LLM, подходах к вайбкодингу в разработке и кейсах применения AI-ассистентов и многом другом.

habr.com/ru/companies/just_ai/

#разработка #искусственный_интеллект #generative_models #generative_ai #llm #конференция #ииассистент #вайбкодинг #видеокарты #кибербезопасность

2025-07-02

@order @carnage4life

Is it given that #AI consumption of data will be taken as fair use? I am not challenging the claim. Just want to understand the underlying assumptions and reasons behind it.

#llm #generativeAI #generative_models, #gpt

2025-06-18

Как обучают ИИ: без формул, но с котами

В этой статье — без воды, трюизмов, академизмов и формул — разберёмся, в чём принципиальное отличие машинного обучения (ML) от до-ИИ программирования, а затем генеративного ИИ от классических моделей машинного обучения (ML). Поговорим о типах генеративных моделей, их архитектуре и областях применения. Заодно затронем важный вопрос: где проходит граница между классическим программированием и вероятностным творчеством, на котором построены современные нейросети. Статья ориентирована прежде всего на тех, кто делает первые шаги в ИИ, но если ты начинающий ML-инженер, архитектор ИИ-приложений, основатель стартапа или просто хочешь разобраться, что на самом деле происходит под капотом у ChatGPT и Midjourney — ты, скорее всего, найдёшь здесь для себя что-то полезное.

habr.com/ru/articles/919296/

#машинное+обучение #искусственный_интеллект #generative_models #generative_art #ml #научпоп #обучение_нейронных_сетей #генеративные_модели #парадигмы #selfsupervised

2025-06-05

Kandinsky 4.1 Image – новый генератор изображений от Сбера

В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image!

habr.com/ru/companies/sberbank

#генерация_изображений #kandinsky_4 #sberai #generative_models #texttoimage #computer_vision #diffusion #sft #artificial_intelligence #machine_learning

2025-03-11

Как несбалансированный оптимальный транспорт помог нам сделать поиск барицентров распределений устойчивым

Привет! Меня зовут Милена Газдиева, я являюсь научным сотрудником Института AIRI, а также инженером-исследователем и аспиранткой Сколтеха. Мои научные интересы лежат в области разработки генеративных моделей на основе оптимального транспорта (optimal transport, ОТ) и их приложений к различных задачам. Мы с коллегами добились успехов в повышении устойчивости таких моделей, и одна из наших статей по этой теме была принята на престижную конференцию по искусственному интеллекту ICLR 2025, которая в этом году будет проходить в Сингапуре. Сегодня я расскажу об этой работе, в рамках которой мы разработали метод оценки барицентров (взвешенных средних) распределений, устойчивый к различным выбросам и дисбалансам в данных. Что это означает и зачем нужно — читайте далее.

habr.com/ru/companies/airi/art

#generative_models #optimal_transport #barycenters #оптимальный_транспорт

2025-02-20

[Перевод] Нет, ваша генеративная модель меня не заменит

За последние три недели я устранил пару проблем с производительностью, что потенциально сэкономило компании несколько сотен тысяч долларов (я подрядчик, поэтому, к сожалению, не получаю никаких премий). Как я нашёл эти проблемы? Можно назвать это необъяснимой, основанной на опыте интуицией, шестым чувством нёрда; у меня просто возникло ощущение, что с системой что-то не так. За свои двадцать с лишним лет опыта я видел множество приложений и знал, что где-то в этой системе есть узкое место. Я создал тестовый сценарий, чтобы точно замерить пропускную способность системы от времени, запустил инстанс VisualVM и прошерстил десятки потоков, трассировок стеков, снэпшотов памяти и CPU. Я обнаружил проблемы, написал их исправления и запустил всё заново. Бум! Производительность возросла в десять с лишним раз. Мой начальник и коллеги были счастливы, а продуктивность повысилась. Меня похвалили, и я ощутил отдачу от выполненного долга. Но стоит помнить, что, строго говоря, это не были баги. Успешно проходили все юнит-тесты и интеграционные тесты, тесты BDD, линтеры, статический анализ кода и было выполнено несколько раундов проверок кода. Проблемы заключались в двух невинных строках кода (спрятанных среди тысяч других), казалось бы, не вызывавших никаких трудностей. Слава Богу, проблемы были найдены на этапе разработки и не затронули ни одной системы в продакшене (мои коллеги теперь могли выполнять свои тесты быстрее, поэтому скорость разработки сильно возросла).

habr.com/ru/articles/884368/

#генеративный_ии #генеративный_интеллект #generative_models #llm #генерация_кода

2025-01-02

Основы и продвинутые техники RAG

В этом посте мы поговорим подробно про RAG на каждом его этапе, его модификации и его перспективные направления развития на момент написания статьи.

habr.com/ru/articles/871226/

#rag #rag_pipeline #llm #genai #nlp #machine_learning #generative_models

2024-12-13

Kandinsky 4.0 — новая модель генерации видео

Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video . В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности. В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.

habr.com/ru/companies/sberbank

#генерация_видео #kandinsky #video #multimodality #sberai #sberdevices #airi #generative_models #kandinsky_4

2024-11-21

Введение в синтетические данные для ML: зачем они нужны?

Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных? В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом.

habr.com/ru/companies/data_lig

#data_science #generative_models #data_scientist #data_engineering

2024-11-05

Квантизация позволяет запускать Llama 3.2 на мобилках

Квантизация помогла портировать последнюю версию LLM Llama 3.2 на мобильные платформы - iOS и Android. Для этого разработчики выпустили квантованные версии Llama 3.2 1B и 3B , которые при тестах на ARM-процессорах показали высокую скорость инференса, по сравнению с несжатыми весами в формате BF16. Как вообще получилось, что Llama работает на мобильных процессорах, ведь для ее запуска нужен определенный программный стек, чаще всего библиотека Pytorch и CUDA на операционной системе Linux? Дело в том, что Meta* ( признана в России экстремистской организацией) используют ExecuTorch - это фреймворк, который является частью Pytorch-платформы и предназначен для запуска Pytorch-программ на мобильных девайсах. ExecuTorch поддерживается фреймворком Llama Stack для запуска моделей Llama, а именно легковесных Llama 3.2 1B и 3B , на iOS и Android. Для разработки мобильных приложений под эти платформы Llama Stack предоставляет клиентский SDK на Swift для iOS и Kotlin для Android, оба написаны под ExecuTorch бэкенд. Какого именно уровня производительности удалось добиться новым квантованным моделям Llama? В среднем это ускорение инференса от двух до четырех раз по сравнению с весами в формате BF16, при сохранении практически сопоставимого качества. Уменьшение размера модели на 56% - что важно для мобильного приложения, чтобы меньше места на телефоне занимало - и уменьшение объема потребляемой памяти на 41% процент. Все это согласно результатам бенчмарков, приведенных на сайте Llama. Сразу стоит отметить важную деталь: речь идет не об обычной post-training квантизации , когда вы берете веса в FP16 и квантуете в GGUF или GPTQ. Хотя такие веса, безусловно, имеют практическое применение для множества задач, они страдают падением качества, это хорошо заметно на бенчмарках ниже.

habr.com/ru/articles/856244/

#llama #qlora #llama_32 #генеративные_модели #generative_models #нейронные_сети

2024-10-21

Мультимодальные приложения на Llama 3.2 и Llama Stack

Недавний релиз Llama 3.2 с мультимодальными версиями 11B и 90B открывает возможности для создания AI приложений, анализирующих визуальный ввод. Мультимодальные модели были и раньше, но это первая официальная версия Llama с такими функциями. Модель может быть использована для распознавания объектов и текста на изображении, как это делает GPT-4o. Довольно интересен технический рецепт создания мультимодальной Llama 3.2. За основу была взята предыдущая версия - 3.1, обычная текстовая LLM. Логично, если принять во внимание, что конечная цель - извлекать признаки изображения и “транслировать” их в текстовые токены. К LLM добавили image encoder, это модуль, который встраивает представление картинки-ввода в векторное пространство. А также слои image adapter’а - для того, чтобы полученные визуальные признаки передавать в языковую модель. Подробнее об энкодерах и адаптерах изображений можно прочитать, например, в статье Bordes et al. 2024 - введение в визуально-языковые модели. Обучают VLM на парах изображение-текст, именно так обучали и Llama 3.2. Причем в несколько этапов - сначала на большом корпусе данных, а затем применили файнтюнинг на меньшей, но более качественной выборке. Как показывает прошлый опыт работы с моделями Llama 3, такой подход дает хорошие результаты. Базовая модель, обученная на большом корпусе данных (например, 15трлн токенов Llama 3), хорошо генерализуется при файнтюнинге и меньше подвержена оверфиттингу. Пример - моя модель ruslandev/llama-3-8b-gpt-4o-ru1.0 , которая после обучения на небольшом, но качественном датасете превзошла GPT-3.5 на русскоязычном бенчмарке.

habr.com/ru/articles/852168/

#mlops #нейронные_сети #reinforcementlearning #llama #llama_3 #llm #nlp #genai #generative_models #генеративные_модели

2024-09-17

HTML-теги с искусственным интеллектом

Всем привет! Помните череду недавних анонсов от IT-гигантов, о различном ИИ-функционале, внедренном во все, что только можно? Среди этих анонсов, например, были помощники в написании текстов писем и сообщений для почтовых и других сервисов. Эти помощники могут проверить вас на ошибки, перевести текст на другой язык, поменять тональность и настроение текста, сделать его более кратким, либо, напротив, дополнить. На мой скромный взгляд, сейчас складывается такая ситуация, что создавать собственные ИИ-сервисы общего назначения очень рискованно, ибо крупным компаниям не составит труда воспроизвести ваш функционал, имея доступ к более значительным ресурсам, как вычислительным, так и в плане данных. Но и у нас, независимых разработчиков и энтузиастов, есть свои преимущества: мы можем создавать решения на уровне библиотек и компонентов, которые будут способны размыть и скорректировать разницу в конкурентных преимуществах, между гигантами и мелкими стартапами. Итак, в этом материале, я предлагаю вам вместе со мной создать умный HTML-тег - текстовое поле, которое сможет помогать пользователю в настройке введенного текста. Этот тег можно будет использовать на любом сайте, в любом веб-приложении, созданном с помощью любого современного фреймворка, или даже, в простом статическом HTML-файле.

habr.com/ru/articles/842044/

#artificial_intelligence #html #web_components #chatgpt #javascript_library #symbiotejs #widgets #llm #api #generative_models

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst