Small clinical datasets burn privacy budget fast. In this guide, we train with #DifferentialPrivacy (DP‑SGD) in #PyTorch using #Opacus, tune clipping (C) + noise (σ), and plot AUROC vs ε to choose a defensible point.
Small clinical datasets burn privacy budget fast. In this guide, we train with #DifferentialPrivacy (DP‑SGD) in #PyTorch using #Opacus, tune clipping (C) + noise (σ), and plot AUROC vs ε to choose a defensible point.
Дифференциальная приватность в ML
Привет, Хабр! Сегодня поговорим в коротком формате о защите данных при обучении моделей, а именно в процессе обучения. Никому не понравится, если ваша нейросеть вдруг выдаст чужие паспортные данные или медицинские записи, правда? А ведь модели машинного обучения иногда склонны запоминать кусочки обучающего набора. Бывали случчаи, где из языковой модели вытаскивали строки с номерами телефонов и email тех людей, чьи данные были в тренировочном датасете. Стоит ли нам вообще кормить модель конфиденциальной информацией , если она потом болтает лишнее? К счастью, есть крутая техника — дифференциальная приватность . Она позволяет обучать ML-модели на реальных данных, но с гарантией, что никакой отдельный пользователь не будет опознан моделью. Разобраться в DP
https://habr.com/ru/companies/otus/articles/970382/
#opacus #дифференциальная_приватность #ml #машинное_обучение #приватность_данных #обучение_нейросетей #DPSGD #PyTorch #конфиденциальные_данные