● Category
Безопасность ИИ и ML
43 entries
- ai-security№ 866
Промпт-инъекция
Атака, при которой во входной запрос LLM встраивается враждебный текст, переопределяющий исходные инструкции и заставляющий модель игнорировать ограничения или выполнять действия злоумышленника.
- ai-security№ 528
Косвенная промпт-инъекция
Разновидность промпт-инъекции, при которой вредоносные инструкции скрыты в стороннем контенте (веб-страницы, документы, письма), который LLM затем получает через поиск, браузер или вызовы инструментов.
- ai-security№ 030
Джейлбрейк ИИ
Приём, заставляющий выровненную ИИ-модель обойти свои политики безопасности и выдать контент или поведение, которые оператор намеревался запретить.
- ai-security№ 281
Отравление данных
Атака на систему машинного обучения, при которой злоумышленники внедряют, изменяют или меняют разметку обучающих данных, чтобы итоговая модель работала неверно или содержала скрытые бэкдоры.
- ai-security№ 703
Извлечение модели
Атака, восстанавливающая параметры, поведение или обучающие данные конфиденциальной ML-модели путём систематических запросов к её публичному API.
- ai-security№ 704
Инверсия модели
Атака на приватность, восстанавливающая чувствительные признаки обучающих данных модели — лица, текст — через её выходы или градиенты.
- ai-security№ 018
Состязательный пример
Намеренно искажённый — часто незаметно для человека — вход, заставляющий ML-модель выдавать неверное или нужное атакующему предсказание.
- ai-security№ 393
Атака уклонения (ML)
Атака времени вывода, при которой злоумышленник конструирует входы, обходящие задуманное решение развернутой ML-модели — например, классификатора вредоносного ПО или фильтра контента.
- ai-security№ 081
Бэкдор-атака (ML)
Атака времени обучения, встраивающая скрытое поведение: на чистых входах модель работает нормально, а при появлении секретного триггера выдаёт результат, выбранный злоумышленником.
- ai-security№ 666
Атака на вывод членства
Атака на приватность, определяющая, входила ли конкретная запись в обучающую выборку модели, через анализ её поведения на этой записи.
- ai-security№ 032
AI Red Team
Специализированная команда, моделирующая противников против ИИ-систем, чтобы выявить риски безопасности, safety и злоупотреблений раньше реальных атакующих.
- ai-security№ 691
MLSecOps
Дисциплина интеграции средств безопасности и управления рисками во весь жизненный цикл машинного обучения — от сбора данных до обучения, развёртывания, мониторинга и вывода из эксплуатации.
- ai-security№ 777
OWASP LLM Top 10
Список OWASP с десятью наиболее критическими рисками безопасности для приложений, построенных на больших языковых моделях.
- ai-security№ 028
Галлюцинация ИИ
Режим отказа генеративного ИИ, при котором система выдаёт связный и уверенный, но фактически неверный, выдуманный или не подтверждённый источниками контент.
- ai-security№ 024
Выравнивание ИИ
Совокупность исследований и инженерных практик, обеспечивающих, что ИИ-системы преследуют цели, выполняют инструкции и ведут себя в соответствии с намерениями разработчиков и пользователей.
- ai-security№ 033
Безопасность ИИ (AI Safety)
Дисциплина, цель которой — не допускать непреднамеренного вреда от ИИ-систем для пользователей, операторов и общества; охватывает технические, операционные и социальные аспекты.
- ai-security№ 027
Управление ИИ (AI Governance)
Совокупность политик, процессов, ролей и средств контроля, с помощью которых организации и регуляторы обеспечивают ответственную и законную разработку, развёртывание и эксплуатацию ИИ-систем.
- ai-security№ 297
Дипфейк
Сгенерированные ИИ синтетические аудио, изображения или видео, убедительно показывающие реального человека говорящим или делающим то, чего на самом деле не было.
- ai-security№ 1123
Синтетический медиаконтент
Любой аудио-, изображение, видео или текстовый контент, созданный или существенно изменённый генеративным ИИ, а не зафиксированный непосредственно в физическом мире.
- ai-security№ 035
Водяные знаки для ИИ
Методы встраивания обнаруживаемого сигнала в ИИ-генерируемый контент, чтобы впоследствии можно было проверить его происхождение, модель источника или принадлежность обучающему набору.
- ai-security№ 1026
Shadow AI
Использование сотрудниками ИИ-инструментов, моделей или сервисов без ведома или одобрения функций безопасности, приватности или governance в организации.
- ai-security№ 025
AI Bill of Materials (AIBOM)
Машиночитаемый перечень всех компонентов ИИ-системы — датасетов, базовых моделей, данных дообучения, библиотек, промптов и оценочных артефактов — используемый для безопасности, соответствия и подотчётности.
- ai-security№ 898
Безопасность RAG
Дисциплина защиты пайплайнов RAG, чтобы документы, векторные хранилища и шаги извлечения, питающие LLM, нельзя было отравить, использовать во вред или применить для утечки данных.
- ai-security№ 1163
Контрабанда токенов
Класс джейлбрейков, скрывающий вредоносные инструкции для LLM в кодировках, языках или последовательностях токенов, которые safety-фильтр не считает опасными.
- ai-security№ 729
Атака Nightshade
Техника отравления данных, разработанная группой Glaze в University of Chicago: добавляет к изображениям незаметные искажения, чтобы text-to-image модели, обучаемые на них, усваивали сильно искажённые концепты.
- ai-security№ 034
Риски цепочки поставок ИИ
Множество угроз, возникающих из сторонних датасетов, базовых моделей, библиотек, плагинов и инфраструктуры, которые организации комбинируют при построении и развёртывании ИИ-систем.
- ai-security№ 026
Обнаружение ИИ-контента
Инструменты и методы, оценивающие, был ли текст, изображение, аудио или видео создан моделью ИИ, а не человеком.
- ai-security№ 029
Реагирование на инциденты ИИ
Совокупность процессов, ролей и плейбуков, которые организация использует для обнаружения, локализации, расследования, коммуникации и восстановления после инцидентов, связанных с ИИ-системами.
- ai-security№ 617
LLM Firewall
Контроль безопасности, расположенный между пользователями и большой языковой моделью, который в реальном времени проверяет промпты, извлечённый контекст и выводы, блокируя или переписывая трафик, нарушающий политику.
- ai-security№ 618
LLM Guardrails
Механизмы, ограничивающие, что приложение на основе LLM может принимать или выдавать, обеспечивая правила safety, безопасности и бизнеса вокруг базовой модели.
- ai-security№ 657
Атаки на MCP
Атаки, использующие протокол Model Context Protocol (MCP) для внедрения подсказок, злоупотребления инструментами или перехода через серверы, которым доверяет ИИ-ассистент.
- ai-security№ 1208
Атака с клонированием голоса
Атака, при которой синтезированная ИИ речь имитирует реального человека, чтобы обойти голосовую аутентификацию или склонить жертву к платежу или действию.
- ai-security№ 1203
Атака с видеодипфейком
Атака, использующая ИИ-синтез видео реального человека, часто в живой видеоконференции, чтобы санкционировать мошеннические переводы или распространять дезинформацию.
- ai-security№ 036
Дезинформация, созданная ИИ
Ложный или вводящий в заблуждение контент, создаваемый или усиливаемый генеративным ИИ для обмана аудитории, манипуляции мнениями и влияния на выборы, рынки и конфликты.
- ai-security№ 037
Вредоносное ПО, созданное ИИ
Вредоносный код, написанный, изменённый или сгенерированный с помощью больших языковых моделей, снижающий порог входа для атакующих и ускоряющий выпуск вариантов.
- ai-security№ 1168
Переносимая состязательная атака
Атака, при которой состязательные примеры, созданные против одной ML-модели, обманывают и другие модели, что делает возможной чёрноящичную атаку без доступа к цели.
- ai-security№ 014
Адаптивная атака
Атака на систему машинного обучения, специально спроектированная для обхода или взлома конкретной известной защиты, а не использующая универсальную технику.
- ai-security№ 619
Утечка системного промпта LLM
Атака, извлекающая скрытый системный промпт или инструкции развёрнутого приложения на большой языковой модели и раскрывающая его логику, секреты и инструменты.
- ai-security№ 137
C2PA
Coalition for Content Provenance and Authenticity — открытый стандарт криптографически подписанных метаданных, фиксирующих, как был создан и отредактирован цифровой контент.
- ai-security№ 897
RAG
Retrieval-Augmented Generation — паттерн использования LLM, при котором во время запроса извлекаются релевантные документы из хранилища знаний и подставляются в промпт.
- ai-security№ 376
Атаки на эмбеддинги
Класс атак на векторы эмбеддингов AI, направленных на восстановление, изменение или эксплуатацию исходного ввода и его семантики: инверсия эмбеддингов и similarity-poisoning.
- ai-security№ 1198
Безопасность векторных баз данных
Набор мер защиты векторных баз данных, используемых AI-системами, от утечек, отравления, пересечения тенантов и операционных или supply-chain компрометаций.
- ai-security№ 031
Карта AI-модели (Model Card)
Стандартизованный документ, предложенный Margaret Mitchell с соавторами в 2018 году, описывающий назначение, данные обучения, производительность, ограничения и этические аспекты ML-модели.