● 47 entries

Безопасность ИИ и ML

Адаптивная атакаАтака на систему машинного обучения, специально спроектированная для обхода или взлома конкретной известной защиты, а не использующая универсальную технику.
Атака на вывод членстваАтака на приватность, определяющая, входила ли конкретная запись в обучающую выборку модели, через анализ её поведения на этой записи.
Атака с видеодипфейкомАтака, использующая ИИ-синтез видео реального человека, часто в живой видеоконференции, чтобы санкционировать мошеннические переводы или распространять дезинформацию.
Атака с клонированием голосаАтака, при которой синтезированная ИИ речь имитирует реального человека, чтобы обойти голосовую аутентификацию или склонить жертву к платежу или действию.
Атака уклонения (ML)Атака времени вывода, при которой злоумышленник конструирует входы, обходящие задуманное решение развернутой ML-модели — например, классификатора вредоносного ПО или фильтра контента.
Атака NightshadeТехника отравления данных, разработанная группой Glaze в University of Chicago: добавляет к изображениям незаметные искажения, чтобы text-to-image модели, обучаемые на них, усваивали сильно искажённые концепты.
Атаки на эмбеддингиКласс атак на векторы эмбеддингов AI, направленных на восстановление, изменение или эксплуатацию исходного ввода и его семантики: инверсия эмбеддингов и similarity-poisoning.
Атаки на MCPАтаки, использующие протокол Model Context Protocol (MCP) для внедрения подсказок, злоупотребления инструментами или перехода через серверы, которым доверяет ИИ-ассистент.
Безопасность агентного ИИДисциплина защиты автономных LLM-агентов, которые планируют, вызывают инструменты и действуют в реальных системах, где prompt-инъекция превращается в удалённое выполнение кода, а избыточная агентность — в реальный масштаб разрушения.
Безопасность векторных баз данныхНабор мер защиты векторных баз данных, используемых AI-системами, от утечек, отравления, пересечения тенантов и операционных или supply-chain компрометаций.
Безопасность ИИ (AI Safety)Дисциплина, цель которой — не допускать непреднамеренного вреда от ИИ-систем для пользователей, операторов и общества; охватывает технические, операционные и социальные аспекты.
Безопасность RAGДисциплина защиты пайплайнов RAG, чтобы документы, векторные хранилища и шаги извлечения, питающие LLM, нельзя было отравить, использовать во вред или применить для утечки данных.
Бэкдор-атака (ML)Атака времени обучения, встраивающая скрытое поведение: на чистых входах модель работает нормально, а при появлении секретного триггера выдаёт результат, выбранный злоумышленником.
Водяные знаки для ИИМетоды встраивания обнаруживаемого сигнала в ИИ-генерируемый контент, чтобы впоследствии можно было проверить его происхождение, модель источника или принадлежность обучающему набору.
Вредоносное ПО, созданное ИИВредоносный код, написанный, изменённый или сгенерированный с помощью больших языковых моделей, снижающий порог входа для атакующих и ускоряющий выпуск вариантов.
Выравнивание ИИСовокупность исследований и инженерных практик, обеспечивающих, что ИИ-системы преследуют цели, выполняют инструкции и ведут себя в соответствии с намерениями разработчиков и пользователей.
Галлюцинация ИИРежим отказа генеративного ИИ, при котором система выдаёт связный и уверенный, но фактически неверный, выдуманный или не подтверждённый источниками контент.
Дезинформация, созданная ИИЛожный или вводящий в заблуждение контент, создаваемый или усиливаемый генеративным ИИ для обмана аудитории, манипуляции мнениями и влияния на выборы, рынки и конфликты.
Джейлбрейк ИИПриём, заставляющий выровненную ИИ-модель обойти свои политики безопасности и выдать контент или поведение, которые оператор намеревался запретить.
ДипфейкСгенерированные ИИ синтетические аудио, изображения или видео, убедительно показывающие реального человека говорящим или делающим то, чего на самом деле не было.
Избыточная агентность (Excessive Agency)OWASP LLM06 — наделение LLM-системы большим набором функций, прав или автономии, чем реально требуется, из-за чего одна prompt-инъекция или ошибка модели превращается в непропорциональный реальный ущерб.
Извлечение моделиАтака, восстанавливающая параметры, поведение или обучающие данные конфиденциальной ML-модели путём систематических запросов к её публичному API.
Инверсия моделиАтака на приватность, восстанавливающая чувствительные признаки обучающих данных модели — лица, текст — через её выходы или градиенты.
Карта AI-модели (Model Card)Стандартизованный документ, предложенный Margaret Mitchell с соавторами в 2018 году, описывающий назначение, данные обучения, производительность, ограничения и этические аспекты ML-модели.
Контрабанда токеновКласс джейлбрейков, скрывающий вредоносные инструкции для LLM в кодировках, языках или последовательностях токенов, которые safety-фильтр не считает опасными.
Косвенная промпт-инъекцияРазновидность промпт-инъекции, при которой вредоносные инструкции скрыты в стороннем контенте (веб-страницы, документы, письма), который LLM затем получает через поиск, браузер или вызовы инструментов.
Обнаружение ИИ-контентаИнструменты и методы, оценивающие, был ли текст, изображение, аудио или видео создан моделью ИИ, а не человеком.
Отравление данныхАтака на систему машинного обучения, при которой злоумышленники внедряют, изменяют или меняют разметку обучающих данных, чтобы итоговая модель работала неверно или содержала скрытые бэкдоры.
Переносимая состязательная атакаАтака, при которой состязательные примеры, созданные против одной ML-модели, обманывают и другие модели, что делает возможной чёрноящичную атаку без доступа к цели.
Промпт-инъекцияАтака, при которой во входной запрос LLM встраивается враждебный текст, переопределяющий исходные инструкции и заставляющий модель игнорировать ограничения или выполнять действия злоумышленника.
Реагирование на инциденты ИИСовокупность процессов, ролей и плейбуков, которые организация использует для обнаружения, локализации, расследования, коммуникации и восстановления после инцидентов, связанных с ИИ-системами.
Риски цепочки поставок ИИМножество угроз, возникающих из сторонних датасетов, базовых моделей, библиотек, плагинов и инфраструктуры, которые организации комбинируют при построении и развёртывании ИИ-систем.
Синтетический медиаконтентЛюбой аудио-, изображение, видео или текстовый контент, созданный или существенно изменённый генеративным ИИ, а не зафиксированный непосредственно в физическом мире.
Состязательный примерНамеренно искажённый — часто незаметно для человека — вход, заставляющий ML-модель выдавать неверное или нужное атакующему предсказание.
Управление ИИ (AI Governance)Совокупность политик, процессов, ролей и средств контроля, с помощью которых организации и регуляторы обеспечивают ответственную и законную разработку, развёртывание и эксплуатацию ИИ-систем.
Утечка системного промпта LLMАтака, извлекающая скрытый системный промпт или инструкции развёрнутого приложения на большой языковой модели и раскрывающая его логику, секреты и инструменты.
AI Bill of Materials (AIBOM)Машиночитаемый перечень всех компонентов ИИ-системы — датасетов, базовых моделей, данных дообучения, библиотек, промптов и оценочных артефактов — используемый для безопасности, соответствия и подотчётности.
AI Red TeamСпециализированная команда, моделирующая противников против ИИ-систем, чтобы выявить риски безопасности, safety и злоупотреблений раньше реальных атакующих.
C2PACoalition for Content Provenance and Authenticity — открытый стандарт криптографически подписанных метаданных, фиксирующих, как был создан и отредактирован цифровой контент.
LLM FirewallКонтроль безопасности, расположенный между пользователями и большой языковой моделью, который в реальном времени проверяет промпты, извлечённый контекст и выводы, блокируя или переписывая трафик, нарушающий политику.
LLM GuardrailsМеханизмы, ограничивающие, что приложение на основе LLM может принимать или выдавать, обеспечивая правила safety, безопасности и бизнеса вокруг базовой модели.
LLMjackingАтака, при которой злоумышленники используют украденные облачные учётные данные для доступа к размещённым сервисам больших языковых моделей и злоупотребления ими, навязывая жертве крупные счета за вычисления или перепродавая доступ.
MLSecOpsДисциплина интеграции средств безопасности и управления рисками во весь жизненный цикл машинного обучения — от сбора данных до обучения, развёртывания, мониторинга и вывода из эксплуатации.
Model Context Protocol (MCP)Открытый протокол, представленный Anthropic в конце 2024 года, который стандартизирует, как LLM-клиенты подключаются к внешним инструментам, источникам данных и подсказкам через серверы, превращая MCP-серверы в ключевую границу безопасности агентного ИИ.
OWASP LLM Top 10Список OWASP с десятью наиболее критическими рисками безопасности для приложений, построенных на больших языковых моделях.
RAGRetrieval-Augmented Generation — паттерн использования LLM, при котором во время запроса извлекаются релевантные документы из хранилища знаний и подставляются в промпт.
Shadow AIИспользование сотрудниками ИИ-инструментов, моделей или сервисов без ведома или одобрения функций безопасности, приватности или governance в организации.