● 47 entries
Безопасность ИИ и ML
- Адаптивная атакаАтака на систему машинного обучения, специально спроектированная для обхода или взлома конкретной известной защиты, а не использующая универсальную технику.
- Атака на вывод членстваАтака на приватность, определяющая, входила ли конкретная запись в обучающую выборку модели, через анализ её поведения на этой записи.
- Атака с видеодипфейкомАтака, использующая ИИ-синтез видео реального человека, часто в живой видеоконференции, чтобы санкционировать мошеннические переводы или распространять дезинформацию.
- Атака с клонированием голосаАтака, при которой синтезированная ИИ речь имитирует реального человека, чтобы обойти голосовую аутентификацию или склонить жертву к платежу или действию.
- Атака уклонения (ML)Атака времени вывода, при которой злоумышленник конструирует входы, обходящие задуманное решение развернутой ML-модели — например, классификатора вредоносного ПО или фильтра контента.
- Атака NightshadeТехника отравления данных, разработанная группой Glaze в University of Chicago: добавляет к изображениям незаметные искажения, чтобы text-to-image модели, обучаемые на них, усваивали сильно искажённые концепты.
- Атаки на эмбеддингиКласс атак на векторы эмбеддингов AI, направленных на восстановление, изменение или эксплуатацию исходного ввода и его семантики: инверсия эмбеддингов и similarity-poisoning.
- Атаки на MCPАтаки, использующие протокол Model Context Protocol (MCP) для внедрения подсказок, злоупотребления инструментами или перехода через серверы, которым доверяет ИИ-ассистент.
- Безопасность агентного ИИДисциплина защиты автономных LLM-агентов, которые планируют, вызывают инструменты и действуют в реальных системах, где prompt-инъекция превращается в удалённое выполнение кода, а избыточная агентность — в реальный масштаб разрушения.
- Безопасность векторных баз данныхНабор мер защиты векторных баз данных, используемых AI-системами, от утечек, отравления, пересечения тенантов и операционных или supply-chain компрометаций.
- Безопасность ИИ (AI Safety)Дисциплина, цель которой — не допускать непреднамеренного вреда от ИИ-систем для пользователей, операторов и общества; охватывает технические, операционные и социальные аспекты.
- Безопасность RAGДисциплина защиты пайплайнов RAG, чтобы документы, векторные хранилища и шаги извлечения, питающие LLM, нельзя было отравить, использовать во вред или применить для утечки данных.
- Бэкдор-атака (ML)Атака времени обучения, встраивающая скрытое поведение: на чистых входах модель работает нормально, а при появлении секретного триггера выдаёт результат, выбранный злоумышленником.
- Водяные знаки для ИИМетоды встраивания обнаруживаемого сигнала в ИИ-генерируемый контент, чтобы впоследствии можно было проверить его происхождение, модель источника или принадлежность обучающему набору.
- Вредоносное ПО, созданное ИИВредоносный код, написанный, изменённый или сгенерированный с помощью больших языковых моделей, снижающий порог входа для атакующих и ускоряющий выпуск вариантов.
- Выравнивание ИИСовокупность исследований и инженерных практик, обеспечивающих, что ИИ-системы преследуют цели, выполняют инструкции и ведут себя в соответствии с намерениями разработчиков и пользователей.
- Галлюцинация ИИРежим отказа генеративного ИИ, при котором система выдаёт связный и уверенный, но фактически неверный, выдуманный или не подтверждённый источниками контент.
- Дезинформация, созданная ИИЛожный или вводящий в заблуждение контент, создаваемый или усиливаемый генеративным ИИ для обмана аудитории, манипуляции мнениями и влияния на выборы, рынки и конфликты.
- Джейлбрейк ИИПриём, заставляющий выровненную ИИ-модель обойти свои политики безопасности и выдать контент или поведение, которые оператор намеревался запретить.
- ДипфейкСгенерированные ИИ синтетические аудио, изображения или видео, убедительно показывающие реального человека говорящим или делающим то, чего на самом деле не было.
- Избыточная агентность (Excessive Agency)OWASP LLM06 — наделение LLM-системы большим набором функций, прав или автономии, чем реально требуется, из-за чего одна prompt-инъекция или ошибка модели превращается в непропорциональный реальный ущерб.
- Извлечение моделиАтака, восстанавливающая параметры, поведение или обучающие данные конфиденциальной ML-модели путём систематических запросов к её публичному API.
- Инверсия моделиАтака на приватность, восстанавливающая чувствительные признаки обучающих данных модели — лица, текст — через её выходы или градиенты.
- Карта AI-модели (Model Card)Стандартизованный документ, предложенный Margaret Mitchell с соавторами в 2018 году, описывающий назначение, данные обучения, производительность, ограничения и этические аспекты ML-модели.
- Контрабанда токеновКласс джейлбрейков, скрывающий вредоносные инструкции для LLM в кодировках, языках или последовательностях токенов, которые safety-фильтр не считает опасными.
- Косвенная промпт-инъекцияРазновидность промпт-инъекции, при которой вредоносные инструкции скрыты в стороннем контенте (веб-страницы, документы, письма), который LLM затем получает через поиск, браузер или вызовы инструментов.
- Обнаружение ИИ-контентаИнструменты и методы, оценивающие, был ли текст, изображение, аудио или видео создан моделью ИИ, а не человеком.
- Отравление данныхАтака на систему машинного обучения, при которой злоумышленники внедряют, изменяют или меняют разметку обучающих данных, чтобы итоговая модель работала неверно или содержала скрытые бэкдоры.
- Переносимая состязательная атакаАтака, при которой состязательные примеры, созданные против одной ML-модели, обманывают и другие модели, что делает возможной чёрноящичную атаку без доступа к цели.
- Промпт-инъекцияАтака, при которой во входной запрос LLM встраивается враждебный текст, переопределяющий исходные инструкции и заставляющий модель игнорировать ограничения или выполнять действия злоумышленника.
- Реагирование на инциденты ИИСовокупность процессов, ролей и плейбуков, которые организация использует для обнаружения, локализации, расследования, коммуникации и восстановления после инцидентов, связанных с ИИ-системами.
- Риски цепочки поставок ИИМножество угроз, возникающих из сторонних датасетов, базовых моделей, библиотек, плагинов и инфраструктуры, которые организации комбинируют при построении и развёртывании ИИ-систем.
- Синтетический медиаконтентЛюбой аудио-, изображение, видео или текстовый контент, созданный или существенно изменённый генеративным ИИ, а не зафиксированный непосредственно в физическом мире.
- Состязательный примерНамеренно искажённый — часто незаметно для человека — вход, заставляющий ML-модель выдавать неверное или нужное атакующему предсказание.
- Управление ИИ (AI Governance)Совокупность политик, процессов, ролей и средств контроля, с помощью которых организации и регуляторы обеспечивают ответственную и законную разработку, развёртывание и эксплуатацию ИИ-систем.
- Утечка системного промпта LLMАтака, извлекающая скрытый системный промпт или инструкции развёрнутого приложения на большой языковой модели и раскрывающая его логику, секреты и инструменты.
- AI Bill of Materials (AIBOM)Машиночитаемый перечень всех компонентов ИИ-системы — датасетов, базовых моделей, данных дообучения, библиотек, промптов и оценочных артефактов — используемый для безопасности, соответствия и подотчётности.
- AI Red TeamСпециализированная команда, моделирующая противников против ИИ-систем, чтобы выявить риски безопасности, safety и злоупотреблений раньше реальных атакующих.
- C2PACoalition for Content Provenance and Authenticity — открытый стандарт криптографически подписанных метаданных, фиксирующих, как был создан и отредактирован цифровой контент.
- LLM FirewallКонтроль безопасности, расположенный между пользователями и большой языковой моделью, который в реальном времени проверяет промпты, извлечённый контекст и выводы, блокируя или переписывая трафик, нарушающий политику.
- LLM GuardrailsМеханизмы, ограничивающие, что приложение на основе LLM может принимать или выдавать, обеспечивая правила safety, безопасности и бизнеса вокруг базовой модели.
- LLMjackingАтака, при которой злоумышленники используют украденные облачные учётные данные для доступа к размещённым сервисам больших языковых моделей и злоупотребления ими, навязывая жертве крупные счета за вычисления или перепродавая доступ.
- MLSecOpsДисциплина интеграции средств безопасности и управления рисками во весь жизненный цикл машинного обучения — от сбора данных до обучения, развёртывания, мониторинга и вывода из эксплуатации.
- Model Context Protocol (MCP)Открытый протокол, представленный Anthropic в конце 2024 года, который стандартизирует, как LLM-клиенты подключаются к внешним инструментам, источникам данных и подсказкам через серверы, превращая MCP-серверы в ключевую границу безопасности агентного ИИ.
- OWASP LLM Top 10Список OWASP с десятью наиболее критическими рисками безопасности для приложений, построенных на больших языковых моделях.
- RAGRetrieval-Augmented Generation — паттерн использования LLM, при котором во время запроса извлекаются релевантные документы из хранилища знаний и подставляются в промпт.
- Shadow AIИспользование сотрудниками ИИ-инструментов, моделей или сервисов без ведома или одобрения функций безопасности, приватности или governance в организации.