Тег

Тег: Безопасность ИИ

Термины, отмеченные тегом «Безопасность ИИ» — 5 терминов.

Выравнивание (alignment) модели

Совокупность подходов и методов, направленных на то, чтобы поведение ИИ-модели соответствовало целям и ценностям людей.

Галлюцинации модели

Уверенно сформулированный ответ языковой модели, который при этом фактически неверен или выдуман.

Джейлбрейк (обход ограничений модели)

Способы заставить языковую модель обойти свои защитные правила и выдать запрещённый или нежелательный ответ.

Обучение с подкреплением на обратной связи человека (RLHF)

Метод, в котором модель улучшают, используя оценки людей: они сравнивают разные ответы и направляют обучение в сторону предпочтительных.

Тёмный паттерн (Dark Pattern)

Дизайн-приём, целенаправленно подталкивающий пользователя к действиям, выгодным бизнесу, но не самому пользователю.

Похожие теги

Артефакт Концепция Структура команд Риски Стратегия Продакт-менеджмент