<div><img src="https://mc.yandex.ru/watch/56654995" style="position:absolute; left:-9999px;" alt="" /></div>
Попробовать бесплатно
Тег

Тег: Безопасность ИИ

Термины, отмеченные тегом «Безопасность ИИ» — 5 терминов.

Выравнивание (alignment) модели

Совокупность подходов и методов, направленных на то, чтобы поведение ИИ-модели соответствовало целям и ценностям людей.

Галлюцинации модели

Уверенно сформулированный ответ языковой модели, который при этом фактически неверен или выдуман.

Джейлбрейк (обход ограничений модели)

Способы заставить языковую модель обойти свои защитные правила и выдать запрещённый или нежелательный ответ.

Обучение с подкреплением на обратной связи человека (RLHF)

Метод, в котором модель улучшают, используя оценки людей: они сравнивают разные ответы и направляют обучение в сторону предпочтительных.

Тёмный паттерн (Dark Pattern)

Дизайн-приём, целенаправленно подталкивающий пользователя к действиям, выгодным бизнесу, но не самому пользователю.