Термины, отмеченные тегом «Безопасность ИИ» — 5 терминов.
Совокупность подходов и методов, направленных на то, чтобы поведение ИИ-модели соответствовало целям и ценностям людей.
Уверенно сформулированный ответ языковой модели, который при этом фактически неверен или выдуман.
Способы заставить языковую модель обойти свои защитные правила и выдать запрещённый или нежелательный ответ.
Метод, в котором модель улучшают, используя оценки людей: они сравнивают разные ответы и направляют обучение в сторону предпочтительных.
Дизайн-приём, целенаправленно подталкивающий пользователя к действиям, выгодным бизнесу, но не самому пользователю.