Исследователи из T-Bank AI Research представили метод SAE Match, позволяющий выявлять и исправлять ошибки в работе искусственного интеллекта без необходимости дорогостоящего переобучения.
Разработка помогает определить, в какой момент ИИ начинает выдавать недостоверные или нежелательные ответы, и корректировать их поведение точечно.
Метод делает работу моделей более прозрачной: человек сможет отслеживать, как ИИ обрабатывает информацию и принимает решения. Это особенно важно для применения технологий в медицине, финансах и безопасности.
Результаты исследования доступны в открытых источниках. Также их огласят на международной конференции по обучению представлениям, которая пройдет в Сингапуре с 24 по 28 апреля.





























