Исследование: Структура предложений может обойти правила ИИ

Введение

Исследователи из MIT, Северо-восточного университета и Meta недавно опубликовали статью, в которой утверждается, что большие языковые модели (LLMs), подобные тем, что используются в ChatGPT, иногда могут ставить структуру предложений выше смысла при ответах на вопросы.

Основные выводы

Результаты исследования выявляют слабое место в том, как эти модели обрабатывают инструкции. Это может объяснить, почему некоторые методы внедрения подсказок или обхода системы работают. Однако исследователи предупреждают, что их анализ некоторых производственных моделей остается спекулятивным, поскольку данные о тренировочных наборах известных коммерческих ИИ моделей не являются общедоступными.

Методология

Команда, возглавляемая Шанталь Шаиб и Винитом М. Суриякумаром, тестировала модели, задавая им вопросы с сохранением грамматических структур, но с бессмысленными словами. Например, когда они задавали вопрос «Быстро сядьте облаком в Париже?» (что имитировало структуру вопроса «Где находится Париж?»), модели все равно отвечали «Во Франции».

Выводы

Это указывает на то, что модели усваивают как смысл, так и синтаксические шаблоны, но иногда могут чрезмерно полагаться на структурные упрощения, когда они сильно коррелируют с определенными областями в тренировочных данных. В некоторых крайних случаях это может позволять шаблонам преодолевать семантическое понимание.

Будущие исследования

Команда планирует представить эти результаты на конференции NeurIPS.