В целях более эффективного отслеживания прогресса в области разработки моделей генерации естественного языка (natural language generation, NLG) был создан тест GEM (Generation, Evaluation, and Metrics — генерация, оценка и метрики) — «живой эталон» оценки качества созданного текста. Он сформирован в рамках международного проекта, в котором участвовали 55 исследователей из более чем 40 организаций.
В качестве входных данных модели NLG использует как текстовые, так и нетекстовые представления информации. Они автоматически генерируют понятный текст на основе входной информации. Эталоны сопоставления в обработке естественного языка (NLP — natural language processing), такие как GLUE (general language understanding evaluation — оценка понимания общего языка), уже применялись в моделях NLG и NLU (natural language understanding — понимание естественного языка, ПЕЯ). Хотя такие эталоны для оценки качества модели объединяют в одном фреймворке многочисленные тесты и помогают исследователям эффективно сравнивать модели, есть вероятность того, что решение такой сложной задачи будет сведено лишь к числам в таблице лидеров моделей. Как отмечает исследовательская группа в статье «Тест GEM: генерация на естественном языке, её оценка и метрики» (The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics), единая метрика не может надлежащим образом охарактеризовать эффективность системы, поскольку такие критерии, как размер обучающей выборки и достоверность предсказаний, не принимаются во внимание.
Первый автор этой статьи, исследователь языковых моделей в Google AI Себастьян Германн (Sebastian Gehrmann), объясняет, что исследователи планируют провести совместный семинар-практикум этим летом, в 2021 году, на Ежегодном собрании Ассоциации компьютерной лингвистики: «Поскольку данные, модели и оценка эволюционируют вместе, эталоны сопоставления (тесты) должны быть обновлены по всем из этих аспектов. Как «живой эталон сопоставления», GEM не имеет фиксированного набора метрик или списка лидирующих моделей. Вместо этого мы стремимся выявить недостатки моделей и их возможности для достижения прогресса. Для этого общая для всех моделей задача будет состоять из двух частей: моделирования и оценки. Во-первых, мы просим представить результаты на 11 наборах данных и по 7 языкам в различных задачах NLG. Во второй части участники анализируют результаты».
Автоматизированные метрики, как правило, работают по-разному при разных настройках, а также будучи применёнными к разным задачам и языкам. Исследователи NLG часто проводят оценку того, насколько хорошо рейтинги, составленные экспертами, и автоматизированные метрики, соотносятся с оценками, основанными на задачах. Наборы тестов, представленные в GEM, помогут исследователям NLG изучить то общее, что есть во всех вариантах тестирования, фактически превращая GEM в эталонную среду для оценки алгоритмов NLG. С помощью команды людей-разметчиков, которые будут вручную верифицировать результаты оценки, исследователи также надеются создать набор воспроизводимых и последовательных практик человеческой верификации результатов для будущих исследований в области NLG. Кроме того, «чтобы отбить охоту к «восхождению на холмы» [на графиках результатов], — твитнул Германн, — разрабатываемый нами инструмент анализа результатов поможет получить представление об оценке без акцента на сравнении с наилучшим результатом на данный момент (state of the art)».
Результаты тестирования разных моделей.
Конечная цель проекта GEM заключается в том, чтобы обеспечить углублённый анализ данных и моделей, а не в том, чтобы сосредоточить внимание на каком-то одном показателе. Если оценивать прогресс NLG на 13 наборах данных, охватывающих многие задачи и языки, то можно надеяться, что эталонный тест GEM может также обеспечить стандарты для будущей оценки генерируемого текста с использованием как автоматизированных, так и человеческих метрик.
Исследователи предоставили научно-исследовательскому сообществу доступ к проекту, и старшие разработчики готовы помочь новичкам внести вклад в развитие отрасли. Все использованные данные можно найти в датасетах Huggingface, а больше об эталоне сопоставления GEM можно узнать на gem-benchmark.com.
Источник: