Геймеры помогают выявить различия в данных алгоритма

Является ли “Ведьмак” захватывающим? Является ли The Sims ролевой игрой?

Согласно новому исследованию Cornell, Xbox и Microsoft Research, у геймеров со всего мира могут быть разные мнения, но это разнообразие взглядов способствует созданию более совершенных алгоритмов, которые помогают аудитории во всем мире выбирать правильные игры.

С помощью более чем 5000 геймеров исследователи показали, что прогностические модели, основанные на массивных наборах данных, помеченных геймерами из разных стран, предлагают лучшие персонализированные рекомендации по играм, чем те, которые помечены геймерами из одной страны.

Выводы команды и соответствующие руководящие принципы имеют широкое применение за пределами игр для исследователей и практиков, которые ищут более глобально применимую маркировку данных и, в свою очередь, более точные прогностические модели искусственного интеллекта (ИИ).

“Мы показываем, что на самом деле вы можете добиться такого же успеха, если не лучше, диверсифицируя базовые данные, которые используются в прогностических моделях”, – сказала Эллисон Кенеке, доцент кафедры информатики в Корнеллском колледже вычислительной техники и информатики имени Энн С. Бауэрс.

Кенеке является старшим автором книги “Аудит межкультурной согласованности аннотированных человеком меток для рекомендательных систем”, которая была представлена на конференции Ассоциации справедливости, подотчетности и прозрачности вычислительной техники (ACM FAccT) в июне.

Массивные наборы данных служат основой для прогностических моделей, лежащих в основе рекомендательных систем. Точность модели зависит от исходных данных, особенно от правильной маркировки каждого отдельного элемента в этой огромной коллекции. Исследователи и практики все чаще обращаются к краудсорсинговым работникам, чтобы те навешивали на них эту маркировку, но краудсорсинговая рабочая сила, как правило, однородна.

По словам Кенеке, на этом этапе маркировки данных могут проявиться культурные предубеждения и, в конечном счете, исказить прогнозную модель, предназначенную для обслуживания глобальной аудитории.

“Для наборов данных, используемых в алгоритмических процессах, кто-то все равно должен придумать либо какие-то правила, либо просто какое-то общее представление о том, что означает, что точка данных должна быть помечена каким-либо образом”, – сказал Кенеке. “Вот тут-то и проявляется человеческий аспект, потому что люди действительно должны принимать решения на каком-то этапе этого процесса”.

Команда опросила 5174 геймера Xbox со всего мира, чтобы помочь определить названия игр. Их попросили присвоить играм, в которые они играли, такие ярлыки, как “уютный”, “фэнтезийный” или “пацифистский”, и учитывать различные факторы, такие как низкая или высокая сложность названия или сложность управления игрой.

Некоторые игровые ярлыки — например, “дзен”, который используется для описания мирных, успокаивающих игр, — применялись последовательно в разных странах; другие, например, является ли игра “воспроизводимой”, применялись непоследовательно. Чтобы объяснить эти несоответствия, команда использовала вычислительные методы, чтобы обнаружить, что как культурные различия среди геймеров, так и переводческие и лингвистические особенности определенных ярлыков способствовали различиям в маркировке в разных странах.

Затем исследователи построили две модели, которые могли предсказать, как геймеры из каждой страны отнесутся к определенной игре — в одну были включены данные опроса игроков, репрезентативных по всему миру, а во вторую использовались данные опроса только американских геймеров. Они обнаружили, что модель, обученная на этикетках от различных групп населения по всему миру, улучшила прогнозы на 8% для геймеров во всем мире по сравнению с другой моделью, обученной на этикетках только от американских геймеров.

“Мы видим улучшение для всех — даже для геймеров из США — когда данные о тренировках перестают быть полностью ориентированными на США и становятся более глобально репрезентативными”, – сказал Кенеке.

В дополнение к своим выводам исследователи разработали структуру, которая поможет коллегам-исследователям и практикам в проведении аудита базовых меток данных для проверки глобальной инклюзивности.

“Компании, как правило, используют однородные средства маркировки данных для маркировки своих данных, и если вы пытаетесь создать глобальный продукт, вы столкнетесь с проблемами”, – сказал Кенеке. “С помощью нашей платформы любой академический исследователь или практик может провести аудит своих собственных базовых данных, чтобы увидеть, могут ли они столкнуться с проблемами представления с помощью своих меток данных или вариантов выбора”.