
В кино и телевидении, несмотря на их творческую природу, риск всегда был важным фактором. Высокие производственные затраты и фрагментированный рынок делают финансовые потери критичными для независимых компаний.
За последние десять лет индустрия начала активно интересоваться возможностями машинного обучения для выявления закономерностей в реакциях аудитории на предлагаемые проекты. Основными источниками данных остаются система Nielsen и фокус-группы, каждая со своими преимуществами и ограничениями.
Эволюция прогнозирования хитов в киноиндустрии
Изначально системы машинного обучения опирались на традиционные методы анализа: линейную регрессию, метод K-ближайших соседей, стохастический градиентный спуск, деревья решений и нейронные сети. Например, исследование Университета Центральной Флориды пыталось прогнозировать успешные телешоу на основе комбинаций актеров и сценаристов.
Наиболее близкое практическое применение этих технологий можно увидеть в рекомендательных системах. Однако эти подходы анализируют уже успешные проекты. Для новых шоу или фильмов не всегда ясно, какие исторические данные можно использовать как ориентир, учитывая постоянно меняющиеся вкусы публики.
Это классический пример проблемы «холодного старта», когда рекомендательные системы должны оценивать кандидатов без предварительных данных о взаимодействии. Традиционная коллаборативная фильтрация в таких случаях не работает, поскольку для новых фильмов или шоу еще нет достаточного количества отзывов аудитории.
Новый подход Comcast к прогнозированию кассовых сборов
Исследователи из Comcast Technology AI совместно с Университетом Джорджа Вашингтона предложили решение этой проблемы. Они используют языковые модели, предоставляя им структурированные метаданные о еще не выпущенных фильмах.
Входные данные включают актерский состав, жанр, синопсис, возрастной рейтинг, настроение и награды. На основе этих данных модель формирует ранжированный список вероятных будущих хитов.
Авторы используют результаты модели как замену данным о зрительском интересе, когда информация о вовлеченности еще недоступна. Это помогает избежать раннего смещения в сторону уже известных названий.
По словам исследователей: «Наши результаты показывают, что языковые модели, использующие метаданные фильмов, значительно превосходят базовые подходы. Этот метод может служить вспомогательной системой для автоматической оценки большого объема нового контента, выпускаемого ежедневно и еженедельно».
Методология исследования
Рабочий процесс исследования состоял из четырех этапов:
- Создание специализированного набора данных из метаданных невыпущенных фильмов
- Установление базовой модели для сравнения
- Оценка языковых моделей с использованием рассуждений на естественном языке и прогнозирования на основе эмбеддингов
- Оптимизация результатов с помощью инженерии промптов в генеративном режиме с использованием моделей Meta Llama 3.1 и 3.3
Поскольку не существовало общедоступного набора данных для прямой проверки гипотезы, исследователи создали эталонный набор данных из развлекательной платформы Comcast, которая обслуживает десятки миллионов пользователей.
Этот набор данных отслеживает недавно выпущенные фильмы и то, стали ли они популярными позже, где популярность определяется через взаимодействия пользователей. Исследование сосредоточилось на фильмах, а не на сериалах, поскольку они «меньше подвержены влиянию внешних знаний, повышая надежность экспериментов».
Тестирование и результаты
Эксперимент проходил в два основных этапа. Сначала исследователи протестировали несколько вариантов моделей для установления базового уровня. Затем они проверили языковые модели в генеративном режиме, сравнивая их результаты с более сильным базовым уровнем, а не с случайным ранжированием.
Важным ограничением в этой установке был временной разрыв между датой обучения моделей и фактическими датами выпуска фильмов. Поскольку языковые модели были обучены на данных, которые заканчивались за шесть-двенадцать месяцев до появления фильмов, у них не было доступа к информации после выпуска.
Для создания базового уровня авторы использовали три модели эмбеддингов: BERT V4, Linq-Embed-Mistral 7B и Llama 3.3 70B. Каждая модель создавала векторные представления фильмов-кандидатов, которые затем сравнивались со средним эмбеддингом ста самых популярных фильмов за недели, предшествующие выпуску каждого фильма.
Результаты показали, что BERT V4 и Linq-Embed-Mistral 7B продемонстрировали наиболее сильные улучшения в определении трех самых популярных фильмов, хотя обе немного не дотягивали до прогнозирования самого популярного.
Преимущества языковых моделей в прогнозировании популярности
При оценке эффективности языковых моделей использовались как ранжирование, так и классификационные метрики, с особым вниманием к определению трех самых популярных фильмов. Были применены четыре метрики:
- Accuracy@1 – как часто самый популярный фильм появлялся на первой позиции
- Reciprocal Rank – насколько высоко реальный топовый фильм стоял в прогнозируемом списке
- Normalized Discounted Cumulative Gain (NDCG@k) – насколько хорошо ранжирование соответствовало реальной популярности
- Recall@3 – доля действительно популярных фильмов, появившихся в топ-3 прогнозов модели
Производительность моделей Llama 3.1 (8B), 3.1 (405B) и 3.3 (70B) оценивалась путем измерения улучшений метрик относительно ранее установленного базового уровня BERT V4. Лучшая производительность была достигнута при использовании Llama 3.1 (405B) с наиболее информативным промптом, за ней следовала Llama 3.3 (70B).
Производительность улучшалась, когда в промпт включались награды актеров – в данном случае, количество крупных наград, полученных пятью главными актерами в каждом фильме. Это преимущество было наиболее очевидным в более крупных моделях.
В отличие от этого, самая маленькая модель, Llama 3.1 (8B), показала улучшение производительности по мере того, как промпты становились немного более подробными, но снижалась при добавлении большего количества полей.
Выводы и перспективы
Большие языковые модели стали визитной карточкой генеративного искусственного интеллекта, что объясняет, почему их применяют в областях, где другие методы могли бы лучше подойти. Однако мы все еще многого не знаем о их возможностях в различных отраслях.
Если вы интересуетесь созданием своих AI агентов для решения похожих аналитических задач, стоит глубже погрузиться в эту тему. Современные модели уже способны анализировать сложные данные и делать прогнозы на основе ограниченной информации.
В случае с фильмами и телешоу, как и с фондовыми рынками и прогнозами погоды, исторические данные имеют ограниченную ценность для будущих прогнозов. Способ доставки контента сейчас постоянно меняется, в отличие от периода между 1978-2011 годами, когда кабельное, спутниковое и портативные носители представляли собой серию переходных или развивающихся исторических трансформаций.
Ни один метод прогнозирования не может учесть, насколько успех или неудача других продуктов может повлиять на жизнеспособность предлагаемого контента – однако это часто происходит в киноиндустрии, которая любит следовать трендам.
Тем не менее, при продуманном использовании, языковые модели могут помочь укрепить рекомендательные системы на начальном этапе, предлагая полезную поддержку для различных методов прогнозирования. Данное исследование показывает, что AI может стать ценным инструментом для аналитики в творческих индустриях, дополняя, а не заменяя человеческую экспертизу.