CNTXT AI запускает Munsit: самую точную систему распознавания арабской речи в истории

Группа ученых в лаборатории работают над компьютером, разрабатывая модель распознавания речи для арабского языка.

В мире арабоязычного искусственного интеллекта произошло знаменательное событие: компания CNTXT AI представила Munsit – инновационную модель распознавания арабской речи нового поколения. Эта система не только стала самой точной из когда-либо созданных для арабского языка, но и решительно превзошла разработки мировых гигантов, таких как OpenAI, Meta, Microsoft и ElevenLabs, по стандартным показателям эффективности. Разработанный в ОАЭ и специально созданный для арабского языка с нуля, Munsit представляет собой мощный шаг вперед в развитии того, что CNTXT называет “суверенным ИИ” — технологией, созданной в регионе и для региона, но с глобальной конкурентоспособностью.

Преодоление дефицита данных в арабском распознавании речи

Арабский язык, несмотря на то что является одним из самых распространенных языков в мире и официальным языком ООН, долгое время считался низкоресурсным в сфере распознавания речи. Это связано как с его морфологической сложностью, так и с отсутствием больших, разнообразных, размеченных наборов речевых данных. В отличие от английского языка, который опирается на бесчисленные часы вручную транскрибированных аудиоданных, диалектное богатство арабского и фрагментированное цифровое присутствие создали значительные трудности для создания надежных систем автоматического распознавания речи (ASR).

Вместо того чтобы ждать медленного и дорогостоящего процесса ручной транскрипции, CNTXT AI пошла радикально более масштабируемым путем: слабый контроль (weak supervision). Их подход начался с массивного корпуса из более чем 30 000 часов немаркированного арабского аудио, собранного из разнообразных источников. С помощью специально созданного конвейера обработки данных это необработанное аудио было очищено, сегментировано и автоматически размечено, что позволило получить высококачественный обучающий набор данных объемом 15 000 часов — один из крупнейших и наиболее репрезентативных корпусов арабской речи из когда-либо собранных.

Архитектура Conformer в основе Munsit

В основе Munsit лежит модель Conformer — гибридная архитектура нейронной сети, которая объединяет локальную чувствительность сверточных слоев с возможностями глобального моделирования последовательностей трансформеров. Эта конструкция делает Conformer особенно адаптированным к обработке нюансов разговорного языка, где важны как дальние зависимости (например, структура предложения), так и детализированные фонетические особенности.

CNTXT AI реализовала большой вариант Conformer, обучая его с нуля, используя в качестве входных данных 80-канальные мел-спектрограммы. Модель состоит из 18 слоев и включает примерно 121 миллион параметров. Обучение проводилось на высокопроизводительном кластере с использованием восьми графических процессоров NVIDIA A100 с точностью bfloat16, что позволило эффективно обрабатывать массивные размеры пакетов и высокоразмерные пространства признаков.

Для токенизации морфологически богатой структуры арабского языка команда использовала токенизатор SentencePiece, обученный специально на их собственном корпусе, что привело к созданию словаря из 1024 подсловных единиц.

Доминирование в бенчмарках

Результаты говорят сами за себя. Munsit был протестирован в сравнении с ведущими моделями ASR с открытым исходным кодом и коммерческими моделями на шести эталонных наборах данных арабского языка: SADA, Common Voice 18.0, MASC (с чистым и шумным звуком), MGB-2 и Casablanca. Эти наборы данных в совокупности охватывают десятки диалектов и акцентов по всему арабскому миру, от Саудовской Аравии до Марокко.

По всем эталонным показателям Munsit-1 достиг среднего показателя ошибки слов (WER) 26,68 и показателя ошибки символов (CER) 10,05. Для сравнения, наиболее эффективная версия Whisper от OpenAI зафиксировала средний WER 36,86 и CER 17,21. SeamlessM4T от Meta, еще одна современная многоязычная модель, показала еще более высокий уровень ошибок.

Munsit превзошел все другие системы как на чистых, так и на шумных данных, и продемонстрировал особенно высокую устойчивость в шумных условиях, что является критическим фактором для реальных приложений, таких как колл-центры и общественные службы. Разрыв был не менее значительным по сравнению с проприетарными системами — Munsit превзошел арабские ASR-модели Microsoft Azure, ElevenLabs Scribe и даже функцию транскрипции GPT-4o от OpenAI.

Эти результаты представляют собой среднее относительное улучшение на 23,19% в WER и 24,78% в CER по сравнению с самыми сильными открытыми базовыми показателями, утверждая Munsit в качестве явного лидера в распознавании арабской речи.

Платформа для будущего арабского голосового ИИ

Хотя Munsit-1 уже меняет возможности для транскрипции, субтитров и поддержки клиентов на арабоязычных рынках, CNTXT AI рассматривает этот запуск как только начало. Компания предвидит полный набор арабоязычных голосовых технологий, включая преобразование текста в речь, голосовых помощников и системы перевода в реальном времени — все основано на суверенной инфраструктуре и регионально релевантном ИИ.

С появлением региональных моделей, таких как Munsit, индустрия ИИ вступает в новую эру, где лингвистическая и культурная релевантность не приносятся в жертву в погоне за техническим совершенством. Фактически, на примере Munsit компания CNTXT AI показала, что эти аспекты взаимосвязаны.

Если вы интересуетесь созданием собственных интеллектуальных ИИ-ассистентов и хотите глубже разобраться в AI агентах, наш специализированный курс предлагает исчерпывающий взгляд на современные технологии искусственного интеллекта и их применение для решения бизнес-задач.