Кыргызстанская модель синтеза речи Kani TTS 2 оказалась в топе на платформе Hugging Face

Арестова Татьяна Общество
VK X OK WhatsApp Telegram

Кыргызстанские IT-специалисты вновь привлекли внимание на международной арене с новой разработкой. Об этом стало известно благодаря информации, предоставленной Парком высоких технологий (ПВТ) Кыргызстана.

Команда NineNineSix представила обновлённую версию своей модели синтеза речи под названием Kani TTS2, которая уже успела занять место среди топовых TTS-моделей на Hugging Face — крупнейшей в мире платформе для моделей искусственного интеллекта.

Kani TTS 2 является продолжением предыдущих разработок команды и демонстрирует значительные улучшения: теперь модель может генерировать до 40 секунд непрерывной речи за один запуск, что более чем в два раза превышает результат первой версии.

В ПВТ подчеркнули, что для открытой модели из Кыргызстана попасть в тройку лучших TTS на Hugging Face — это исключительное и важное достижение.

О команде NineNineSix

NineNineSix — это команда разработчиков из Кыргызстана, работающая в сфере искусственного интеллекта и известных своими инновациями в области языковых технологий.

Ранее они уже представили первую версию Kani TTS, а также разработали голосовую колонку и AI-ассистента AkylAi, который стал первым искусственным интеллектом, говорящим на кыргызском языке.

Голос для языков с небольшим количеством носителей

Крупные компании в области AI обычно сосредоточены на английском и других широко распространённых языках, оставляя малоресурсные языки без должного внимания. NineNineSix выбрали другой подход.

Kani TTS 2 поддерживает английский, испанский и кыргызский языки, а её архитектура позволяет адаптировать модель для различных языков, акцентов и диалектов.

Особенностью проекта является публикация полного кода предварительного обучения, что позволяет любой стране или исследовательской команде создать свою собственную голосовую модель на основе Kani TTS 2.

«Kani TTS 2 — это эволюция нашей первой версии: мы улучшили стабильность генерации речи и расширили возможности модели для работы с более длинными фрагментами. Мы стремимся к созданию компактных и открытых моделей, которые проще адаптировать к различным языкам и акцентам, включая те, которые имеют ограниченное представительство. Мы хотим продемонстрировать, что в Кыргызстане возможно создание технологий мирового уровня, поэтому мы открыли не только веса модели, но и весь код для предварительного обучения, чтобы любая команда могла обучить TTS для своего языка», — отметил Нурсултан Бакашов, сооснователь nineninesix.ai.

Kani TTS 2 включает в себя следующие ключевые улучшения:

* Способность к стабильной генерации до 40 секунд речи за один проход;

* Поддержка технологии zero-shot voice cloning — клонирование голоса на основе короткого аудиофрагмента;

* Полная открытость архитектуры и кода для обучения;

* Вхождение в топ-3 TTS-моделей на Hugging Face.

По данным ПВТ, модель включает около 400 миллионов параметров и была предобучена на приблизительно 10 000 часов речевых данных. Она может работать на GPU с объёмом видеопамяти около 3 ГБ, что делает её доступной для использования как локально, так и на серверах.

«Kani TTS 2 — это не просто ещё одна AI-модель. Это наглядное подтверждение того, что специалисты из Кыргызстана могут разрабатывать технологии мирового уровня и конкурировать на глобальном рынке искусственного интеллекта. NineNineSix показывает, что Кыргызстан может быть не только потребителем, но и создателем передовых AI-решений», - отметили в ПВТ.
VK X OK WhatsApp Telegram

Читайте также: