Ресурсы

Узнайте, что важно для вас

NVIDIA NeMo™

NVIDIA NeMo™ — это набор инструментов с открытым исходным кодом для исследователей, разрабатывающих современные модели разговорного ИИ и работающих над автоматическим распознаванием речи (ASR), обработкой естественного языка (NLP) и синтезом речи (TTS). Основная цель NeMo — помочь исследователям из промышленности и научных кругов повторно использовать предыдущую работу (код и предварительно обученные модели) и упростить создание новых моделей диалогового ИИ.

Узнать больше
image
image
NVIDIA NeMo™

NVIDIA NeMo™ — это набор инструментов с открытым исходным кодом для исследователей, разрабатывающих современные модели разговорного ИИ и работающих над автоматическим распознаванием речи (ASR), обработкой естественного языка (NLP) и синтезом речи (TTS). Основная цель NeMo — помочь исследователям из промышленности и научных кругов повторно использовать предыдущую работу (код и предварительно обученные модели) и упростить создание новых моделей диалогового ИИ.

DeepSpeech

DeepSpeech — это встроенный (в автономном режиме, на устройстве) механизм преобразования речи в текст с открытым исходным кодом, который может работать в режиме реального времени на устройствах, начиная от Raspberry Pi 4 и заканчивая мощными серверами с графическим процессором. Project DeepSpeech использует TensorFlow от Google, чтобы упростить реализацию. Документация по установке, использованию и моделям обучения доступна на сайте deepspeech.readthedocs.io.

Узнать больше
image
image
DeepSpeech

DeepSpeech — это встроенный (в автономном режиме, на устройстве) механизм преобразования речи в текст с открытым исходным кодом, который может работать в режиме реального времени на устройствах, начиная от Raspberry Pi 4 и заканчивая мощными серверами с графическим процессором. Project DeepSpeech использует TensorFlow от Google, чтобы упростить реализацию. Документация по установке, использованию и моделям обучения доступна на сайте deepspeech.readthedocs.io.

Coqui

Coqui посвящен технологии открытой речи. Их проекты включают основанные на глубоком обучении механизмы STT и TTS. С преобразованием текста в речь ощутите непосредственность преобразования сценария в исполнение. Используйте широкий выбор высококачественных, управляемых, эмоциональных голосов или клонируйте голос в соответствии с вашими потребностями. С Coqui время производства текста в речь сокращается с месяцев до минут. Обучение и развертывание моделей STT еще никогда не было таким простым.

Узнать больше
image
image
Coqui

Coqui посвящен технологии открытой речи. Их проекты включают основанные на глубоком обучении механизмы STT и TTS. С преобразованием текста в речь ощутите непосредственность преобразования сценария в исполнение. Используйте широкий выбор высококачественных, управляемых, эмоциональных голосов или клонируйте голос в соответствии с вашими потребностями. С Coqui время производства текста в речь сокращается с месяцев до минут. Обучение и развертывание моделей STT еще никогда не было таким простым.

Common Voice

Common Voice — это общедоступный набор голосовых данных, созданный на основе голосов добровольцев со всего мира. Люди, которые хотят создавать голосовые приложения, могут использовать набор данных для обучения моделей машинного обучения. Common Voice имеет множество сообществ, которые поддерживают проект в разных важных областях, обычно они сгруппированы по языку. Найдите полезное руководство по всему пути Common Voice, от локализации до использования наборов данных, а также о том, как связаться с нашим сообществом.

Узнать больше
image
image
Common Voice

Common Voice — это общедоступный набор голосовых данных, созданный на основе голосов добровольцев со всего мира. Люди, которые хотят создавать голосовые приложения, могут использовать набор данных для обучения моделей машинного обучения. Common Voice имеет множество сообществ, которые поддерживают проект в разных важных областях, обычно они сгруппированы по языку. Найдите полезное руководство по всему пути Common Voice, от локализации до использования наборов данных, а также о том, как связаться с нашим сообществом.

Почему Common Voice?

В настоящее время большинство наборов голосовых данных принадлежат компаниям, что сдерживает инновации. Наборы голосовых данных также недооценивают не говорящих по-английски. Это означает, что голосовая технология вообще не работает для многих языков, а там, где она работает, она может не работать одинаково хорошо для всех. Мы хотим изменить это, мобилизуя людей повсюду, чтобы поделиться своим мнением.

Узнать больше
image
image
Почему Common Voice?

В настоящее время большинство наборов голосовых данных принадлежат компаниям, что сдерживает инновации. Наборы голосовых данных также недооценивают не говорящих по-английски. Это означает, что голосовая технология вообще не работает для многих языков, а там, где она работает, она может не работать одинаково хорошо для всех. Мы хотим изменить это, мобилизуя людей повсюду, чтобы поделиться своим мнением.