ADPASS рекомендует материал к прочтению
ResearchView
05.05.2025, 13:03

Обзор сервисов автоматической транскрибации (стенографирования)

В условиях растущей потребности в быстром и точном преобразовании аудио- и видеозаписей в текст, специализированные платформы автотранскрибации становятся важным инструментом в работе исследовательских, журналистских, академических и корпоративных команд. Компанией ResearchView был проведен анализ сервисов автотранскрибации на русском языке с целью оценки их функционала и качества расшифровки.

В рамках данного обзора мы сравнили пять специализированных платформ, ориентированных на транскрибирование разговорной речи: Any2Text, Speech2Text, Teamlogs, WordVoice и Писец. В обзор не были включены универсальные платформы для преобразования разговорной речи в текст от таких компаний как Яндекс, Google, МТС и др. по следующим причинам:

  1. Они не предназначены под транскрибирования длительной речи (более 1 часа) с участием нескольких спикеров (2, 5, 8 и более).

  2. Они не поддерживают функции, важные для профессиональной и точной транскрибации аудиозаписей (например, экспорт с форматированием, разделение текста на спикеров, редактирование в личном кабинете по тайм-кодам и прочее).

  3. Для работы с ними в удобном формате требуется дополнительная доработка и интеграция файлов.

Рассматриваемые платформы оценивались по нескольким критериям: стоимости расшифровки, качеству распознавания речи, возможности разделения на спикеров, возможности редактирования текста в личном кабинете, наличия тайм-кодов, форматам импорта и экспорта файлов и др. Подробная таблица представлена ниже.

Ниже представлено более подробное описание преимуществ и недостатков каждого сервиса автотранскрибации, которые мы отметили в ходе тестирования.

Any2Text

Преимущества:

  • Поддерживает более 100 форматов для перевода аудио- и видеофайлов в текст.

  • Определяет язык текста автоматически — распознаёт более 50 языков.

  • Выделяет английские слова в русской речи.

  • Сохраняет текст в 4-х форматах: txt, docs, xls, srt.

  • Исправляет некоторые ошибки, допущенные в речи говорящего (оговорки или неправильное согласование).

Недостатки:

  • Часто допускает ошибки в словах, неправильно их распознаёт (например, «общество знания» вместо «обществознание»; «узы» вместо «вузы» и так далее).

  • Не выгружает текст без обозначения спикеров и с необходимым форматированием.

  • Не позволяет редактировать текст в ЛК.

  • Не проставляет тайм-коды.

  • Отсутствует интерактивный плеер.

  • Не всегда правильно определяет спикеров.

Speech2Text

Преимущества:

  • Проставляет тайм-коды в ЛК — можно на них нажать и прослушать текст от необходимого момента.

  • Позволяет сохранять текст в форматах docs и srt.

  • Разделяет текст на спикеров.

  • Распознает более 20 языков.

  • Позволяет добавлять аккаунты сотрудников, которые могут расходовать общий тариф минут.

Недостатки:

  • Не позволяет редактировать текст в ЛК.

  • Не всегда корректно распознаёт спикеров, может слова одного отнести к другому.

  • Допускает пунктуационные, реже орфографические ошибки. В некоторых фрагментах текста полностью пропускает знаки препинания.

  • Не всегда правильно распознает русские аббревиатуры и английские слова.

  • Не выгружает текст с необходимым форматированием.

Teamlogs

Преимущества:

  • Распознает 78 языков.

  • Имеет интерактивный плеер — можно прослушать аудио с необходимого момента, нажав на слово в тексте.

  • Выгружает файл с настраиваемым форматированием.

  • Хорошо распознает спикеров.

  • Позволяет редактировать файл в ЛК несколькими пользователями.

  • Предоставляет общий аккаунт для компании с включением разных пользователей.

  • Позволяет создавать и выгружать: резюме бесед, ответы на вопросы и прочее.

Недостатки:

  • Иногда вставляет фразы, которых не было в аудиозаписи («спасибо за субтитры…»).

  • Иногда допускает орфографические и пунктуационные ошибки.

  • Не всегда правильно распознаёт слова.

  • Иногда относит реплики не к тем спикерам, кто их произнес.

WordVoice

Преимущества:

  • Позволяет редактировать преобразованный текст в ЛК сервиса.

  • Проставляет тайм-коды в ЛК.

  • Не допускает ошибок в пунктуации.

Недостатки:

  • Не разделяет текст на спикеров.

  • Выгружает файлы только в формате txt.

  • Иногда не распознаёт отдельные слова, названия, аббревиатуры, английские слова.

  • Дробит каждую фразу на отдельные абзацы.

  • Вставляет фразы, которых не было в речи.

  • Не выгружает текст в необходимом форматировании.

Писец

Преимущества:

  • Сохраняет текст в формате docs.

  • Поддерживает множество форматов файлов.

Недостатки:

  • Не выгружает текст с необходимым предварительным форматированием: нельзя убрать тайм-коды и обозначения спикеров при выгрузке, кроме того, нельзя поменять названия спикеров (выгружается с Винни-Пухом и Пятачком).

  • Не всегда корректно распознаёт спикеров, может слова одного относить к другому.

  • Делит монолог одного спикера на отдельные реплики или абзацы.

  • Иногда плохо распознает некоторые слова: дробит на части, пропускает буквы.

  • Часто допускает ошибки в пунктуации.

  • Не позволяет редактировать текст в ЛК.

  • Не проставляет тайм-коды.

  • Отсутствует интерактивный плеер.

В заключение хочется отметить, что каждая платформа имеет свои преимущества и недостатки, и конкретный пользователь имеет возможность подобрать решение, максимально отвечающее его потребностям.