В условиях растущей потребности в быстром и точном преобразовании аудио- и видеозаписей в текст, специализированные платформы автотранскрибации становятся важным инструментом в работе исследовательских, журналистских, академических и корпоративных команд. Компанией ResearchView был проведен анализ сервисов автотранскрибации на русском языке с целью оценки их функционала и качества расшифровки.
В рамках данного обзора мы сравнили пять специализированных платформ, ориентированных на транскрибирование разговорной речи: Any2Text, Speech2Text, Teamlogs, WordVoice и Писец. В обзор не были включены универсальные платформы для преобразования разговорной речи в текст от таких компаний как Яндекс, Google, МТС и др. по следующим причинам:
Они не предназначены под транскрибирования длительной речи (более 1 часа) с участием нескольких спикеров (2, 5, 8 и более).
Они не поддерживают функции, важные для профессиональной и точной транскрибации аудиозаписей (например, экспорт с форматированием, разделение текста на спикеров, редактирование в личном кабинете по тайм-кодам и прочее).
Для работы с ними в удобном формате требуется дополнительная доработка и интеграция файлов.
Рассматриваемые платформы оценивались по нескольким критериям: стоимости расшифровки, качеству распознавания речи, возможности разделения на спикеров, возможности редактирования текста в личном кабинете, наличия тайм-кодов, форматам импорта и экспорта файлов и др. Подробная таблица представлена ниже.
Ниже представлено более подробное описание преимуществ и недостатков каждого сервиса автотранскрибации, которые мы отметили в ходе тестирования.
Any2Text
Преимущества:
Поддерживает более 100 форматов для перевода аудио- и видеофайлов в текст.
Определяет язык текста автоматически — распознаёт более 50 языков.
Выделяет английские слова в русской речи.
Сохраняет текст в 4-х форматах: txt, docs, xls, srt.
Исправляет некоторые ошибки, допущенные в речи говорящего (оговорки или неправильное согласование).
Недостатки:
Часто допускает ошибки в словах, неправильно их распознаёт (например, «общество знания» вместо «обществознание»; «узы» вместо «вузы» и так далее).
Не выгружает текст без обозначения спикеров и с необходимым форматированием.
Не позволяет редактировать текст в ЛК.
Не проставляет тайм-коды.
Отсутствует интерактивный плеер.
Не всегда правильно определяет спикеров.
Speech2Text
Преимущества:
Проставляет тайм-коды в ЛК — можно на них нажать и прослушать текст от необходимого момента.
Позволяет сохранять текст в форматах docs и srt.
Разделяет текст на спикеров.
Распознает более 20 языков.
Позволяет добавлять аккаунты сотрудников, которые могут расходовать общий тариф минут.
Недостатки:
Не позволяет редактировать текст в ЛК.
Не всегда корректно распознаёт спикеров, может слова одного отнести к другому.
Допускает пунктуационные, реже орфографические ошибки. В некоторых фрагментах текста полностью пропускает знаки препинания.
Не всегда правильно распознает русские аббревиатуры и английские слова.
Не выгружает текст с необходимым форматированием.
Teamlogs
Преимущества:
Распознает 78 языков.
Имеет интерактивный плеер — можно прослушать аудио с необходимого момента, нажав на слово в тексте.
Выгружает файл с настраиваемым форматированием.
Хорошо распознает спикеров.
Позволяет редактировать файл в ЛК несколькими пользователями.
Предоставляет общий аккаунт для компании с включением разных пользователей.
Позволяет создавать и выгружать: резюме бесед, ответы на вопросы и прочее.
Недостатки:
Иногда вставляет фразы, которых не было в аудиозаписи («спасибо за субтитры…»).
Иногда допускает орфографические и пунктуационные ошибки.
Не всегда правильно распознаёт слова.
Иногда относит реплики не к тем спикерам, кто их произнес.
WordVoice
Преимущества:
Позволяет редактировать преобразованный текст в ЛК сервиса.
Проставляет тайм-коды в ЛК.
Не допускает ошибок в пунктуации.
Недостатки:
Не разделяет текст на спикеров.
Выгружает файлы только в формате txt.
Иногда не распознаёт отдельные слова, названия, аббревиатуры, английские слова.
Дробит каждую фразу на отдельные абзацы.
Вставляет фразы, которых не было в речи.
Не выгружает текст в необходимом форматировании.
Писец
Преимущества:
Сохраняет текст в формате docs.
Поддерживает множество форматов файлов.
Недостатки:
Не выгружает текст с необходимым предварительным форматированием: нельзя убрать тайм-коды и обозначения спикеров при выгрузке, кроме того, нельзя поменять названия спикеров (выгружается с Винни-Пухом и Пятачком).
Не всегда корректно распознаёт спикеров, может слова одного относить к другому.
Делит монолог одного спикера на отдельные реплики или абзацы.
Иногда плохо распознает некоторые слова: дробит на части, пропускает буквы.
Часто допускает ошибки в пунктуации.
Не позволяет редактировать текст в ЛК.
Не проставляет тайм-коды.
Отсутствует интерактивный плеер.
В заключение хочется отметить, что каждая платформа имеет свои преимущества и недостатки, и конкретный пользователь имеет возможность подобрать решение, максимально отвечающее его потребностям.