Еще лет десять назад общаться с искусственным интеллектом можно было лишь в кино, да и то про отдаленное будущее. Сегодня он окружает нас повсюду – Сири, Алиса, Маруся – все эти виртуальные чудо-женщины знают, куда ехать, что надевать и чего ожидать от ретроградного Марса.
Вот она, казалось бы, безграничность возможностей. Если бы не одно «но» - искусственный интеллект нужно научить «говорить». Иными словами, записать фразы, которые впоследствии он будет воспроизводить по своему усмотрению в зависимости от ситуации.
Об этом процессе и искусстве управления голосом мы поговорили с известной радиоведущей Capital FM, диктором, экспертом по владению голосом Екатериной Покрас (рабочий псевдоним Кэт Кенна). Она стала голосом робота-помощника для различных мероприятий компании AstraZeneca.
Это не первый опыт Кэт в синтезе голоса – она уже работала для записи голосовых помощников сервисов Яндекс и Тинькофф.
Запись голосового синтеза обычно происходит по несколько часов. Диктор записывает огромное количество случайных фраз. Затем эти файлы загружаются в программу, чтобы впоследствии искусственный интеллект самостоятельно выбирал из них ту, что подходит к конкретной ситуации.
«Иногда бывает так, что искусственному интеллекту нужно только одно слово из записанной фразы, остальные он «берет» из других предложений. От этого филигранность начитки должна быть на пределе – ведь учитывается все – высота голоса, скорость, темп, паузы, безэмоциональность – все это должно быть одинаковым. Вы когда-нибудь пробовали 4 часа подряд говорить абсолютно ровно и без выражения? Попробуйте и удивитесь, насколько это отличается от обычной речи», - рассказывает Кэт.
В случае с презентацией компании AstraZeneca, все было еще сложнее – воспроизводить голос ИИ было необходимо в режиме реального времени.
Кэт отмечает, что в дикторском деле – работа на радио ли это или озвучка - есть две вещи, владение которыми считается высшим пилотажем – это дубляж, когда нужно озвучивать перевод, стопроцентно попадая в артикуляцию губ и длину фразы, и голосовой синтез – это и есть работа голосом искусственного интеллекта. Последнее особенно требует навыков и умений, поскольку голосовой помощник – это абсолютно универсальное виртуальное существо.
«Самое сложное – перестать на время такой работы быть человеком. Во-первых, важно отключить все эмоции – голос должен быть абсолютно ровным. А ведь все мы люди, порой любая мелочь, типа неудобного стула, на котором сидит диктор, может уже исказить восприятие голоса, не говоря уже о твоем душевном состоянии. Во-вторых, неимоверна важна работа с дыханием, и здесь без тренировок не обойтись. В моем профессиональном багаже более 10 лет работы голосом – это и теле-, и радиоэфиры, и озвучивание рекламы и аудиокниг, но даже мне было непросто. Во время обычной речи мы делаем естественные паузы, чтобы набрать в легкие воздух, от этого меняется длина фразы и темпоритм. У виртуального же помощника такой роскоши нет. Как и нет возможности чихнуть, откашляться, захрипеть и сделать ошибку, если ты озвучиваешь этого помощника вживую на мероприятии. Это чем-то похоже на запись аудиогидов для музеев, а у меня за плечами десятки часов такой работы и там тоже нужно звучать довольно нейтрально и главное, найти свой ритм, но с синтезом голоса тон должен быть еще ровнее», - рассказывает Кэт.
Как отмечают специалисты отрасли, количество контента, который необходимо озвучивать, растёт с каждым днём. У авторов физически нет возможности озвучивать весь контент. Например, сейчас набирают популярность аудиокниги, объем продаж которых в прошлом году вырос на 50%. Также не стоит забывать про озвучку донатов в реальном времени, развитие и создание новых цифровых сервисов. Голосовые технологии помогают разнообразить жизнь. Так, может, будущее, которое мы раньше видели лишь в кино, уже наступило?