Усиление голоса в аудиозаписи. Как улучшить разборчивость записанной речи. Удаление вздохов, кашля и др

29.10.2019

Каким бы качественным не был диктофон, практически всегда требуется последующая обработка голоса. На записи могут присутствовать шум или посторонние звуки, громкость голоса может плавать или быть недостаточной, а сам голос бубнить. Поэтому, если вы готовите запись для последующего прослушивания или, например, для озвучивания ролика на ютубе, то обработка голоса крайне желательна.

Рассмотрим быстрый способ, как может быть осуществлена обработка голоса самостоятельно. Основной акцент будет уделен выделению речи на записи. Но даже если цель не только в речи, после прочтения вам не должно составить труда улучшить качество любой записи.

В статье будут рассмотрены следующие моменты:

Нормировка уровня громкости
Удаление лишних участков записи
Удаление шума в записи
Эквализация записи
Компрессия

Обработку звука лучше производить в наушниках — они позволят расслышать каждую мелочь. Желательно, чтобы это были не китайцы, купленные в переходе за 50 рублей. В идеале стоит использовать , но подойдут и просто нормальные наушники.

Если ваши наушники сломались и нужно срочно их починить, то сделать это можно даже без паяльника. Как? -Читаем в статье:

Альтернативный путь

Если вам не хватает времени или нет желания вникать, то предлагаю отличный сервис — Kwork , которым я и сам регулярно пользуюсь. Это проверенная биржа фриланс-услуг, где за небольшую плату, Вы сможете самостоятельно выбрать профессионального исполнителя для обработки записи или других услуг.

Программа для обработки голоса — Audacity

Обработка голоса это редактирование аудиофайла, поэтому, в первую очередь, нам нужна программа для работы со звуком. В качестве инструмента воздействия послужит бесплатный и свободно скачивающийся аудио редактор Audacity. Он же может может использоваться и как программа для записи голоса с микрофона.

Интерфейс редактора интуитивно понятен и даже методом тыка можно очень быстро натыкать то, что вам нужно. Осталось только узнать, а что собственно нужно .

Обработка голоса

Итак, имеем запись, в каком либо аудио формате. Первым делом открываем ее в Audacity. Можно сделать это кнопочкой Импортировать из меню Файл редактора, но мне как-то привычнее нагло перетащить файл мышкой из папки в окно редактора.

Для демонстраций был взят кусочек записи длительностью чуть более минуты. Такой, чтобы умещался на экране. На нем демонстрация будет нагляднее. При этом ему присущи все недостатки обычных диктофонных записей.

Нормировка уровня громкости

Чтобы повысить качество звука, первым делом необходимо увеличить громкость записи. Для этого двойным щелчком левой кнопки мыши по дорожке (либо комбинацией Ctrl+a ) выделяем ее. Затем открываем вкладку меню Эффекты и выбираем пункт Нормировка сигнала…

После нажатия, откроется меню настройки эффекта:

Стандартные настройки нас вполне устроят. В окошке указывается значение громкости, которое будет у самого громкого пика вашей записи. Нормировка повысит уровень громкости записи, никак больше не влияя на запись.

У всех инструментов редактора Audacity есть кнопка Preview , т.е. Предпросмотр , или скорее Предпрослушивание. При нажатии на нее воспроизводится первые 5 секунд выделенного участка записи с применением эффекта.

Удаляем лишние места и щелчки

Уровень громкости подрос, но как-то не солидно. Виной всему щелчок в самом начале. Можно попросту заглушить его. Для этого приближаем его и выделяем:

Удобно менять масштаб зажимая Ctrl и крутя колесиком мыши, а для перемещения по записи влево-вправо крутя колесиком зажимать Shift .

Я специально захватил на картинке временную шкалу, чтобы показать, что длительность пика около 0.1 секунды . Для того чтобы заглушить выделенное нажимаем в панели инструментов кнопочку (либо комбинацию Ctrl+L ):

Редактор моментально сровняет пик с землей в идеально прямую линию нулевой громкости:

Можно и удалить это кусочек просто нажав на клавиатуре Delete . Но в таком случае выделенная часть дорожки удалится, а общая длительность сократится. Если запись готовится для озвучивания видео на ютубе , удаление посредством Delete может привести к сдвигу дорожки .

Удалив щелчок, повторяем Нормировку сигнала и получаем уже более солидный результат:

В Audacity есть удобная комбинация клавиш Ctrl+R , нажатие которой повторяет последний использованный эффект. При этом эффект повторяется с теми же самыми настройками.

Нормировка сигнала это просто его усиление на одинаковую величину. Усиление подбираемая так, чтобы места с максимальной громкостью довести до указанного значения. При этом усиливается всё — как полезный сигнал так и фоновый шумок.

Пришла пора избавиться от шума

Обработка голоса неминуемо требует удаление шума. Делается это в два этапа. Сначала нужно создать модель шума , для того чтобы программа знала от чего нужно избавляться. Поэтому находим в записи кусочек, где нет полезной информации, а только то, что мы считаем шумом и выделяем этот участок.

Желательно, чтобы он был как можно длиннее, тогда получится более полно удалить шум из записи.

Теперь в меню Эффекты выбираем Подавление шума… Вверху открывшегося окошка видим и нажимаем единственную кнопочку — Создать модель шума .

На этом окошко закроется… Отлично! Модель шума создана. Теперь выделяем всю запись и вновь заходим в меню Эффекты → Подавление шума…

Откроется тоже самое окно, но теперь можно перейти к этапу 2 . Настройки по дефолту подойдут для большинства случаев. Хотя с последним ползунком лучше поэкспериментировать. Жмем ОК , повторяем нормировку и любуемся результатом:

Если сравнить с тем как дорожка выглядела до удаления шума, то можно легко заметить, что постоянная составляющая практически полностью исчезла. Все тихие места стали еще тише, практически занулились. Да и на слух это звучит на порядок лучше.

Для большего кругозора стоит отметить что подавление на каждые 6дБ это ослабление в два раза ., а 3дБ это полтора раза . Если Ваша запись очень шумная и в ней присутствуют разные типы шумов в разных частях, то можно повторить процедуру с момента создания модели шума. При этом кусочек который будет выделен как модель шума взять в другом месте записи. А в окошко Подавление шума(дБ) вписать от 3 до 6дБ. Излишнее подавление может внести ‘замыленность ’ в звук. Так же, зачастую, гораздо эффективнее несколько раз подавить шум по 3дБ , создавая модель шума из разных участков записи, чем один раз бухнут 15 дБ .

Выделяем голос на записи — Эквализация

Так как нас интересует именно речь, то можно дополнительно выделить ее при помощи эквалайзера. Переходим Эффекты→Эквалайзер…

Подобная форма эквалайзера возможно подойдет при обработке на скорую руку. Но все очень сильно зависит от того, как и на что производилась запись. Поэтому рекомендую все-же заглянуть в статью про эквализацию.

Компрессия

Обработка голоса всегда включает в себя выравнивание записи по громкости. В принципе можно вручную выделять кусочки и применять к каждому Нормировку. Это достаточно эффективный способ, но весьма долгий. Да и не зря же люди придумали такую полезную штучку, как Компрессор. Им то мы и воспользуемся:-)

Выделяем всю запись и переходим в меню Эффекты => Компрессоры…

Такие настройки должны подойти большинству. Смысл компрессора в том, что тихие моменты он усиливает а громкие ослабляет и тем самым выравнивает громкость. Посмотрим на результат работы компрессора:

Запись явно преобразилась. Начало записи можно сделать еще громче. Выделим отдельно и повторим компрессию либо нормировку — на Ваш вкус.

Экспорт и сохранение

В открывшемся окне следует указать название файла и выбрать его формат . Можно экспортировать запись в любой популярный аудиоформат, с указанием качества. Для большинства случаев подойдет MP3 с постоянным битрейтом 320 Кбит/с.

Если Вы не успели завершить обработку а вам пора бежать по делам, то можно сохранить проект. Для этого служит пункт меню Файл→Сохранить Проект . Сохраненный проект можно открыть в любое время и продолжить работу. Это особенно актуально, если у вас много дорожек.

Вернемся к первоисточнику для сравнения

Как говорится, найдите 10 отличий….

Заключение

Конечно можно продолжить пытать запись. Еще раз удалить шумы, которые могли вылезти после компрессии, произвести еще большую компрессию чтобы еще улучшить качество звука записи…

Но стоит помнить, что излишняя компрессия может сделать звук зажатым и лишить динамики. Однако решение в любом случае остается за вами и вкусами вашего слухового органа)

Если у Вас не получается обработать запись, то вы всегда можете обратиться за помощью на биржу фриланс услуг .

Материал подготовлен исключительно для сайта

Довольно часто попадаются хорошие подкасты или аудиотрансляции с семинаров и конференций, однако интересная тема и интригующая манера подачи материала сводятся на нет невысоким качеством самой записи. Это может быть, как низкий уровень звука, так и сильные перепады громкости на разных отрывках. Они сильно портят впечатление и заставляют слушателя интенсивно мучать кнопки «громче-тише».

Отдельную проблему представляет фоновый шум, а также резкие вопли-кашли-чихания. Впрочем, все эти и многие другие недостатки можно устранить с помощью бесплатной программы Audacity . В данной статье я расскажу об обязательной минимальной обработке записи голоса или собственного подкаста, позволяющей сделать прослушивание комфортным.

Звуковой редактор Audacity бесплатен и имеет русский язык, он скачивается с официального сайта . Инсталляция не вызывает никаких проблем – опции при установке менять не требуется. Однако после инсталляции необходимо доустановить пару модулей, чтобы программа понимала различные аудиоформаты, а также самостоятельно могла экспортировать звук в mp3. Дело в том, что автор не стал связываться с юридической стороной вопроса легальности использования закрытых форматов и переложил эти проблемы на пользователя.

Настройка библиотек в Audacity. Сначала скачиваем, потом распаковываем, далее указываем.

Заходим в Правка-Параметры-Библиотеки . Здесь требуется установить библиотеки LAME и FFmpeg. Нажимаем на кнопку Скачать и в браузере откроется ссылка на нужную библиотеку – соответственно «LAME download page» и «Go to the external download page». После скачивания распаковываем содержимое архивов в папку с программой и указываем файл кнопкой Указать... Теперь редактор полностью готов к работе. Открываем нужную аудиозапись.

Необработанная аудиозапись в Audacity видна невооруженным глазом. Сильно выделяются пики, а общий уровень сигнала низкий.

В качественной записи общий уровень звука должен быть примерно одинаков, без резких скачков и всплесков. Зашкаливающие пики, мало того, что неприятно отдают в наушниках и колонках, так еще и будут мешать программе Audacity определить максимальный уровень сигнала. Удаляем всплески первым делом.

Удаление скачков и пиков

Заходим в Эффекты-Limiter (или Hard Limiter в зависимости от версии Audacity и плагина). На изображении показаны рекомендуемые параметры. Единственное, с чем стоить поиграться – Limit to (dB) – собственно он и указывает выше какого уровня пик будет срезаться. Конкретное значение дать затруднительно, многое зависит от характера звука, но я рекомендую от -2 до -6 dB.

Настройка плагина Limiter (Hard Limiter) в Audacity.
Главный параметр - Limit to (Db)

Сделайте несколько попыток. Контролируйте визуально, чтобы после применения фильтра срезались только скачки. Если упал уровень основной части, значит вы перестарались со значением Limit to (dB) . В настройках есть кнопка Preview , позволяющая сразу прослушать обработанный фрагмент.

После обработки фильтром Hard Limiter в Audacity. Все пики срезаны, их остатки не превышают средний уровень.

Нормализация

Заходим в Эффекты-Нормировка сигнала (Normalize). Данный плагин поднимает (или снижает) общий уровень всей записи сразу. Тихий сигнал станет громче, а громкий еще громче.

Настройка нормализации в Audacity. Минус один Децибел обычно дает хороший результат.

После применения нормализации. Обратите внимание, как вырос уровень, хотя характер сигнала почти не изменился.

Компрессор

Следующий плагин – Компрессор , – он один из самых важных. При этом виде обработки слабые и тихие звуки делаются громче, а слишком громкие – тише. То есть после проведения компрессии шепот и громкий вопль будут почти одинаковы по уровню, не придется крутить слайдер громкости. После окончания работы плагина вы визуально должны увидеть выравнивание сигнала.

Результат действия компрессора может сильно отличаться в каждом конкретном случае. Он может снизить или поднять общую громкость или же привести к появлению пиков (если не установлена галочка Компрессия по пикам в настройках плагина). Поэтому, если требуется, можно повторно применить Limiter или Нормализатор.

Посмотрите, как Компрессор изменил форму записи. Теперь и писк комара, и рев турбины имеют почти одинаковый уровень. Слушать такой аудиофайл комфортно.

Удаление шума

В этом разделе речь пойдет о негромком монотонном и непрерывном шуме, сопровождающем всю запись. Это может быть шелест вентилятора ноутбука или гул кондиционера, работающего неподалеку. Для чистки звука нам понадобится небольшой (3-10 сек) участок только с этим шумом (без голоса).

Программа проанализирует полученные характеристики, составит модель шумодава и попробует безболезненно изъять составляющие шума из общего спектра. Выделяем небольшой участок с шумом (и только с ним), далее запускаем плагин Эффекты-Подавление шума . Нажимаем Создать модель шума . Теперь можно применить фильтр на всей записи. Снимаем выделение (или выделяем весь файл целиком) и повторно запускаем плагин, но на этот раз выполняем саму чистку, нажав ОК . Дать конкретные рекомендации сложно. Сделайте несколько попыток с разными параметрами. Ползунок Подавление шума указывает насколько сильно снижать шум, а Sensivity указывает чувствительность – чем она выше, там сильнее может пострадать голос после чистки. Важно понимать, что предыдущий фильтр Компрессор поднимает слабые звуки, в том числе и шум. Поэтому запускать шумодав нужно перед компрессором.

Удаление вздохов, кашля и др

К сожалению фильтров, которые могли бы автоматически сделать удаление этих звуков нет (имеется в виду - без значительной потери качества основного сигнала), – это кропотливая ручная работа. Нужные участки выделяются курсором и либо заменяются тишиной (Создание–Создать тишину ), либо вырезаются (кнопкой Del ). В особых случаях, когда удаляемый участок звучит на фоне речи, его можно заглушить. Проблемные звуки все еще будут слышны, но они не будут привлекать внимание и портить речь.

Эквалайзер.

Даже если с уровнем сингала у вас все в порядке, голос говорящего может не понравится. Например, слишком басовитый или слишком писклявый. Иногда это результат применения некачественного или ненастроенного микрофона, и исправляется эквалайзером (Эффекты – Эквалайзер ). Не буду особенно вдаваться в настройки – это потребует отдельной статьи, скажу лишь, что на диаграмме кривыми показаны занижаемые или поднимаемые частоты.

Для простоты можете пользоваться пресетами, многие из которых полезны – Bass boost (усиление басов), Bass cut (удаление басов), Treble boost (усление высоких), Treble cut (удаление высоких), 100Hz Rumble (удаление самых низких составляющих баса – особенно хорошо подходит для живых выступлений, где микрофон дает слишком много басов при выдохе). Крутизна кривой показывает насколько сильно будет подниматься/опускаться определенная частота. По аналогии с предыдущими плагинами можно сразу прослушать результат обработки и что-то подстроить.

В данном примере срезаются частоты ниже 100 Гц

Сохранение полученного результата. Выполняется командой Экспорт аудио (пункт Экспорт выделенного аудио сохраняет только выделенный фрагмент). Далее выбираем формат – я использую MP3 и OGG. Последний хоть и имеет лучшее качество, но все же менее распространен, и может не воспроизводится старыми плеерами и бытовой техникой.

Для MP3 задается битрейт, чем он больше, тем лучше качество, но тем больше размер файла. Рекомендую использовать битрейт 192-320 kbps для стерео и в два раза меньший - для монофонической записи. Для OGG качество задается в условных единицах от 0 до 10.

В конце скажу, что статья дает лишь начальные знания по обработке звука, но даже проведя минимальную обработку и потратив всего лишь 20 минут, можно добиться существенного улучшения итогового качества звучания, приемлемого для прослушивания большой аудиторией. Через некоторое время, набрав опыта, вы будете без проблем выставлять нужные параметры плагинов на глаз.

Обычно при записи подкастов с участием одних и тех же голосов список фильтров почти не меняется. Можно воспользоваться встроенным руководством и детально изучить требуемые плагины, доведя обработку своего аудио до совершенства.

Микрофон направленного действия
«СУПЕР УХО 100»

Многие, кто пользовался диктофоном, не раз сталкивались с ситуацией, когда различные шумовые помехи настолько сильны, что записанная речь становилась неразборчивой. Запись на улице, где мимо проносятся потоки машин, в общественных места, при сильном ветре (если нет ветряной защиты на микрофоне), в движущемся транспорте, а если еще и расстояние до источника неблизкое, существенно снижают качество разборчивости речи. Как бы ни был хорош диктофон, но в подобных случаях без специализированных средств бывает, что и не обойтись. Что же обычно используют в подобных случаях. Первое, на что стоит обратить внимание -узконаправленные микрофоны или микрофоны направленного действия. Такие микрофоны имеют узкую диаграмму направленности и в полосе пропускания и некоторые модели из них могут усиливать звук до 100 Дб а то и более. Чтобы было понятно, что это означает, приведу пример -вы можете записывать негромкий разговор или пение птиц в лесу с расстояния до 100 метров. Но на это способны отдельные экземпляры, у большинства узконаправленных микрофонов характеристики поскромнее. Тем не менее, у них есть своя специфика применения -они предназначены для работы на расстоянии, т.е. вдалеке от источника звука. Это не поможет нам в случаях записи на небольшом расстоянии в сложно шумовой обстановке. В самом деле, вы же не будете держать перед собеседником длинный громоздкий диктофон в транспорте, или что делать, если источник звука движется? да и не всегда узконаправленный микрофон может оказаться под рукой в силу того, что он громоздкий и его не удобно носить с собой. Кроме того большинство узконаправленных микрофонов с хорошими характеристиками подключаются к аппаратуре через XLR разъемы, и что в этом случае делать если у большинства диктофонов микрофонный вход это разъем 1/8’’3,5 мм или так называемый mini-jack (хотя есть и такие модели, которые имеют и не один XLR разъем , ). В данном случае наиболее эффективно использовать системы шумоочистки. Это специализированные устройства, которые позволяют в режиме реального времени или в отложенном времени производить очистку сигнала от различного вида помех и шумов за счет обработки непосредственно сигнала, пропуская его через фильтры, анализируя спектральные составляющие сигнала. Сложно на словах получается да? Сразу мысли -как то все очень сложно, нет ли чего попроще. Есть и попроще и посложнее, например, -коробочка размером 10 на 11 см и толщиной примерно 5 см, подключается между источником записи и записывающим устройством (например между микрофоном и диктофоном или компьютером и диктофоном, диктофоном и программой звукозаписи на ПК и т.д.), всего пара рукояток, с помощью которых вы настраиваете оптимальное качество сигнала, и далее запись прогоняется через это устройство, которое очищает ее от шумов. Есть и посложнее например -которая содержит 7 адаптивных фильтров шумоочистки, позволяет сохранять настраиваемые параметры и использовать уже готовые настройки при похожих условиях записи, а так же прослушивание и обработку в циклическом режиме, или например -это можно сказать полноценный ПК задача которого очистка сигналов от шумов в потоковом режиме -он может подключаться к сети, имеет доступ через web-интерфейс, 9 алгоритмов шумоочистки, и сам пишет уже очищенный сигнал на карту памяти типа SD.

А есть ли софт, а то все дополнительные устройства. Есть - программное обеспечение шумоочистки звуковых сигналов Sound Cleaner может помочь в повышении разборчивости и в текстовой расшифровке низкокачественных фонограмм речи, записанных в сложных акустических условиях. Это уникальный продукт, предназначенный для шумоочистки и повышения качества звучания живого (то есть поступающего в реальном времени) или записанного звукового сигнала. И именно он может помочь в повышении разборчивости и в текстовой расшифровке низкокачественных фонограмм речи, записанных в сложных акустических условиях (в том числе архивных). Используя Sound Cleaner вы легко очистите вашу запись от типовых шумов и искажений каналов связи и звукозаписи, шумы помещений и улицы, работающих механизмов, транспортных средств и бытовой техники, голосовой «коктейль», медленная музыка, электромагнитные наводки систем питания, шумы компьютерной и другой техники, эффекты реверберации и эха. SoundCleaner имеет методы двухканальной адаптивной фильтрации, предназначенные для подавления как широкополосных нестационарных помех (таких как речь, радио или телетрансляция, шумы зала и т.д.), так и периодических (вибрации, сетевые наводки и т.п.). Существует 13 готовых схем обработки наиболее типичных зашумлений и искажений сигналов (электронаводка, шум транспорта, частотные и амплитудные искажения, помехи радиосвязи и др.), которые помогут в борьбе с различными видами известных шумов и помех. При этом каждая схема поддается корректировке, а более опытные пользователи могут разработать собственные схемы, которые потом можно сохранить в качестве типовых для повторного применения.

Как видим, арсенал средств повышения качества вашей записи достаточно велик. Выбор за вами.

В «Фейсбуке» нам задали вопрос:
«Для работы с текстом мне нужно расшифровать 3 часа диктофонной записи. Пробовал загрузить аудиофайл с картинкой в YouTube и воспользоваться их расшифровщиком текста, но получается какая-то абракадабра. Подскажите, как можно решить это технически? Спасибо!
Александр Коновалов»

Александр, простое техническое решение есть – но результат будет зависеть исключительно от качества вашей записи. Поясню, о каком качестве речь.

За последние годы технологии распознавания русской речи сильно продвинулись вперед. Процент ошибок распознавания снизился до такого уровня, что иной текст стало проще «наговорить» в специальном мобильном приложении или интернет-сервисе, откорректировав вручную отдельные «очепятки» – чем целиком набирать весь текст на клавиатуре.

Но, чтобы искусственный интеллект системы распознавания смог проделать свою работу – пользователь должен проделать свою. А именно: говорить в микрофон четко и размеренно, избегать сильных фоновых шумов, по возможности использовать стереогарнитуру или выносной микрофон, прикрепленный к петлице (для качества распознавания важно, чтобы микрофон все время находился на одном расстоянии от губ, а вы сами говорили с одинаковой громкостью). Естественно, чем выше класс аудиоустройства – тем лучше.

Несложно придерживаться этих условий, если вы, вместо того, чтобы обращаться к интернет-сервису распознавания речи напрямую, применяете в качестве промежуточного устройства-посредника диктофон. К слову, такой «персональный секретарь» особенно незаменим, когда у вас нет доступа к онлайну. Естественно, лучше использовать хотя бы недорогой профессиональный диктофон, нежели записывающее устройство, встроенное в дешевый mp3-плеер или смартфон. Это даст гораздо больше шансов «скормить» полученные записи сервису распознавания речи.

Сложно, но можно уговорить соблюдать эти правила собеседника, у которого вы берете интервью (еще один совет: если у вас нет в комплекте выносного микрофона на прищепке – хотя бы держите диктофон рядом с собеседником, а не с собой).

А вот «законспектировать» на нужном уровне в автоматическом режиме конференцию или семинар – дело, на мой взгляд, практически нереальное (ведь вы не сможете контролировать речь спикеров и реакцию слушателей). Хотя достаточно интересный вариант: превращение в текст профессионально записанных аудиолекций и аудиокниг (если на них не накладывалась фоновая музыка и шумы).

Будем надеяться, что качество вашей диктофонной записи – достаточно высокое, чтобы ее удалось расшифровать в автоматическом режиме .

Если же нет – практически при любом качестве записи вы сможете провести расшифровку в полуавтоматическом режиме .

Кроме того, в ряде ситуаций наибольшую экономию времени и сил вам принесет, как ни парадоксально, расшифровка в ручном режиме . Точнее, тот ее вариант, который сам я использую уже с десяток лет. 🙂

Итак, по порядку.

1. Автоматическое распознавание речи

Многие советуют расшифровывать диктофонные записи на YouTube. Но этот метод заставляет пользователя тратить время на этапе загрузки аудиофайла и фоновой картинки, а затем – в ходе очистки итогового текста от меток времени. Между тем, это время несложно сэкономить. 🙂

Вы можете распознавать аудиозаписи прямо со своего компьютера, воспользовавшись возможностями одного из интернет-сервисов, работающих на движке распознавания Google (рекомендую Speechpad.ru или Speechlogger.com). Все, что нужно – проделать маленький трюк: вместо вашего голоса, воспроизводимого с микрофона, перенаправить на сервис аудиопоток, воспроизводимый вашим компьютерным проигрывателем.

Этот трюк называется программным стерео микшером (его обычно применяют для записи музыки на компьютере или ее трансляции с компьютера в интернет).

Стерео микшер входил в состав Windows XP – но был удален разработчиками из более поздних версий этой операционной системы (говорят, в целях защиты авторских прав: чтобы геймеры не воровали музыку из игр и т.п.). Однако стерео микшер нередко поставляется вместе с драйверами аудиокарт (например, карт Realtec, встраиваемых в материнскую плату). Если вы не найдете стерео микшер на своем ПК с помощью предлагаемых ниже скриншотов – попробуйте переустановить аудиодрайверы с CD-диска, который шел в комплекте с материнской платой – либо с сайта ее производителя.

Если и это не поможет – установите на компьютер альтернативную программу. Например – бесплатный VB-CABLE Virtual Audio Device : использовать его рекомендует владелец вышеупомянутого сервиса Speechpad.ru.

Первым шагом вы должны отключить для использования в режиме записи микрофон и включить вместо него стерео микшер (либо виртуальный VB-CABLE).

Для этого нажмите по иконке громкоговорителя в правом нижнем углу (возле часов) – либо выберите раздел «Звук» в «Панели управления». Во вкладке «Запись» открывшегося окна щелкните правой кнопкой мыши и поставьте птички напротив пунктов «Показать отключенные устройства» и «Показать отсоединенные устройства». Нажмите правой кнопкой по иконке микрофона и выберите пункт «Отключить» (вообще, отключите все устройства, отмеченные зеленым значком).

Нажмите правой кнопкой по иконке стерео микшера и выберите пункт «Включить». На иконке появится зеленый значок, что будет означать, что стерео микшер стал устройством по умолчанию.

Если вы решили использовать VB-CABLE – то тем же способом включите его во вкладке «Запись».

А также – во вкладке «Воспроизведение».

Второй шаг. Включите аудиозапись в любом проигрывателе (если нужно расшифровать аудиодорожку видеоролика – можно запустить и видеопроигрыватель). Параллельно загрузите в браузере Chrome сервис Speechpad.ru и нажмите в нем кнопку «Включить запись». Если запись достаточно высокого качества, вы увидите, как сервис на глазах превращает речь в осмысленный и близкий к оригиналу текст. Правда, без знаков препинания, которые вам придется расставить самостоятельно.

В качестве аудиопроигрывателя советую использовать AIMP, о котором будет подробнее рассказано в третьей подглавке. Сейчас лишь отмечу, что этот плеер позволяет замедлить запись без искажений речи, а также исправить некоторые другие погрешности. Это может несколько улучшить распознавание не слишком качественной записи. (Иногда даже советуют предварительно подвергать плохие записи обработке в профессиональных программах редактирования звука. Однако, на мой взгляд, это слишком трудоемкая задача для большинства пользователей, которые гораздо быстрее наберут текст вручную. 🙂)

2. Полуавтоматическое распознавание речи

Тут все просто. Если запись некачественная и распознавание «захлебывается» либо сервис выдает слишком много ошибок – помогите делу сами, «встроившись» в цепочку: «аудиоплеер – диктор – система распознавания».

Ваша задача: прослушивать в наушниках записанную речь – и параллельно надиктовывать ее через микрофон интернет-сервису распознавания. (Естественно, вам не нужно, как в предыдущем разделе, переключаться в списке записывающих устройств с микрофона на стерео микшер или виртуальный кабель). А в качестве альтернативы упоминавшимся выше интернет-сервисам можете использовать смартфонные приложения вроде бесплатной «Яндекс.Диктовки» либо функцию диктовки в iPhone с операционной системой iOS 8 и выше.

Отмечу, что в полуавтоматическом режиме вы имеете возможность сразу диктовать знаки препинания, расставлять которые в автоматическом режиме сервисы пока не способны.

Если у вас получится диктовать синхронно с воспроизведением записи на плеере – предварительная расшифровка займет практически столько же времени, сколько и сама запись (не считая последующих затрат времени на исправление орфографических и грамматических ошибок). Но даже работа по схеме: «прослушать фразу – надиктовать – прослушать фразу – надиктовать», – может вам дать неплохую экономию времени по сравнению с традиционным набором текста.

В качестве аудиоплеера рекомендую использовать тот же AIMP. Во-первых, с его помощью вы можете замедлить воспроизведение до скорости, на которой вам будет комфортно работать в режиме синхронной диктовки. Во-вторых, этот плеер умеет возвращать запись на заданное количество секунд: это бывает необходимо, чтобы лучше расслышать неразборчивую фразу.

3. Расшифровка диктофонной записи в ручном режиме

Вы можете установить на практике, что слишком быстро устаете от диктовки в полуавтоматическом режиме. Или делаете вместе с сервисом слишком много ошибок. Или, благодаря навыкам быстрого набора, гораздо легче создаете готовый исправленный текст на клавиатуре, чем с помощью диктовки. Или ваш диктофон, микрофон на стереогарнитуре, аудиокарта не обеспечивают приемлемое для сервиса качество звука. А может, у вас просто нет возможности диктовать вслух в своем рабочем или домашнем офисе.

Во всех этих случаях вам поможет мой фирменный способ расшифровки вручную (прослушиваете запись в AIMP – набираете текст в Word). С его помощью вы превратите запись в текст быстрее, чем это сделают многие профессиональные журналисты, чья скорость набора на клавиатуре аналогична вашей! При этом вы потратите гораздо меньше, чем они, сил и нервов. 🙂

Из-за чего, в основном, теряются силы и время в ходе расшифровки аудиозаписей традиционным способом? Из-за того, что пользователь совершает очень много лишних движений.

Пользователь постоянно протягивает руку то к диктофону, то к клавиатуре компьютера. Остановил воспроизведение – набрал прослушанный отрывок в текстовом редакторе – снова включил воспроизведение – отмотал неразборчивую запись назад – и т.д., и т.п.

Использование обычного программного плеера на компьютере мало облегчает процесс: пользователю приходится постоянно сворачивать/разворачивать Word, останавливать/запускать плеер, да еще елозить туда-сюда слайдером плеера, чтобы найти неразборчивый фрагмент, а затем вернуться к последнему прослушанному месту в записи.

Чтобы сократить эти и другие потери времени, специализированные IT-компании разрабатывают программные и аппаратные транскрайберы. Это достаточно дорогие решения для профессионалов – тех же журналистов, судебных стенографистов, следователей и т.д. Но, собственно, для наших целей требуются только две функции:

возможность замедлить воспроизведение диктофонной записи без ее искажения и понижения тона (замедлить скорость воспроизведения позволяют многие плееры – но, увы, при этом человеческий голос превращается в монструозный голос робота, который сложно воспринимать на слух продолжительное время);
возможность остановить запись или откатить ее на заданное количество секунд и вернуть обратно, не останавливая набор текста и не сворачивая окно текстового редактора.

В свое время я протестировал десятки аудиопрограмм – и нашел лишь два доступных платных приложения, отвечающих этим требованиям. Приобрел одно из них. Поискал еще немного для своих дорогих читателей 🙂 – и нашел замечательное бесплатное решение – проигрыватель AIMP , которым сам пользуюсь до сих пор.

«Войдя в настройки AIMP, найдите раздел Глобальные клавиши и перенастройте Стоп/Пуск на клавишу Эскейп (Esc). Поверьте, это наиболее удобно, поскольку не придется задумываться и палец не попадет случайно на другие клавиши. Пункты «Немного перейти назад» и «Немного перейти вперед» настройте, соответственно, на клавиши Ctrl + клавиши курсора назад/вперед (у вас на клавиатуре есть четыре клавиши со стрелками – выберите две из них). Эта функция нужна, чтобы заново прослушать последний фрагмент или перейти немного вперед.

Затем, вызвав эквалайзер, вы можете уменьшить значения «Скорость» и «Темп» – и увеличить значение «Питч». При этом Вы заметите, что скорость воспроизведения замедлится, но высота голоса (если хорошо подберете значение «Питч») – не изменится. Подберите эти два параметра так, чтобы вы практически синхронно успевали набирать текст, лишь изредка останавливая его.

Когда все будет настроено, набор будет занимать у вас меньше времени, и руки будут уставать меньше. Вы сможете расшифровывать аудиозапись спокойно и комфортно, практически не отрывая пальцев от набора текста на клавиатуре».

Могу только добавить к сказанному, что, если запись не очень качественная – вы можете попытаться улучшить ее воспроизведение, экспериментируя с другими настройками в «Менеджере звуковых эффектов» AIMP.

А количество секунд, на которое вам будет наиболее удобно перемещаться по записи назад или вперед с помощью горячих клавиш – установите в разделе «Плеер» окна «Настройки» (которое можно вызвать нажатием горячих клавиш «Ctrl + P»).

Желаю сэкономить побольше времени на рутинных задачах – и плодотворно использовать его для главных дел! 🙂 И не забудьте включить микрофон в списке записывающих устройств, когда соберетесь поговорить по скайпу! 😉

3 способа расшифровки диктофонной записи: распознавание речи, диктовка, ручной режим

Инструкция

Откройте запись в программе Adobe Audition при помощи сочетания клавиш Ctrl+O. Можете воспользоваться командой Open («Открыть») из меню File («Файл»). Еще проще можно поступить, кликнув на файл, который нуждается в обработке, правой кнопкой мышки и выбрав в контекстном меню опцию «Открыть с помощью…». Выберите Adobe Audition в списке программ, в которых предлагается открыть файл.

Увеличьте громкость записи при помощи фильтра Normalize. Для этого откройте окно настроек фильтра командой Normalize process из группы Amplitude, которую после непродолжительных поисков можно обнаружить в меню Effects.Введите значение в процентах, до которого вам требуется увеличить громкость, в поле Normalize to. Нажмите кнопку ОК.

Прослушайте результат, нажав на клавишу «Пробел». Если вам кажется, что громкость увеличена недостаточно, отмените предыдущие действие сочетанием клавиш Ctrl+Z, снова откройте окно настроек фильтра Normalize и введите другое числовое значение.

Сохраните запись с увеличенной громкостью. Для этого воспользуйтесь командой Save As («Сохранить как») из меню File («Файл»). В открывшемся окне выберите место сохранения файла, в поле «Имя файла» введите имя файла.
Из раскрывающегося списка «Тип файла» выберите формат сохраняемого файла. Если ваш исходник был в формате mp3, вам будет предложено сохранить измененный файл в том же формате. Кликните по кнопке Options («Опции») и выберите из раскрывающегося списка битрейт сохраняемого файла. Вполне разумно будет сохранить запись с измененной громкостью с тем же битрейтом, что был в исходном файле, если, конечно, вам не нужно уменьшить вес файла. Битрейт исходного файла можно узнать при помощи команды File Info из меню File. То же самое получится, если воспользоваться сочетанием клавиш Ctrl+P.Выбрав битрейт сохраняемого файла, кликните по кнопке ОК в окне настроек кодека и по кнопке Save в окне настроек команды «Сохранить как».

Источники:

Как изменить громкость аудио (песни, mp3) в Adobe Audition.

Устраивая какое-либо торжественное мероприятие, мы нередко задумываемся о музыкальном сопровождении. Естественно, мы хотим, чтобы музыка, которую мы используем, звучала при этом настолько громко, насколько возможно, ведь именно она зачастую создает общий настрой события, и от правильно подобранной фонограммы зависит половина успеха мероприятия. Существует несколько вариантов увеличения громкости звуковой дорожки.

Вам понадобится

- усилитель
- акустическая система
- компьютер
- интернет

Инструкция

Первый вариант – самый простой. Отрегулируйте уровни эквалайзера таким образом, что либо все пункты будут стоять на максимальной отметке, либо отдельные частоты будут завышены. Используйте этот вариант в зависимости от того, какого эффекта вы хотите добиться – увеличения общей громкости либо отдельных частот.

В случае, если вы можете подключить к колонкам усилитель, используйте этот вариант. Усилитель в разы увеличивает громкость воспроизводимой фонограммы, но самое главное при этом – грамотно подобрать его в соответствии с мощностью вашей акустической системы. Проконсультируйтесь с продавцом для выбора наилучшего соответствия.

Также есть вариант программного увеличения громкости звуковой дорожки. Для этого вам нужен любой музыкальный редактор. Нормализуйте громкость трека до нужного уровня и проверьте нормальность звучания, после чего сохраните измененный трек на компьютере. Помните о том, что музыка должна звучать громко, но без помех и искажений.

Современные программные средства для проигрывания цифрового видео позволяют манипулировать параметрами воспроизведения (например, громкостью звука) в весьма широких пределах. Однако иногда этого оказывается недостаточно для комфортного просмотра. В этом случае сделать громче видео можно путем его обработки в видеоредакторе.

Вам понадобится

- файл видео;
- VirtualDub 1.9.9 (доступен для загрузки на virtualdub.org).

Инструкция

Загрузите в редактор VirtualDub. Воспользуйтесь горячими клавишами Ctrl+O, или же в главном меню кликните по пункту "Open video file..." раздела "File". В отобразившемся диалоге открытия файла перейдите в требуемую директорию. В листинге каталога выделите видеофайл. Кликните по кнопке "Открыть".

Активируйте режим прямого переноса данных потока видео. Откройте раздел "Video" главного меню и установите отметку на пункте "Direct stream copy". Это позволит избежать обработки при его сохранении, тем самым во много раз увеличив общую скорость обработки и предотвратив ухудшение качества изображения.

Включите режим полной обработки потока звуковых данных. В главном меню разверните пункт "Audio" и установите отметку на пункт "Full processing mode".

Сделайте видео громче. Откройте диалог "Audio volume", последовательно выбрав пункты меню "Audio" и "Volume...". В диалоге установите в активное состояние переключатель "Adjust volume of audio channels". Затем путем перемещения вправо ползунка, расположенного ниже, выберите требуемый уровень звука относительно исходного (текущее значение в децибелах и процентах отображается справа от ползунка). Нажмите кнопку "OK".

Узнайте текущие характеристики звукового потока данных. Кликните по пунктам "Audio" и "Conversion..." либо нажмите Ctrl+N. Запомните значение частоты семплирования, приведенное в скобках после надписи "No change", расположенной в группе элементов управления "Sampling rate".

Настройте параметры кодирования звукового потока. В главном меню выберите пункты "Audio" и "Compression...". В диалоге "Select audio compression" в левом списке выделите предпочитаемый кодировщик. В правом списке отобразится листинг доступных режимов кодирования. Выберите один из режимов со значением частоты семплирования, равным значению, полученному в пятом шаге. Нажмите кнопку "OK".

Сохраните видео. На клавиатуре нажмите F7, либо выберите в меню "File" и "Save as AVI...". Укажите имя и путь для сохранения файла. Кликните по кнопке "Сохранить".

Дождитесь окончания записи видео. Если объем аудиоданных достаточно большой, то процесс может занять достаточно много времени. Прошедшее и расчетное время сохранения будет отображено в диалоге "VirtuaDub Status".

Видео по теме

Обратите внимание

Слишком сильное повышение уровня звука может привести к его искажению в результирующем видео.

При прослушивании любимой музыки порой хочется, чтобы она звучала как можно громче даже если она поставлена на максимальной громкости. Вы можете увеличить громкость воспроизведения, совершив несколько простых шагов.

Инструкция

Используйте настройки эквалайзера для максимизации громкости воспроизведения. Они присутствуют практически в каждом плеере и слушат для того, чтобы настроить звучание согласно типу воспроизводимого трека. Максимизировав все параметры эквалайзера, вы сможете сделать громкость настолько большой, насколько это возможно.

Используйте аудио редактор для изменения громкости трека. Наилучшим вариантом будет использование Sony Sound Forge либо Adobe Audition. Эти редакторы имеют наилучшее качество компрессии. Используйте эффекты нормализации и повышения громкости. Следите за тем, чтобы при изменении громкости не было потеряно благозвучие. Вы можете также откалибровать трек согласно тем частотам, которые должны воспроизводиться наиболее громко. Используйте эффект "Графический эквалайзер". Увеличьте те частоты, которые должны быть увеличены, после чего сохраните получившийся результат.

Для обработки нескольких файлов используйте программу Mp3Gain. С ее помощью вы можете увеличить громкость у нескольких трека. Для этого достаточно установить эту программу и после запуска добавить для обработки те файлы, которые вы хотите обработать. Имейте ввиду, что данный редактор не позволяет отменить сделанные изменения, поэтому лучше всего воспользоваться вариантом "Сохранить копию". Таким образом, все треки, которые вы отредактируете, останутся без изменений, и на выходе вы получите их копии с увеличенной громкостью.

Большинство наушников, идущих в комплекте с аудиоплеерами, имеют сопротивление в 32 Ом. Ищите те наушники, которые имеют сопротивление в 16 Ом, так как они позволяют воспроизводить треки с более высокой громкостью. Также вы можете использовать наушники с шумоподавлением. С их помощью внешние звуки будут слышны в наименьшей степени, поэтому звучание музыки будет более четким.

Видео по теме

Изменение громкости звука в файле формата avi является достаточно простой операцией. Ее можно выполнить при помощи любого видеоредактора, умеющего работать с файлами avi или программы-конвертера, в которой есть звуковые фильтры.