Размер трехчасовой записи в качестве 192 kbps. Mp3 Разбираемся по порядку. Перед конвертированием музыки в другой формат следует «разжимать» её в WAV

За последние несколько лет стал ужасно модным и популярным формат MP3. На любом лотке, торгующем компьютерными CD-дисками, вы легко найдете не один десяток дисков типа «Полная антология группы XXX», и внизу скромненькую такую надпись — MP3. Чаще всего для полной картины на обложках красуется модное словосочетание CD quality — то бишь качество, как у Audio-CD. Именно об этом и не только будет дальше наше повествование — о MP3, какие они бывают, о качестве звука в MP3.

О формате MP3

Для начала немного разберемся с предметной областью. Что вообще из себя такое представляет этот MP3?

MP3, более правильное название MPEG-1 Layer 3 — стандарт на сжатие аудиоинформации с потерями. При этом основной целью при создании стандарта было обеспечение максимально «идентичного» исходному звука, а также сведение к минимуму объема хранимых данных. Для этого была создана оригинальная схема кодирования — на первом этапе оцифрованный звук разбивается на частотные составляющие, которые проходят через ряд фильтров.

Основное отличие MP3 от прежде существовавших стандартов — именно в фильтрации. Разработчики стандарта создали так называемую психоакустическую модель — модель, которая учитывает некоторые особенности человеческого слуха, и на основании этой модели из аудиосигнала отфильтровываются те частоты, отсутствие которых слух почти не замечает. На втором этапе полученный поток кодируется по алгоритму Хаффмена со статической таблицей. Результат и будет являться потоком MP3.

Кроме этого в файл MP3 могут быть добавлены также тэги ID3 (метки, содержащие название песни, исполнителя, другую информацию) и различная сервисная информация.

Режимы сжатия и битрейты

Ширина потока — битрейт определяет, сколько бит необходимо для кодирования 1 секунды музыки. Стандарт MP3 регламентирует потоки от 8kbit/s до 320kbit/s. Наиболее типичный битрейт — 128kbit/s.

Исходя из потока, легко подсчитать, сколько будет занимать одна минута музыки — надо битрейт разделить на 8 (число бит в байте) и умножить на 60 (секунд в минуте) — получим число килобайт. Для уже упомянутого потока 128kbit/s это будет 128/8*60=960 килобайт или около мегабайта на каждую минуту записи.

Вполне естественно, что чем больше битрейт, тем больше деталей звука удается сохранить, тем он звучит реалистичнее. В выборе битрейта при кодировании приходится чем-либо жертвовать — либо качеством в пользу малого размера, либо размером в пользу качества.

Самый простой режим сжатия MP3 — это режим с постоянным битрейтом (CBR, Constant BitRate). Ранее на сборках MP3 почти на 100% использовался уже упомянутый выше битрейт 128kbit/s — и при этом на дисках присутствовала надпись CD quality. Откровенно говоря, это просто наглая ложь. На практике отличить звучание такой MP3 от звучания аудио компакт-диска нельзя разве только что на самой дешевой акустике.

Уровень качества на битрейте 128kbit/s — это примерно уровень звучания среднего магнитофона на не самой свежей пленке, может чуть лучше. Еще можно добавить, что именно такой битрейт широко распространен в записях, доступных по Internet.

Для упрощения разбора более высоких битрейтов напишу их сеточку: 128kbit/s, 160kbit/s, 192kbit/s, 224kbit/s, 256kbit/s, 320kbit/s. Итак, битрейты 160 и 192kbit/s уже заметно лучше по качеству, нежели 128kbit/s, но получаемые файлы все еще не так велики. «Артефакты» (огрехи) кодека уже почти незаметны (по крайней мере на моей системе).

С битрейтом 224 мне в чистом виде ни разу встретиться не пришлось, поэтому про его качество ничего не могу сказать, но оно должно быть выше, чем на предыдущей ступеньке лесенки битрейтов. Кроме того, мне не встречались обзоры, охватывавшие и этот битрейт. Видимо это как-то связано с тем, что следующий за ним битрейт 256kbit/s является признанным в плане точности передачи звука, почти полным отсутствием искажений. В инструкции к кодеку Lame этот битрейт даже назван как Studio Quality. И самый потолок — 320kbit/s предназначен для тех, кому качество дороже всего, или для владельцев очень качественной Hi-Fi или даже Hi-End аппаратуры.

Теперь перейдем к несколько более сложному вопросу — режиму переменного битрейта (VBR, Variable BitRate). Здесь понятие битрейта очень размыто, кодеки «для пользователя» вообще используют регулировку только по качеству (как например в Xing Audio Catalyst). Другие же (Lame) позволяют задавать дополнительные параметры — минимальный и максимальный битрейты, опять же качество.

При кодировании VBR кодек сам выбирает нужный битрейт, исходя из заданных ему параметров, причем в течение кодируемого фрагмента битрейт может изменяться. Для оценки нужного битрейта используется уже упоминавшаяся психоакустическая модель. Однако модель (так как не является идеальной, ничто в нашем мире не идеально) иногда показывает неверные результаты. Это приводит к занижению оценки, и соответственно падению реально слышимого качества звука.

Разработчики кодека Lame советуют в таком случае устанавливать порог минимального битрейта, чтобы избежать совсем плохих результатов. К разновидностям VBR относится и кодирование ABR (Average BitRate), усредненного битрейта. В последнее время в обзорах слышны только положительные отклики об этом режиме, особенно ABR на 256kbit/s. Работает этот режим почти также, как и VBR, с тем исключением, что кодек придерживается среднего заданного значения. В настоящий момент мне известен только один кодек, имеющий режим ABR — это Lame.

Выбор кодека

Буквально совсем недавно у пользователя, желавшего получить пристойное качество MP3, был не очень большой выбор — это какой-либо ISO-based кодек (основанный на коде образца кодека MP3, выпущенного International Standarts Organization), либо кодек от IIS Fraunhofer (институт — разработчик MP3). Плюс кодеки в продуктах от Xing.

Почитав разных обзоров, и сделав небольшие собственные исследования, я пришел к выводу о ветке продуктов фирмы Xing — это… их лучше не использовать. Даже в относительно новых версиях все их продукты, умеющие создавать MP3 встроенными средствами, делают это максимально некачественно.

Существует также масса «пионерских» поделок, слепленных на ворованном у Xing кодеке (почти все содержат в составе файл tompg.exe). Долгое время их основным преимуществом была скорость (в ущерб качеству), но сегодня кодек Lame показывает сравнимую скорость при более высоком качестве. Кроме того, продукция фирмы Xing вообще говоря стоит денег, тогда как Lame бесплатен по определению.

Далее пройдусь по продукции IIS Fraunhofer. Все их программы для сжатия MP3, доступные бесплатно, являются сильно урезанными по возможностям версиями их же коммерческих продуктов. Затем, все их кодеки не развивались в течение долгого времени, и не содержат новых средств, поддержки VBR/ABR, кроме того не отличаясь особым быстродействием. Единственное их оправданное применение — сжатие на битрейтах ниже 128kbit/s — в них проведена специальная оптимизация под низкие битрейты (местами, правда, с нарушением стандарта).

Различные кодеки на базе кода ISO страдают в принципе одним и тем же недостатком — низкокачественным сжатием на битрейтах ниже 192kbit/s. Кроме того, большинство из них (в т.ч. и BladeEnc) — изрядно медленные.

На мой взгляд, самым оптимальным вариантом является кодек Lame. Начинавший как свободный кодек на базе ISO-кода, в процессе разработки он вырос и теперь все обзоры при сравнении MP3 с другими форматами используют именно его в качестве эталонного для MP3. Немногим более года назад проект Lame окончательно избавился от ISO-кода и теперь может считаться полностью независимым кодеком.

Развитие кодека достаточно интенсивное, его постоянно обновляют, исправляют ошибки. Кроме того, возможно использовать Lame не только под Windows, но и под различные варианты Unix-систем, он также работает в чистом DOS. Опять же, полностью бесплатен, доступен исходный код (для любителей в оном покопаться), с нескольких сайтов доступны уже скомпилированные бинарные файлы (.exe и.dll), оптимизированные под разные процессоры.

Существует также несколько урезанная версия Lame — энкодер GOGO-no-coda, который показывает по скорости фантастические результаты (в два раза быстрее, чем и так быстрый Lame).

Так какой же битрейт и какой режим использовать?

Учитывая все вышесказанное, я бы порекомендовал класть в архив MP3 либо с потоком 320Kbit/s, режим CBR, либо 256kbit/s, ABR. Первый на мой взгляд несколько предпочтительнее, т.к. вы получаете максимально доступное качество в рамках формата. Для записей на «пару раз послушать и стереть» разумно использовать ABR 192kbit/s.

И еще одно — лучше не использовать для сколь-нибудь долгого хранения битрейты ниже 192kbit/s — если только запись, с которой была сделана MP3, у вас не постоянно под рукой (хотя помните, что аналоговая запись на магнитной ленте с течением времени ухудшается).

Очень часто аргумент, который я слышу в пользу низких битрейтов и «кривого» сжатия — «у меня плохая акустика, и я все равно не слышу разницы». Все может измениться, или вам придется использовать свой архив на приличной аппаратуре, а до исходной записи будет добраться нельзя. Ответ абсолютно не надуман, я могу привести случай из собственной практики.

В нашем городе Павлово был когда-то небольшой клуб, где музыку воспроизводили с компьютера (MP3 с битрейтом не выше 160kbit/s). Далее клуб благополучно скончался, а компьютер с архивами музыки переехал в другую фирму, занимавшуюся проведением массовых мероприятий. Представьте себе, что они взялись крутить эту музыку на дне города! Ужас, когда на более-менее приличной акустике было слышно все дефекты, привнесенные упаковкой на такой маленький битрейт. Звук был хуже, чем с их же видавшего виды кассетного магнитофона с полупережеванными кассетами. Было бы разумно избегать повтора чужих ошибок, верно?

Тестовое оборудование и ПО

Компьютер: Athlon TB 650MHz, M/B Acorp 7KTA 100MHz FSB, 128Mb RAM PC-133, HDD Quantum 40Gb 5400rpm, SoundBlaster 16 Vibra, AC97 codec.
Аудиосистема: усилитель Radiotehnika У-7111, пара колонок Radiotehnika S-90B.
ПО: ОС Windows98 SE, Winamp 2.75, Eac 0.9pb11, Lame 3.90a, GOGO-no-coda 3.07a

Развенчание популярных мифов о цифровом звуке.

2017-10-01T15:27

2017-10-01T15:27

Audiophile"s Software

Примечание : для лучшего понимания нижеизложенного текста очень рекомендую ознакомиться с основами цифрового звука .

Также многие затронутые ниже моменты освещены в моей публикации «Ещё раз о печальной правде: откуда на самом деле берётся хорошее звучание?» .

Чем больше битрейт, тем качественнее трек

Это далеко не всегда так. Для начала напомню, что такое битрейт (bitrate, а не bitraid). Фактически это скорость потока данных в килобитах на секунду при воспроизведении. Т. е., если мы возьмем размер трека в килобитах и разделим на его продолжительность в секундах, получим его битрейт - т. н. file-based bitrate (FBR), обычно он не слишком отличается от битрейта аудиопотока (причиной различий является наличие в треке метаданных - тегов, «вшитых» изображений и т. п.).

Теперь возьмем пример: битрейт несжатого PCM аудио, записанного на обычном Audio CD, рассчитывается следующим образом: 2 (канала) × 16 (бит на каждый семпл) × 44100 (семплов в секунду) = 1411200 (бит/с) = 1411.2 кбит/с. А теперь возьмём и сожмём трек любым lossless кодеком («lossless» - «беспотерьный», т. е. такой, который не приводит к потере какой-либо информации), например кодеком FLAC. В результате мы получим битрейт ниже исходного, но качество при этом останется неизменным - вот вам и первое опровержение.

Сюда ещё кое-что стоит добавить. Битрейт на выходе при lossless сжатии может получиться самый разный (но, как правило он меньше, чем у несжатого аудио) - зависит это от сложности сжимаемого сигнала, а точнее от избыточности данных. Таким образом, более простые сигналы будут сжиматься лучше (т. е. имеем меньший размер файла при такой же продолжительности => меньший битрейт), а более сложные - хуже. Именно поэтому классическая музыка в lossless имеет меньший битрейт, чем, скажем, рок. Но надо подчеркнуть, что битрейт тут ни в коем случае не является показателем качества звукового материала.

Теперь поговорим о lossy сжатии (с потерями). Прежде всего надо понимать, что существует множество разных кодеров и форматов, и даже в пределах одного формата качество кодирования у разных кодеров может отличаться (например, QuickTime AAC кодирует намного качественнее устаревшего FAAC), не говоря уже о превосходстве современных форматов (OGG Vorbis, AAC, Opus) над MP3. Проще говоря, из двух одинаковых треков, закодированных разными кодерами с одним битрейтом, какой-то будет звучать лучше, а какой-то - хуже.

Кроме того, существует такое понятие, как апконверт . Т. е., можно взять трек в формате MP3 с битрейтом 96 кбит/с и конвертировать его в MP3 320 кбит/с. Мало того, что при этом качество не улучшится (ведь потерянные при предыдущем кодировании в 96 кбит/с данные уже не вернуть), оно даже ухудшится. Тут стоит указать, что на каждом этапе lossy кодирования (с любым битрейтом и любым кодером) в аудио вносится определенная порция искажений.

И даже более. Есть еще один нюанс. Если, скажем, битрейт аудиопотока - 320 кбит/с, это не значит, что все 320 кбит ушли на кодирование той самой секунды. Это характерно для кодирования с постоянным битрейтом и для тех случаев, когда человек, надеясь получить максимальное качество, форсирует слишком большой постоянный битрейт (как пример - установка 512 кбит/с CBR для Nero AAC). Как известно, количество бит, выделяемое на тот или иной фрейм, регулируется психоакустической моделью. Но в случае, когда выделенное количество намного ниже установленного битрейта, то не спасает даже резервуар бит (о терминах читайте в статье «Что такое CBR, ABR, VBR?») - в итоге мы получаем бесполезные «нулевые биты», которые просто «добивают» размер фрейма до нужного (т. е. увеличивают размер потока до заданного). Кстати, это легко проверить - сожмите полученный файл архиватором (лучше 7z) и посмотрите на степень сжатия - чем она больше - тем больше нулевых битов (т. к. они приводят к избыточности), тем больше зря потраченного места.

Кодеки lossy (MP3 и прочие) способны справитьcя c современной электронной музыкой, но не способны качественно закодировать классическую (академическую), живую, инструментальную музыку

«Ирония судьбы» здесь в том, что на самом деле всё с точностью до наоборот. Как известно, академическая музыка в подавляющем большинстве случаев следует мелодическим и гармоническим принципам, а также инструментальному составу. С математической точки зрения это обуславливает относительно простой гармонический состав музыки. Так преобладание консонансов продуцирует меньшее количество побочных гармоник: например, для квинты (интервал, в котором основные частоты двух звуков различаются в полтора раза) общей для двух звуков будет каждая вторая гармоника, для кварты, где частоты различаются на одну треть - каждая третья, и т. п. Кроме того, наличие фиксированных соотношений частот, обусловленных использованием равномерно темперированного строя, также упрощает спектральный состав классической музыки. Живой инструментальный состав классики обуславливает отсутствие в ней шумов, характерных для электронной музыки, искажений, резких скачков амплитуды, а также отсутствие избытка высокочастотных составляющих.

Перечисленные выше факторы приводят к тому, что классическая музыка намного легче сжимается, прежде всего, чисто математически. Если вы помните, математическое сжатие работает за счёт устранения избыточности (описывая похожие фрагменты информации с использованием меньшего количества битов), а также за счёт предсказания (т. н. предикторы предсказывают поведение сигнала, а затем кодируется только отклонение реального сигнала от предсказанного - чем точнее они совпали, тем меньше битов нужно для кодирования). В данном случае относительно простой спектральный состав и гармоничность обуславливают высокую избыточность, устранение которой даёт значительную степень компрессии, а малое количество всплесков и шумовых компонентов (являющихся случайными и непредсказуемыми сигналами) обуславливает хорошую математическую предсказуемость подавляющей части информации. И это я уже не говорю об относительно небольшой средней громкости классических треков и о часто встречающихся промежутках тишины, для кодирования которых информация практически не требуется. В итоге мы можем без потерь сжать, например, некоторую сольную инструментальную музыку до битрейтов ниже 320 кбит/с (кодеры TAK и OFR на такое вполне способны).

Так вот, во-первых, дело в том, что математическое сжатие, лежащее в основе lossless кодирования, является также и одним из этапов lossy кодирования (читайте Понятно об MP3 кодировании). А во-вторых, т. к. в lossy используется преобразование Фурье (разложение сигнала на гармоники), то простота спектрального состава даже вдвойне облегчает кодеру работу. В итоге, сравнивая оригинальный и закодированный семпл классической музыки в слепом тесте, мы с удивлением обнаруживаем, что никаких отличий найти не можем, даже при относительно низком битрейте. И самое смешное - что когда мы начинаем совсем понижать битрейт кодирования, первое, что обнаруживает отличия - фоновые шумы в записи.

Что же касается электронной музыки - с ней кодерам приходится очень нелегко: шумовые составляющие имеют минимальную избыточность, и вместе с резкими скачками (какими-нибудь пилообразными импульсами) являются крайне непредсказуемыми сигналами (для кодеров, которые «заточены» под естественные звуки, ведущие себя совершенно иначе), прямое же и обратное преобразование Фурье с отбросом отдельных гармоник психоакустической моделью неминуемо даёт эффекты пре- и пост-эхо, слышимость которых кодеру далеко не всегда легко оценить... Добавьте еще к этому высокий уровень ВЧ составляющих - и получите большое количество киллер-семплов, с которыми на средне-низких битрейтах не справляются даже наиболее продвинутые кодеры, как ни странно, именно среди электронной музыки.

Также забавляют мнения «опытных слухачей» и музыкантов, которые при полном непонимании принципов lossy кодирования начинают утверждать, что они слышат, как инструменты в музыке после кодирования начинают фальшивить, частоты плавают и т. п. Это, возможно, ещё было бы справедливо для допотопных кассетных плееров с детонацией, но в цифровом аудио всё точно: частотная составляющая либо остаётся, либо отбрасывается, смещать тональность тут попросту нет надобности. Более того: наличие у человека музыкального слуха совершенно не означает наличие у него хорошего частотного слуха (например, способности воспринимать частоты >16 кГц, которая с возрастом сходит на нет) и отнюдь не облегчает ему задачу поиска артефактов lossy кодирования, т. к. искажения эти имеют характер очень специфический и требуют опыта слепого сравнения именно lossy аудио - надо знать, на чём и где искать.

DVD-Audio звучит лучше, чем Audio CD (24 бита против 16-ти, 96 кГц против 44.1 и т. п.)

К сожалению, люди обычно смотрят только на цифры и очень редко задумываются о влиянии того или иного параметра на объективное качество.

Рассмотрим для начала разрядность. Этот параметр отвечает не за что иное, как за динамический диапазон, т. е., за разницу между самым тихим и самым громким звуками (в дБ). В цифровом аудио максимальный уровень - это 0 dBFS (FS - full scale), а минимальный - ограничен уровнем шумов, т. е., фактически динамический диапазон по модулю равен уровню шумов. Для 16-битного аудио динамический диапазон рассчитывается как 20 × log 10 2 16 , что равняется 96.33 вБ. При этом динамический диапазон симфонического оркестра - до 75 дБ (в основном около 40-50 дБ).

А теперь представим реальные условия. Уровень шума в комнате - около 40 дБ (не забываем, что дБ - величина относительная. В данном случае за 0 дБ принимается порог слышимости), максимальная громкость музыки достигает 110 дБ (чтобы не было дискомфорта) - получаем разность 70 дБ. Таким образом получается, что динамический диапазон более 70 дБ в данном случае просто бесполезен. Т. е. при диапазоне выше или громкие звуки будут достигать болевого порога, или тихие звуки будут поглощаться окружающими шумами. Достичь уровня окружающих шумов менее 15 дБ очень трудно (так как на этом уровне находится громкость человеческого дыхания и прочих шумов обусловленных, человеческой физиологией), в итоге диапазон в 95 дБ для прослушивания музыки оказывается совершенно достаточным.

Теперь о частоте дискретизации (частота семплирования, sample rate). Этот параметр отвечает за частоту квантования по времени и непосредственно влияет на максимальную частоту сигнала, которую можно описать данным представлением аудио. По теореме Котельникова она равна половине частоты дискретизации. Т. е. для обычной частоты семплирования в 44100 Гц максимальная частота составляющих сигнала - 22050 Гц. Максимальная же частота. которая воспринимается человеческим ухом - чуть выше 20000 Гц (и то, при рождении; по мере взросления порог опускается до 16000 Гц).

Лучше всего данная тема раскрыта в статье Загрузки в формате 24/192 - почему они не имеют смысла .

Разные программные плееры звучат по-разному (e. g. foobar2000 лучше Winamp и т. п.)

Чтобы понять, почему это не так, надо разобраться, что собой представляет программный плеер. По сути это декодер, обработчики (опционально), плагин вывода (на один из интерфейсов: ASIO, DirectSound, WASAPI. etc.), ну и конечно же GUI (графический интерфейс пользователя). Т. к. декодер в 99.9 % случаев работает по стандартному алгоритму, а плагин вывода - это всего лишь часть программы, которая передает поток звуковой карте через один из интерфейсов, то причиной различий могут быть только обработчики. Но дело в том, что обработчики обычно по-умолчанию выключены (или должны быть выключены, т. к. главное для хорошего плеера - уметь передать звук в «первозданном» виде). В итоге, предметом сравнения тут могут быть только возможности обработки и вывода, в которых, кстати говоря, необходимости очень часто вообще нет. Но даже если такая необходимость и есть - то это уже сравнение обработчиков, а никак не плееров.

Разные версии драйвера звучат по-разному

В основании этого утверждения лежит банальное незнание принципов работы звуковой карты. Драйвер - это программное обеспечение, необходимое для эффективного взаимодействия устройства с операционной системой, также обычно предоставляющее графический интерфейс пользователя для возможности управления устройством, его параметрами и т. д. Драйвер звуковой карты обеспечивает распознавание звуковой карты как звукового устройства Windows, сообщает ОС о поддерживаемых картой форматах, обеспечивает передачу несжатого PCM (в большинстве случаев) потока на карту, а также даёт доступ к настройкам. Кроме того, в случае наличия софтовой обработки (средствами CPU), драйвер может содержать различные DSP (обработчики). Потому, во-первых, при отключенных эффектах и обработке, если драйвер не обеспечивает точную передачу PCM на карту, это считается грубейшей ошибкой, критическим багом. И случается такое крайне редко . С другой стороны, различия между драйверами могут быть в обновлении алгоритмов обработки (ресемплеров, эффектов), хотя это случается тоже отнюдь не часто. К тому же, для достижения наивысшего качества эффекты и любую обработку драйвером всё равно следует исключать.

Таким образом, обновления драйверов в основном ориентированы на повышение стабильности работы и устранение ошибок, связанных с обработкой. Ни то, ни другое в нашем случае на качество воспроизведения не влияет, потому в 999 случаях из 1000 драйвер влияния на звук не оказывает.

Лицензионные Audio CD звучат лучше, чем их копии

Если при копировании не произошло ошибок (неустранимых) чтения/записи и у оптического привода устройства, на котором будет воспроизводится диск-копия, нет проблем с его чтением, то такое утверждение ошибочно и легко опровергается .

Режим кодирования Stereo дает лучшее качество, чем Joint Stereo

Это заблуждение главным образом касается LAME MP3, так как все современные кодеры (AAC, Vorbis, Musepack) используют только режим Joint Stereo (и это уже о чём-то говорит)

Для начала стоит упомянуть, что режим Joint Stereo успешно используется при lossless сжатии. Суть его заключается в том, что сигнал перед кодированием раскладывается на сумму правого и левого канала (Mid) и на их разность (Side), а затем происходит отдельное кодирование этих сигналов. В пределе (для одинаковой информации в правом и левом канале) получается двойная экономия данных. А так как в большинстве музыки информация в правом и левом каналах довольно схожа, то этот метод оказывается очень эффективным и позволяет значительно увеличить степень сжатия.

В lossy принцип тот же. Но здесь в режиме постоянного битрейта качество фрагментов со схожей информацией в двух каналах будет увеличиваться (в пределе - удваиваться), а для VBR режима в таких местах будет просто уменьшаться битрейт (не забываем, что главная задача VBR режима - стабильно поддерживать заданное качество кодирования, используя минимально возможный битрейт). Так как во время lossy кодирования приоритет (при распределении битов) отдаётся сумме каналов, чтобы избежать ухудшения стереопанорамы, используется динамическое переключение между режимами Joint Stereo (Mid/Side) и обычным (Left/Right) стерео на базе фреймов. Кстати говоря, причиной данного заблуждения послужило несовершенство алгоритма переключения в старых версиях LAME, а также наличие режима Forced Joint, в котором автопереключение отсутствует. В последних версиях LAME режим Joint включен по умолчанию и менять его не рекомендуется.

Чем шире спектр, тем качественнее запись (о спектрограммах, auCDtect и частотном диапазоне)

В наше время на форумах, к несчастью, очень распространено измерение качества трека «линейкой по спектрограмме». Очевидно, по причине простоты такого способа. Но, как показывает практика, в действительности всё намного сложнее.

А дело тут вот в чем. Спектрограмма визуально демонстрирует распределение мощности сигнала по частотам, но не может дать полного представления о звучании записи, наличии в ней искажений и артефактов компрессии. Т. е., по сути всё, что можно определить по спектрограмме, - это частотный диапазон (и частично - плотность спектра в районе ВЧ). Т. е., в лучшем случае, путем анализа спектрограммы можно выявить апконверт. Сравнение же спектрограмм треков, полученных путем кодирования различными кодерами, с оригиналом - полнейший абсурд. Да, вы сможете выявить различия в спектре, но вот определить, будут ли они (и в какой степени) восприниматься человеческим ухом - практически невозможно. Нельзя забывать, что задача lossy кодирования - обеспечить результат неотличимый человеческим ухом от оригинала (никак не глазом).

Это же относится и к оценке качества кодирования путём анализа треков на выходе программой auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect - это лишь оболочки для единственной в своем роде консольной программы auCDtect). Алгоритм auCDtect тоже фактически анализирует частотный диапазон и всего лишь позволяет определить (с определенной долей вероятности), было ли на каком-либо из этапов кодирования применено MPEG сжатие. Алгоритм заточен под MP3, потому его легко «обмануть» с помощью кодеков Vorbis, AAC и Musepack, так что даже если программа пишет «100% CDDA» - это не значит, что закодированное аудио на 100% соответствует исходному.

И возвращаясь непосредственно к спектрам. Популярно также стремление некоторых «энтузиастов» во что бы то ни было отключить lowpass (НЧ) фильтр в кодере LAME. Здесь на лицо непонимание принципов кодирования и психоакустики. Во-первых, кодер обрезает высокие частоты только с одной целью - сэкономить данные и использовать их для кодирования наиболее слышимого диапазона частот. Расширенный частотный диапазон может фатально сказаться на общем качестве звучания и привести к слышимым артефактам кодирования. Более того, отключение среза на 20 кГц - вообще совершенно неоправданно, так как частоты выше человек попросту не слышит.

Существует некая «волшебная» предустановка эквалайзера, способная значительно улучшить звучание

Это не совсем так, во-первых, потому, что каждая отдельно взятая конфигурация (наушники, акустика, звуковая карта) обладает своими собственными параметрами (в частности, своей амплитудно-частотной характеристикой). И потому к каждой конфигурации должен быть свой, уникальный подход. Проще говоря, такая предустановка эквалайзера существует, но она отличается для разных конфигураций. Суть же её заключается в корректировке АЧХ тракта, а именно - в «выравнивании» нежелательных провалов и всплесков.

Также среди людей далеких от непосредственной работы со звуком очень популярна настройка графического эквалайзера «галочкой», что фактически представляет собой повышение уровня НЧ и ВЧ составляющих, но в то же время приводит к приглушению вокала и инструментов, спектр звучания которых находится в районе средних частот.

Перед конвертированием музыки в другой формат следует «разжимать» её в WAV

Сразу отмечу, что под WAV подразумеваются PCM данные (импульсно-кодовая модуляция) в контейнере WAVE (файл с расширением *.wav). Эти данные представляют собой не что иное, как последовательность битов (нулей и единиц) группами по 16, 24 или 32 (в зависимости от разрядности), каждая из которых представляет собой двоичный код амплитуды соответствующего ей семпла (например, для 16 бит в десятичном представлении это значения от -32768 до +32768).

Так вот, дело в том, что любой обработчик звука - будь то фильтр или кодер - как правило работает только с этими значениями, то есть только с несжатыми данными. Это значит, что для преобразования звука, скажем, из FLAC в APE, просто необходимо сначала декодировать FLAC в PCM, а затем уже закодировать PCM в APE. Это как для перепаковки файлов из ZIP в RAR, надо сначала распаковать ZIP.

Однако, если вы пользуетесь конвертером или просто продвинутым консольным кодером, промежуточное преобразование в PCM происходит на лету, иногда даже без записи во временный WAV файл. Именно это и вводит людей в заблуждения: кажется, что форматы конвертируются непосредственно один в другой, но на самом деле в такой программе обязательно есть декодер входного формата, выполняющий промежуточное преобразование в PCM.

Таким образом, ручное преобразование в WAV не даст вам совершенно ничего, кроме лишней траты времени.

Триумфальное шествие формата записи звука MPEG-1 Layer 3 (в просторечии получившего обозначение MP3) объясняется тем, что был предложен простой и эффективный способ сжатия звуковых файл, позволяющий хранить на стандартном диске CD-ROM до 12 часов музыки приемлемого качества.

Если говорить упрощенно, алгоритм MPEG-1 Layer 3 основан на методе так называемого «психоакустического» сжатия, когда из звуков спектра исключаются не воспринимаемые слухом частоты и уровни громкости. «Очищенный» таким способом спектр разбивается на отдельные блоки (фреймы) одинаковой продолжительности и сжимается в соответствии с заданными требованиями. При воспроизведении сигнал формируется из последовательности декодированных фреймов.

Степень сжатия зависит от параметров звукового потока, который необходимо получить на выходе, после декодирования файла.

Основным параметром, определяющим качество звучания и степень сжатия, выступает так называемый (что такое) битрейт - ширина полосы пропускания, измеряемая в битах в секунду.

Чем больше этот показатель, тем лучше качество звука и меньше степень сжатия. Так как практически все файлы MP3 записывают в режиме стерео с частотой кодировки 44 КГц и глубиной 16 бит, определяющими факторами чистого звука становятся: источник записи, применяемый кодек и выбраный битрейт.

Слово кодек образовано сочетанием слов кодер + декодер. Это программ- , ный модуль, позволяющий кодировать или декодировать файлы звука или видео в соответствии с собственным алгоритмом.

Среднее значение потока 256 Кбит/с обеспечивает коэффициент сжатия примерно 6:1, для других величин степень сжатия изменяется пропорционально. Таким образом, при потоке 256 Кбит/с можно записать на компакт-диск музыку с шести обычных Audio CD, а при потоке 128 Кбит/с - с двенадцати обычных музыкальных дисков.

По поводу величины битрейта, обеспечивающей хорошее качество звучания, соответствующее качеству воспроизведения Audio CD, идут бесконечные споры среди любителей и профессионалов.

Некоторые считают достаточным уровень 128 Кбит/с, других удовлетворяет только максимальное значение потока - 320 Кбит/с. По всей вероятности, правы и те и другие - разница только в том, что записано и в каких условиях воспроизводится.

Величина битрейта, с которой кодировался оцифрованный звук, обычно указывается на обложке компакт-дисков. К примеру, полную коллекцию музыки группы Beatles можно приобрести на трех дисках с битрейтом 128 Кбит/с или на шести дисках с битрейтом 256 Кбит/с.

Понятно, что во втором случае стоимость покупки будет вдвое дороже, но и качество лучше.

Если музыка звучит в автомобиле отечественного производства, поток 192 Кбит/с обеспечит достаточное качество звука, лучшего вы все равно не услышите из-за посторонних шумов. Для прослушивания на компьютере или автономном проигрывателе (МРЗ -плеере) приемлем поток 256 Кбит/с.

А вот если сигнал без изменений поступает на внешнее устройство и выводится на колонки высокого качества, желателен максимально возможный поток - 320 Кбит/с. Исходя из перечисленных соображений, универсальным можно считать поток 256 Кбит/с: при хорошем качестве записи он обеспечит адекватное воспроизведение в большинстве случаев.

Для трансляции музыки через Интернет обычно используют величину потока 128 Кбит/с. При этом качество звучания «как бы»оставляет желать лучшего.

Записывать популярную музыку с битрейтом выше 192-256 Кбит/с не имеет смысла: песенки живут недолго, да и исходные записи зачастую не отличаются высоким качеством. В конце концов, поплясать можно и под звук «магнитофонного» качества.

Совсем другое дело классика и редкие авторские произведения. Причем под классикой мы понимаем не только Баха или Моцарта. Сегодня классикой можно считать и The Beatles, и Led, Zeppelin, и Высоцкого, и Цоя, и много других авторов (исполнителей).

Если при покупке компакт-диска вы не обратили внимания на величину битрейта, указанную на упаковке, то посмотреть значение можно в строке проигрывателя во время воспроизведения файла.

Битрейтом (от англ. bitrate ) аудиофайлов называют количество бит (единиц информации), используемых для хранения одной секунды звукозаписи. Наиболее распространенной единицей измерения битрейта является количество килобит в секунду (Кбит/с, Kbps). Битрейт является одной из ключевых характеристик файлов мультимедиа, влияющей на их качество и размер. Чем с большим битрейтом были записаны музыка или видео, тем лучше будет их качество и тем "объемнее" будут файлы записей.

Соответственно, изменение величины битрейта в ту или иную сторону может увеличить или уменьшить размер файла. А вот с влиянием на качество записей все немного сложнее. Тогда как уменьшение величины битрейта закономерно приводит к ухудшению качества исходного файла, противоположная операция на качество никак не влияет. Даже если вы установите максимальную величину битрейта, качество звука и видеоряда вашего файла останутся прежними.

Как видите, увеличивать битрейт записи особого смысла нет: в результате вы получите файл большего размера при прежнем качестве. А вот снизить битрейт с целью уменьшения размера записи очень даже можно. Хотите попробовать изменить битрейт ваших песен или фильмов? Скачайте Movavi Конвертер Видео – удобную программу, с помощью которой вы легко измените битрейт видео- и аудиозаписей, будь то файлы в популярных форматах MP3, WMA, AVI и MP4 или записи, помещенные в более экзотичные контейнеры. Инструкция написана на примере работы с аудиофайлами.

1. Установите программу для изменения битрейта

Скачайте и запустите дистрибутив Movavi Конвертера Видео. Следуйте инструкциям на экране, чтобы инсталлировать программу. По окончании установки конвертер запустится автоматически.

2. Добавьте файлы в программу

Нажмите кнопку Добавить файлы , выберите пункт Добавить аудио и поместите в программу нужные файлы . Программа поддерживает множество форматов медиа, поэтому формат входных файлов может быть практически любым. Изменяйте битрейт аудиофайлов MP3, WMA, AAC и других. Попробуйте снизить битрейт видео: работайте с видеозаписями в AVI, MP4, DIVX и различными форматами HD-видео. Программа поможет вам справиться с широким спектром задач по конвертации медиафайлов!

3. Выберите формат сохранения

Перед изменением битрейта нужно выбрать формат, в котором будут сохранены ваши аудиозаписи. Для этого кликните по вкладке Аудио и выберите подходящий формат из списка. Сделав выбор в пользу того или иного аудиоформата, щелкните по его названию и из раскрывшегося списка выберите одну из доступных величин битрейта (опция недоступна для форматов FLAC, OGG, WAV и M4A). Если вы не хотите менять стандартную величину битрейта, указанную в выбранном профиле, вы можете пропустить следующий шаг и приступить к конвертации.

4. Установите нужную величину битрейта

Нажмите кнопку-шестеренку справа от поля Формат на выходе . В списке Тип битрейта выберите

Надежная и эффективная программа для записи видео с экрана в HD. Захватывайте видео из программ, онлайн-трансляции и даже разговоры в Skype и сохраняйте клипы в любом популярном формате, а также для просмотра на мобильных устройствах.

Битрейт принято использовать при измерении эффективной скорости передачи потока данных по каналу, то есть минимального размера канала, который сможет пропустить этот поток без задержек.

Битрейт выражается битами в секунду (бит/c, bps ), а также производными величинами с приставками кило- (кбит/с, kbps ), мега- (Мбит/с, Mbps ) и т. д.

Скорость передачи данных с использованием битов в секунду блока (символ: «бит/с»), часто применяется в сочетании с приставками из международной системы измерения единиц (СИ), такими как «кило» (1 кбит/с = 1024 бит/с), «мега» (1 Мбит/с = 1024 кбит/с), «гига» (1 Гбит/с = 1024 Мбит/с) или «тера» (1 Тбит/с = 1024 Гбит/с). Нестандартная аббревиатура «bps» часто используется для замены стандартного символа «бит/с», так что, например, «1 Мбит» используется для обозначения одного миллиона бит в секунду. Один байт в секунду (1 Б/с) соответствует 8 бит/с.

Характеристики

В форматах потокового видео и аудио (например, MPEG и MP3), использующих сжатие c потерей качества, параметр «битрейт» выражает степень сжатия потока и, тем самым, определяет размер канала, для которого сжат поток данных. Чаще всего битрейт звука и видео измеряют в килобитах в секунду (англ. kilobit per second, kbps ), реже - в мегабитах в секунду (только для видео).

Существует три режима сжатия потоковых данных:

  • CBR (англ. Constant bitrate ) - с постоянным битрейтом;
  • VBR (англ. Variable bitrate ) - с переменным битрейтом;
  • ABR (англ. Average bitrate ) - с усреднённым битрейтом.

Скорость передачи информации

Физический уровень чистого битрейта, скорость передачи информации, полезной битрейт, частота полезной нагрузки, чистая скорость передачи данных, скорость передачи кодированных передач, эффективная скорость передачи данных или скорость подачи проволоки (неофициальный язык) цифрового канала связи является способность без учёта накладного протокола физического уровня, для мультиплекса пример с временным разделением каналов (TDM) обрамляющих битов, резервируемых с прямым исправлением ошибок (FEC) кодов, эквалайзер обучающих символов и другого канального кодирования. Помехоустойчивые коды являются общими, особенно в системах беспроводной связи , стандартов широкополосного модема или современных высокоскоростных локальных сетей на основе меди. Физический уровень чистого битрейта является скорость передачи данных, измеренная в контрольной точке на границе раздела между канальным уровнем и физическим уровнем, и, следовательно, может включать в себя линию передачи данных, а также нагрузку уровня.

В модемах и беспроводных системах, адаптации линии связи (автоматическая адаптация скорости передачи данных и модуляции и / или ошибок схемы кодирования, качество сигнала) часто применяется. В этом контексте термин пик битрейта означает чистый битрейт самой быстрой и наименее надёжным режимом передачи, используемый, например, [когда расстояние очень короткое замыкание] между отправителем и передатчиком. Некоторые операционные системы и сетевое оборудование может обнаружить «скорость соединения» (неофициальный язык) той или иной технологии доступа к сети или устройства связи, что предполагает текущую чистую скорость передачи данных. Следует отметить, что термин скорость линии в некоторых учебниках определяется как валовой скорости передачи в битах, а в других, как чистой скорости передачи данных.

Взаимосвязь между совокупным битрейтом и чистой скорости передачи данных зависит от скорости ПИО кода в соответствии со следующим.

Постоянный битрейт

Постоянный битрейт - вариант кодирования потоковых данных, при котором пользователь изначально задаёт необходимый битрейт, который не меняется на протяжении всего файла.

Его главное достоинство - возможность довольно точно предсказать размер конечного файла.

Однако вариант с постоянным битрейтом не очень подходит для музыкальных произведений, звучание которых динамично изменяется во времени, так как не обеспечивает оптимального соотношения размер/качество.

Переменный битрейт

С переменным битрейтом кодек выбирает значение битрейта исходя из параметров (уровня желаемого качества), причём в течение кодируемого фрагмента битрейт может изменяться. При сжатии звука нужный битрейт определяется на основе психоакустической модели. Данный метод даёт наилучшее соотношение качество/размер выходного файла, однако точный его размер оказывается очень плохо предсказуем. В зависимости от характера звука (или изображения, в случае кодирования видео), размер полученного файла может отличаться в несколько раз.

Усреднённый битрейт

Усреднённый битрейт является гибридом постоянного и переменного битрейтов: значение в кбит/c задаётся пользователем, а программа варьирует его в некоторых пределах. Однако, в отличие от VBR, кодек с осторожностью использует максимально и минимально возможные значения, не рискуя выйти за заданную пользователем среднюю величину. Этот метод позволяет наиболее гибко задавать скорость обработки (для аудио это может быть любым числом между 8 и 320 кбит/с, против чисел, кратных 16 в методе CBR) и с гораздо большей (по сравнению с VBR) точностью предсказывать размер выходного файла.

MP3

Формат MP3 сжатия аудио с потерями данных. Качество звука улучшается с увеличением битрейта:

  • 32 кбит/с - как правило, приемлемо только для речи
  • 96 кбит/с - как правило, используется для передачи речи или потокового звука низкого качества
  • 128 или 160 кбит/с - начальный уровень кодирования музыки
  • 192 кбит/с - приемлемое качество кодирования музыки
  • 256 кбит/с - высокое качество кодирования музыки
  • 320 кбит/с - наивысшее качество кодирования, поддерживаемое стандартом MP3

Другое аудио

  • 700 бит/с - наинизший битрейт, используемый речевым кодеком Codec2 с открытым исходным кодом; голос едва распознаётся, битрейт 1,2 кбит/с даёт гораздо лучший звук
  • 800 бит/с - минимально необходимый уровень для распознавания речи, используется в специализированных речевых кодеках FS-1015
  • 2,15 кбит/с - минимальный битрейт кодека Speex с открытым исходным кодом
  • 6 кбит/с - минимальный битрейт кодека Opus с открытым исходным кодом
  • 8 кбит/с - телефонное качество звука с использованием речевых кодеков
  • - цифрового формата высококачественного аудио на DVD. DVD-Audio не предназначен для видео и не то же самое, что видеодиски

Здесь мы рассмотрим как правильно подобрать битрейт для своей интернет трансляции. И так, Битрейт - это качество видео. Чем он выше, тем выше качество. Если сделать качественный стрим поток с великолепной картинкой, то нужно просто повысить битрейт и все? Как бы не так. Стрим поток то идет в режиме онлайн, соответственно, весь этот высокий битрейт занимает интернет канал и смотреть его будет невозможно. Поэтому нужно учитывать возможности своего интернета и интернета вашей аудитории. Не у всех протянуто оптоволокно. Так что выше 2 мбит/с битрейн ставить не рекомендуется.

Второе, на что стоит обратить внимание, это, так называемое, соотношение бит/пиксель. Данная Формула выглядит просто:

бит/(пиксели*кадры)

Что означает данная формула? Допустим, мы кодируем стрим поток с разрешением 100px х 100px, на 25 fps (кадров в секунду) и поставили битрейт 250 kbps (килобит в секунду). Итак, на секунду видео размером 10000 пикселей (сто умножаем на сто) выделяется 25 кадров и 250 килобит. Выходит по 10 килобит(10000 бит) на каждый кадр (250/25). Делим биты, выделяемые на кадр, на размер в пикселях - получим отношение бит/пиксель - сколько информации выделяется для «кодировки» одного пикселя.

Чем больше информации выделяется - тем выше качество.

В нашем примере отношение бит/пиксель составляет: (по 10000 бит на кадр)/(10000 пикселей) = 1. Многовато будет. Вполне отличное качество можно получить при отношении 0,1 -0,15 . Для нашего примера было бы достаточно битрейта ~ 32-35 kbps.

Посчитаем ориентировочные соотношения бит/пиксель для наиболее распространенных разрешений:

720p: 1280×720 точек:

  • Битрейт 1500kbps - 1500000/((1280*720)*25) = 1500000/23040000 = 0,065
  • Битрейт 2500kbps - 2500000/((1280*720)*25) = 2500000/23040000 = 0,109
  • Битрейт 3500kbps - 3500000/((1280*720)*25) = 3500000/23040000 = 0,152

1080p: 1920×1080 точек:

  • Битрейт 1500kbps - 1500000/((1920*1080)*25) = 1500000/51840000= 0,029 (как видим, качество при том же битрейте будет хуже где-то в 2,5 раза, поэтому для 1080р нужен больший битрейт, чем для 720р )
  • Битрейт 5000kbps - 5000000/((1920*1080)*25) = 5000000/23040000 = 0,096
  • Битрейт 7500kbps - 7500000/((1920*1080)*25) = 7500000/23040000 = 0,145
  • Битрейт 10000kbps - 10000000/((1920*1080)*25) = 10000000/23040000 = 0,192

Какие же выводы можно сделать? Первое, оно же главное, не можешь снабдить разрешение необходимым битрейтом - не берись стримить. Все равно хочешь стримить? Снижай или разрешение или fps. Добей бит/пиксель хотябы до 0,075-0,1, а лучше больше.

Качество

Разрешение

Видео Битрейт, kbps

Аудио Битрейт, kbps

FPS кадров/сек

Видео-кодек

h.264 профиль

Аудио-кодек

Аудио-канал

240 p (426 x 240)

400 (300-700)

AAC или MP3

270p (480x270)

400 (300-700)

AAC или MP3

360p (640x360)

750 (400-1000)

AAC или MP3

480p (854x480)

1000 (500-2000)

AAC или MP3

540p (960x540)

1000 (800 - 2000)

AAC или MP3

Mono или
Stereo

720p (1280x720)

2500 (1560-4000)

AAC или MP3

Mono или
Stereo

720p (1280x720)

3800 (2500-6000)

AAC или MP3

Mono или
Stereo

1080p (1920x1080)

4500 (3000-6000)

AAC или MP3

Mono или
Stereo

1080p (1920x1080)

6800 (4500-9000)

AAC или MP3

Mono или
Stereo

1440p) (2560x1440)

9000 (6000-13000)

AAC или MP3

Mono или
Stereo

1440p (2560x1440)

13000 (9000-18000)

AAC или MP3

Mono или
Stereo

4K/2160р (3840x2106)

23000 (13000-34000)

AAC или MP3

Mono или
Stereo

4K/2160р (3840x2106)

35000 (20000-51000)

AAC или MP3

Mono или
Stereo



Главная / Инструкции / Подбираем битрейт для стрима

Примечание : для лучшего понимания нижеизложенного текста очень рекомендую ознакомиться с основами цифрового звука.

    S: Чем больше битрейт, тем качественнее трек

    R: Это далеко не всегда так. Для начала напомню, что такое битрейт (bitrate, а не bitraid). Фактически это скорость потока данных в килобитах на секунду при воспроизведении. Т. е., если мы возьмем размер трека в килобитах и разделим на его продолжительность в секундах, получим его битрейт - т. н. file-based bitrate (FBR), обычно он не слишком отличается от битрейта аудиопотока (причиной различий является наличие в треке метаданных - тегов, «вшитых» изображений и т. п.).

    Теперь возьмем пример: битрейт несжатого PCM аудио, записанного на обычном Audio CD, рассчитывается следующим образом: 2 (канала) * 16 (бит на каждый семпл) * 44100 (семплов в секунду) = 1411200 (бит/с) = 1411.2 кбит/с. А теперь возьмем и сожмём трек любым lossless кодеком («lossless» - «беспотерьный», т. е. такой, который не приводит к потере каких-либо данных), например кодеком FLAC. В результате мы получим битрейт ниже исходного, но качество при этом останется неизменным - вот вам и первое опровержение.

    Сюда еще кое-что стоит добавить. Битрейт на выходе при lossless сжатии может получиться самый разный (но, как правило он меньше, чем у несжатого аудио) - зависит это от сложности сжимаемого сигнала, а точнее от избыточности данных. Таким образом, более простые сигналы будут сжиматься лучше (т. е. имеем меньший размер файла при такой же продолжительности => меньший битрейт), а более сложные - хуже. Именно поэтому классическая музыка в lossless имеет меньший битрейт, чем, скажем, рок. Но надо подчеркнуть, что битрейт тут ни в коем случае не является показателем качества звукового материала.

    Теперь поговорим о lossy сжатии (с потерями). Первым делом надо понимать, что существует множество разных кодеров и форматов, и даже в пределах одного формата качество кодирования у разных кодеров может отличаться (например, QuickTime AAC кодирует намного качественнее устаревшего FAAC), не говоря уже о превосходстве современных форматов (OGG Vorbis, AAC, Opus) над MP3. Проще говоря, из двух одинаковых треков, закодированных разными кодерами с одним битрейтом, какой-то будет звучать лучше, а какой-то - хуже.

    Кроме того, существует такое понятие, как апконверт . Т. е. можно взять трек в формате MP3 с битрейтом 96 кбит/с и конвертировать его в MP3 320 кбит/с. Мало того, что при этом качество не улучшится (ведь потерянные при предыдущем кодировании в 96 кбит/с данные уже не вернуть), оно даже ухудшится. Тут стоит указать, что на каждом этапе lossy кодирования (с любым битрейтом и любым кодером) в аудио вносится определенная порция искажений.

    И даже более. Есть еще один нюанс. Если, скажем, битрейт аудио потока - 320 кбит/с, это не значит, что все 320 кбит ушли на кодирование той самой секунды. Это характерно для кодирования с постоянным битрейтом и для тех случаев, когда человек, надеясь получить максимальное, качество форсирует слишком большой постоянный битрейт (как пример - установка 512 кбит/с CBR для Nero AAC). Как известно, количество бит, выделяемое на тот или иной фрейм, регулируется психоакустической моделью. Но в случае, когда выделенное количество намного ниже установленного битрейта, то не спасает даже резервуар бит (о терминах читайте в статье «Что такое CBR, ABR, VBR?») - в итоге мы получаем бесполезные «нулевые биты», которые просто «добивают» размер фрейма до нужного (т. е. увеличивают размер потока до заданного). Кстати, это легко проверить - сожмите полученный файл архиватором (лучше 7z) и посмотрите на степень сжатия - чем она больше - тем больше нулевых битов (т. к. они приводят к избыточности), тем больше зря потраченного места.


    S: DVD-Audio звучит лучше, чем Audio CD (24 bit vs 16, 96 kHz vs 44.1 и т. п.)

    R: в принципе, это вполне логично, и даже отчасти правда, но вот только люди обычно смотрят только на цифры и очень редко задумываются о влиянии того или иного параметра.

    Итак, рассмотрим для начала разрядность. Этот параметр отвечает ни за что иное, как за динамический диапазон, т.е. за разницу между самым тихим и самым громким звуками (в дБ). В цифровом аудио максимальный уровень - это 0 dBFS, а минимальный - ограничен уровнем шумов, т. е. фактически динамический диапазон по модулю равен уровню шумов. Для 16-битного аудио динамический диапазон рассчитывается как 20*log(2^16) ? 96.33 (dB). При этом динамический диапазон симфонического оркестра - до 75 дБ (в основном около 40-50 дБ).

    А теперь представим реальные условия. Уровень шума в комнате - около 40 дБ (не забываем, что дБ - величина относительная. В данном случае за 0 дБ принимается порог слышимости), максимальная громкость музыки достигает 110 дБ (чтобы не было дискомфорта) - получаем разность 70 дБ. Таким образом получается, что динамический диапазон более 70 дБ в данном случае просто бесполезен. Т. е. при диапазоне выше или громкие звуки будут достигать болевого порога, или тихие звуки будут поглощаться окружающими шумами. Достичь уровня окружающих шумов менее 15 дБ очень трудно (так как на этом уровне находится громкость человеческого дыхания и прочих шумов обусловленных человеческим фактором), в итоге диапазон в 95 дБ для прослушивания музыки оказывается совершенно достаточным.

    Теперь о частоте дискретизации (частота семплирования, sample rate). Этот параметр отвечает за частоту квантования по времени и непосредственно влияет на максимальную частоту сигнала, которую можно описать данным представлением аудио. По теореме Котельникова она равна половине частоты дискретизации. Т. е. для обычной частоты семплирования в 44100 Гц максимальная частота составляющих сигнала - 22050 Гц. Максимальная же частота. которая воспринимается человеческим ухом - чуть выше 20000 Гц (и то, при рождении; по мере взросления порог опускается до 16000 Гц).

    Читайте Загрузки в формате 24/192 - почему они не имеют смысла.


    S: Разные программные плееры звучат по-разному (e. g. foobar2000 лучше Winamp и т. п.)

    R: Чтобы понять, почему это не так, надо разобраться, что собой представляет программный плеер. По сути это декодер, обработчики (опционально), плагин вывода (на один из интерфейсов: ASIO, DirectSound, WASAPI. etc.), ну и конечно же GUI ( пользователя). Т. к. декодер в 99.9 % случаев работает по стандартному алгоритму, а плагин вывода - это всего лишь часть программы, которая передает поток звуковой карте через один из интерфейсов, то причиной различий могут быть только обработчики. Но дело в том, что обработчики обычно по-умолчанию выключены (или должны быть выключены, т. к. главное для хорошего плеера - уметь передать звук в «первозданном» виде). В итоге, предметом сравнения тут могут быть только возможности обработки и вывода, в которых, кстати говоря, необходимости очень часто вообще нет. Но даже если такая необходимость и есть - то это уже сравнение обработчиков, а никак не плееров.

    Здесь я еще хотел бы упомянуть свою и, пожалуй, огорчить пользователей, восхищающихся «колоссальными» переменами в звучании после описанной в ней настройки - в 95% случаев это самовнушение (кроме конечно тех случаев, когда в ходе её настройки был выключен какой-нибудь «улучшайзер» или другой обработчик, портящий всю картину). Как это ни печально, выигрыш от всех этих ухищрений с ReplayGain, ресемплерами и лимитерами - мизерный. Вывод: хотите действительно качественного звука - купите себе Hi-Fi акустику и профессиональную звуковую карту.


    S: Разные версии драйвера звучат по-разному

    R: В основании этого утверждения лежит банальное незнание принципов работы звуковой карты. Драйвер - это программное обеспечение , необходимое для эффективного взаимодействия устройства с операционной системой , а также обычно предоставляющее графический интерфейс пользователя для возможности управления устройством, его параметрами и т. д. Драйвер звуковой карты обеспечивает распознавание звуковой карты как звукового , сообщает ОС о поддерживаемых картой форматах, обеспечивает передачу несжатого PCM (обычно) потока на карту, а также даёт доступ к настройкам. Кроме того, в случае наличия софтовой обработки (средствами CPU), драйвер может содержать различные DSP (обработчики). Потому, во-первых, при отключенных эффектах и обработке, если драйвер не обеспечивает точную передачу PCM на карту, это считается грубейшей ошибкой, критическим багом. И случается это крайне редко . С другой стороны, различия между драйверами могут в обновлении алгоритмов обработки (ресемплеров, эффектов), хотя это случается тоже весьма редко. К тому же эффекты и любую обработку драйвером всё равно следует отключить/обойти для достижения наивысшего качества.

    Таким образом, обновления драйверов в основном ориентированы на повышение стабильности работы и устранение ошибок, связанных с обработкой. Ни то, ни другое в нашем случае на качество воспроизведения не влияет, потому в 999 случаях из 1000 драйвер влияния на звук не оказывает.


    S: Лицензионные Audio CD звучат лучше, чем их копии

    R: Если при копировании не произошло ошибок (неустранимых) чтения/записи и у оптического привода устройства, на котором будет воспроизводится диск-копия, нет проблем с его чтением, то такое утверждение ошибочно и легко опровергается.


    S: Режим кодирования Stereo дает лучшее качество , чем Joint Stereo

    R: Это заблуждение главным образом касается LAME MP3, так как все современные кодеры (AAC, Vorbis, Musepack) используют только режим Joint Stereo (и это уже о чём-то говорит)

    Для начала стоит упомянуть, что режим Joint Stereo успешно используется при lossless сжатии. Суть его заключается в том, что сигнал перед кодированием раскладывается на сумму правого и левого канала (Mid) и на их разность (Side), а затем происходит отдельное кодирование этих сигналов. В пределе (для одинаковой информации в правом и левом канале) получается двойная экономия данных. А так как в большинстве музыки информация в правом и левом каналах довольно схожа, то этот метод оказывается очень эффективным и позволяет значительно увеличить степень сжатия.

    В lossy принцип тот же. Но здесь в режиме постоянного битрейта качество фрагментов со схожей информацией в двух каналах будет увеличиваться (в пределе - удваиваться), а для VBR режима в таких местах будет просто уменьшаться битрейт (не забываем, что главная задача VBR режима - стабильно поддерживать заданное качество кодирования, используя минимально возможный битрейт). Так как во время lossy кодирования приоритет (при распределении битов) отдаётся сумме каналов, чтобы избежать ухудшения стереопанорамы, используется динамическое переключение между режимами Joint Stereo (Mid/Side) и обычным (Left/Right) стерео на базе фреймов. Кстати говоря, причиной данного заблуждения послужило несовершенство алгоритма переключения в старых версиях LAME, а также наличие режима Forced Joint, в котором автопереключение отсутствует. В последних версиях LAME режим Joint включен по умолчанию и менять его не рекомендуется.


    S: Чем шире спектр, тем качественнее запись (о спектрограммах, auCDtect и частотном диапазоне)

    R: В наше время на форумах, к несчастью, очень распространено измерение качества трека «линейкой по спектрограмме». Очевидно, по причине простоты такого способа. Но, как показывает практика, в действительности всё намного сложнее.

    А дело тут вот в чем. Спектрограмма визуально демонстрирует распределение мощности сигнала по частотам, но не может дать полного представления о звучании записи, наличии в ней искажений и артефактов компрессии. Т. е. по сути всё что можно определить по спектрограмме - это частотный диапазон (и частично - плотность спектра в районе ВЧ). Т. е., в лучшем случае, путем анализа спектрограммы можно выявить апконверт. Сравнение же спектрограмм треков, полученных путем кодирования различными кодерами, с оригиналом - полнейший абсурд. Да, вы сможете выявить различия в спектре, но вот определить, будут ли они (и в какой степени) восприниматься человеческим ухом - практически невозможно. Нельзя забывать, что задача lossy кодирования - обеспечить результат неотличимый человеческим ухом от оригинала (никак не глазом).

    Это же относится и к оценке качества кодирования путем анализа треков на выходе программой auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect - это лишь оболочки для единственной в своем роде консольной программы auCDtect). Алгоритм auCDtect тоже фактически анализирует частотный диапазон и всего лишь позволяет определить (с определенной долей вероятности), было ли на каком-либо из этапов кодирования применено MPEG сжатие. Алгоритм заточен под MP3, потому его легко «обмануть» с помощью кодеков Vorbis, AAC и Musepack, так что даже если программа пишет «100% CDDA» - это не значит, что закодированное аудио на 100% соответствует исходному.

    И, возвращаясь непосредственно к спектрам. Популярно также стремление некоторых «энтузиастов» во что бы то ни было отключить lowpass (НЧ) фильтр в кодере LAME. Здесь на лицо непонимание принципов кодирования и психоакустики. Во-первых, кодер обрезает высокие частоты только с одной целью - сэкономить данные и использовать их для кодирования наиболее слышимого диапазона частот. Расширенный частотный диапазон может фатально сказаться на общем качестве звучания и привести к слышимым артефактам кодирования. Более того, отключение среза на 20 кГц - вообще совершенно неоправданно, так как частоты выше человек попросту не слышит.


    S: Существует некая «волшебная» предустановка эквалайзера, способная значительно улучшить звучание

    R: Это не совсем так, во-первых, потому, что каждая отдельно взятая конфигурация (наушники, акустика, звуковая карта) обладает своими собственными параметрами (в частности, своей амплитудно-частотной характеристикой). И потому к каждой конфигурации должен быть свой, уникальный подход. Проще говоря, такая предустановка эквалайзера существует, но она отличается для разных конфигураций. Суть же её заключается в корректировке АЧХ тракта, а именно - в «выравнивании» нежелательных провалов и всплесков.

    Также, среди людей далеких от непосредственной работы со звуком очень популярна настройка графического эквалайзера «галочкой», что фактически представляет собой повышение уровня НЧ и ВЧ составляющих, но в то же время приводит к приглушению вокала и инструментов, спектр звучания которых находится в районе средних частот.


    S: Перед конвертированием музыки в другой формат следует «разжимать» её в WAV

    R: Сразу отмечу, что под WAV подразумеваются PCM данные (импульсно-кодовая модуляция) в контейнере WAVE (файл с расширением *.wav). Эти данные представляют собой ни что иное, как последовательность битов (нулей и единиц) группами по 16, 24 или 32 (в зависимости от разрядности), каждая из которых представляет собой двоичный код амплитуды соответствующего ей семпла (например, для 16 бит в десятичном представлении это значения от -32768 до +32768).

    Так вот, дело в том, что любой обработчик звука - будь то фильтр или кодер - как правило работает только с этими значениями, то есть только с несжатыми данными. Это значит, что для преобразования звука, скажем, из FLAC в APE, просто необходимо сначала декодировать FLAC в PCM, а затем уже закодировать PCM в APE. Это как для перепаковки файлов из ZIP в RAR, надо сначала распаковать ZIP.

    Однако, если вы пользуетесь конвертером или просто продвинутым консольным кодером, промежуточное преобразование в PCM происходит на лету, иногда даже без записи во временный WAV файл. Именно это и вводит людей в заблуждения - кажется, что форматы конвертируются непосредственно один в другой, но на самом деле в такой программе обязательно есть декодер входного формата, выполняющий помежуточное преобразование в PCM.

    Таким образом, ручное преобразование в WAV не даст вам совершенно ничего, кроме лишней траты времени.


Формат MP3-файлов представляется собой так называемый «открытый формат», поддерживаемый большинством производителей.

Формат MP3 один из самых распространённых форматов цифрового кодирования звука. Особенностью кодирования звука в формате MP3 является кодирование с потерями. Однако в основу кодирования положена специальная модель, учитывающая особенности слухового восприятия. Поэтому наличие потерь не ведёт к катастрофической деградации звука.

Файлы формата MP3 стали фактическим стандартом, их воспроизведение поддерживается большинством популярных операционных систем, многими CD-проигрывателями и DVD-плеерами и прочими устройствами.

Интересно, что стандарт описывает собственно формат хранения, а не способ кодирования звука. Благодаря этому существует огромное количество средств, служащих для воспроизведения звука в формате MP3.

Для кодирования звука в формате MP3 используются специальные кодеки.
Аудиокодек может принадлежать к одному из двух типов – аппаратный кодек и программный.

Аппаратное кодирование выполняется при помощи специальных микросхем.
Программное кодирование производится при помощи специальных компьютерных программ.

Качество звука в формате MP3 (при прочих равных условиях) зависит от степени сжатия (читай от количества потерь) и от кодирующей программы. Именно поэтому фирменные плееры, использующие кодеки и системы обработки звукового сигнала от известных брендов, существенно превосходят по качеству воспроизведения обычные устройства, собранные из типовых узлов.

Качество собственно воспроизведения зависит от величины потока данных с носителя. Иногда величину потока данных называют шириной потока. Существует специальный термин – bitrate. Скорость потока данных определяется в килобитах в секунду и обозначается kbs, kbps, kb/s. Запись может кодироваться несколькими способами – с постоянным битрейтом и с переменным битрейтом. Переменный битрейт помогает сохранить детали путём увеличения объёма данных.

Для качественного воспроизведения музыки подходят не все скорости потока данных см.Таблицу 1

Скорости потока данных в формате MP3 и области применения

Таблица 1

Данные, приведённые в Таблице 1, могут служить лишь ориентиром. Дело в том, что в момент появления формата MP3 качество аудио аппаратуры массового спроса было не очень высоким. Многие авторитетные издания всерьёз утверждали, что потока данных в 128 kb/s вполне достаточно для высококачественного воспроизведения звука.

В настоящее время качественным считается битрейт не менее 192 kb/s. Более того, широкое распространение Hi-Fi, Hi-End и систем домашнего кинотеатра привело к массовому переходу к высококачественному воспроизведению звука.

Поэтому огрехи звуковоспроизведения, незаметные на бюджетной аппаратуре прошлого, становятся заметны «неподготовленному слушателю», использующему современную качественную технику. Кстати и уровень этого самого «неподготовленного слушателя» существенно вырос.

Вообще идея сжатия (а особенно сжатия с потерями) постепенно изживает себя. Появившись в эпоху дорогих носителей информации и малой пропускной способности каналов передачи данных , идея сжатия данных прекрасно справилась со своей основной задачей. Однако постепенно любители звука переходят на более высокие битрейты (на сжатие с меньшими потерями), а то и вовсе на форматы сжатия «без потерь» или даже без сжатия.

Практичность сжатых форматов, и формата MP3 в частности, обусловило выпуск компактных MP3-плееров, устроенных на микросхемах памяти или на миниатюрных жёстких дисках.

При выборе той или иной модели подобного плеера возникает вопрос, связанный с объёмом его памяти. Естественно, что пользователь хочет заранее оценить количество музыкального материала, которое он сможет единовременно сохранить на своём MP3-плеере.

Ориентировочные данные по объёму файлов и продолжительности звучания собраны в Таблице 2. При использовании Таблицы 2 надо учитывать, что это примерные данные, позволяющие оценить требуемый объём памяти плееров или сменных носителей.

Продолжительность звучания MP3-файлов и степень сжатия

Таблица 2

Битрейт,
kb/s

1 минута записи,
KB

Стандартная
3-минутная композиция,
MB

Стандартная
4-минутная композиция,
MB

Стандартная
5-минутная композиция,
MB

Примечание к Таблице 2
Высокой степени компрессии соответствует значение 56 kb/s, низкая степень компрессии и высокое качество звука соответствует 320 kb/s

В Таблице 3 представлены ориентировочные данные об общей продолжительности музыкальных записейвремени звучания плеера с тем или иным объёмом памяти .

Общее время звучания MP3-плеера в зависимости от объёма памяти

Таблица 3

Продолжительность звучания

Объём памяти,
GB

Битрейт, kb/s

Минут
Часов

Минут
Часов

Минут
Часов

Минут
Часов

Минут
Часов

Минут
Часов

Насколько можно судить по Таблице 3, объёма 8 GB вполне достаточно, чтобы сохранять записи в MP3-формате наивысшего качества в количестве, пригодном для прослушивания по 8 часов каждый день в течение недели (7 дней). Без повторов! Едва ли у кого-то реально существует подобная потребность.

Даже если это так, то обновлять записи на плеере можно не чаще одного раза в неделю.

2013 сайт. All rights reserved.

До встречи в Сети!

Как включить Wi-Fi на ноутбуке Asus
Vista - как освободить место на диске
Подключение 3G модема МТС
Объём и качество MP3-файлов
Методика и практика выбора MP3-плеера ч.1
Методика и практика выбора MP3-плеера ч.2
Vista – как открыть командную строку в папке
Как распечатать имена файлов из папки
Как сохранить имена файлов в виде текста
Как скопировать имена файлов в MS Excel
Светодиодный USB фонарик
Устройство и конструкция наушников
Как подобрать наушники?
За счёт чего держатся вкладыши?
Питание гаджетов – аккумуляторы
Размеры SIM-карт
Питание гаджетов – вилки и розетки
Питание гаджетов – переходники