Manual de Formato MP3 - Audio MPEG-1
23 de Agosto de 2005
MP3
Lo primero que se debe conocer es como se almacena el sonido en una computadora. El sonido es una diferencia de presiones en el aire. Cuando este se toma por un micrófono y se pasa a través de un amplificador este se llega a convertir en niveles de voltaje. El voltaje es muestreado por la computadora un número de veces por segundo. Para una calidad de audio de CD se necesita muestrear 44100 veces por segundo y cada muestreo tiene una resolución de 16 bits. En estéreo se necesitan 1,4 Mbit por segundo y es donde se emplea la compresión.
La compresión de audio MPEG-1 trata de remover tanto las partes irrelevantes como las redundantes de la señal. Las partes del sonido que no se escuchan pueden ser desechadas. Para realizar esto MPEG Audio emplea principios psicoacústicos.
MPEG puede comprimir una trama de bits de 32 kbits/s a 384 kbits/s (Layer II). Una rama de una trama de PCM (Código de Modulación de Pulso: código donde la señal de entrada es representada por un número dado de señales de muestreo por segundo, a menudo empleado en redes telefónicas) es de 705kbits/s, con se puede tener una razón máxima de compresión de 22. La razón normal de compresión es de 1:6 ó 1:7. 96 kbits/s se considera como transparente para la mayoría de las aplicaciones prácticas, esto significa que uno no notará la diferencia entre la señal original y la comprimida. Para aplicaciones más demandantes tales como los conciertos de piano se necesitarán 128 kbits/s.
MPEG-1 Audio lleva a cabo la razón de compresión de dos maneras. Una es muestrear menos veces ó muestrear con menor resolución (menos de 16 bits por muestreo). Si se quiere calidad entonces no se puede hacer mucho con la frecuencia de muestreo. Los humanos pueden escuchar sonidos desde los 20 Hz hasta los 20 kHz. De acuerdo con el Teorema de Nyquist se debe muestrear al menos dos veces la máxima frecuencia que se desee reproducir. Dado que se emplean filtros imperfectos, una razón de muestreo de 44,1 kHz puede emplearse sin ocasionar problema alguno. Así el comité de MPEG opto por trabajar con la reducción de la resolución.
La verdadera justificación de emplear 16 bits es tener una buena razón de señal a ruido (s/r). El ruido del que se habla es de cuantificación del procesamiento digital. Por cada bit que se añade, se obtienen 6dB s/r. El audio con CD lleva a cabo 90 dB s/r. Esto permite que el rango dinámico del oído trabaje de forma correcta. Esto origina que no se escuche ruido proveniente del sistema de audio.
Si se empleará una resolución de 8 bits se percibiría ruido en el aparato de sonido, esto se percibe como momentos de silencio en la música, entre palabras ó frases si la grabación es una voz humana.
Cuando no se detecta cualquier clase de ruido en trozos grandes es porque entra en acción el efecto de ocultación. MPEG emplea principios de psico-acústica cuando realiza esto.
Este efecto es la llave de la codificación MPEG Audio, ya que este pertenece a una ciencia llamada psico-acústica que trata de estudiar la forma en que el cerebro percibe el sonido.
Supongamos que se tiene un tono fuerte de 1 kHz. Además se tiene un tono cerca de 1,1 kHz. Este segundo tono es 18 dB menor. No se escuchará este segundo tono ya que es completamente ocultado por el tono de 1 kHz. Cualquier sonido débil cerca de uno fuerte es ocultado. Si se introduce otro tono de 2 kHz, también 18 dB debajo del tono de 1 kHz, se escuchará éste. Se tendría que reducir el tono de 2 kHz a 45 dB debajo del tono de 1 kHz antes de que este sea ocultado por el primer tono. El efecto de ocultación significa que se puede elevar el ruido de nivel alrededor de un sonido fuerte ya que el ruido será ocultado de todas formas. El elevar el ruido de nivel es lo mismo que emplear menos bits y el usar menos bits es lo mismo que una compresión.
Ahora se tratará de explicar como es que MPEG Audio lo emplea. MPEG Audio divide el espectro de frecuencias (20 Hz a 20 kHz) en 32 subbandas. Cada uno de estas subbandas contiene una pequeña porción del espectro de audio. Por ejemplo la región superior de la subbanda 8 cuenta con un tono de 1kHz a un nivel de 60 dB. El codificador calcula el efecto de ocultación de este sonido y encuentra si existe un nivel de umbral de ocultación para toda la octava subbanda (todos los sonidos con una frecuencia) 35 dB debajo de este tono. La razón entonces aceptable de s/r es de 60 – 35 = 25 dB, o sea una resolución de 4 bits. Hay efecto de ocultación de la banda 9-13 y de la 5-7, el efecto decrece con la distancia de la banda 8. En una situación de la vida real se tienen sonidos en la mayoría de las bandas y el efecto de ocultación se presenta. El codificador considera la sensitividad del oído para varias frecuencias. El oído poco sensible a las altas y bajas frecuencias. El pico de la sensibilidad está alrededor de los 2 a los 4kHz, la misma región que la voz humana ocupa.
Las subbandas deben igualar al oído, esto es que cada subbanda debe de constar de frecuencias que tengan las mismas propiedades psico-acústicas. Sería mucho más favorable si las subbandas fueran estrechas en el rango de bajas frecuencias y amplias en el rango de las altas frecuencias. Para realizar esto se requieren filtros complejos. Para mantener los filtros sencillos estos escogen añadir la FFT (Transformada Rápida de Fourier, por sus siglas en ingles) en paralelo con el filtraje y que usan las componentes espectrales de la FFT como información adicional al codificador. De este forma se obtiene una mayor resolución a bajas frecuencias donde el oído es mas sensible. El efecto de ocultación ocurre antes y después de un sonido fuerte (pre y post ocultación).
Si ocurre un cambio significativo (de 30 a 40 dB) en el nivel, es porque se cree que el cerebro necesita algún tiempo de procesamiento. La preocultación es de 2 a 5 ms. La postocultación puede ser de hasta 100ms. Otras técnicas de compresión de bits consideran las componentes tantos tonales como no tonales del sonido. Una señal estereofónica tiene mucha redundancia entre canales. El último paso antes del formato es la codificación Huffman (para una distribución dada de caracteres se asignan códigos cortos a los caracteres que frecuentemente aparecen y códigos largos a aquellos caracteres que no aparecen muy seguido, la codificación de redundancia mínima Huffman reduce el promedio de bytes requeridos para representar los caracteres en un texto).
El codificador calcula los efectos de ocultación por un proceso iterativo hasta que se agote el tiempo. Ya sea que se implemente o que se empleen más bits en el cambio menos inoportuno. Los codificadores de algunos reproductores (Layers) trabajan a 23 ms de sonido (1152 muestras) a la vez. En ciertos casos el tiempo de ventana de 23 ms puede ser un problema. Este normalmente se presenta en una situación con transitorios donde existen grandes diferencias en el nivel de sonido por arriba de los 23 ms. La ocultación es calculada a partir de sonido más fuerte y las partes débiles serán despreciadas en ruido de cuantificación. Esto se percibe como ruido de eco en el oído.
Una es de 48kHz (empleada en equipo profesional de sonido), otra de 44,1kHz (que se usa en equipo para consumidores como audio en CD) y finalmente una de 32kHz (que se puede emplear en algunos equipos de comunicaciones).
MPEG-1 permite dos canales de audio. Estos pueden ser: sencillo (mono) dual (dos canales mono), estéreo o estéreo combinado (estéreo de alta intensidad ó m/s-estéreo). En estéreo normal (l/r) un canal transporta la señal de audio izquierda y otro canal transporta la señal de audio derecha. En estéreo m/s un canal transporta la señal de suma (l+r) y el otro la señal de diferencia (l-r). En estéreo de alta intensidad la parte de las altas frecuencias (arriba de 2 kHz) es combinada. La imagen del estéreo es conservada pero solo el sobre temporal es transmitido.
Phillips emplea MPEG para sus nuevos CD´s de video digital. Ellos dicen que empezarán a grabar películas y videos musicales en CD para su CD-I (Compact Disc Interactivo, tiene como función proveer una plataforma estándar en aplicaciones de multimedia, un reproductor de CD-I contiene: una CPU, RAM, ROM, Sistema Operativo y Decodificadores de audio/video/(MPEG). Es un formato para el consumidor electrónico que usa el disco óptico en combinación con una computadora para proveer un sistema de entretenimiento casero en el que se tenga música, gráficas, texto, animación y video en la sala de una casa. Un reproductor de CD-I es un sistema que no requiere de una computadora externa, este se conecta directamente a una TV y a un sistema de audio, además viene con un control remoto que le permite al usuario interactuar con el software de los discos. El tamaño de un sector de los tracks de un CD-I es de aproximadamente 2 kbytes, los sectores pueden ser multiplexados por 16 canales de audio y 32 canales para los demás tipos de datos).
MPEG es aceptado por Eureka-147. Esto significa que cuando la transmisión de radio digital comience en Europa dentro de dos años, se recibirá Audio MPEG codificado. La IUMA (Archivo Musical Subterráneo de Internet, por sus siglas en inglés) tiene muchos clips de audio en formato MPEG comprimidos, pero se necesita configurar su buscador WWW para poder tener acceso a estos.
Se emplean filtros de convolución para dividir la señal de audio (por ejemplo sonido a 48 kHz) dentro de subbandas de frecuencias que se aproximen a las 32 bandas críticas: filtrado de subbanda.
‚ Se determina la cantidad de ocultación de cada banda originada por la banda próxima empleando el modelo psicoacústico.
ƒ Si la energía en una banda es menor al umbral de ocultación, esta no se codificará.
„ De otra manera se determina el número de bits que se necesitan para representar el coeficiente tal que el ruido introducido por cuantificación sea menor que el efecto de la ocultación (1 bit de cuantificación introduce cerca de 6 dB de ruido).
Finalmente el formato de la trama de bits.
La compresión de audio MPEG-1 trata de remover tanto las partes irrelevantes como las redundantes de la señal. Las partes del sonido que no se escuchan pueden ser desechadas. Para realizar esto MPEG Audio emplea principios psicoacústicos.
COMPRESIÓN
MPEG puede comprimir una trama de bits de 32 kbits/s a 384 kbits/s (Layer II). Una rama de una trama de PCM (Código de Modulación de Pulso: código donde la señal de entrada es representada por un número dado de señales de muestreo por segundo, a menudo empleado en redes telefónicas) es de 705kbits/s, con se puede tener una razón máxima de compresión de 22. La razón normal de compresión es de 1:6 ó 1:7. 96 kbits/s se considera como transparente para la mayoría de las aplicaciones prácticas, esto significa que uno no notará la diferencia entre la señal original y la comprimida. Para aplicaciones más demandantes tales como los conciertos de piano se necesitarán 128 kbits/s.
MPEG-1 Audio lleva a cabo la razón de compresión de dos maneras. Una es muestrear menos veces ó muestrear con menor resolución (menos de 16 bits por muestreo). Si se quiere calidad entonces no se puede hacer mucho con la frecuencia de muestreo. Los humanos pueden escuchar sonidos desde los 20 Hz hasta los 20 kHz. De acuerdo con el Teorema de Nyquist se debe muestrear al menos dos veces la máxima frecuencia que se desee reproducir. Dado que se emplean filtros imperfectos, una razón de muestreo de 44,1 kHz puede emplearse sin ocasionar problema alguno. Así el comité de MPEG opto por trabajar con la reducción de la resolución.
La verdadera justificación de emplear 16 bits es tener una buena razón de señal a ruido (s/r). El ruido del que se habla es de cuantificación del procesamiento digital. Por cada bit que se añade, se obtienen 6dB s/r. El audio con CD lleva a cabo 90 dB s/r. Esto permite que el rango dinámico del oído trabaje de forma correcta. Esto origina que no se escuche ruido proveniente del sistema de audio.
Si se empleará una resolución de 8 bits se percibiría ruido en el aparato de sonido, esto se percibe como momentos de silencio en la música, entre palabras ó frases si la grabación es una voz humana.
Cuando no se detecta cualquier clase de ruido en trozos grandes es porque entra en acción el efecto de ocultación. MPEG emplea principios de psico-acústica cuando realiza esto.
EFECTO DE OCULTACIÓN
Este efecto es la llave de la codificación MPEG Audio, ya que este pertenece a una ciencia llamada psico-acústica que trata de estudiar la forma en que el cerebro percibe el sonido.
Supongamos que se tiene un tono fuerte de 1 kHz. Además se tiene un tono cerca de 1,1 kHz. Este segundo tono es 18 dB menor. No se escuchará este segundo tono ya que es completamente ocultado por el tono de 1 kHz. Cualquier sonido débil cerca de uno fuerte es ocultado. Si se introduce otro tono de 2 kHz, también 18 dB debajo del tono de 1 kHz, se escuchará éste. Se tendría que reducir el tono de 2 kHz a 45 dB debajo del tono de 1 kHz antes de que este sea ocultado por el primer tono. El efecto de ocultación significa que se puede elevar el ruido de nivel alrededor de un sonido fuerte ya que el ruido será ocultado de todas formas. El elevar el ruido de nivel es lo mismo que emplear menos bits y el usar menos bits es lo mismo que una compresión.
Ahora se tratará de explicar como es que MPEG Audio lo emplea. MPEG Audio divide el espectro de frecuencias (20 Hz a 20 kHz) en 32 subbandas. Cada uno de estas subbandas contiene una pequeña porción del espectro de audio. Por ejemplo la región superior de la subbanda 8 cuenta con un tono de 1kHz a un nivel de 60 dB. El codificador calcula el efecto de ocultación de este sonido y encuentra si existe un nivel de umbral de ocultación para toda la octava subbanda (todos los sonidos con una frecuencia) 35 dB debajo de este tono. La razón entonces aceptable de s/r es de 60 – 35 = 25 dB, o sea una resolución de 4 bits. Hay efecto de ocultación de la banda 9-13 y de la 5-7, el efecto decrece con la distancia de la banda 8. En una situación de la vida real se tienen sonidos en la mayoría de las bandas y el efecto de ocultación se presenta. El codificador considera la sensitividad del oído para varias frecuencias. El oído poco sensible a las altas y bajas frecuencias. El pico de la sensibilidad está alrededor de los 2 a los 4kHz, la misma región que la voz humana ocupa.
Las subbandas deben igualar al oído, esto es que cada subbanda debe de constar de frecuencias que tengan las mismas propiedades psico-acústicas. Sería mucho más favorable si las subbandas fueran estrechas en el rango de bajas frecuencias y amplias en el rango de las altas frecuencias. Para realizar esto se requieren filtros complejos. Para mantener los filtros sencillos estos escogen añadir la FFT (Transformada Rápida de Fourier, por sus siglas en ingles) en paralelo con el filtraje y que usan las componentes espectrales de la FFT como información adicional al codificador. De este forma se obtiene una mayor resolución a bajas frecuencias donde el oído es mas sensible. El efecto de ocultación ocurre antes y después de un sonido fuerte (pre y post ocultación).
Si ocurre un cambio significativo (de 30 a 40 dB) en el nivel, es porque se cree que el cerebro necesita algún tiempo de procesamiento. La preocultación es de 2 a 5 ms. La postocultación puede ser de hasta 100ms. Otras técnicas de compresión de bits consideran las componentes tantos tonales como no tonales del sonido. Una señal estereofónica tiene mucha redundancia entre canales. El último paso antes del formato es la codificación Huffman (para una distribución dada de caracteres se asignan códigos cortos a los caracteres que frecuentemente aparecen y códigos largos a aquellos caracteres que no aparecen muy seguido, la codificación de redundancia mínima Huffman reduce el promedio de bytes requeridos para representar los caracteres en un texto).
El codificador calcula los efectos de ocultación por un proceso iterativo hasta que se agote el tiempo. Ya sea que se implemente o que se empleen más bits en el cambio menos inoportuno. Los codificadores de algunos reproductores (Layers) trabajan a 23 ms de sonido (1152 muestras) a la vez. En ciertos casos el tiempo de ventana de 23 ms puede ser un problema. Este normalmente se presenta en una situación con transitorios donde existen grandes diferencias en el nivel de sonido por arriba de los 23 ms. La ocultación es calculada a partir de sonido más fuerte y las partes débiles serán despreciadas en ruido de cuantificación. Esto se percibe como ruido de eco en el oído.
Una es de 48kHz (empleada en equipo profesional de sonido), otra de 44,1kHz (que se usa en equipo para consumidores como audio en CD) y finalmente una de 32kHz (que se puede emplear en algunos equipos de comunicaciones).
CANALES DE AUDIO
MPEG-1 permite dos canales de audio. Estos pueden ser: sencillo (mono) dual (dos canales mono), estéreo o estéreo combinado (estéreo de alta intensidad ó m/s-estéreo). En estéreo normal (l/r) un canal transporta la señal de audio izquierda y otro canal transporta la señal de audio derecha. En estéreo m/s un canal transporta la señal de suma (l+r) y el otro la señal de diferencia (l-r). En estéreo de alta intensidad la parte de las altas frecuencias (arriba de 2 kHz) es combinada. La imagen del estéreo es conservada pero solo el sobre temporal es transmitido.
COMPAÑIAS QUE EMPLEAN AUDIO MPEG-1
Phillips emplea MPEG para sus nuevos CD´s de video digital. Ellos dicen que empezarán a grabar películas y videos musicales en CD para su CD-I (Compact Disc Interactivo, tiene como función proveer una plataforma estándar en aplicaciones de multimedia, un reproductor de CD-I contiene: una CPU, RAM, ROM, Sistema Operativo y Decodificadores de audio/video/(MPEG). Es un formato para el consumidor electrónico que usa el disco óptico en combinación con una computadora para proveer un sistema de entretenimiento casero en el que se tenga música, gráficas, texto, animación y video en la sala de una casa. Un reproductor de CD-I es un sistema que no requiere de una computadora externa, este se conecta directamente a una TV y a un sistema de audio, además viene con un control remoto que le permite al usuario interactuar con el software de los discos. El tamaño de un sector de los tracks de un CD-I es de aproximadamente 2 kbytes, los sectores pueden ser multiplexados por 16 canales de audio y 32 canales para los demás tipos de datos).
MPEG es aceptado por Eureka-147. Esto significa que cuando la transmisión de radio digital comience en Europa dentro de dos años, se recibirá Audio MPEG codificado. La IUMA (Archivo Musical Subterráneo de Internet, por sus siglas en inglés) tiene muchos clips de audio en formato MPEG comprimidos, pero se necesita configurar su buscador WWW para poder tener acceso a estos.
PASOS DEL ALGORITMO
Se emplean filtros de convolución para dividir la señal de audio (por ejemplo sonido a 48 kHz) dentro de subbandas de frecuencias que se aproximen a las 32 bandas críticas: filtrado de subbanda.
‚ Se determina la cantidad de ocultación de cada banda originada por la banda próxima empleando el modelo psicoacústico.
ƒ Si la energía en una banda es menor al umbral de ocultación, esta no se codificará.
„ De otra manera se determina el número de bits que se necesitan para representar el coeficiente tal que el ruido introducido por cuantificación sea menor que el efecto de la ocultación (1 bit de cuantificación introduce cerca de 6 dB de ruido).
Finalmente el formato de la trama de bits.
Valora este capítulo:
Autor y licencia de 'Manual de Formato MP3 - Audio MPEG-1'
|
Opiniona sobre 'Manual de Formato MP3 - Audio MPEG-1' (0)
Tu nombre debe tener tres caracteres como mínimo.
Es necesario que te des de alta con una cuenta de correo válida.
Es necesario que te des de alta con una cuenta de correo válida.
El contenido del título de tu opinión debe tener tres caracteres como mínimo.
Es obligatorio que selecciones una valoración del recurso.
El contenido del comentario de tu opinión debe tener tres caracteres como mínimo.
Opina sobre este tutorial |
Wikis relacionados con 'Manual de Formato MP3 - Audio MPEG-1'
Actualmente, las técnicas eficientes de codificación se emplean en el procesamiento de datos de audio...
Más »
En este artículo se explica una sencilla manera para poder escuchar música en formato mp3...
Más »
Cómo optimizar sus recursos y lograr el éxito en su emprendimiento.Un plan de negocios es...
Más »
El principal objetivo de este documento es lograr que el lector adquiera la capacidad de...
Más »
Debian es el nombre de una organización dedicada al desarrollo y mantenimiento de sistemas operativos...
Más »

