Si queréis dejar comentarios o hacer cualquier consulta hacerlo en el FORO

AUDIO DIGITAL

Fundamentos del sonido digital

1. Naturaleza Del Sonido

Para comprender las características del sonido digital, primero se hará una pequeña introducción de las características del sonido y sus conceptos mas básicos.
El sonido son vibraciones de las partículas de
aire que se propagan a través del aire, gracias a estas partículas del aire que se mueven, las vibraciones llegan a nuestros oídos. La audición en los seres humanos, ocurre siempre que una vibración tenga una frecuencia comprendida entre unos 15 y 20.000 hercios, y su intensidad sea la suficiente para llegar al oído interno. Cuando las vibraciones pasan estos márgenes se habla de ultrasonidos y no son perceptibles al ser humano.

Las características del sonido se puede medir y para ello se usa las unidades de hertzios (Hz) que miden la frecuencia de un sonido o sea cuantas veces vibra en un segundo, y los decibeles (Db) que mide la intensidad (amplitud) de una onda.

El oído y un micrófono incorporado a la tarjeta de sonido tienen un funcionamiento similar.

Ambos transforman las vibraciones del aire en una señal eléctrica que puede ser comprendida y almacenada por sus respectivos cerebros. Esta señal puede ser guardada, manipulada o reproducida por los medios electrónicos adecuados.

 

Muestra de cuatro sonidos con distinta frecuencia

Muestra de un mismo sonido a tres distintas intensidades

Tabla de frecuencias

AUDIO ANALOGICO Y DIGITAL

ANALOGICO

Una señal analógica es un tipo de señal generada por algún tipo de fenómeno electromagnético y que es representable por una función matemática continua en la que es variable su amplitud y periodo (representando un dato de información) en función del tiempo. Algunas magnitudes físicas comúnmente portadoras de una señal de este tipo son eléctricas como la intensidad, la tensión y la potencia, pero también pueden ser hidráulicas como la presión, térmicas como la temperatura, mecánicas, etc. La magnitud también puede ser cualquier objeto medible como los beneficios o pérdidas de un negocio.

En la naturaleza, el conjunto de señales que percibimos son analógicas, así la luz, el sonido, la energía etc, son señales que tienen una variación continua. Incluso la descomposición de la luz en el arcoiris vemos como se realiza de una forma suave y continúa.

Una onda senoidal es una señal analógica de una sola frecuencia. Los voltajes de la voz y del video son señales analógicas que varían de acuerdo con el sonido o variaciones de la luz que corresponden a la información que se está transmitiendo.

AUDIO DIGITAL

El audio digital es la codificación digital de una señal eléctrica que representa una onda sonora. Consiste en una secuencia de valores enteros y se obtienen de dos procesos: el muestreo y la cuantificación digital de la señal eléctrica.

El muestreo consiste en fijar la amplitud de la señal eléctrica a intervalos regulares de tiempo (tasa de muestreo). Para cubrir el espectro audible (20 a 20000 Hz) suele bastar con tasas de muestreo de algo más de 40000 Hz (el estándar CD-Audio emplea una tasa un 10% mayor con objeto de contemplar el uso de filtros no ideales), con 32000 muestras por segundo se tendría un ancho de banda similar al de la radio FM o una cinta de casete, es decir, permite registrar componentes de hasta 15 kHz, aproximadamente. Para reproducir un determinado intervalo de frecuencias se necesita una tasa de muestreo de poco más del doble (Teorema de muestreo de Nyquist-Shannon). Por ejemplo en los CDs, que reproducen hasta 20 kHz, emplean una tasa de muestreo de 44,1 kHz (frecuencia Nyquist de 22,05 kHz).

La cuantificación consiste en convertir el nivel de las muestra fijadas en el proceso de muestreo, normalmente, un nivel de tensión, en un valor entero de rango finito y predeterminado. Por ejemplo, utilizando cuantificación lineal, una codificación lineal de 8 bits discriminará entre 256 niveles de señal equidistantes (28). También se pueden hacer cuantificaciones no lineales, como es el caso de cuantificadores logarítmicos como la Ley Mu o la Ley A, que, a modo de ejemplo, aún usando 8 bits funcionan perceptualmente como 10 bits lineales para señales de baja amplitud en promedio, como la voz humana por ejemplo.

El formato más usado de audio digital PCM lineal es el del CD de audio: 44,1 kHz de tasa de muestreo y cuantificación lineal de 16 bits (que mide 65536 niveles de señal diferentes) y que, en la práctica, permite registrar señales analógicas con componentes hasta los 20 kHz y con relaciones señal a ruido de más de 90 dB.

Técnicas de compresión

Las técnicas de compresión son objeto de otro de los trabajos de la asignatura, sin embargo están muy relacionadas con los formatos de audio digital por lo que las trataré de forma muy general y breve.

Las técnicas de compresión son la herramienta fundamental de la que se dispone para alcanzar el compromiso adecuado entre capacidad de almacenamiento y de procesamiento requeridas.

Las técnicas de compresión más elaboradas proporcionan una reducción muy importante de la capacidad de almacenamiento, pero requieren también de un importante procesado tanto para compresión como para la descompresión (sobre todo en la compresión). Las técnicas más simples ofrecen reducciones moderadas con poco procesamiento. Las características del sistema digital implicado y la aplicación determinarán el compromiso entre estos factores y permiten seleccionar las técnicas de compresión adecuadas. Las técnicas más avanzadas analizan la respuesta del oído a la señal y simplifican aquellos elementos irrelevantes para la sensación sonora, consiguiendo tasas de compresión mucho mayores

Algunas técnicas de compresión relevantes:

·         ADPCM (Adaptative Differential Pulse Code Modulation). Se trata de una codificación diferencial: en lugar de representar las muestras de la señal, se almacenan la diferencia entre muestras consecutivas, que para señales audio, suele ser pequeña. ADPCM se articula en los estándares CCITT G.721, CCITT G.723 y en el CCITT G.726, que reemplazó a los dos anteriores definiendo estándares para 16, 24, 32 y 40 kbits por segundo (que corresponden a tamaños de muestra de 2, 3, 4 y 5 bits respectivamente).

·         LPC-10E (Linear Predictive Coder). Este algoritmo hace corresponder la señal audio con un modelo lineal simple y obtiene los parámetros que mejor ajustan el modelo a la señal. La señal generada es poco fiel a la original. Se utiliza en algunos servicios de voz.

·         CELP (Code Excited Linear Prediction). Es similar a LPC-10E, pero además de asignar los parámetros del modelo, tiene en cuenta el error entre la señal original y la aproximada, creando una tabla de errores. La señal se compone de los parámetros del modelo más el índice del error en cada muestra. La tabla es común a codificador y decodificador.

·         GSM 06.10. Es una modificación de LPC denominada RPE-LPC (Regular Pulse Excited - Linear Predictive Coder). La compresión es muy elevada pero requiere también de mucho procesamiento.

·         MPEG. Es un estándar tanto para audio como para vídeo. Consigue alta compresión en los datos y requiere de mucha potencia de cálculo, sobre todo en la codificación. Hay definidos tres layers para las versiónes MPEG-1 y MPEG-2:

o    Layer I: desde 32 a 448 kbps

o    Layer II: desde 32 a 384 kbps

                                         Layer III: desde 32 a 320 kbps

 

DirectSound

DirectSound es un componente de software de la biblioteca de DirectX, provisto por Microsoft, que reside en una computadora con el sistema operativo Windows. Proporciona una interfaz directa entre las aplicaciones y los drivers de la tarjeta de sonido, permitiendo a las aplicaciones producir sonidos y música. Además de proporcionar el servicio esencial de pasar datos de audio a la tarjeta de sonido, proporciona muchas capacidades necesarias tales como grabación y mezclado de sonido; adición de efectos al sonido como reverberación, eco, flanger; usando hardware controlado por buffers para velocidad extra; posicionar sonidos en espacio 3D (espaciamiento de audio 3D), captura de sonidos de un micrófono o de otra entrada y controlar la captura de efectos durante la captura de audio. De estos, el mezclado de sonido y el control de volumen de audio son los más esenciales.

DirectSound también permite a varias aplicaciones de una forma conveniente compartir el acceso a la tarjeta de sonido al mismo tiempo. Su capacidad para reproducir el sonido en 3D agregó una nueva dimensión a los juegos. También le proporciona la capacidad a los juegos de modificar una secuencia musical en respuesta a acontecimientos del juego en tiempo real, por ejemplo: el ritmo de la música podría acelerar en cuanto la acción aumenta.

Después de muchos años de desarrollo, DirectSound es hoy un API muy maduro, y provee muchas otras capacidades útiles, tales como la capacidad de reproducir el sonido multicanal y sonidos de alta resolución. Mientras que DirectSound fue diseñado para ser utilizado en los juegos, un número de profesionales de audio aprovechan ahora de sus muy diversas capacidades.

Información bajada de www.monografias.com  y www.wikipedia.com