Informe Final del Proyecto de Investigación...

UNIVERSIDAD NACIONAL DEL CALLAO

Facultad de Ingeniería Eléctrica y Electrónica

Informe Final del Proyecto de Investigación

“TRANSFORMADA DE FOURIER Y LOS MP3”

Docente: Lic. RAÚL PEDRO CASTRO VIDAL

(Resolución Rectoral Nº 1109-05-R)Cronograma de ejecución: 01 de octubre del 2005 al 30 de setiembre del 2006.

Bellavista Agosto del 2012

Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal 2012

2

I ÍNDICEPágs.

2II RESUMEN 5

III INTRODUCCIÓN 6

IV PARTE TEÓRICA O MARCO TEÓRICO 11

4.1 CONCEPTOS PREVIOS

4.1.1 SONIDO

4.1.2 SONIDO DIGITAL 134.1.3 DIGITALIZACIÓN DE LA SEÑAL DE AUDIO 154.1.4 TASA DE MUESTREO DE NYSQUIST

4.2 EVOLUCIÓN DE LOS FORMATOS DE MÚSICA 174.3 HISTORIA DEL FORMATO MP3 22

4.3.1 UTILIDAD DEL FORMATO PM3 24

4.3.2 ESTRUCTURA DE UN FICHERO MP3

4.3.3 TRANSFORMADA DE FOURIER EN MP3 254.4 SERIES DE FOURIER Y LA TRANSFORMADA DE FOURIER

PARA SEÑALES CONTINUAS

4.4.1 DEFINICIÓN FORMAL

4.4.2TEOREMA DE EXISTENCIA DE LA TRANSFORMADA DE FOURIER

Y PROPIEDADES 264.4.3 TRANSFORMADA DE COSENO 32

4.4.4 TRANSFORMADA DE SENO 33

4.4.5 INTERPRETACIÓN DE LA TRANSFORMADA DE FOURIER 344.4.6 PROPIEDADES DE LA TRANSFORMADA DE FOURIER 36

4.4.7 CONVOLUCIÓN 394.4.8 INTERPRETACIÓN DE LA CONVOLUCIÓN

4.4.9 TEOREMA DE LA CONVOLUCIÓN DE DOS FUNCIONES 42

4.4.10 PROPIEDADES DE LA CONVOLUCIÓN 444.4.11 TEOREMA DE LA CONVOLUCIÓN EN EL TIEMPO 454.4.12 TEOREMA DE LA CONVOLUCIÓN EN LA FRECUENCIA

4.4.13 PROPIEDADES DE LA CONVOLACIÓN Y MODULACIÓN 48


3

4.4.14 CONVOLUCIÓN NO PERIÓDICA

Págs.

49

4.4.15 MODULACIÓN 50

V MATERIALES Y MÉTODOS 52

VI RESULTADOS 53

6.1. TRANSFORMADA DE SEÑALES DISCRETAS Y ALGORITMO

FFT

6.1.1 ALGORITMO FFT PARA MP3

6.1.2 DIFERENCIAS CON OTROS FORMATOS

6.1.3 CONVERSIÓN ANALÓGICO DIGITAL

6.1.4 MUESTREO DE LA SEÑAL ANALÓGICA

6.1.5 CONDICIÓN DE NYSQUIST

6.1.6 MULTIRESOLUCIÓN Y FIRTROS

6.1.7 PROPIEDAD DE LA FUNCIÓN SCALING

6.1.8 CUANTIFICACIÓN DE LA SEÑAL ANALÓGICA

6.1.9 CODIFICACIÓN DE LA SEÑAL EN CÓDIGO BINARIO

6.1.10 COMPRESIÓN DE VOZ

6.1.11 COMPRESIÓN DE AUDIO GENÉRICO

6.1.12 DETALLES TÉCNICOS

6.1.13 BANCO DE FILTROS

6.2 EL MODELO PSICOACÚSTICO

6.2.1 CODIFICACIÓN Y CUANTIFICACIÓN

6.2.2 CICLO INTERNO

6.2.3 CICLO EXTERNO

6.2.4 EMPAQUETADO FORMATEADOR DE BITSTREAM

6.2.5 ESTRUCTURA DE FICHERO MP3

6.2.6 TRANSFORMADA DE FOURIER DISCRETA Y FICHERO

MP3

6.2.7 CODEC DE AUDIO Y TIPO DE CODEC

6.2.8 CODEC DE AUDIO CON PÉRDIDAS

6.2.9 CODEC DE AUDIO SIN PÉRDIDAS

54

55

56

58

60

61

63

64

65

66

67

68

69

70


4

6.3 ESPECTROS SONOROS

Págs.

71

6.3.1 TRANSFORMADA RAPIDA DE FOURIER Y COMPRESIÓN DE AUDIO

6.3.2 EJEMPLO DE COMPRESIÓN DE VOZ POR MEDIO TRANSFORMADA

DE FOURIER EN MATLAB

VII. DISCUSIÓN

7.1. CONCLUSIONES

7.2. RECOMENDACIONES

VIII REFERENCIAS

APÉNDICE

ANEXO

74

76

77

79

88


5

II RESUMEN

El presente trabajo de investigación consiste en plasmar la utilidad de la

Transformada de Fourier en la compresión de audio y los MP3, para lo cual es

fundamental la teoría de señales y las herramientas matemáticas que se disponen

a fin de comprimir una señal de audio usando la Transformada de Fourier, la

señal sonora no necesariamente es periódica, por lo que es necesario presentar

un enfoque teórico de la Transformada de Fourier para señales analógicas y

digitales , se hace un enfoque intuitivo e histórico de la compresión de audio,se

plasma la Transformada de Fourier Discreta en la compresión de audio mediante

algoritmos de la Transformada Rápida de Fourier, para la cual se muestra un

ejemplo de comprensión de voz mediante la Transformada de Fourier y se utiliza

un software elaborado en MATLAB.


6

III INTRODUCCIÓN

El principio de la transformada de Fourier, desarrollada por primera vez en el

siglo XIX, es que cualquier señal, como por ejemplo una grabación de sonido, se

puede representar como la suma de una serie de sinusoides o cosinusoides con

distintas frecuencias y amplitudes. Así, esta serie de ondas se puede manipular

con relativa facilidad. Esto permite, por ejemplo, que una grabación de audio se

comprima o se pueda eliminar el ‘ruido’. A mediados de la década de 1960 se

creó un algoritmo para la computación denominado ‘Transformada Rápida de

Fourier’ (FFT: Fast Fourier Transform). Cualquiera que se haya quedado

maravillado ante el diminuto tamaño de un archivo MP3 en comparación con la

misma grabación en su estado sin comprimir conoce la potencia de la FFT en

acción. 14

Gracias al nuevo algoritmo, denominado ¨Transformada Dispersa de Fourier

(SFT: Sparse Fourier Transform), los flujos de datos se pueden procesar de 10 a

100 veces más rápido que lo que permitía la FFT. Esta velocidad es posible

porque la información que más nos importa es muy estructurada: la música no es

un ruido aleatorio. Las señales con sentido suelen tener solo una fracción de los

posibles valores que podría tener una señal. El término técnico para esto es que la

información es “dispersa”. Puesto que el algoritmo SFT no está diseñado para

funcionar con cualquier flujo de datos, puede tomar determinados atajos que de

otra forma no estarían disponibles. En teoría, un algoritmo capaz de manejar solo

señales dispersas es mucho más limitado que la FFT. Pero “la dispersión está en

todas partes”, señala el coinventorKatabi, profesor de ingeniería eléctrica e


7

informática. “Está en la naturaleza, en las señales de vídeo, en las señales de

audio”, afirma Katabi. 5

Una transformada más rápida implica que se necesita menos potencia

computacional para procesar una cantidad dada de información, una bendición

para los aparatos multimedia que miden el gasto energético al milímetro, como

los teléfonos inteligentes. O, con la misma potencia computacional, los ingenieros

pueden contemplar la posibilidad de hacer cosas que debido a las necesidades

computacionales de la FFT no eran prácticas. Por ejemplo, las conexiones

troncales de Internet y los routers actuales solo son capaces de leer o procesar una

ínfima parte del río de datos que se pasan entre ellos. La SFT podría permitir a los

investigadores estudiar el flujo de este tráfico con mucho más detalle mientras los

bits pasan a una velocidad de miles de millones por segundo [4].

Desde que Batis Joseph Fourier en el año 1807 introdujo que una señal periódica

se podía representar como una serie de senos y cosenos, a partir de Fourier

realmente muchos investigadores han formalizado y desarrollado la teoría de las

Series de Fourier y la Transformada de Fourier. Las señales que provienen del

mundo físico son continuas o analógicas por lo que los grandes investigadores

encontraron que la herramienta perfecta para el tratamiento de señales continuas y

discretas eran las series de Fourier y la Transformada de Fourier. 3

Las señales de audio, producto de trasduccionesacustoeléctricas son en la gran

mayoría de los casos de tipo analógicas. Es decir, una señal eléctrica de magnitud

finita y continua en el tiempo, con niveles variables de acuerdo a los valores de la

información original, acotados entre dos límites. Esta simple representación ha

permitido la transmisión, a través de métodos de modulación adecuados, y el

almacenamiento de la información. Sin embargo, la eficiencia y eficacia de estos

procedimientos no son perfectas. La aparición de ruidos, de origen natural o


8

creados por el hombre, y de distorsiones lineales y alinéales propias del canal de

transmisión deterioran la señal analógica en forma más o menos severa, según los

casos. El desarrollo de la tecnología digital ha posibilitado la incorporación de

nuevas formas de tratamiento de la información, que permiten disminuir los

efectos de tales disturbios e imperfecciones. Pero la digitalización trae como

consecuencias un aumento sustancial del ancho de banda necesario para la

transmisión y un aumento de la capacidad necesaria para el almacenamiento. En

consecuencia, uno de los desarrollos más recientes y prometedores es la

compresión de datos que intenta disminuir algunos de los efectos no deseados de

la digitalización [7] y [11].

La reducción de la velocidad de transmisión o tasa de bits (directamente

relacionada con el ancho de banda de transmisión) es necesaria porque los costos

de transmisión aumentan con dicha velocidad. Por lo tanto es imperativo el uso de

técnicas de compresión para conseguir la más baja velocidad posible que

proporcione una aceptable calidad de audio en una determinada aplicación.

La digitalización de las redes de telecomunicaciones ha traído también un cambio

en las características y calidad de las señales transportadas, y puede afirmarse que

las señales digitales son transportadas con una facilidad cada vez mayor. En

especial, las señales de televisión, tanto normales como de alta calidad, si bien

eran aptas para su transporte digital, debían enfrentarse a la necesidad de un

transporte de información en cantidades cada vez mayores.

La compresión digital de audio es un campo cada vez más importante y activo. El

progreso en los algoritmos de compresión, la tecnología VLSI (VLSI:

VeryLargeScaleIntegration), y las normas de codificación han hecho del audio

digital una tecnología practicable para muchas aplicaciones. Ante todo, se han

desarrollado muchos nuevos algoritmos de compresión, que permiten la


9

transmisión o el almacenamiento de audio digital con excelente calidad a tasa de

datos razonables. Además, el avance en la tecnología VLSI hace posible

implementar algoritmos sofisticados de compresión para aplicaciones en tiempo

real de una manera eficaz en función de los costos. Finalmente, surgieron

rápidamente las normas para la compresión de audio que facilitan las plataformas

comunes de comunicación. Como resultado de todo esto, se están formando

nuevas alianzas, comercializándose nuevos productos, efectuándose nuevos

ensayos, y se están suministrando nuevos servicios, con lo cual la compresión

digital de audio está adquiriendo cada vez una importancia mayor [11].

A fin de normalizar todo lo referente al tema compresión, la Organización

Internacional de Normas (ISO: International StandardsOrganization) creó un

subcomité en conjunto con la Comisión Internacional Electrotecnia (IEC:

International ElectrotechnicalCommission) denominado “Grupo de Expertos en

Imágenes en Movimiento” MPEG (MovingPicturesExpertsGroup). Este grupo de

trabajo ha desarrollado dos normas, una para el vídeo y audio digital de

computadoras identificada por la sigla MPEG-1 (publicada en noviembre de

1992) y otra para el vídeo y audio digitales empleados en la radiodifusión y en la

distribución filoguiada de tales señales, bautizada con la denominación MPEG-2.

En marzo de 1993 el MPEG publicó una propuesta de la norma MPEG-2, en la

que se definió que el objetivo de calidad buscado era el nivel establecido en la

Recomendación 601 de la UIT-R (ex CCIR: Comité Consultivo Internacional de

Radiocomunicaciones). En julio de 1993 se publicaron los requisitos establecidos

por la Norma MPEG-2. La ISO está trabajando en una nueva iniciativa para

lacodificación a tasa muy baja de bits de información de audio y de vídeo

(MPEG-4) que se presentó en 1999 [11].


10

El desarrollo de MPEG-1 (en lo que a audio se refiere) se orientó hacia las

técnicas para reducir la tasa de bits a 1.5 Mbps como límite superior.

El MPEG no especifica una técnica única de compresión, sino un conjunto de las

herramientas de compresión que pueden usarse en conformidad con reglas

exactas de una sintaxis de compresión. Estas reglas exactas facilitan el

intercambio de flujo de bits entre aplicaciones diferentes [7].

Desde la reproducción de la música en los formatos en disco vinílico desde la

vitrolas, tocadiscos con sus agujas de diamante, siempre dispuestos a captar

cualquier frecuencia deseada o no que pudieran salir del surco del vinílico, los

formatos compresión de música y reproducción ha evolucionado de forma

exponencial, sobre todo el almacenamiento de archivos de música han mejorado

haciendo posible portar música en unidades de almacenamiento masivo, esto

gracias al proceso de digitalización del sonido. El estándar digital para CD donde

se podía guardar 80 minutos de música fue un paso decisivo aprovechando la

incapacidad en la audición de algunas frecuencias. El MP3 es formato de

compresión de audio que ha revolucionado el mundo de la música y su vigencia

muestra lo potencia de este formato de compresión de audio [7].


11

IV PARTE TEÓRICA O MARCO TEÓRICO

4.1 CONCEPTOS PREVIOS

4.1.1 SONIDO

Agente físico que se manifiesta en forma de energía vibratoria y que es causa de

la sensación auditiva siempre que las vibraciones se mantengan dentro de ciertos

límites. Las ondas acústicas son vibraciones mecánicas de puntos materiales, que,

por propagación en un medio elástico, llegan al oído y perturban su equilibrio. En

general, se acostumbra a distinguir entre sonido y ruido, calificando al primero

como una perturbación periódica, de carácter musical. El sonido se propaga en el

aire, a 0°C y a la presión de 1 atm, a la velocidad de 331,4 m/s. Para que las

vibraciones emitidas por la fuente acústica sean apreciadas por el oído humano es

necesario que pasen de los 16 períodos por segundo (16 Hz) y que sean inferiores

a los 20.000 Hz.[7].

Los caracteres distintivos de un sonido son: la intensidad, que depende de la

amplitud de las vibraciones; la altura, que está relacionada con la frecuencia de

las vibraciones de la onda sonora, y el timbre, que depende del número e

intensidad de los armónicos. El sonido está formado por una serie de ondas de

compresión y enrarecimiento que transmiten energía cinética por el interior de

medios materiales.

En el vacío el sonido no se puede propagar, ya que necesita de un medio que le

haga de soporte. Los sonidos se generan todos en elementos que se encuentran en

vibración, vibración que se transmite al medio y que a través de él llegan hasta el

tímpano. En el oído son transformados en impulsos eléctricos que se transmiten


12

hasta el cerebro donde son interpretados. Las ondas sonoras son de tipo

longitudinal y consisten en una serie de compresiones y enrarecimientos

sucesivos. Para poner esto de manifiesto podemos considerar el caso de un

diapasón que vibra. Cada uno de los golpes de sus varillas produce al golpear

hacia afuera una compresión, para acto seguido dar lugar a un enrarecimiento al

batir hacia dentro, seguido de nuevo por una compresión, etc. De este modo se

dice que un ciclo está compuesto en esta oscilación por una compresión y un

enrarecimiento y la longitud de onda de dicha perturbación es la distancia que

separa dos compresiones, o dos enrarecimientos sucesivos [7].

Para caracterizar el sonido se emplean dos nociones que, si bien no son

propiamente científicas, permiten describirlo con una cierta aproximación. Dichas

nociones son las de altura, relacionada con la frecuencia y la de volumen que está

vinculada con la intensidad. Sin embargo, una descripción precisa de las ondas

sonoras debe basarse en los conceptos de frecuencia e intensidad de la

perturbación. La frecuencia de las ondas sonoras se define como el número de

oscilaciones que se producen en un segundo y se mide mediante la unidad

llamada que equivale a un ciclo por segundo. La intensidad, por su parte, es la

potencia que atraviesa en un segundo una superficie unidad perpendicular a la

dirección de propagación de la perturbación sonora. La unidad en la que se

expresa es el decibelio (dB), si bien no existe una escala absoluta de medida, ya

que la escala existente toma como nivel o la intensidad mínima audible, que es un

concepto relativo. Existe asimismo una relación entre la intensidad del sonido, la

amplitud y la frecuencia de la perturbación y el medio que le sirve de soporte,

siendo así que cuanto mayor es la densidad del medio tanto menor es la

intensidad sonora y cuanto mayor es la amplitud menor es la frecuencia[7].


13

La pérdida de la audición varia conforme al sexo y a la edad, tal como se puede

apreciar en la Fig. Nº 1, donde se muestra la pérdida de la audición según sexo y

edad.

FIG. N° 1 Pérdida de audición humana.

4.1.2 SONIDO DIGITAL

Registro sonoro digitalizado para poder ser procesado por un ordenador. El

sonido, al ser una sensación producida en el órgano del oído por una señal

analógica que representa los cambios de densidad y presión en los medios

materiales, debe digitalizarse para poder ser tratado en un ordenador. Según el

método que se emplee para hacer esta digitalización, se obtendrán diversos

formatos de sonido digital. Los formatos de sonido sirven para almacenar música

y pueden ser de muy diferentes tipos: MOD(Es un formato de archivo de

computadora usado para música, es el primer formato de música en


14

computadora)MID (MID: Musical Instrument Digital), WAV (WAV: Waveform

Audio File Format), y CMF (CMF: CreativeMusic File), que corresponden a las

extensiones de los ficheros almacenados en el ordenador. Dentro de este grupo se

puede realizar cualquier conversión de formato, con mayor o menor calidad,

según cuál sea el origen y destino.

La mayor calidad (los sonidos creados por el ordenador parecen totalmente

auténticos) se obtiene con ficheros VOC o WAV, aunque tienen el inconveniente

de la cantidad de espacio en disco que ocupan y el alto tiempo de la unidad

central de proceso (CPU), que requiere su posterior reproducción. Los ficheros de

tipo MOD ocupan menos espacio, pero consumen más tiempo de unidad central

de proceso (CPU) dando una calidad ligeramente inferior.En todos estos formatos

se requiere digitalizar el sonido.En la Fig. Nº2 se muestra el proceso de

digitalización de una señal continua [14].

FIG. N° 2 Procesado Digital


14
















14
















15

4.1.3 DIGITALIZACIÓN DE LA SEÑAL DE AUDIO

Al tener una señal analógica, en este caso el sonido, y le aplicamos un tren de

pulso, se obtiene una señal digital, el cual se le conoce como señal muestreada o

simplemente muestreo, tal como se muestra en la Fig.Nº3.

FIG. N°3 Proceso de muestreo.

4.1.4 TASA DE MUESTREO DE NYQUISTLa señal muestreada es una repetición infinita del espectro de la señal digital.

La señal original se recupera si la frecuencia de los pulsos de muestreo es el doble

de la frecuencia máxima de la señal original. Esta se designa como Frecuencia de

Nyquist, como se muestra en la Fig. Nº 4.

FIG. N° 4 Frecuencia de Nyquist.


15












15












16

A una frecuencia de muestreo diferente que la de Nyquist (Fig. 5 y Fig.6), el

espectro resultante es una sucesión de espectros solapados y la señal original no

puede recuperarse.

FIG. N°5 Frecuencia de muestreo espectros solapados

FIG. N°6 Frecuencia de muestreo de espectros solapados


16



puede recuperarse.




16



puede recuperarse.




17

En la tabla Nº 1 se aprecia las frecuencias de muestreo de algunas aplicaciones

típicas:

Frecuencia de muestreo Aplicación

8 Telefonía digital

22.05 Computadoras personales

32 Audio digital y televisión

44.10 Discos compactos

48 Cintas de audio digital y HDTV

TABLA. N° 1 Frecuencia de muestreo[14].

4.3 LA EVOLUCIÓN DE LOS FORMATOS DE MUSICA

Puede decirse que la música es el arte que consiste en dotar a lossonidos y

los silencios de una cierta organización. El resultado de este orden resulta lógico,

coherente y agradable al oído.La música en la historia humana es un registro

continuo y se ha desarrollado gracias al ingenio de la mente creadora del hombre.

Los primeros formatos de música fueron llevados a discos vinílicos y

reproducidos mediante las famosas vitrolas. Hace medio siglo, una empresa

americana sacó la primera radio portátil. Partió así una nueva forma de ver la

música. La cosa es que desde esa primera radio, este campo ha evolucionado de

forma escandalosa, ésta es la evolución de la reproducción de la música [9].

VITROLAS

La vitrola es un antiguo reproductor de música (Fig. 7) que funcionaba a cuerda

sin electricidad, para su época fue una revolución en el campo del sonido musical

y fue el instrumento más popular en la reproducción musical hasta mediados del

siglo 19.Sin embargo el invento del radio y otros medios con electricidad en 1925

permitiendo así el desarrollo de una nueva tecnología que fue reemplazando a la

antigua vitrola.


18

Fig. Nº 7Vitrola a cuerda.

RADIO PORTÁTIL

Fue inventada por Texas Instruments en 1952 Regency, lanzó al mercado la TR-1

en noviembre de 1954, como se aprecia en la Fig. Nº 8.

Contexto: En aquellos años, la radio era el principal y más moderno medio de

comunicación. La llegada de la portátil supuso un cambio gigantesco.

FIG. N°8 Modelo de radio TR-1

EL RADIOCASETE

Las primeras aparecieron a fines de los 70. Su momento de gloria vino con los

ochenta, de la mano del hip hop y el breakdance.

Qué hacía: Venía con un sintonizador y un reproductor de casetes (a veces tenía

espacio para dos casetes, y desde los 90 también se fabricaron algunas con

reproductor de CD), se muestra en la Fig. Nº 9.


19

FIG. N°9RadioCaset.

EL WALKMAN

El primero en su tipo fue un aparato llamado Stereobelt, y fue inventado en 1972

por un brasileño-alemán llamado Andreas Pavel.

Era un reproductor portátil de casetes, con audífonos que emitían sonido estéreo.

El gran agregado aquí son los cascos, que “privatizan” la experiencia musical y le

ponen banda sonora a lo que sea que uno esté haciendo, como se aprecia en la

Fig.Nº 10.

FIG. N°10 Walkman

EL DISCMAN

Aparece en 1984, El primer aparato, bien poco práctico, salió a la calle con el

nombre de D50. El que vemos en esta foto (FIG.11) es un desarrollo posterior y

algo más sofisticado, el D121(Fig. Nº 11).

Reproducía discos compactos en un aparato pequeño. Al principio, no convenció

mucho ya que el disco se saltaba si uno se movía mucho. Pero cuando mejoró la

tecnología, sustituyo con creces a los casetes.


20

FIG. N° 11 Discman modelo D121

EL MINIDISC

Sony lanzó las primeras unidades en enero de 1992( Fig.Nº 12). Lo que hacía era

reproducir discos algo más pequeños que los CD, pero con calidad de audio

similar. Podías grabar tus propios discos, y acceder a su contenido de manera

muy rápida. Fue un gran fracaso.

FIG. N° 12Minidisc

REPRODUCTOR MP3

Apareció en 1998, y fue una idea de la empresa surcoreana

SaeHanInformationSystems. Almacena y reproduce música en formato digital

(Fig. Nº 13).

Sus primeras versiones sólo disponían de una memoria de 32MB. O sea, sólo

cabían unas 8 canciones. Pero su capacidad de almacenaje ha crecido

rápidamente. Hoy lo habitual es tener uno de 2GB, con espacio para 500

canciones. Lo importante es que con este aparato nace una época en la cual los


21

CD van en baja y la descarga de música por Internet es gratis y disponible para

todos.

FIG. N° 13 Reproductor MP3

IPOD CLÁSICO

La primera versión se lanzó en septiembre de 2001. Funciona como un MP3, pero

con mayor capacidad de almacenaje y un diseño más sofisticado (Fig. Nº 14)

Apple saca al mercado este reproductor de música consciente del boom de los

MP3 y el declive de los CD, pero sumando un cuidadísimo diseño. Y además,

nuevas versiones, como Mini, Nano, Shuffle y el increíble Touch. Son más caros

que un MP3 convencional, pero vale la pena.

FIG. N° 14 IPOD Clásico


22

MÓVILES CON MP3

Aparecen en 2005, con el Sony Ericsson Walkman (Fig. Nº 15). Desde 2004,

existían móviles capaces de reproducir ringtones en MP3, pero sin la memoria

suficiente para canciones.

Además de ser un teléfono móvil, es un reproductor MP3. La mayoría de ellos

tiene memoria externa y el espacio suficiente para almacenar hasta 500 canciones.

FIG. N° 15 Móvil con MP3

4.3HISTORIA DEL FORMATO MP3

Este formato fue desarrollado principalmente por KarlheinzBrandenburg, director

de tecnologías de medios electrónicos del Instituto Fraunhofer IIS, perteneciente

al Fraunhofer-Gesellschaft - red de centros de investigación alemanes - que junto

con Thompson Multimedia controla el grueso de las patentes relacionadas con el

MP3. La primera de ellas fue registrada en 1986 y varias más en 1991. Pero no

fue hasta julio de 1995 cuando Brandenburg usó por primera vez la extensión

.mp3 para los archivos relacionados con el MP3 que guardaba en su ordenador.

Un año después su instituto ingresaba en concepto de patentes 1,2 millones

de euros. Diez años más tarde esta cantidad ha alcanzado los 26,1 millones.

Tras el desarrollo de reproductores autónomos, portátiles o integrados en cadenas

musicales (estéreos), el formato MP3 llega más allá del mundo de la informática

[6].


23

El formato MP3 se convirtió en el estándar utilizado para streaming de audio

y compresión de audio con pérdida de mediana fidelidad gracias a la posibilidad

de ajustar la calidad de la compresión, proporcional al tamaño por segundo

(bitrate), y por tanto el tamaño final del archivo, que podía llegar a ocupar 12 e

incluso 15 veces menos que el archivo original sin comprimir.

Fue el primer formato de compresión de audio popularizado gracias a Internet, ya

que hizo posible el intercambio de ficheros musicales. Los procesos judiciales

contra empresas como Napster y AudioGalaxy son resultado de la facilidad con

que se comparten este tipo de ficheros. A principios de 2002 otros formatos de

audio comprimido como Windows Media Audio y OggVorbis empiezan a ser

masivamente incluidos en programas, sistemas operativos y reproductores

autónomos, lo que hizo prever que el MP3 fuera paulatinamente cayendo en

desuso, en favor de otros formatos, como los mencionados, de mucha mejor

calidad. Uno de los factores que influye en el declive del MP3 es que

tiene patente. Técnicamente, el tener una patente no significa que su calidad sea

inferior ni superior, pero impide que la comunidad pueda seguir mejorándolo y

puede obligar a pagar por la utilización de algún códec. Esto es lo que ocurre con

los reproductores de MP3. Aun así, a finales de 2009, el formato mp3 continúa

siendo el más usado y el que goza de más éxito, sacando nuevas versiones [7]

DEFINICIÓN

MPEG-1 Audio Layer III o MPEG-2 Audio Layer III, más comúnmente conocido

como MP3, es un formato de compresión de audio digital patentado que usa

un algoritmo con pérdida para conseguir un menor tamaño de archivo. Es un

formato de audio común usado para música tanto en ordenadores como

en reproductores de audio portátil.


24

MP3 fue desarrollado por el Moving Picture ExpertsGroup (MPEG) para formar

parte del estándar MPEG-1 y del posterior y más extendido MPEG-2. Un MP3

creado usando una compresión de 128kbit/s tendrá un tamaño de

aproximadamente unas 11 veces menor que su homónimo en CD. Un MP3

también puede comprimirse usando una mayor o menor tasa de bits por segundo,

resultando directamente en su mayor o menor calidad de audio final, así como en

el tamaño del archivo resultante.

4.3.1UTILIDAD DEL FORMATO MP3

El formato de audio usado en los discos compactos (CD) usa 44.1 Khz y 16 bit, es

decir, que graba 44.100 muestras de 16 bit (2 bytes) cada segundo. Esta ingente

cantidad de datos es la que permite obtener un sonido de muy alta fidelidad.

Si multiplicamos 2 bytes * 44.100 obtenemos que se necesitan 88.200 bytes por

segundo en cada canal del estéreo. Así pues, necesitamos 176.400 bytes por

segundo en una grabación estereofónica.

Multiplicando por 60, veremos que un sólo minuto de grabación en calidad CD

ocupa la friolera de 10.584.000 bytes, es decir, 10.09 Mb por minuto.

Una pieza de 4 minutos ocuparía, por lo tanto, unos 40 Mb. Y comprimido al

formato MP3 a razón de 10 a 1 serían 4Mb por canción.

4.3.2ESTRUCTURA DE UN FICHERO MP3

Un fichero Mp3 se constituye de diferentes framesMP3 que a su vez se componen

de una cabecera Mp3 y los datos MP3. Esta secuencia de datos es la denominada

"stream elemental". Cada uno de los Frames son independientes, es decir, una

persona puede cortar los frames de un fichero MP3 y después reproducirlos en

cualquier reproductor MP3 del Mercado. La cabecera consta de una palabra de

sincronismo que es utilizada para indicar el principio de un frame válido. A

continuación siguen una serie de bits que indican que el fichero analizado es un


25

fichero Standard MPEG y si usa o no la capa 3. Después de todo esto, los valores

difieren dependiendo del tipo de archivo MP3. Los rangos de valores quedan

definidos en la ISO/IEC 11172-3. 11

4.3.3 TRANSFORMADA DE FOURIER EN EL MP3

En matemáticas, la transformada de Fourier discreta, designada con frecuencia

por la abreviatura DFT (DFT: Discrete Fourier Transform), y a la que en

ocasiones se denomina Transformada de Fourier Finita, es una transformada de

Fourier ampliamente empleada en tratamiento de señales y en campos afines para

analizar las frecuencias presentes en una señal muestreada, resolver ecuaciones

diferenciales parciales y realizar otras operaciones, como convoluciones. Es

utilizada en el proceso de elaboración de un fichero MP3 [12].

La transformada de Fourier discreta puede calcularse de modo muy eficiente

mediante el algoritmo FFT [11].

4.4SERIES DE FOURIER Y TRANSFORMADA DE FOURIER PARA

SEÑALES CONTINUAS

La transformada de Fourier es básicamente el espectro de frecuencias de unafunción. Un buen ejemplo de eso es lo que hace el oído humano, ya que recibeuna onda auditiva y la transforma en una descomposición en distintas frecuencias(que es lo que finalmente se escucha). El oído humano va percibiendo distintasfrecuencias a medida que pasa el tiempo, sin embargo, la transformada de Fouriercontiene todas las frecuencias contenidas en todos los tiempos en que existió laseñal; es decir, en la transformada de Fourier se obtiene un sólo espectro defrecuencias para toda la función.

4.4.1Definición formal

La función ( ) definida por.

( ) = ( ) (1)


26

Se conoce como la integral de Fourier o transformada de Fourier de ( ), y laoperación de integración se simboliza frecuentemente por ℱ: esto es,

( ) = ℱ[ ( )] = ( ) (2)Análogamente ℱ es el símbolo que se utiliza para indicar la operación inversao sea, obtener ( ) cuando ( ) está dado; esto es,

( ) = ℱ [ ( )] = 12 ( ) (3)Y ( ) se denomina transformada inversa de Fourier de ( ). Las ecuaciones (1)y (2) se conocen a menudo como par de transformadas de Fourier.

4.4.2Teorema de Existencia de la Transformada de Fourier y propiedadesSi la función f satisface la ecuación (4) entonces existe ( )

| ( )| < ∞ (4)Demostración

De la fórmula de Euler se tiene que:= cos − sinDe donde | | = cos + sin = 1( ) = | ( )|,Se sigue que si | ( )| = ( )Es finita, entonces ( )


27

Es finita, es decir ℱ[ ( )] .L a función ( ) = ℱ[ ( )] es, general, compleja y, se tiene( ) = ( ) + ( ) = | ( )| ∅( ),Donde | ( )| se denomina espectro de magnitud de ( ), y ∅( ), espectro defase de ( ).Ahora si ( )es real, demostraremos que las partes real e imaginaria de ( ) sondadas en (5) y (6).( ) = ( ) cos , (5)

( ) = − ( ) sin , (6)Así mismo, demostraremos que ( ) y ( ) son funciones par e impar de ,respectivamente; es decir,( ) = (− ), (7)( ) = − (− ), (8)(− ) = ∗( ), (9)Donde ∗( ) denota el conjugado complejo de ( ).

En efecto se tiene:

Si ( ) es real, entonces, mediante la identidad= cos − sinEs posible expresar la relación (1) como sigue:

( ) = ( )


28

= ( ) cos − ( ) sin= ( ) + ( ), (10)

Igualando las partes real e imaginaria se tienen:

( ) = ( ) cos( ) = − ( ) sin .

Puesto que ( ) es real, se tiene

(− ) = ( ) cos(− ) = ( ) cos = ( ),(− ) = − ( ) sin(− ) = ( ) sin = − ( ).

Por lo tanto, ( ) es la función par de y ( ) es una función impar de .Por (7) y (8), se tiene( ) = (− ) + (− ) = ( ) − ( ) = ∗( ).El hecho de que relación (9), es una condición necesaria para que ( ) sea real,no quiere decir que sea suficiente; por ende, demostraremos que dicha ecuaciónes es una condición necesaria y suficiente para que ( ) sea real.En efecto veamos:

Sea ( ) = ( ) + ( ), (11)Donde ( ) y ( ) son funciones reales. Entonces de (2), se tiene( ) = ( ) + ( )


29

( ) = 12 ( )= 12 [ ( ) + ( )](cos + sin )= 12 [ ( ) cos − ( ) sin ]+ 12 [ ( ) sin + ( ) cos ] . (12)

Por tanto( ) = 12 [ ( ) cos − ( ) sin ] . (13)( ) = 12 [ ( ) sin + ( ) cos ] . (14)

Ahora, si (− ) = ∗( ), entonces(− ) = ( ) (− ) = − ( )En consecuencia, ( ) sin y ( ) cos don funciones impares de , y elintegrando de (14) es una función impar de . Por consiguiente de loscoeficientes de Fourier de ondas simétricas (sabemos que una función periódicaimpar, su serie de Fourier consta de términos del seno solamente).

Entonces se tiene. ( ) = 0,Es decir ( ) es real.

Entonces si ( ) es real, demostraremos que su espectro de magnitud es | ( )|es una función par de , y que su espectro de fase ∅( ) es una función impar de

.En efecto, se tiene:


30

Si ( ) es real, entonces, por (9) se tiene(− ) = ∗( ). (15)Ahora bien por (4), se tiene

∗( ) = | ( )| ∅( ). (16)(− ) = | (− )| ∅( ). (17)Por consiguiente,| (− )| ∅( ) = | ( )| ∅( ) (18)Y por tanto,| (− )| = | (− )|, (19)∅(− ) = −∅( ). (20)La transformada de Fourier es una función real ( ) es real, entonces ( ) es unafunción par de , y que la transformada de Fourier de una función real ( ) esimaginaria pura, entonces ( ) es una función par de .

Comprobemos la afirmación anterior

Sea ℱ[ ( )] = ( ) = ( ) + ( ), (21)Entonces por (5) y (6) se tiene,

( ) = ( ) cos , (22)( ) = − ( ) sin , (23)

Si ( ) = ( ) y ( ) = 0, entonces integrando de (23) debe ser impar conrespecto a , puesto que sin es un función impar de , ( ) debe ser unfunción par de .Otra alternativa de comprobar la afirmación anterior es como sigue:Por (13), con ( ) = 0, se tiene


31

( ) = 12 ( ) cos= 1 ( ) cos , (24)

Donde, por (5), se tiene( ) = ( ) cos . (25)Según (24), es obvio que (− ) = ( ).

Análogamente si ( ) = ( ), es decir, ( ) = 0, entonces el integrando de(22) debe ser impar con respecto a . Como cos es una función par de , ( )debe ser una función impar de .O, utilizando nuevamente (13) y si ( ) = 0, entonces

( ) = − 12 ( ) sin( ) = − 1 ( ) sin , (26)

Donde por (6), se tiene( ) = −2 ( ) sin . (27)Según (26), también es obvio que (− ) = − ( ).

De los resultados anteriores se concluye que si ( ) es una función real yℱ[ ( )] = ( ) = ( ) + ( ),Entoncesℱ[ ( )] = ( ), (28)ℱ[ ( )] = ( ), (29)


32

Donde ( ) = ( ) + ( ), siendo y las componentes par e impar de ( ),respectivamente.

4.4.3Transformada Coseno

Si ( ) está definida solo para 0 < < ∞, demostrar que ( ) se puederepresentar por:

( ) = 2 ( ) cos , (30)Donde ( ) está dado por

( ) = ( ) cos , (31)En efecto:Si ( ) está definida solo para 0 < < ∞ se puede definir ( ) para valoresnegativos de por la ecuación (− ) = ( ), por lo que la función resultante espar.En este caso se supone un comportamiento conveniente de ( ), para valoresnegativos del tiempo; al interpretar los resultados, por supuesto, se debe tenerpresente que ( ) está definida solo para mayor de cero.Si ahora de define

( ) = ( ) cos ,Entonces, por (24) y (25), se tiene

( ) = 2 ( ) cos( )se denomina transformada coseno de Fourier de ( ),la cual se denotará porℱ [ ( )] = ( ) = ( ) cos , (32)


33

( ) = ℱ [ ( )] = 2 ( ) cos , (33)4.4.4Transformada Seno

Si ( ) está definida solo para 0 < < ∞, demostrar que ( ) se puederepresentar por:

( ) = 2 ( ) sin , (34)Donde ( ) está dado por

( ) = ( ) sin , (35)Veamos si se cumple la relación (34), en efecto:

Si ( ) está definida solo para 0 < < ∞ se puede definir ( ) para valoresnegativos de por la ecuación (− ) = − ( ), por lo que la función resultante esimpar.

Si ahora de define ( ) = ( ) sin ,Entonces, por (26) y (27), se tiene

( ) = 2 ( ) sin( ) Se denomina transformada seno de Fourier, la cual se denotará por

ℱ [ ( )] = ( ) = ( ) sin , (36)( ) = ℱ [ ( )] = 2 ( ) sin , (37)


34

4.4.5 INTERPRETACIÓN DE LA TRANSFORMADA DE FOURIER

Si se supone que ( ) es periódica con periodo , entonces ( ) se puedeexpresar como la serie de Fourier compleja

( ) = , = 2 , (38)Donde = 1 ( ) . (39)Si ahora se considera que a medida que → ∞, → ∆ = 2 ∆ , ∆ = ,

entonces (38) y (39) se convierten, respectivamente, en

( ) = ( ∆ ) , (40)= ∆ ( ) ( ∆ ) . (41)

Siguiendo un argumento similar utilizado en la derivación de

( ) = 12 [ ( ) ]Se observa que si ∆ → 0, → ∞ tal que ∆ → . En otros términos, en ellímite, en vez de tener armónicos discretos correspondientes a , todo el valorde es permitido. De esta manera en vez de , se tiene ( ), y por (41), setiene

lim∆ → ( )∆ = ( ) = ( ). (42)


35

Según (42) se observa que( ) = ( ), (43)O, puesto que = 2 , se tiene12 ( ) = ( ) (44)Entonces (40) se convierte en

( ) = 12 ( )= 12 ( ) . (45)

Esta ecuación muestra que | ( )| representa la magnitud infinitesimal de

un armónico a la frecuencia angular .

Estos armónicos tienen frecuencia fundamental cero ( → ) y estánseparados por infinitésimos.

Aunque | ( )| es infinitesimal, ( ) es finito; por esta razón la gráfica| ( )| vs se le denomina espectro continuo y a | ( )| se le denominageneralmente, espectro de magnitud de ( ).

La representación anterior de la función no periódica como suma deexponenciales con la frecuencia fundamental teniendo a cero, no es un procesofácil de aceptar. A veces la interpretación que sigue el par de transformadas deFourier (1) y (2) será más directa y de mayor significado:

( ) = ℱ[ ( )] = ( )( ) = ℱ [ ( )] = 12 ( )


36

Es decir, se supone que cualquier función dada tiene dos modos equivalentes derepresentación: uno es el dominio del tiempo, ( ), y el otro es en el dominio de lafrecuencia, ( ). La ecuación (1) transforma la función ( ), en el dominio deltiempo, a su función equivalente ( ), en el dominio del la frecuencia, y laecuación (2) invierte el proceso. La ecuación (1) analiza la función del tiempo enun espectro de frecuencia y la ecuación (2) sintetiza el espectro de frecuencia paraobtener nuevamente la función en términos del tiempo.

4.4.6PROPIEDADES DE LAS TRANSFORMADAS DE FOURIER

Propiedad de linealidad de la transformada de Fourierℱ = [ ( ) + ( )] = ( ) + ( ). (42)Propiedad del escalonamiento de la transformada de Fourier

ℱ[ ( )] = 1| | . … (43)La función ( ) representa la función ( ) contraída en la función del tiempo

por un factor a. análogamente la función representa la función ( )expandida en la escala de frecuencia por el mismo factor . La propiedad delescalonamiento, por consiguiente, afirma que la contracción del dominio deltiempo es equivalente a la expansión en el dominio de la frecuencia y vice-versa.

Propiedad de desplazamiento en el tiempo de la transformada de Fourier.ℱ[ ( − )] = ( ) . (44)Propiedad de desplazamiento en la frecuencia de la transformada de Fourier.ℱ ( ) = ( − ). (45)Propiedad de simetría de la transformada de Fourier.ℱ[ ( )] = 2 (− ) (47)


37

Ahora se buscara la relación entre la transformada de Fourier en una función f(t),y la transformada de Fourier de su derivada f´(t).

Si ℱ[ ( )] = ( ) y ( ) → 0 cuando → ±∞, entonces se cumple (48)ℱ[ ′( )] = ℱ[ ( )] (48)Efecto verificamos si se cumple (48), integrando por partes se obtiene

ℱ[ ( )] = ( )= ( ) | + ( ) . (49)Puesto que ( ) → 0 cuando → ±∞, se tiene

ℱ[ ( )] = ( ) = ( ) = ℱ[ ( )].En el problema anterior se demuestra que la diferenciación en el dominio deltiempo corresponde a la multiplicación de la transformada de Fourier por ,dado que ( ) → 0 cuando → ±∞.

Se debe observar que si ( ) tiene un número finito se súbitas discontinuidades,entonces ( ) contiene impulsos. Por consiguiente, la transformada de Fourierde ( ), en este caso, debe contener la transformada de Fourier de los impulsosen ( ), lo cual se ve en transformadas de Fourier de funciones especiales.Mediante aplicación repetida de (48) se obtieneℱ[ ( )] = ( ) ( ) = ( ) ℱ[ ( )], = 1,2, … (50)Se debe observar que (50) no garantiza la existencia de la transformada de Fourierde ( )( ); solo indica que si la transformada existe, entonces está dada por( ) ( ).

Si ℱ[ ( )] = ( ), ≠ 0, y


38

( ) = (0) = 0. (51)Demostremos que la relación (52)

ℱ ( ) = 1 ( ) = 1 ℱ[ ( )]. (52)En efecto:

Considerar la función∅( ) = ( ) ; (53)Entonces, ∅ ( ) = ( ) de donde, si ℱ[∅( )] = ∅( ), entonces, de (49), se tieneℱ[∅′( )] = ℱ[ ( )] = ∅( ). (54)Con tal que

lim→ ∅( ) = ( ) = ( ) = (0) = 0. (55)Por consiguiente,∅( ) = 1 ℱ[ ( )] = 1 ℱ[ ]; (56)Esto es, ℱ ( ) = 1 ( ) = 1 ℱ[ ( )]Observar que (52) solo se aplica cuando ≠ 0. Cuando = 0,ℱ[∅( )] = ∅( ) . (57)

Cuando (0) = ∫ ( ) ≠ 0, se tiene


39

ℱ ( ) = 1 ( ) = 1 ( ) + (0) ( ). (58)4.4.7 CONVOLUCIÓNSean las funciones ( ) ( )Entonces la convoluciónde funciones dadas está definida mediante:

∗ = ( ) ( − )Sin embargo como todo en las matemáticas, la mejor y más confiable manera deaprender nuevos conceptos es mediante la interpretación de modelos; donde sepuede explayar el mismo hasta obtener una manera general y totalizada delanálisis del problema. Es por este motivo que empezaremos este capítulomediante la Interpretación de la Convolución.

4.4.8 INTERPRETACIÓN DE LA CONVOLUCIÓNLa forma utilizada en este apartado, será analizada mediante la respuesta a un tipode entrada en especial, para los siguientes sistemas:

Sea ( ) = ( ∗ )( )Entonces para un sistema g(t) donde aplicaremos un tipo de entrada P (t),como separecía en la Fig.Nº 16, la cual la representaremos de la siguiente manera:

FIG. 16Función Impulso Unitario y el Delta de Dirac.


40

Podemos apreciar que para este tipo de entrada (P(t)) existe un tipo de respuesta(Q(t)); como se aprecia en la Fig. Nº 17, en este caso asumamos que sea de lasiguiente manera:

FIG. 17 Respuesta a la entrada P(t).

Una de las propiedades importantes de la función impulso es la traslación ocorrimiento, como se puede apreciar en la Fig. Nº 18.

FIG.18 Propiedad de corrimiento.


41

El proceso de corrimiento, se aprecia en la Fig.Nº 19.

FIG.19 Proceso de corrimiento

Existirá la respuesta para los impulsos sucesivos (Fig. Nº 20)

FIG.20 Respuesta a los impulsos sucesivos

De las dos últimas gráficas (FIG.18 y FIG.19) podemos deducir:

∗( ) = ( − ) ( )


42

∗( ) = ( − ) ( )Cuando llevamos al límite T0

lim → ∗( ) = lim → ( − ) ( ) = ( − ) ( )= ( ) ( − ) → : = ( ) ( − )

∴ = ∗ = ( ) ( − )4.4.9TEOREMA DE LA CONVOLUCIÓN DE DOS FUNCIONESLa Transformada de Fourier de la convolución de dos funciones es igual alproducto de las transformadas de cada una de estas, de manera independiente, esdecir: ℱ{ ∗ } = ℱ{ }ℱ{ }DEMOSTRACIÓN DEL TEOREMA DE LA CONVOLUCIÓN

Tenemos por definición de la Transformada de Fourier.( ) = ( ) , ( ) = ( )Entonces: ( ) ( ) = ( ) ( ) ( )Si hacemos el cambio de variable: u + v = x ; en la integral doble, la cualdeseamos transformar de variables (u, v) a las variables (u, x). Por cálculodiferencial conocemos:


43

= ( , )( , )Entonces hallando el Jacobiano, el cual está dado por:

( , )( , ) = = 1 00 1 = 1De donde: ( ) ( ) = ( ) ( − )

= [ ( ) ( − ) ]= ℱ ( ) ( − )

Como: ∗ = ( ) ( − )Entonces: ( ) ( ) = ℱ{ ∗ }∴ ( ) ( ) = ℱ{ ∗ }Y como cumple la transformada de Fourier, realizamos el proceso inverso ytambién será válida para la Transformada Inversa de Fourier.

O sea: ℱ{ ∗ } = ( ) ( )ℱ ℱ{ ∗ } = ℱ { ( ) ( )}


44

∗ = 12 ( ) ( )4.4.10PROPIEDADES DE LA CONVOLUCIÓN

La convolución es CONMUTATIVA.∗ = ∗Demostración:

Sea: t - x=y de donde dx = -dy.

Además: → −∞ ; → ∞→ ∞ ; → −∞∗ = ( ) ( − ) = ( − ) ( )(− )

= − ( ) ( − )( ) = ( ) ( − )∗ = ( ) ( − )

∴ ∗ = ∗La convolución es ASOCIATIVA.[ ∗ ]∗ℎ = ∗[ ∗ℎ]La convolución es DISTRIBUTIVA.∗ ( + ℎ) = ∗ + ∗ ℎLa siguientes convoluciones nos resulta:( )∗ ( ) = ( )


45

( )∗ ( − ) = ( − )( − )∗ ( − ) = ( − − )4.4.11TEOREMA DE CONVOLUCIÓN EN EL TIEMPO

Sea: ℱ{ ( )} = ( ) ℱ{ ( )} = ( ), :ℱ ( )∗ ( ) = ℱ{ ( )}ℱ{ ( )} = ( ) ( )Demostración: ℱ ( )∗ ( ) = [ ( ) ( − ) ]

ℱ ( )∗ ( ) = ( )[ ( − ) ]: ℱ{ ( − )} = ( − )

Por Propiedad: ℱ{ ( − )} = ( )Sustituyendo en (*)ℱ ( )∗ ( ) = ( ) ( ) = ( ) ( )

ℱ ( )∗ ( ) = ( ) ( )∴ ℱ ( )∗ ( ) = ( ) ( )4.4.12TEOREMA DE CONVOLUCIÓN EN LA FRECUENCIA.

Sea: ℱ { ( )} = ( ) ℱ { ( )} = ( ),


46

: ℱ { ( )∗ ( )} = 2 ( ) ( )Demostración:

ℱ { ( )∗ ( )} = ℱ ( ) ( − )ℎ : − == +=ℱ { ( )∗ ( )} = 12 [ ( ) ( − ) ]

Haciendo el cambio de variable:ℱ { ( )∗ ( )} = 12 [ ( ) ( ) ] ( )= 12 [ ( ) ( ) ]

= 12 ( ) ( ) (59)Pero: ( ) = 12 ( ) − −−→ 2 ( ) = ( )Reemplazando en (59) = 12 ( )[2 ( )]

= 2 ( )2 ( ) − − − −(60)Pero:


47

Reemplazando en (60)

Con una función periódica de período T, y se hace T tienda a infinito,entonces la función resultante deja de ser periódica.Ilustremos este proceso de límite mediante un tren de pulsos rectangulares. Seconsidera el tren de pulsos rectangulares siguiente.

, .

d

d


47



, .

d

d


47



, .

d

d


48

Para , se tiene la función

Es evidente que delos gráficos anteriores no es una función periódica, las

señales sonoras en general no son periódicas.

4.4.13 PROPIEDADES DE CONVOLUCIÓN Y MODULACIÓN

DEFINICION

Dos de las propiedades más importantes de las representaciones de Fourier son la

convolución y la modulación. Una forma importante de modulación se refiere a

la multiplicación de dos señales; una de ellas cambia o ¨modula ¨la amplitud de la

otra.

Se va a demostrar que la convolución en el dominio del tiempo se transforma en

convolución en el dominio de la frecuencia. Por tanto podemos analizar el

comportamiento de entrada-salida de un sistema lineal en el dominio de la

frecuencia utilizando la multiplicación de transformada en lugar de señales

convolucionando en el tiempo .Lo anterior puede simplificar de manera

importante el análisis de sistemas y ofrecer bastante conocimiento acerca del

comportamiento del sistema[13].


48





DEFINICION




otra.









48





DEFINICION




otra.









49

Tanto la propiedad de convolución como la de modulación son una consecuencia

son una consecuencia de las sinoides que son funciones características del sistema

LTI (LTI: Lineal Time Invariant)[15].

4.4.14 Convolución no periódica

Considere la convolución de dos señales no periódicas en tiempo continuo h(t) y

x(t)

y (t) = h (t)*x (t)

y (t) = ∫ h ( ) x(t − ) (61)

Se expresa ahora x(t - ) en términos de la transformada de Fourier como se

indica

x(t - ) = ∫ ( ) ( ) (62)

Ahora se sustituye esta expresión en la integral de convolución para obtener

y(t) = ∫ h ( ) ∫ ( ) ) (63)

y (t) = ∫ ∫ h ( ) ( ) ) (64)

Reconocemos la integral interna sobre como la transformada de Fourier deh ( ) o H(jw) en consecuencia y(t ) puede reinscribirse como

y(t ) = ∫ ( ) ( ) ( ) (65)

De modo que y(t) es la inversa de Transformada de Fourier(FT) de ( ) ( ).

Concluimos que la convolución de señales en el tiempo corresponde a la

multiplicación de transformadas en el dominio de la frecuencia como se describe

por medio de, la misma que se describe en la Fig.Nº 21.

y (t) = h (t)*x (t) Y(jw)= ( ) ( )FT


50

4.4.15 Modulación

Si x(t) y z(t) son señales no periódicas, entonces deseamos expresar la

transformada de Fourier del producto y(t) = x(t) z(t) en términos de la

transformada de Fourier de x(t) y z(t)

Sea x(t) y z(t) en términos de sus FT

X(t) = ∫ ( ) (66)

Z(t) = ∫ ( ) (67)

El termino del producto y(t) puede consecuentemente escribirse en la forma

Y(t) = ( ) ∫ ∫ ( ) ( ) ( )Efectuando ahora el cambio de variable en n sustituyendo n= w-v para obtener

Y(t) = ∫ ∫ ( ) ( (w − v)) (68)

Figura 21 Convolución en el dominio del tiempo y dominio de la frecuencia


51

En la integral interior sobre v se presenta la convolución de Z(jw) y X(jw), en

tanto que la integral exterior sobre w es de la forma de representación de Fourier

para y(t). Por consiguiente identificamos esta convolución escalada por como

Y(jw) según indica

y(t) = x(t)z(t) Y(jw) = X(jw)*Z(jw)

Donde

X(jw)*Z(jw) = ∫ ( ) ( ( − )) (69)

La multiplicación en el dominio del tiempo conduce a la convolución en el

dominio de la frecuencia

Aplicación

Una aplicación importante de la propiedad de modulación es comprender los

efectos de truncar una señal en su representación en el dominio de la frecuencia.

El proceso de truncar una señal se conoce también como ventaneo ya que

corresponde a ver la señal atreves de una ventana. La parte de la señal que es

visible a través de la ventana se trunca. Esta operación de ventaneo se representa

matemáticamente multiplicando la señal, digamos X(t) por una función ventana

W(t) que es cero fuera del intervalo de interés. Al denotar la señal con ventaneo

mediante Y(t), tenemos. Y(t) = X(t)W(t)

La más simple es la ventana rectangular, que se define como:

1 0,( )

0

si t Th t

enotrocaso

FT


52

V. MATERIALES Y MÉTODOS

Se siguió el esquema establecido en la Metodología de la Investigación y como el

presente trabajo corresponde a investigación básica, la misma que se fundamenta

con un método deductivo e inductivo. Se presenta la fundamentación teórica

necesaria y aplicaciones que se pueden hacer mostrando con un ejemplo concreto,

se muestra la que la Transformada de Fourier es un herramienta poderosa para

tratamiento de señales, el audio es una señal en general no periódica mediante la

digitalización del audio se aplica la Transformada Discreta de Fourier y el algoritmo

que permite comprimir el audio para formato MP3 está dado por el algoritmo

FFT[7].[11].

Los resultados obtenidos en esta investigación se comparan con otros estudios

hechos por investigadores dedicados a comprensión de audio y formatos de

comprensión.Para la realización de la investigación se ha hecho uso de las

bibliografías que se muestra en el ítem VIII de referencias. Asimismo, para la

implementación de la aplicación informática, se contó con un equipo INTELCore i5,

3.4GHZ Seis Núcleos, Disco Duro Sata 500 GB, Memoria RAM 4 GB 4000 DDR III,

Windows SEVEN 7, equipado con Microsoft® Visual Studio.


53

VI. RESULTADOS

Para dar resultados de la Investigación se da a partir de la Transformada de

señales discretas y Algoritmo FFT.En las secciones 4.3 y 4.4se ha desarrollado

la teoría de la Transformada de Fourier para funciones o señales continuas. Si las

funciones continuas son reemplazados en todas las fórmulas dadas por funciones

discretas o señales discretas se tiene la Teoría de Transformada de Fourier de

funciones o señales discretas, basado en ese enfoque se dará el resultado de la

investigación en la sección 6.1

6.1TRANSFORMADA DE FOURIER DE SEÑALES DISCRETAS Y

ALGORIMO PARA MP3

En la sección 4.4 se ha desarrollado la Teoría de Transformada de Fourier para

funciones continuas y que cumplen la condición de convergencia absoluta, la

Transformada de señales discretas es en realidad una particularidad donde la

función continua se reemplaza por una función discreta. El algoritmo para hallar

la Transformada de Fourier de funciones discretas está dada por el algoritmo FFT,

los detalle de este algoritmo están en el anexo del presente trabajo, el estudio del

orden de la complejidad de este algoritmo se ajusta a algoritmos rápidos, por eso

es una herramienta muy poderosa en tratamiento de señales, se puede obtener

mayor información y detalles en [12]. Se muestra en la Fig.Nº21 el esquema

FFT.


54

6.1.1 ALGORITMO FFT PARA EL MP3

La transformada de Fourier discreta puede calcularse de modo muy eficiente

mediante el algoritmo FFT. (Ver detalles de este algoritmo en Anexo 2)

FIG. N° 21Esquema FFT

( ) = ( ) ( )( ) ( )( ) = ( ) ( )( ) ( )

Donde: = ( )/ es una raíz enésima de la unidad.El algoritmo que se plantea está basado en el método denominado “doblamiento

sucesivo o procedimiento de descomposición”.

El ahorro o reducción en el número de operaciones es significativo para valores

de N como los que es doble esperar en imágenes prácticas, por ejemplo, para una

imagen de 1024 x 1024 pixels.

N = 1024, se tendría:


55

= 1.048.576 operaciones complejas.

Con FFT log = 10.240 operaciones complejas

Con una reducción de 102.4:1, el tiempo de cómputo, empleando máquinas

equivalentes, se reduce a menos del 1% [12] y[15].

6.1.2 DIFERENCIAS CON OTROS FORMATOS

MP3 es un formato patentado por Thompson (por el que cobran importantes

sumas en concepto de derechos de reproductores) y utiliza la transformada rápida

de Fourier para codificar el sonido. Los formatos digitales de sonido tales como

MOD, MID, WAV y CMF donde los inconvenientes en el almacenamiento de

los archivos de sonido, velocidad y conversión eran ineficientes, el MP3 es un

formato de sonido que cambio el concepto de compresión de audio ya que

mantiene la calidad del sonido aprovechando la deficiencias en la percepción del

audio por el oído del ser humano.

En cambio, OGG (formato libre) utiliza la transformada de cosenos discreta

modificada y se espera que pronto pueda usar Wavelets, en forma mucho más

sofisticada de codificación y análisis, basada en armónicos.

La combinación de alta calidad y formato libre del OGG está produciendo una

pequeña ventaja respecto al formato MP3, si bien es lenta por la enorme

extensión de uso del mp3 y el desbordamiento de la existencia del OGG.Sin

embargo la vigencia de los formatos MP3 están popular que predomina en el

mercado del mundo musical [15].

En el proceso de compresión de audio se sigue un proceso y para mantener la

calidad del sonido se sigue las recomendaciones dadas por ISO/IEC 11172-3

[11].


56

6.1.3 CONVERSIÓN ANALÓGICO DIGITAL

Una vez aclaradas las diferencias básicas entre la tecnología analógica y la digital,

veamos ahora cómo se efectúa el proceso de conversión de una tecnología a otra.

Para realizar esa tarea, el conversor ADC (Analog-to-Digital Converter -

Conversor Analógico Digital) tiene que efectuar los siguientes procesos:

1.- Muestreo de la señal analógica.

2.- Cuantización de la propia señal

3.- Codificación del resultado de la cuantización, en código binario.

6.1.4 Muestreo de la señal analógica

Fig. N° 22 Señal analógica.

Representación gráfica de medio ciclo positivo (+) correspondiente a una señal

eléctrica analógica de sonido, con sus correspondientes armónicos. Como se

podrá observar en la Fig. Nº 22, los valores de variación de la tensión o voltaje en

esta sinusoide pueden variar en una escala que va de “0” a “7” volt.

Para convertir una señal analógica en digital, el primer paso consiste en realizar

un muestreo (sampling) de ésta, o lo que es igual, tomar diferentes muestras de

tensiones o voltajes en diferentes puntos de la onda senoidal. La frecuencia a la

que se realiza el muestreo se denomina razón, tasa o también frecuencia de

muestreo y se mide en kilohertz (kHz). En el caso de una grabación digital de


57

audio, a mayor cantidad de muestras tomadas, mayor calidad y fidelidad tendrá la

señal digital resultante.

Durante el proceso de muestreo se asignan valores numéricos equivalentes a la

tensión o voltaje existente en diferentes puntos de la sinusoide, con la finalidad de

realizar a continuación el proceso de cuantización.

Las tasas o frecuencias de muestreo más utilizadas para audio digital son las

siguientes:

24 000 muestras por segundo (24 kHz)


44 100 muestras por segundo (44,1 kHz) (Calidad de CD)


FIG. N° 23 Muestreo de la señal analógica

Para realizar el muestreo (sampling) de una señal eléctrica analógica y convertirla

después en digital, el primer paso consiste en tomar valores discretos de tensión o

voltaje a intervalos regulares en diferentes puntos de la onda senoidal.

Por tanto, una señal cuyo muestreo se realice a 24 kHz, tendrá menos calidad y

fidelidad que otra realizada a 48 kHz. Sin embargo, mientras mayor sea el número

de muestras tomadas, mayor será también el ancho de banda necesario para


58

transmitir una señal digital, requiriendo también un espacio mucho mayor para

almacenarla en un CD o un DVD.

En la grabación de CDs de música, los estudios de sonido utilizan un estándar de

muestreo de 44,1 kHz a 16 bits. Esos son los dos parámetros requeridos para que

una grabación digital cualquiera posea lo que se conoce como “calidad de

CD”.[11].

6.1.5CONDICIÓN DE NYQUIST

El ingeniero sueco Harry Nyquist formuló el siguiente teorema para obtener una

grabación digital de calidad:

“La frecuencia de muestreo mínima requerida para realizar una grabación

digital de calidad, debe ser igual al doble de la frecuencia de audio de la señal

analógica que se pretenda digitalizar y grabar”.

Este teorema recibe también el nombre de “Condición de Nyquist”. Es decir, que

la tasa de muestreo se debe realizar, al menos, al doble de la frecuencia de los

sonidos más agudos que puede captar el oído humano que son 20 mil Hertz por

segundo (20 kHz). Por ese motivo se escogió la frecuencia de 44,1 kHz como tasa

de muestreo para obtener “calidad de CD”, pues al ser un poco más del doble de

20 kHz, incluye las frecuencias más altas que el sentido del oído puede captar.

Tasa de muestreo = doble de la frecuencia

Si no cumplo esta tasa al hacer∑ ( )ℎ ( − ) no se puede recuperar la

función original. 7

6.1.6 MULTIRESOLUCIONES Y FILTROS

En teoría de señales las funciones ortonormales son importantes para expresar una

señal como combinación lineal de elementos de la base ortonormal, esta idea

expande las series y la transformada de Fourier.


59

Sea ( ) consideramos una colección de subespacios cerrados y anidadosv ∈ .

Que además cumplen las siguientes propiedades:

1.⋃ V∈ = L (R)2. ⋂ V∈ = {0}3. Si ( ) ∈ => − 2 ∈4. Si ( ) ∈ => ∈5. ∃∅( ), función Scaling, tal que: ∅( − ) ∈ base ortonormal de

Y en general: ∅ ( ) = 12 ∅( − 22 ) ∈Esta familia de subespacios cumpliendo estas condiciones se le conoce como

Multiresolución.

FIG. Nº 24 Ejemplo de multiresolución

Ejemplo de Multiresolucion.

2

1n,

2

nenconstantes

...................................

1n22n,enconstantes

1nn,enconstantes

..

21n,n2enconstantes

21

21

20

j2

LfV

LfV

LfV

de

LfV jj

Cumplen las 4 primeras condiciones de manera bastante obvia y tiene como función scaling:

1,0t


60

6.1.7 PROPIEDADES DE LA FUNCIÓN SCALING

Veamos a continuación 5 importantes propiedades de la función Scaling.

0) t - n b a s e o r t o n o r m a l d e V t 1n Z

a

ˆ ˆ) w 2 t w 2b

2ˆ ˆ) w 2 1 w 1c k

ˆ) w 2d S o p

Cumpliéndose la igualdad, e.d 2k t.q.t2wˆ k

Sop

ˆ ˆ) w es co n tin u a 0 1e S i

6.1.8 CUANTIZACIÓN DE LA SEÑAL ANALÓGICA

Una vez realizado el muestreo, el siguiente paso es la cuantización (quantization)

de la señal analógica. Por tanto, la cuantización representa el componente de

muestreo de las variaciones de valores de tensiones o voltajes tomados en

diferentes puntos de la onda sinusoidal, que permite medirlos y asignarles sus

correspondientes valores en el sistema numérico decimal, antes de convertir esos

valores en sistema numérico binario, como se muestra en la Fig.25.

FIG. N°25Cuantización de la Señal analógica.

Proceso de cuantización (quantization) de la señal eléctrica analógica para su

conversión en señal digital.


61

6.1.9 CODIFICACIÓN DE LA SEÑAL EN CÓDIGO BINARIO

Después de realizada la cuantización, los valores de las tomas de voltajes se

representan numéricamente por medio de códigos y estándares previamente

establecidos. Lo más común es codificar la señal digital en código numérico

binario, la misma se muestra en la Fig.Nº 26.

FIG. N° 26 Esquema de la codificación binaria

La codificación permite asignarle valores numéricos binarios equivalentes a los

valores de tensiones o voltajes que conforman la señal eléctrica analógica

original.

En este ejemplo gráfico de codificación, es posible observar cómo se ha obtenido

una señal digital y el código binario correspondiente a los niveles de voltaje que

posee la señal analógica.

La siguiente tabla muestra los valores numéricos del 0 al 7, pertenecientes al

sistema decimal y sus equivalentes en código numérico binario. En la tabla Nº 4(

se puede observar que utilizando sólo tres bits por cada número en código binario,

se pueden representar ocho niveles o estados de cuantización.


62

Valores en volt en Sistema

Decimal

Conversión a Código Binario

0 000

1 001

2 010

3 011

4 100

5 101

6 110

7 111

TABLA. N° 4[7].

En la tabla N°5se puede ver la sustitución que se ha hecho de los valores

numéricos correspondientes a los voltajes de las muestras tomadas de la señal

analógica utilizada como ejemplo y su correspondiente conversión a valores en

código binario.


63

Valor de los voltajes de la señal

analógica del ejemplo

Conversión a Código Binario

0 000

2 010

3 011

4 100

6 110

7 111

7 111

5 101

4 100

3 011

0 000

TABLA. N° 5[11].

6.1.10Compresión de voz

Se ha realizado desde hace bastantes años, sobre todo para aplicaciones en

comunicaciones telefónicas (300-3400 Hz) y el modelo psicoacústico se basó más

en las características del tracto vocal humano que en las características

perceptuales, es decir, las propiedades del sistema auditivo.

6.1.11Compresión de audio genérico:

El objetivo es la compresión de audio de “alta fidelidad”, en principio con un

ancho de banda de 20 Hz a 20 kHz. El primer estándar internacional fue MPEG

(Motion Picture ExpertsGroup).

El modelo psicoacústico se basa principalmente en las características perceptuales

del sistema auditivo humano.


64

“Debilidades” del oído aprovechables para compresión”

• Resolución dependiente de la frecuencia

El oído no es capaz de discernir diferencias pequeñas en frecuencia dentro de las

bandas críticas.

• Enmascaramiento auditivo

Cuando dos señales de frecuencias cercanas están ambas presentes, la más intensa

enmascara a la menos intensa.

Una señal enmascarada debe ser más intensa que cierto umbral de ruido para que

pueda percibirse. Esto hace posible introducir ruido de cuantificación inaudible.

Los principales estándares de compresión son MPEG y Dolby AC3.

En MPEG se define el decodificador, o más bien los parámetros del flujo binario

a decodificar. El codificador no se define, pero debe cumplir con producir un

flujo binario válido (compliant).

6.1.12 DETALLES TÉCNICOS

En esta capa existen varias diferencias respecto a los estándares MPEG-1 y

MPEG-2, entre las que se encuentra el llamado banco de filtros híbrido que hace

que su diseño tenga mayor complejidad. Esta mejora de la resolución frecuencial

empeora la resolución temporal introduciendo problemas de pre-eco que son

predichos y corregidos. Además, permite calidad de audio en tasas tan bajas como

64Kbps.


65

6.1.13BANCO DE FILTROS

El banco de filtros utilizado en esta capa es el llamado banco de filtros híbrido

polifase/MDCT. Se encarga de realizar el mapeado del dominio del tiempo al de

la frecuencia tanto para el codificador como para los filtros de reconstrucción del

decodificador. Las muestras de salida del banco están cuantizadas y proporcionan

una resolución en frecuencia variable, 6x32 o 18x32 subbandas, ajustándose

mucho mejor a las bandas críticas de las diferentes frecuencias. Usando 18

puntos, el número máximo de componentes frecuencialeses: 32 x 18 = 576.

Dando lugar a una resolución frecuencial de: 24000/576 = 41,67 Hz (si

fs = 48 Khz.). Si se usan 6 líneas de frecuencia la resolución frecuencial es

menor, pero la temporal es mayor, y se aplica en aquellas zonas en las que se

espera efectos de preeco (transiciones bruscas de silencio a altos niveles

energéticos).

Según su respuesta en frecuencia, los filtros se pueden clasificar básicamente en

cuatro categorías diferentes:

Filtro pasa bajos: Son aquellos que introducen muy poca atenuación a las

frecuencias que son menores que una determinada, llamada frecuencia de corte.

Las frecuencias que son mayores que la de corte son atenuadas fuertemente.

Filtro pasa altos: Este tipo de filtro atenúa levemente las frecuencias que son

mayores que la frecuencia de corte e introducen mucha atenuación a las que son

menores que dicha frecuencia.

Filtro pasa banda: En este filtro existen dos frecuencias de corte, una inferior y

otra superior. Este filtro sólo atenúa grandemente las señales cuya frecuencia sea

menor que la frecuencia de corte inferior o aquellas de frecuencia superior a la

frecuencia de corte superior. Por tanto, sólo permiten el paso de un rango o banda

de frecuencias sin atenuar.


66

Filtro elimina banda: Este filtro elimina en su salida todas las señales que tengan

una frecuencia comprendida entre una frecuencia de corte inferior y otra de corte

superior. Por tanto, estos filtros eliminan una banda completa de frecuencias de

las introducidas en su entrada, tal como se muestra en la Fig. N° 27.

FIG. N° 27 Esquema de filtros

6.2 EL MODELO PSICOACÚSTICO

La compresión se basa en la reducción del margen dinámico irrelevante, es decir,

en la incapacidad del sistema auditivo para detectar los errores de cuantificación

en condiciones de enmascaramiento. Este estándar divide la señal en bandas de

frecuencia que se aproximan a las bandas críticas, y luego cuantifica cada

subbanda en función del umbral de detección del ruido dentro de esa banda. El

modelo psicoacústico utiliza un método denominado predicción polinómica. 6

Analiza la señal de audio y calcula la cantidad de ruido que se puede introducir

en función de la frecuencia, es decir, calcula la “cantidad de enmascaramiento” o

umbral de enmascaramiento en función de la frecuencia.

El codificador usa esta información para decidir la mejor manera de gastar los bits

disponibles. Los estudios demuestran que la distorsión generada es imperceptible

para el oído experimentado en un ambiente óptimo desde los 256 kbps y en

condiciones normales. Para el oído no experimentado, o común, con 128 kbps o

hasta 96 kbps basta para que se oiga "bien" (a menos que se posea un equipo de

audio de alta calidad donde se nota excesivamente la falta de graves y se destaca

el sonido de "fritura" en los agudos). En personas que escuchan mucha música o


67

que tienenexperiencia en la parte auditiva,desde 192 o 256 kbps basta para oír

bien. La música que circula por Internet, en su mayoría, está codificada entre 128

y 192 kbps.[6].

6.2.1 CODIFICACIÓN Y CUANTIFICACIÓN

La solución que propone este estándar en cuanto a la repartición de bits o ruido,

se hace en un ciclo de iteración que consiste de un ciclo interno y uno externo.

Examina tanto las muestras de salida del banco de filtros como el SMR (signal-

to-mask ratio) proporcionado por el modelo psicoacústico, y ajusta la asignación

de bits o ruido, según el esquema utilizado, para satisfacer simultáneamente los

requisitos de tasa de bits y de enmascaramiento. Dichos ciclos consisten en:

6.2.2 CICLO INTERNO

El ciclo interno realiza la cuantización no-uniforme de acuerdo con el sistema de

punto flotante (cada valor espectral MDCT: ModifiedDiscreteCosineTransform se

eleva a la potencia 3/4). El ciclo escoge un determinado intervalo de cuantización

y, a los datos cuantizados, se les aplica codificación de Huffman en el siguiente

bloque. El ciclo termina cuando los valores cuantizados que han sido codificados

con Huffman usan menor o igual número de bits que la máxima cantidad de bits

permitida [16].

6.2.3CICLO EXTERNO

Ahora el ciclo externo se encarga de verificar si el factor de escala para cada

subbanda tiene más distorsión de la permitida (ruido en la señal codificada),

comparando cada banda del factor de escala con los datos previamente calculados

en el análisis psicoacústico. El ciclo externo termina cuando una de las siguientes

condiciones se cumple:

* Ninguna de las bandas del factor de escala tiene mucho ruido.

* Si la siguiente iteración amplifica una de las bandas más de lo permitido.


68

* Todas las bandas han sido amplificadas al menos una vez.

6.2.4EMPAQUETADO O FORMATEADOR DE BITSTREAM

Este bloque toma las muestras cuantificadas del banco de filtros, junto a los datos

de asignación de bits/ruido y almacena el audio codificado y algunos datos

adicionales en las tramas. Cada trama contiene información de 1152 muestras de

audio y consiste de un encabezado, de los datos de audio junto con el chequeo de

errores mediante CRC y de los datos auxiliares (estos dos últimos opcionales). El

encabezado nos describe cuál capa, tasa de bits y frecuencia de muestreo se están

usando para el audio codificado. Las tramas empiezan con la misma cabecera

desincronización ydiferenciación y su longitud puede variar. Además de tratar

con esta información, también incluye la codificación Huffman de longitud

variable, un método de codificación entrópica que sin pérdida de información

elimina redundancia. Actúa al final de la compresión para codificar la

información. Los métodos de longitud variable se caracterizan, en general, por

asignar palabras cortas a los eventos más frecuentes, dejando las largas para los

más infrecuentes [7].

6.2.5 ESTRUCTURA DE UN FICHERO MP3

Un fichero MP3 se constituye de diferentes frames MP3 que a su vez se

componen de una cabecera MP3 y los datos MP3. Esta secuencia de datos es la

denominada "stream elemental". Cada uno de los Frames son independientes, es

decir, una persona puede cortar los frames de un fichero MP3 y después

reproducirlos en cualquier reproductor MP3 del Mercado. El grafico muestra que

la cabecera consta de una palabra de sincronismo que es utilizada para indicar el

principio de un frame válido. A continuación siguen una serie de bits que indican

que el fichero analizado es un fichero Standard MPEG y si usa o no la capa 3.


69

Después de todo esto, los valores difieren dependiendo del tipo de archivo MP3.

Los rangos de valores quedan definidos en la ISO/IEC 11172-3 [11].

6.2.6TRANSFORMADA DE FOURIER DISCRETA Y FICHERO MP3

En matemáticas, la transformada de Fourier discreta, designada con frecuencia

por la abreviatura DFT , y a la que en ocasiones se denomina transformada de

Fourier finita, es una transformada de Fourier ampliamente empleada en

tratamiento de señales y en campos afines para analizar las frecuencias presentes

en una señal muestreada, resolver ecuaciones diferenciales parciales y realizar

otras operaciones, como convoluciones. Es utilizada en el proceso de elaboración

de un fichero MP3.

6.2.7 CÓDEC DE AUDIOY TIPO DE CÓDEC.

Un códec de audio es un códec que incluye un conjunto de algoritmos que

permiten codificar y decodificar los datos auditivos, lo cual significa reducir la

cantidad de bits que ocupa el fichero de audio. Sirve para comprimir señales o

ficheros de audio con un flujo de datos (stream) con el objetivo de que ocupan el

menor espacio posible, consiguiendo una buena calidad final, y

descomprimiéndolos para reproducirlos o manipularlos en un formato más

apropiado. Se implementa en software, hardware o una combinación de ambos.

Si obviamos las pérdidas producidas por el error de cuantificación, que en

muchos casos son inapreciables, los códecs pueden ser, según el tipo de

compresión, con pérdidas (lossy) o sin pérdidas (lossless).

6.2.8 CÓDECS DE AUDIO CON PÉRDIDAS

En audio se aprovechan las limitaciones del sistema auditivo humano (margen

frecuencial, umbral de audición, enmascaramiento temporal y/o enmascaramiento

frecuencial para comprimir los datos de audio. Se usan diferentes métodos para

eliminar los datos inaudibles:


70

Transformada en el dominio frecuencial y eliminación de las frecuencia

inaudibles (inferiores a 20Hz y superiores a 20kHz, u enmascaradas por

otras frecuencias de mayor potencia).

División del señal en subbandas de frecuencia que se aproximan a

las bandas críticas y cuantificar cada subbanda en función de un umbral de

detección del ruido dentro de la subbanda. De esta forma se analiza el señal

de audio y se calcula la cantidad de ruido (pérdidas inapreciables) que se

pueden introducir a cada rango de frecuencias, es decir, el umbral de

enmascaramiento.

Predicción de datos.

Caracterización de la voz a partir de una parametrización.

El nivel de compresión se puede controlar y depende de la calidad que se quiera

obtener, el tamaño del fichero, el ancho de banda de la red, el tiempo de

compresión.

Usualmente se utilizan compresiones máximas para transmisiones, especialmente

cuando son servicios en directo como telefonía (telefonía IP o celular) o

reproducciones en directo como podcasting (radio por internet o programas de

audio por internet).

6.2.9 CÓDECS DE AUDIO SIN PÉRDIDAS

Estos códecs utilizan una compresión sin pérdidas para minimizar el tamaño del

flujo de datos. Para realizar esta codificación se utilizan algoritmos basados en la

eliminación de la redundancia de la señal de audio, y por lo tanto en el grado de

predicibilidad de la información. Si la señal tiene patrones repetitivos, éste es

redundante y por lo tanto fácil de predecir.


71

Usualmente los patrones repetitivos de señal son más evidentes en otro dominio

(temporal, frecuencial...), es por esto que la transformación de la señal en función

de éstos patrones permitirá reducir o eliminar la redundancia.

En audio, igual que en vídeo, imagen o datos, la eliminación de la redundancia se

implementa:

Transformaciones en otro dominio donde los patrones repetitivos sean más

evidentes.

Predicción.

Codificación entrópica: codificación de Huffman, codificación aritmética,

RunLengthCoding (RLE).

6.3 ESPECTROS SONOROS

La información acerca de qué frecuencias integran un sonido y cuáles son las

respectivas amplitudes y fases constituye lo que se denomina espectro del sonido.

Se suele representar con un par de gráficos con la frecuencia en las abscisas, y en

las ordenadas la amplitud o energía en uno y la fase en el otro. En este artículo se

definirán los cuatro tipos de espectros que existen.

Existen cuatro tipos de espectros. El primero de ellos (Fig.N° 28) corresponde a

los sonidos periódicos. El espectro en este caso está formado por líneas verticales

equiespaciadas, siendo la primera la correspondiente a la frecuencia fundamental

o primer armónico, la segunda al segundo armónico, y así siguiendo. La altura de

cada línea espectral es la amplitud del armónico respectivo. Un caso particular lo

constituye un tono puro de frecuencia f0. Los tonos puros se encuentran rara vez

en la naturaleza, pero son de extraordinaria importancia como herramienta de

análisis, ya que todo sonido puede considerarse como formado por la

superposición de tonos puros de diversas frecuencias.


72

FIG. N°28 Superposición de diversas frecuencias.

El segundo tipo (Fig. N° 29) de espectro corresponde a los sonidos no periódicos

con frecuencias identificables. En este caso el espectro contiene líneas espectrales

con separaciones no uniformes. Tanto en este caso como en el anterior, el

espectro se denomina discreto.

FIG. N°29 Espectro discreto

El tercer tipo (Fig. N° 30) se trata de los sonidos de espectro continuo, no

periódicos, cuyas componentes están demasiado próximas como para poder

discriminarse.


73

FIG. N° 30 Espectro continuo.

Debido a la gran cantidad de líneas que implicaría una representación mediante

líneas espectrales, se representa la densidad espectral, que es la energía por

unidad de frecuencia (Fig.N° 31).

FIG. N° 31 Densidad espectral.

El cuarto tipo de espectro(Fig. N° 32) es el espectro mixto, que es la

superposición de un sonido de espectro continuo y uno o más de espectro

discreto. De este tipo son la mayoría de los sonidos que percibimos.


74

FIG. N° 32 Superposición de espectro continuo y discreto.

6.3.1 TRANSFORMADA RAPIDA DE FOURIER Y COMPRESION DE

AUDIO

Efectivamente se demuestra que la Transformada de Fourier es una herramienta

que ha dado inicio el camino de la comprensión de Audio y Video, además la

tecnología de comprensión de audio mediante la Transformada de Fourier ha

originado que los investigadores diseñen algoritmos basados en la transformada

de Fourier que permitan comprimir eficientemente archivos grandes en pequeños,

para mostrar la potencia de la Transformada de Fourier muestro un ejemplo

desarrollado en la que se muestra un programa útil elaborado en MATLAB, la

misma que fue presentada como ejemplo en el curso de Matemáticas Avanzadas

en la FIEE de la UNAC (Código fuente en Apéndice) el resultado se da en la

Fig.Nº 33.

6.3.2 Ejemplo de Comprensión de voz por medio de la transformada de

Fourier en MATLAB (Programa fuente en la sección Apéndice)

Se muestra en la Fig. N°33.La entrada es un señal analógica o continua

(señal original), voz de un alumno Matemática Avanzada del ciclo 2012-

A, también se muestra la magnitud de la transformada de Fourier y

mediante la transformada inversa se tiene la señal comprimida de la voz, si


75

se compara la señal original y la que resulta es prácticamente la misma lo

cual muestra la eficiencia del algoritmo FFT en la compresión de audio.

Fig.Nº33 Compresión de voz por medio de TFF


75





75





76

VIIDISCUSION

7.1Conclusiones

1La Transformada de Fourier es una herramienta matemática eficiente para

el tratamiento de señales continuas y discretas, siendo el algoritmo FFT que

muestra la potencia de compresión de una señal continua en un archivo

MP3.

2El formato MP3 es un formato de compresión de audio estándar en el

mundo de la música que proporciona un sonido de calidad muy cerca al

formato WAV del CD, pero con relaciones de compresiones de tasa más

altasque hacen que este formato sea preferido en el mundo de la música.

7.2Recomendaciones

Se debe de aplicar otros algoritmos de la TFF a fin de minimizar el tiempo

de proceso y mejorar la calidad comprensión de audio.

El estudio de la Transformada de Fourier se debe extender a la

Transformada de Wavelets que constituye actualmente un campo de

investigación muy requerida en tratamiento de señales.

En la EAP de Ingeniería Electrónica de la FIEE-UNAC se debe

implementar el curso de PDS (PDS: Procesamiento Digital de Señales),

que permita implementar aplicaciones a la ingeniería de sonido y video.


77

VIII REFERENCIAS

[1]Berkhout,P.J.yEggermontL.D.J."DigitalAudioSystemas",IEEEASSPMagazine,vol.2,Octubre1985,( pgs.45-69)

2 Borrelli Robert y Courney, S. Coleman ECUACIONES DIFERENCIALES

CON MODELAMIENTO, primera edición, Editorial Prince Hall, México 2002.(Pgs.243-347)

[3]BRACEWELL R., The Fourier Transform and its Applications, McGraw-Hill,New York, 1965.(pgs. 12-45) 4 CATAÑA VILLAR, Antonio. Series de Fourier y Aplicaciones, Madrid:

Editorial Pirámide, primera edición ,2002.( Pgs.115-140).

[5] CHURCHILL, Complex Variables and Applications, McGraw-Hill, NewYork, 1960,(Pgs. 9-24)

[6] COLEMAR ANTONIO, El sonido digital:formatos,captura,edición,manipulación, conversión y grabación. Madrid,2010,(Pgs.3-56)[7] CRESPO JULIO, Guía esencial MP3, Madrid, Prentice Hall, 2009,

(Pgs.2- 43).

8

E.KREYSZIG.MatematicasAvanzadasparaingenierıa,volumenII.LimusaWiley,3ra edición,2000.(Pgs.86-102). 9 H.F.DAVIS.Fourier SeriesandOrthogonalFunctions.DoverPublications,nc.,

1963.(Pgs. 67-129) 10 LINDERD. Introducciónalasseñalesylossistemas. McGrawHill,2002.

[11] MARCELO JUAN F., EVA MARTIN, MP3, MADRID, Ed. AnayaMultimedia, 2000.(Pgs. 2-27)

12 M.J. Roberts. SeñalesySistemas. Análisismediante métodos detransformaday

MatLab. McGrawHill,2005.(Pgs.23-68)


78

13 OOPENHEIM, Alan V. Señales y Sistemas. México: Editorial Prentice Hall,

segunda edición ,1994. (Pgs.173-373)

14 Proakis J.G.and.Manolakis D.G.

TratamientoDigitaldeSenales.PrenticeHall, 1998.(Pgs.3, 4,5, 10, 13, 88, 211,233).

15 SoriaOlivasE.,MartınezSober M

,J.V.FrancesVillora,andG.CampsValls.TratamientoDigitaldeSenales.Problemasyejerciciosresueltos. PrenticeHall,Madrid, 2003.(Pgs . 1,233)

[16]Zwicker,E.yFastl,H.Psychoacoustics:FactsandModels,Springer,Berlín,1990,(Pgs. 5-43)


79

APÉNDICE1 Código fuente de Comprensión de voz por medio de Transformada deFourier.


80


81


82


83


84


85


86


87


88

2 Resultado de compresión de voz al correr el programa fuente en MATLAB.


88



88



89

ANEXO

1 TRANSFORMADA DE FOURIER Y EL ALGORITMO FFT(FCEF Y N UNIVERSIDAD

NACIONAL DE CORDOVA )

Date post:	20-Sep-2018
Category:	Documents
Upload:	ngobao
View:	266 times
Download:	8 times

Informe Final del Proyecto de Investigación...

Documents