Anda di halaman 1dari 154

INSTITUTO POLITÉCNICO NACIONAL

ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y ELÉCTRICA


UNIDAD PROFESIONAL “ADOLFO LÓPEZ MATEOS”

“GRABADORA DIGITAL DE VOZ PARA UNA PC"

T E S I S

QUE PARA OBTENER EL TÍTULO DE:


INGENIERO EN COMUNICACIONES Y ELECTRÓNICA

P R E S E N T A N

ANTONIO BAUTISTA GUSTAVO


CUREÑO MARTÍNEZ HUMBERTO YAHVEH

ASESORES:

ING. ALEJANDRO VICENTE LUGO SILVA


M. EN C. GENARO ZAVALA MEJÍA

MÉXICO, D.F. SEPTIEMBRE DE 2013


GRABADORA DIGITAL DE VOZ PARA UNA PC

Agradecimientos

Desde el primer día de vida hasta el último de la ingeniería, cada paso, cada persona, cada
recuerdo, me han hecho ser quien soy. He forjado mi propio camino y no pretendo corregirlo,
pues nada cambiaría de él. Del mismo modo seguiré labrando mi camino para ser cada día mejor.
Gracias a todos los que han estado conmigo y en especial quiero agradecer:

A mis padres: por ser pilares fundamentales en mi vida y educación; por todo su cariño,
comprensión, confianza, enseñanzas y apoyo incondicional hacia mí, por demostrarme con su
ejemplo que no hay imposibles cuando realmente quieres conseguir algo. Porque de ellos aprendí
que no debes dejar que nada te desvié del camino que te has fijado y mantenlo hasta el final, serle
fiel y ser todo lo que quieras ser.

A mis hermanos: porque sé que cuento con ellos en todo en todo momento y porque para mí
siempre han sido un claro ejemplo del don de la perseverancia. Porque desde siempre me han
enseñado que el esfuerzo, dedicación, constancia, disciplina, trabajo, sacrificio y confianza en uno
mismo son indispensables para llegar al éxito.

A mis tutores: por guiarme y ayudarme en éste camino para lograr la culminación de ésta tesis
con mucho éxito. Porque gracias a ellos aprendí que todo gran éxito es una acumulación de
pequeños esfuerzo realizados diariamente.

Una meta de muchas más alcanzada. En el camino muchas veces he tropezado y gracias a ustedes
aprendí a levantarme. Nunca se fracasa hasta que se deja de intentar.

Gustavo Antonio Bautista

ii
GRABADORA DIGITAL DE VOZ PARA UNA PC

Agradecimientos

Quiero dedicar este trabajo de tesis, que es resultado de la formación que he recibido de
muchas personas, de las cuales, las más importantes son mis padres y mi hermano a quienes
dedico este trabajo. He tenido la fortuna de vivir 23 años gloriosos llenos de amor y calor de
una familia, de un ejemplo y miles de enseñanzas que jamás podré pagarte a ti mamá y a ti
papá. A ti hermano, mi mejor amigo, nunca dejarás de ser mi mejor ejemplo a seguir y mi
mayor admiración. Por todas esas bendiciones de Dios, de la vida, solo puedo decir ¡gracias!

Quiero agradecer a Mario Cureño y Jaime Cureño por su apoyo incondicional a lo largo de mi
formación académica. A mi familia, amigos y a quienes han sido participes en que haya podido
lograr esta meta en mi vida. A mi sobrino Yahveh Cureño, por sus risas y alegría que me
compartía en esos días de intenso trabajo, a quien mi mayor deseo es una vida llena de amor
y éxito.

Quedo completamente agradecido al Instituto Politécnico Nacional, la casa de estudios que


me brindó una educación superior y una forma de ver la vida diferente. A los profesores y
personal que velan porque los estudiantes de esta institución sean profesionistas de calidad,
brindando lo mejor de ellos, como lo fueron las enseñanzas y apoyo de nuestros asesores de
tesis; quienes nos enseñaron el camino de la perseverancia y si se ha llegado a este objetivo es
también gracias a ellos.

Humberto Yahveh Cureño Martínez

iii
GRABADORA DIGITAL DE VOZ PARA UNA PC

GRABADORA DIGITAL DE VOZ PARA UNA PC

Índice general

Índice general .................................................................................................................... iv


Índice de figuras ................................................................................................................ vii
Índice de tablas ...................................................................................................................x
Objetivo general ................................................................................................................ xii
Objetivos particulares .................................................................................................... xii
Justificación ..................................................................................................................... xiii
Introducción ....................................................................................................................... 1
Capítulo 1: Antecedentes y estado del arte ......................................................................... 3
1.1 Sonido, audio y voz ................................................................................................... 4
1.2 Grabación del Sonido ................................................................................................ 5
1.2.1 Grabación analógica y digital .............................................................................. 6
1.2.2 Almacenamiento digital del audio ........................................................................ 7
1.3 Evolución del hardware y software para grabación de audio ..................................... 11
Capítulo 2: Marco teórico.................................................................................................. 17
2.1 Estructura de un sistema de grabación de audio digital............................................. 19
2.1.1 Micrófonos ........................................................................................................ 21
2.2 Etapa de acondicionamiento analógico.................................................................... 26
2.2.1 Acoplamiento .................................................................................................... 26
2.2.2 Amplificación .................................................................................................... 27
2.2.3 Relación señal/ruido.......................................................................................... 30
2.2.4 Distorsión.......................................................................................................... 31
2.2.5 Respuesta en frecuencia ................................................................................... 31
2.2.6 Filtrado ............................................................................................................. 32
2.3 Conversión analógico-digital ................................................................................... 41
2.3.1 Muestreo........................................................................................................... 43
2.3.2 Cuantificación y codificación ............................................................................. 44

Índice general iv
GRABADORA DIGITAL DE VOZ PARA UNA PC
2.4 Transmisión serie de datos ...................................................................................... 51
2.4.1 Comunicación RS-232 y sus características ...................................................... 51
2.4.2 UART .......................................................................................................................... 55
2.4.3 Construcción física DB-9 ................................................................................... 56
2.5 Almacenamiento digital ........................................................................................... 60
2.5.1 RIFF ............................................................................................................................ 61
2.5.2 Estructura de un archivo WAV ........................................................................... 62
2.5.3 MP3 ................................................................................................................. 66
Capítulo 3: Diseño de hardware y software ....................................................................... 68
3.1 Micrófono SHURE C606N ....................................................................................... 69
3.2 Etapa de acondicionamiento y acoplamiento ........................................................... 70
3.2.1 Amplificador de pequeña señal.......................................................................... 70
3.2.2 Filtro pasa-bajas ............................................................................................... 72
3.2.3 Resultados........................................................................................................ 73
3.3 Codificación de la señal acondicionada.................................................................... 76
3.3.1 Módulo convertidor analógico-digital ................................................................. 76
3.3.2 Software de adquisición de datos ...................................................................... 77
3.4 Transmisión de datos (USART) ............................................................................... 81
3.4.1 Software de transmisión de datos ...................................................................... 82
3.4.2 Interfaz de Comunicación del Microcontrolador con la PC .................................. 89
3.5 Prototipo final del hardware ..................................................................................... 90
3.6 Software de la Interfaz Gráfica de Usuario ............................................................... 92
Capítulo 4: Resultados experimentales .......................................................................... 100
4.1 Sistema de adquisición de datos............................................................................ 101
4.1.1 Respuesta del micrófono ................................................................................. 101
4.1.2 Respuesta del filtro.......................................................................................... 102
4.2 Comunicación entre el microcontrolador y la Interfaz Gráfica de Usuario ................. 104
4.3 Uso de la Interfaz Gráfica de Usuario ..................................................................... 107
4.4 Archivo final de la Grabación ................................................................................. 108
4.5 Pruebas de funcionamiento ................................................................................... 110
4.5.1 Portabilidad del archivo ................................................................................... 110
4.5.2 Grabación en un periodo largo......................................................................... 114

Índice general v
GRABADORA DIGITAL DE VOZ PARA UNA PC

Índice de figuras

Capítulo 1. Antecedentes y estado del arte

Figura 1. 1 Fonógrafo .................................................................................................................. 11


Figura 1. 2 Disco de Vinilo ................................................................................................... 11
Figura 1. 3 Cassette ..................................................................................................................... 11
Figura 1. 4 Compact Disc (CD) ..................................................................................................... 11
Figura 1. 5 Grabadora Digital de voz ............................................................................................ 11
Figura 1. 6 Software Audacity ...................................................................................................... 14
Figura 1. 7 Software Free Audio Editor ......................................................................................... 15
Figura 1. 8 Software Adobe Audition .................................................................................... 15
Figura 1. 9 Software Pro Tools ..................................................................................................... 16

Capítulo 2. Marco teórico

Figura 2. 1 Diagrama a bloques de un sistema ............................................................................. 18


Figura 2. 2 Diagrama de las etapas funcionales que conforman el sistema de la grabadora de voz 20
Figura 2. 3 Diagrama a bloques de un transductor electroacústico ............................................... 21
Figura 2. 4 Micrófono es tanto mejor cuanto más rectilíneo sea su curva de respuesta de
frecuencia. 1) Micrófono de calidad. 2) Micrófono con poca sensibilidad a tonos bajos. 3)
Micrófonos con poca sensibilidad a los tonos altos. 4) Micrófono de baja calidad ........................ 22
Figura 2. 5 Diagramas polares de campos unidireccionales, micrófonos bidireccionales y
omnidireccionales ....................................................................................................................... 22
Figura 2. 6 Curva de directividad: a) Omnidireccional, b) Semidireccional, c) Bidireccional, d)
Unidireccional ............................................................................................................................. 25
Figura 2. 7 Terminales de un amplificador operacional de propósito general ............................... 27
Figura 2. 8 Polaridad de voltaje y dirección de corrientes para amplificadores no inversores ....... 29
Figura 2. 9 Respuesta en frecuencia para cuatro categorías de filtros. ......................................... 33
Figura 2. 10 Filtro pasa-bajas y gráfica de respuesta en frecuencia para un filtro con una pendiente
de -20 dB/década ............................................................................................................... 34
Figura 2. 11 Circuito y gráfica de respuesta en frecuencia para un filtro pasa-bajas de -40
dB/década ................................................................................................................................... 37
Figura 2. 12 Circuito y gráfica de respuesta en frecuencia para un filtro pasa-bajas de -60
dB/década ................................................................................................................................... 39
Figura 2. 13 Gráfica de respuesta en frecuencia para tres tipos de filtros pasa-bajas Butterworth 40
Figura 2. 14 (a) Representación de una señal analógica y (b) Representación de una señal digital 41
Figura 2. 15 Etapas de un convertidor analógico-digital ............................................................... 42
Figura 2. 16 Muestreo de una señal analógica ............................................................................. 43
Figura 2. 17 Cuantificación de una señal analógica ...................................................................... 44

Índice de figuras vii


GRABADORA DIGITAL DE VOZ PARA UNA PC

Figura 2. 18 Codificación de una señal analógica ......................................................................... 45


Figura 2. 19Función de transferencia de un ADC unipolar ............................................................ 47
Figura 2. 20 Función de transferencia de un ADC bipolar ............................................................. 47
Figura 2. 21 a) Periodo de muestreo y b) redondeo de las muestras a valores discretos durante el
proceso de la cuantización y codificación .................................................................................... 49
Figura 2. 22 Cable Serial con adaptador USB ............................................................................... 51
Figura 2. 23 Ejemplo de la transmisión de un carácter ................................................................. 52
Figura 2. 24 a) Conectores DB-25 macho/hembra respectivamente y conectores DB-9
macho/hembra respectivamente................................................................................................. 53
Figura 2. 25 Diagrama de comunicación entre un DTE y un DCE a través de una interface serial ... 54
Figura 2. 26 Diagrama a bloques de la conexión entre el CPU y la USART ..................................... 55
Figura 2. 27 Diagrama de pines del conector DB-9 ....................................................................... 57
Figura 2. 28 Diagrama del conector DB-9 con adaptador USB ...................................................... 58

Capítulo 3. Diseño de hardware y software

Figura 3. 1 Diagrama a bloques del sistema grabadora de voz ...................................................... 69


Figura 3. 2 Micrófono Shure C606N ............................................................................................. 69
Figura 3. 3 Función de transferencia del micrófono C606N dada por el fabricante ........................ 70
Figura 3. 4 Bloques de la etapa de acondicionamiento de la señal ............................................... 70
Figura 3. 5 Circuito amplificador de pequeña señal ...................................................................... 71
Figura 3. 6 Filtro activo pasa bajas de 4000 Hz ............................................................................. 73
Figura 3. 7 Circuito de acondicionamiento de la señal .................................................................. 73
Figura 3. 8 Respuesta del filtro pasa bajas de 4000 Hz ................................................................. 74
Figura 3. 9 PCB de la etapa de acondicionamiento de la señal ...................................................... 75
Figura 3. 10 Diagrama del circuito impreso del filtro pasa bajas a 4 KHz ....................................... 75
Figura 3. 11 Circuito de la etapa de acondicionamiento de la señal .............................................. 75
Figura 3. 12 Diagrama de flujo del programa principal de la adquisición de datos en el
microcontrolador ............................................................................................................... 78
Figura 3. 13 Diagrama de flujo de la función config() para la configuración de puertos ................. 79
Figura 3. 14 Diagrama de flujo de la función cfgADC() para la configuración del ADC ................... 79
Figura 3. 15 Diagrama de flujo de la función getADC() para conseguir el resultado del muestreo.. 81
Figura 3. 16 Diagrama de flujo de la función configUSART() para la configuración del puerto serial
........................................................................................................................................................... 82
Figura 3. 17 Diagrama de flujo de la función TXbyte() para el envío de datos ............................... 83
Figura 3. 18 Tiempo de muestreo y de transmisión de datos sin retardo ................................... 85
Figura 3. 19 Diagrama de flujo de la función configTemp0() para el retardo ................................. 86
Figura 3. 20 Software PIC Timer Calculator para el cálculo de TMR0H y TMR0L ............................ 87
Figura 3. 21 Tiempo de muestreo y de transmisión de datos acondicionado a 1 ms ..................... 88
Figura 3. 22 Diagrama de conexión entre el microcontrolador y el puerto serial a través del MAX
232 ................................................................................................................................... 89

Índice de figuras viii


GRABADORA DIGITAL DE VOZ PARA UNA PC

Figura 3. 23 PCB del circuito MAX 232 para la comunicación serial entre la PC y el microcontrolador
........................................................................................................................................................... 89
Figura 3. 24 Circuito PCB del circuito MAX232 para la comunicación serial entre la PC y el
microcontrolador ............................................................................................................... 90
Figura 3. 25 Hardware del sistema de adquisición de datos ......................................................... 90
Figura 3. 26 Diagrama de flujo del programa principal de la Interfaz Gráfica de Usuario ............... 92
Figura 3. 27 Diagrama de flujo del programa principal de la Interfaz Gráfica de Usuario ............... 93
Figura 3. 28 Asignación de nombre COM3 al puerto serial en el “Administrador de dispositivos” de
Windows ........................................................................................................................... 93
Figura 3. 29 Diagrama de flujo de la etapa de grabación en memoria temporal ............................ 94
Figura 3. 30 Diagrama de flujo de la etapa de graficación del espectro resultante. ....................... 95
Figura 3. 31 Diagrama de flujo para guardar un archivo WAV ....................................................... 96
Figura 3. 32 Diagrama de flujo del botón “Nueva grabación” ....................................................... 97
Figura 3. 33 Diagrama de flujo para asignar dimensiones de la grabación a la cabecera
correspondiente .......................................................................................................................... 97
Figura 3. 34 Diagrama de flujo para convertir archivo WAV en MP3 ............................................. 98
Figura 3. 35 Vista general de la Interfaz Gráfica de Usuario en C# para iniciar una grabación ....... 99

Capítulo 4. Resultados experimentales

Figura 4. 1 Señal de voltaje de salida del micrófono ............................................................. 101


Figura 4. 2 Diagrama de un proceso ............................................................................................102
Figura 4. 3 Señal de voltaje de salida del micrófono con la etapa de acondicionamiento .............102
Figura 4. 4 Respuesta del filtro pasa bajas de 4000 Hz ................................................................104
Figura 4. 5 Comparación de la señal de entrada del generador contra la señal en la IGU .............105
Figura 4. 6 Respuesta en frecuencia del sistema en la IGU ..........................................................106
Figura 4. 7 Elementos de la Interfaz Gráfica de Usuario ..............................................................107
Figura 4. 8 Archivos generados en carpeta destino .....................................................................109
Figura 4. 9 a) Espacio de almacenamiento en disco del archivo WAV b) Duración y velocidad en
bits del archivo WAV ........................................................................................................ 109
Figura 4. 10 a) Duración y velocidad en bits del archivo MP3 b) Extensión MP3 y espacio en
disco del archivo MP3 ....................................................................................................... 110
Figura 4. 11 Archivos WAV y MP3 en el explorador de Windows .................................................111
Figura 4. 12 Reproductor de Windows Media Player ...................................................................111
Figura 4. 13 Archivos WAV y MP3 en el explorador de archivos Finder de Mac OS ......................112
Figura 4. 14 Reproductor iTunes de Mac OS ...............................................................................112
Figura 4. 15 Archivos WAV y MP3 en el explorador de archivos de Linux Ubuntu ........................113
Figura 4. 16 Reproductor de música Totem 3.0.1 de Linux Ubuntu ..............................................113
Figura 4. 17 Resultado de la grabación de 1 hora continua ..........................................................114
Figura 4. 18 Diferencia de tiempo de un cronometro contra la IGU en una hora. ..................... 115
Figura 4. 19 Diferencia de tiempo de un cronometro contra la IGU. ....................................... 116
Figura 4. 20 Gráfica estadística de inteligibilidad del mensaje en una grabación .........................118

Índice de figuras ix
GRABADORA DIGITAL DE VOZ PARA UNA PC

Índice de tablas

Capítulo 1. Antecedentes y Estado del Arte

Tabla 1. 1 Formatos de archivos de audio libres ............................................................................. 8


Tabla 1. 2 Formatos de archivos de audio abiertos......................................................................... 9
Tabla 1. 3 Formatos de archivos de audio propietarios .................................................................. 9
Tabla 1. 4 Evolución de artefactos y dispositivos grabadores y/o reproductores de audio digital . 12

Capítulo 2. Marco Teórico

Tabla 2. 1 Señales de los pines del conector DB-9 para el RS-232 ................................................. 57
Tabla 2. 2 Estructura de un formato WAV ............................................................................. 62
Tabla 2. 3 Especificaciones de los bloques de un formato WAV .................................................... 63
Tabla 2. 4 Ejemplo de la conformación de un archivo con formato WAV ................................... 64
Tabla 2. 5 Comparación de formatos de calidad de audio ............................................................ 67

Capítulo 3. Diseño de hardware y software

Tabla 3. 1 Configuración del registro ADCON0 ............................................................................. 80


Tabla 3. 2 Función de cada bit del registro ADCON0..................................................................... 80
Tabla 3. 3 Configuración del registro ADCON1 ............................................................................. 80
Tabla 3. 4 Función de cada bit del registro ADCON1..................................................................... 80
Tabla 3. 5 Configuración del registro ADCON2 ............................................................................. 80
Tabla 3. 6 Función de cada bit del registro ADCON2..................................................................... 80
Tabla 3. 7 Configuración de los registros de control de la USART ................................................. 83
Tabla 3. 8 Función de cada bit del registro TXSTA .......................................................................... 83
Tabla 3. 9 Configuración del registro RCSTA ................................................................................ 83
Tabla 3. 10 Función de cada bit del registro RCSTA ........................................................................ 84
Tabla 3. 11 Configuración del registro BAUDCON ........................................................................ 84
Tabla 3. 12 Función de cada bit del registro BAUDCON ................................................................ 84

Capítulo 4. Resultados experimentales

Tabla 4. 1 Respuesta en frecuencia del filtro ...............................................................................103


Tabla 4. 2 Diferencia de tiempo de un cronometro contra la IGU. .......................................... 116
Tabla 4. 3 Estadística de entendimiento del mensaje con grabaciones a diferentes locutores .....117

Índice de tablas x
GRABADORA DIGITAL DE VOZ PARA UNA PC

Apéndice B

Tabla 1. Costos de material para hardware ..................................................................... 133


Tabla 2. Costos de Software utilizado ............................................................................. 134
Tabla 3. Costos de equipo utilizado ................................................................................ 134

Índice de tablas xi
GRABADORA DIGITAL DE VOZ PARA UNA PC

Objetivo general

Diseñar un prototipo de una grabadora digital de voz para una PC usando el microcontrolador
PIC18F4550.

Objetivos particulares

1. Elaborar un sistema de adquisición de datos para la entrada de la señal de voz al PIC


18F4550.
2. Diseñar y construir una interfaz de comunicación entre el microcontrolador y la PC
aplicando el estándar RS-232.
3. Realizar la codificación de los datos obtenidos a un formato estándar de audio.
4. Diseñar e implementar una Interfaz Gráfica de Usuario (IGU) empleando el lenguaje C# y
utilizando una herramienta de código abierto como opción extra, codificarla a MP3.

Objetivo general xii


GRABADORA DIGITAL DE VOZ PARA UNA PC

Justificación

o Ventajas de la grabación digital frente a la analógica

El procesamiento digital de voz es empleado en muchos sistemas de comunicación por las grandes
ventajas que presenta ésta frente a la analógica, entre las cuales está la facilidad de
almacenamiento, transmisión, calidad y una muy importante, un menor margen de ruido. Para el
caso de este proyecto, la finalidad es obtener un mensaje de voz entendible con una calidad baja,
por lo que reduciendo el ancho de banda a 4 KHz y un ancho de palabra de 8 bits, se obtiene una
grabación con calidad telefónica que genera poco espacio de almacenamiento y no requiere un
gran canal para su transmisión.

o Computadoras portátiles sin entrada de línea

En algunos foros de ayuda por internet, se ha planteado una problemática con ciertos modelos de
computadoras portátiles que no cuentan con entrada de micrófono o línea de grabación, por lo
que necesitan un hardware externo para poder realizar una grabación. Este proyecto resuelve esa
problemática usando una interfaz serial o bien USB con el adaptador que es usado para este
mismo.

o Impulso a la investigación y desarrollo nacional

El desarrollo tecnológico en el país es verdaderamente escaso respecto a otros de primer mundo,


por lo que es necesario desarrollar nuevos proyectos propuestos en México para poder contribuir
a nuestro crecimiento tecnológico. Las comunicaciones digitales han tenido gran impacto, lo que la
convierte en un área con muchas oportunidades de participación.

Justificación xiii
GRABADORA DIGITAL DE VOZ PARA UNA PC

Introducción
Las grabaciones caseras han crecido con popularidad día a día, ya que cada vez más personas se
involucran con éste tipo de proyectos de audio. El equipo que se utiliza en estas aplicaciones se ha
vuelto más sofisticado, práctico y accesible. El dispositivo de grabación es el objetivo final en la
trayectoria de la señal. En muchos estudios el dispositivo de grabación, es la computadora; sin
embargo, algunos proyectos de audio requieren de un equipo más complejo.

Una grabadora de sonidos externa, es muy útil para el uso en computadoras portátiles donde no
se cuenta con una entrada de grabación, como es el caso de algunos modelos de portátiles; sin
embargo, usando un hardware externo puede realizarse una grabación. En este proyecto se
desarrollará una grabadora digital de voz para una PC, la cual tendrá la ventaja antes mencionada
de poder usarla en equipos que carecen de entrada de micrófono. Cabe enfatizar la aplicación
para voz, debido a que se busca que el mensaje en la grabación sea entendible y audible
únicamente, reduciendo la calidad de la grabación para tener beneficios de almacenamiento y
transmisión.

Una buena grabación inicia con un principio básico, mientras mejor sea la captura desde la fuente
original, mejor será la salida final de audio; por ello es bueno asegurar que la grabación inicial de
voces sea fuerte, clara y precisa. Recordar la importancia que tiene el lugar donde se hace la
grabación ya que la primera manera de eliminar el ruido ambiental no deseado es asegurarse de
no capturarlo. La elección del tipo de micrófono, la determina el tipo de fuente de sonido; que
para este caso es voz, así que la búsqueda será de un modelo apropiado o bien, alguno de
propósito general que cumpla las expectativas. El micrófono debe colocarse exactamente en el
lugar correcto y mantenerlo ahí, así como recordar buscar adaptadores de calidad en caso de
requerirlos, para evitar falsos contactos, entre otras cosas importantes como el usar los cables
adecuados para reducir ruidos y zumbidos.

La captura de la señal analógica de voz requiere además del micrófono, un sistema de adquisición
de datos que se conforma por un amplificador de pequeña señal, un filtro pasa-bajas y un
microcontrolador. El amplificador de pequeña señal aumenta la ganancia del micrófono,
acondicionando en amplitud la señal para ser digitalizada; además de dicho acondicionamiento es
necesario un filtro pasa-bajas que limita en frecuencia, para sólo hacer uso del rango de
frecuencias necesario que hacen la voz entendible y finalmente el microcontrolador. Mediante un
software creado en lenguaje C, se implementará en el PIC18F4550 la codificación de la señal
analógica de voz, que previamente es acondicionada en amplitud y frecuencia. La voz es codificada
mediante la técnica de modulación PCM. Con un ancho de palabra de 8 bits, los datos serán
enviados a través del módulo USART del microcontrolador a una interfaz de comunicación que se
regirá bajo el estándar RS-232 para la transmisión de los datos a la PC. La comunicación es serial,
por lo que puede ocuparse un puerto DB9 serie o bien, usar un adaptador Serial-USB.

Introducción 1
GRABADORA DIGITAL DE VOZ PARA UNA PC

En la PC, una Interfaz Gráfica de Usuario interpretará dichos datos y codificará para su
almacenamiento bajo el estándar WAV. Adicionalmente con un software de compresión Open
Source será convertido el archivo WAV a MP3 conservando ambos archivos, pero en consecuencia
el segundo con un menor espacio de almacenamiento. El resultado final será una archivo de
audio, de capacidad porcentual a la duración que el usuario señale y que a percepción del oído
humano será entendible y audible, pero que a la perdida de información debido a la limitación en
frecuencia y ancho de palabra de 8 bits, no será de alta calidad; sin embargo, grandes beneficios
serán notables haciéndolo atractivo para su transmisión y almacenamiento. La grabación puede
ser reproducida y escuchada por cualquier reproductor de audio que soporte formato WAV o MP3
a través de algún dispositivo de salida como unas bocinas o audífonos.

Introducción 2
GRABADORA DIGITAL DE VOZ PARA UNA PC

Antecedentes y
Capítulo 1 estado del arte

1.1 Sonido, audio y voz


1.2 Grabación del sonido
1.3 Evolución del hardware y software para
grabación de audio

Capítulo 1: Antecedentes y estado del arte 3


GRABADORA DIGITAL DE VOZ PARA UNA PC

Capítulo 1: Antecedentes y estado del arte

El presente capítulo resume los principales logros y limitaciones de la grabación, reproducción y


almacenamiento de audio, que ha dado lugar a las diversas áreas de manufactura e ingeniería para
el desarrollo y comercialización de tecnología de éste tipo. Así también se exponen los diferentes
tipos formato de archivos de audio actual y los software comerciales más usados hoy en día para
la grabación y edición de audio.

1.1 Sonido, audio y voz

El sonido audible es la sensación producida en el oído a partir las perturbaciones de un cuerpo


vibrante que se propagan en un medio elástico (sólido, líquido o gaseoso) en forma de onda, las
cuales posteriormente el cerebro percibirá y procesara.1

El espectro de frecuencia audible varía según cada persona, sexo, edad, etcétera. Sin embargo
normalmente se acepta como el intervalo entre 20 Hz y 20 KHz. Por debajo de esta medida se
encuentran los infrasonidos que son vibraciones de presión, cuya frecuencia es inferior a la que el
oído humano puede percibir, es decir, de 0 a 20 Hz. Por encima están los ultrasonidos, que son
aquellas ondas cuya frecuencia es superior al margen de audición humana, superior a los 20 KHz.
Entre las características más importantes del sonido tenemos:

 El tono es la velocidad particular de vibración por el cual se caracteriza un sonido y que


reconoce de manera peculiar el sentido auditivo; nos permite diferenciar un sonido de
otros por su frecuencia (grave, agudo o medio). El tono queda determinado por el número
de vibraciones por segundo (frecuencia), así a mayor frecuencia más agudo es el sonido, y
a menor frecuencia más grave es el sonido.
 La intensidad es la cantidad de energía que tiene el sonido y nos permite distinguir entre
sonidos fuertes o débiles. La podemos definir como la fuerza con la que se produce un
sonido. Además de la amplitud en la percepción de la intensidad, influye la distancia a que
se encuentra situado el oyente y su capacidad auditiva.
 La duración es la característica del sonido que nos permite diferenciar sonidos largos de
sonidos cortos. La podemos definir como el tiempo de permanencia o duración de un
sonido. La sucesión de sonidos de distinta duración nos da el ritmo.
 El timbre es la cualidad de permitir distinguir los sonidos producidos por diferentes
fuentes (de un mismo tono), de acuerdo con las vibraciones que produce el timbre. A
través del timbre somos capaces de diferenciar, dos sonidos de igual frecuencia. Esta
cualidad físicamente se llama forma de onda.

1
Véase referencia 1.

Capítulo 1: Antecedentes y estado del arte 4


GRABADORA DIGITAL DE VOZ PARA UNA PC

La voz es el sonido que se produce con la vibración de las cuerdas vocales mediante el aire que es
expulsado por los pulmones y sale por la laringe, en forma de una onda sonora que es
combinación de varias frecuencias y sus correspondientes armónicos. La voz masculina tiene un
tono fundamental de entre 100 y 200 Hz, mientras que la voz femenina es más aguda, típicamente
está entre 150 y 300 Hz. Las voces infantiles son aún más agudas.2

El audio digital es la codificación digital de una señal eléctrica análoga a una onda sonora. Consiste
en una secuencia de valores enteros que son obtenidos a partir de los procesos de muestro y
cuantificación digital de la señal eléctrica, dos procesos esenciales para la conversión de una señal
analógica a una señal digital. 3

 El muestreo consiste en fijar la amplitud de la señal eléctrica a intervalos regulares de


tiempo (tasa de muestreo). Para cubrir el espectro audible (20 a 20 KHz) suele bastar con
tasas de muestreo de algo más de 40 KHz.
 La cuantificación consiste en convertir el nivel de las muestra fijadas en el proceso
de muestreo, normalmente, un nivel de tensión, en un valor entero de rango finito y
predeterminado. Por ejemplo, utilizando cuantificación lineal, una codificación lineal de
8 bits discriminará entre 256 niveles de señal equidistantes (28).

De acuerdo con el Teorema de muestreo de Nyquist, la tasa de muestreo, esto es, el número de
muestras con las que se realiza el proceso de muestreo en una unidad de tiempo, determina
exclusivamente la frecuencia máxima de los componentes armónicos que pueden formar parte del
material a digitalizar.

El formato más usado de audio digital PCM (Pulse Code Modulation, Modulación por Pulsos
Codificados) lineal es el del CD de audio: 44,1 kHz de tasa de muestreo y cuantificación lineal de 16
bits (que mide 65536 niveles de señal diferentes) y que, en la práctica, permite registrar señales
analógicas con componentes hasta los 20 kHz y con relaciones señal a ruido de más de 90 dB.

1.2 Grabación del Sonido

Todo empezó en los tiempos de Thomas Alba Edison, quien inventó la bombilla y el micrófono, sin
olvidar el fonógrafo con el cual trataba de simular las funciones de los tímpanos. Edison en
resumen lo que inventó fue la transducción (transformación de un tipo de señal en otro distinto).
Luego con la llegada del gramófono vino la posibilidad de escuchar lo grabado, la libertad de tener
el sonido en el tiempo, la magia de escuchar exactamente la misma interpretación varias veces,
todos estos inventos buscaban preservar la voz, protegerla de los estragos del olvido y de su
desaparición en el tiempo. Estos inventos llegaron a cambiar radicalmente el entretenimiento.

2
Véase referencia 2.
3
Véase referencia 3.

Capítulo 1: Antecedentes y estado del arte 5


GRABADORA DIGITAL DE VOZ PARA UNA PC

1.2.1 Grabación analógica y digital

Desde la época de los años 20’s se tiene la noción de los conceptos del audio digital pero no fue
hasta los años 70’s cuando se empezó a desarrollar y comercializar formalmente tecnología de
este tipo. Antes de que se introdujera formalmente el concepto de señal digital, éstas eran
representadas en forma analógica. Eran guardadas a menudo en cintas de audio o discos. La
grabación analógica de sonido es la técnica por la cual se captura el sonido y se almacena en
señales analógicas. En la actualidad casi todos los formatos de grabación y reproducción de sonido
son digitales. La grabación digital de sonido es la grabación del sonido en la que se obtiene audio
digital. Para ello, interviene un proceso previo de conversión A/D (analógico-digital) y, una vez que
obtenemos la señal digital, ésta es grabada sobre un soporte o medio. Lo que determina si
estamos ante una grabación analógica o digital no es el soporte o medio, sino el tipo de señal
grabada en él. 4

Los sistemas analógicos de grabación son tres:

1. Grabación mecánica analógica o Grabación electromecánica analógica.


2. Grabación magnética analógica o Grabación electromagnética analógica.
3. Grabación óptica analógica o Grabación fotográfica del sonido.

Hoy en día la grabación analógica todavía puede preferirse en ocasiones por sus cualidades
sonoras. Sin embargo presenta varios inconvenientes con respecto a la grabación digital:

 No admite la multigeneración. Cada nueva copia (copia de copia) produce pérdidas, de


forma que, la señal resultante cada vez, tiene más ruido y se parece menos a la original.
 Se degrada con facilidad. Las cintas se desmagnetizan si se les acerca un imán, los discos
de vinilo se rayan y los surcos sufren alteraciones con el paso constante de la aguja, etc.
 Resulta más complejo y limitado el montaje y la edición de las grabaciones.

Existen 3 tipos de grabación digital:

1. Grabación magnética digital: sobre soporte magnético, cinta como el DAT u otros
formatos similares; o bien sobre soportes magnéticos informáticos como el disco flexible.
2. Grabación óptica digital: la señal es grabada sobre el soporte de forma óptica, mediante
un láser. Es el caso del CD.
3. Grabación magneto-óptica digital: sistema combinado que graba de forma magnética,
pero reproduce de forma óptica. Es el caso del minidisc o de los CD regrabables (CD-RW) y
del propio disco duro de cualquier ordenador.

4
Véase referencia 4.

Capítulo 1: Antecedentes y estado del arte 6


GRABADORA DIGITAL DE VOZ PARA UNA PC

1.2.2 Almacenamiento digital del audio.

La manera general de almacenar audio digital es muestreando el voltaje de audio, que al


reproducirlo, corresponde a un nivel de señal en un canal individual con una cierta resolución el
número de bits por muestreo en intervalos regulares (creando la frecuencia de muestreo). Estos
datos después pueden ser almacenados sin comprimir o comprimidos para reducir el tamaño del
formato.

Formato de archivo de audio

Un formato de archivo de audio es un contenedor multimedia que guarda una grabación


de audio (música, voces, etc.). Lo que hace a un archivo distinto del otro son sus propiedades;
cómo se almacenan los datos, sus capacidades de reproducción, y cómo puede utilizarse un
archivo en un sistema de administración de archivos. 5

Tipos de formatos

Existen diferentes tipos de formato según la compresión del audio. Es importante saber distinguir
entre formato de archivo y códec. El códec codifica y decodifica los datos del audio mientras estos
datos son almacenados en un archivo que tiene un formato de audio específico. La mayoría de los
formatos de archivo de audio públicamente documentados pueden ser creados con uno de dos o
más codificadores o códecs. Aunque la mayoría de formatos de archivo de audio solo soportan un
tipo de datos (creado con un códec de audio) un contenedor de formato de multimedia como MKV
(Matroska) o AVI (Audio Video Interleave) puede soportar múltiples tipos de datos de audio y
vídeo.

 Formatos de audio sin comprimir

Hay un formato principal sin comprimir, PCM, que normalmente esta archivado como .wav en
Windows y .aiff en MAC. Los formatos PCM contienen toda la información que salió del
convertidor analógico digital, sin ninguna omisión y por eso tienen la mejor calidad. Los archivos
de audio digital almacenan toda la información que ocurra en el tiempo, el tamaño del archivo no
varía así contenga “silencio” o sonidos muy complejos. WAV y AIFF son formatos flexibles creados
para almacenar varias combinaciones de frecuencia de muestreo o tasa de bits, esto los hacen
adecuados para archivar grabaciones originales. El formato AIFF está basado en el formato IFF,
mientras que el formato WAV está basado en el formato RIFF, que realmente son muy similares.
BWF (Broadcast Wav Format) es el formato de audio estándar creado por la Unión Europea de
Radiodifusión como sucesor a WAV y permite el almacenamiento de datos en el archivo.

5
Véase referencia 5.

Capítulo 1: Antecedentes y estado del arte 7


GRABADORA DIGITAL DE VOZ PARA UNA PC

 Formatos de audio comprimido sin pérdida (Lossless)

El formato sin pérdida requiere más tiempo de procesamiento que los formatos sin comprimir
pero más eficiente en cuanto el espacio que ocupa. Los formatos de audio sin comprimir codifican
tanto audio como silencio con el mismo número de bits por unidad de tiempo. Codificar un minuto
de silencio en un formato sin comprimir produce un archivo del mismo tamaño que codificar un
archivo sin comprimir de un minuto de música de orquesta. Sin embargo en estos archivos la
música ocupa un archivo ligeramente más pequeño y el silencio no ocupa casi nada.

Estos formatos de compresión proporcionan un ratio de compresión de más o menos 2:1. El


desarrollo de estos formatos intenta reducir el tiempo de procesamiento manteniendo un buen
ratio de compresión. Dentro de estos se encuentran el FLAC y el Apple Lossless Encoder, cuyo
tamaño suele ser de aproximadamente la mitad de su equivalente PCM.

 Formatos de audio comprimido con pérdida

En este sistema de codificación se comprimen los datos descartando partes de ello. El proceso
intenta minimizar la cantidad de datos que mantiene el archivo reduciendo su peso y por lo tanto
su calidad. Realmente solo pierde los canales no audibles al oído humano, de tal modo que
conservan gran parte de su calidad.

Tabla 1. 1 Formatos de archivos de audio libres

Formatos abiertos libres


aiff Formato estándar de Apple. Se puede ser considerado el equivalente de wav de Windows.
au El formato de archivo estándar utilizado por Sun, Unix y Java. El audio de archivos au puede ser PCM o
comprimido con a-law o G.729.
flac (free lossless audio códec) un códec de compresión sin pérdida.
ogg Un archivo de formato de código abierto que apoya una variedad de códecs, de los cuales el más popular
es el audio códec Vorbis. Vorbis ofrece compresión similar al de mp3, pero es menos popular.
mpc Musepack o MPC ( anteriormente conocido como MPEGplus o MP+ ) es un formato código abierto,
específicamente optimizado para la compresión transparente de audio estéreo a una velocidad de 160-
180 bits/s.
raw Un archivo raw puede contener audio de cualquier códec aunque suele ser utilizado con datos de audio
PCM. Suele ser utilizado solo en pruebas técnicas.
TTA (The true audio) un códec de audio sin pérdida en tiempo real.
wav Formato contenedor de archivo de audio utilizado principalmente en Windows. Comúnmente utilizado
para almacenar archivos de calidad de CD sin comprimir, lo que significa que pueden ser de gran
tamaño, alrededor de 10 mb por minuto. Archivos de wav también pueden contener datos codificados
por una variedad de formato con pérdida para reducir el tamaño del archivo (por ejemplo codecs mp3 o
GSM). Los archivos wav utilizan una estructura RIFF.
Vorbis Formato de archivo de audio digital general, con pérdidas, desarrollado por la Fundación Xiph.org.
Opus Formato de archivo de audio digital con pérdidas, muy versátil, desarrollado conjuntamente por
la Fundación Xiph.org, Fundación Mozilla, Skype Technologies S.A. y el apoyo de la IETF.

Capítulo 1: Antecedentes y estado del arte 8


GRABADORA DIGITAL DE VOZ PARA UNA PC

Tabla 1. 2 Formatos de archivos de audio abiertos

Formatos abiertos
GSM Diseñado para el uso de telefonía en Europa. GSM es un formato muy práctico para voces de
calidad teléfono. Es un buen compromiso entre calidad y tamaño. Los archivos de wav pueden
ser codificados con GSM.
dct Es un códec variable diseñado para dictar.
vox Este formato es comúnmente utilizado para el códec ADPCM Dialógico (Adaptive differential
pulse code modulation). Similar a otros formatos ADCPM comprime a 4 bits. Los archivos vox
son similares a archivos wav, salvo que no contienen información sobre el archivo, de modo que
la frecuencia de muestreo y el número de canales debe ser especificado para reproducir un
archivo vox.
mmf Un formato de audio creado por Samsung, utilizado en tonos de móvil.

Tabla 1. 3 Formatos de archivos de audio propietarios

Formatos propietarios
mp3 Formato MPEG layer 3 es el más popular para bajar y almacenar música. Eliminando
porciones del archivo que sean menos audibles, mp3 comprime a aproximadamente un
décima parte de un archivo PCM sacrificando su calidad.
Aac (Advanced Audio Coding) este formato está basado en MPEG2 y MPEG4. Los archivos acc
suelen ser contenedores ADTs o ADIF.
mp4 MPEG-4 audio más a menudo ACC pero a veces MP2/MP3, MPEG-4 SLS, CELP, HVXC y otros
tipos de objetos de audio pueden ser definidos en MPEG-4 audio.
Wma (windows media audio) este formato fue creado por Microsoft y está diseñado con
habilidades de gestión de derechos digitales para protegerlo de copia.
Atrac El estilo antiguo de formato Sony ATRAC. Siempre contiene una extensión de formato .wav.
Para abrir estos formatos hay que instalar unos drivers ATRAC3.
ra & rm Un formato RealAudio diseñado para el streaming de audio por Internet.
Ram Un archivo de texto que contiene un enlace a una página web donde el archivo RealAudio
está almacenado. Archivos ram no contienen audio.
Dss (digital speech standard) Es un formato de propiedad de la corporación Olypus. Es
relativamente viejo y su códec es mediocre.
Msv Un formato de Sony para archivos de voz comprimidos en tarjeta de memoria.
Dvf Un formato de Sony para archivos de voz comprimidos, normalmente utilizado en
grabadoras de dictado.
IVS Un formato desarrollado por 3D solar UK ltd., con gestión de derecho digital utilizado para
descargar música de su tienda digital Tronme y en su reproductor interactivo de música y
vídeo.
m4p Una versión de ACC en mp4 desarrollada por Apple con gestión de derecho digital para la
utilización de descargas de la tienda de Itunes.
Iklax Es un formato de audio digital multi pista que permite varias acciones en datos musicales
como arreglos de volumen y mezclas.
MIDI Se trata de un protocolo de comunicación serial estándar que permite a los computadores y
otros dispositivos musicales electrónicos comunicarse y compartir información para la
generación de sonidos.

Capítulo 1: Antecedentes y estado del arte 9


GRABADORA DIGITAL DE VOZ PARA UNA PC

Códecs

En la actividad del procesamiento de una señal, surge la necesidad de crear archivos de audio o
video a partir de otro, con un tamaño reducido a comparación del inicial y manteniendo la misma
calidad que presentaba. En resumen, el beneficio es obtener un archivo con un tamaño reducido y
buena calidad. El proceso anterior lo desarrolla una herramienta llamada códec.

Los códecs surgen como dispositivos hardware, software o la combinación de ambos, dedicados al
procesamiento digital de audio, video e imágenes con el fin de llevar a cabo la codificación-
decodificación y en algunos casos también la compresión de un flujo de datos obteniendo un
archivo en otro formato más apropiado para el almacenamiento, reproducción o manipulación del
mismo. Sabemos que, como en todos los casos, no existen dispositivos ideales, y en este, durante
el proceso nos encontraremos con pérdidas de información en el proceso de querer conseguir un
tamaño muy reducido. Una vez realizada la compresión, es importante considerar si el archivo
final se seguirá procesando en un futuro ya que esto iría dañando demasiado su calidad. 6

Hoy en día, la mayoría de las técnicas de codificación digital de audio, tales como MP3, AAC y
muchos más, son códec con pérdidas. Por otra parte, muchos de los algoritmos de compresión sin
pérdidas están disponibles en el mercado o son distribuidos gratuitamente. La compresión con
pérdidas dio un cambio radical debido a la necesidad de la música portable. Después de la
introducción de cintas grabables, se pudo lograr transportar la música a todas partes,
reproduciéndola en dispositivos pequeños capaces de caber en nuestra palma de la mano.

Así pues la tendencia de los códecs actuales, es llevar a cabo una codificación y decodificación lo
más rápida posible con la mejor tasa de muestreo y a la hora de realizar la compresión de un
archivo, que sea lo más compacta posible minimizando al máximo las pérdidas para obtener, de
esta manera, un archivo que ocupe un espacio muy pequeño a la hora de almacenarse en algún
dispositivo con la misma calidad de origen.

Para cubrir el espectro audible (20 a 20 KHz) suele bastar con tasas de muestreo de algo más de 40
KHz, con 3200 muestras por segundo se tendría un ancho de banda similar al de la radio FM, es
decir, permite registrar componentes de hasta 15 KHz, aproximadamente. Para reproducir un
determinado intervalo de frecuencias se necesita una tasa de muestreo de poco más del doble
(Teorema del muestreo de Nyquist-Shannon. Por ejemplo en los CD’s que reproducen hasta 20
KHz, emplean una tasa de muestreo de 44.1 KHz).

El formato más usado de audio digital PCM lineal es el del CD de audio: 44.1 de tasa de muestreo y
cuantificación lineal de 16 bits (mide 65536 niveles de señal diferentes) y que permite registrar
señales analógicas hasta los 20 KHz.

6
Véase referencia 6.

Capítulo 1: Antecedentes y estado del arte 10


GRABADORA DIGITAL DE VOZ PARA UNA PC

1.3 Evolución del hardware y software para grabación de audio

El registro del sonido ha sufrido diversos cambios, involucrando con


esto la evolución de diferentes formas de grabación y reproducción
del sonido en forma artificial. Es un campo que se renueva a la par
de los avances tecnológicos. En la última década dichos avances
permitieron grandes logros con respecto a factores como la calidad
y duración del sonido registrado.

Figura 1. 1 Fonógrafo Nuestra relación con la música ha cambiado un poco, ahora


compramos menos discos y bajamos la música por internet. Se
puede decir que el siglo XX, el siglo de las guerras y cambios
tecnológicos, se puede denominar como el siglo del sonido.

Después de una larga pausa, esperando a que cesaran los ruidos de


la segunda guerra mundial, llegarían los sonidos en los discos de
vinilo de 16, 33, 45 y 78 revoluciones por minuto. Ya en los años
Figura 1. 2 Disco de Vinilo 60’s, apareció la cinta magnética con la que Phillips lanzo el
compact cassette, que con la ayuda del tiempo se conocería
simplemente como cassette. A fines de los años 70´s aparecería la
palabra digital en la música, con el sistema de audio digital Compact
Disc (CD). El conocido CD, como todos los inventos de esta historia
en sus inicios no tendría mucha acogida, pero después en los años
80’s y 90’s, con la ayuda de la música clásica y la informática, sería
Figura 1. 3 Cassette el soporte de almacenamiento de mayor aceptación. La industria de
la música obtendría con esta un formato fiel, pero al mismo tiempo
este sistema digital, sería el primero gran enemigo de la industria al
permitir fácilmente el copiado, la distribución y el almacenamiento.
Es decir hemos pasado del cilindro al vinilo, del vinilo a la cinta, de la
cinta a lo óptico; todo este gran progreso llevo a la portabilidad,
pero también con ella las tensiones y a los problemas legales entre
los creadores, dueños y consumidores.
Figura 1. 4 Compact Disc (CD)

A la mitad de los 90’s se inventaría el formato de compresión más


revolucionario para la música y el internet el MP3 (MPEG-1 Audio
Layer 3). Ya en el fin del siglo pasado traería consigo la posibilidad
de cambio de archivos en la red y el desarrollo de los aparatos
portátiles para escuchar música como el iPod, dispositivos que
guardan gran cantidad de grabaciones, en dispositivos que caben en
la palma de nuestras manos.

Figura 1. 5 Grabadora Digital de voz

Capítulo 1: Antecedentes y estado del arte 11


GRABADORA DIGITAL DE VOZ PARA UNA PC

La siguiente tabla muestra los acontecimientos más importantes en la evolución de los


instrumentos así como dispositivos grabadores y reproductores de la voz y sonidos: 7

Tabla 1. 4 Evolución de artefactos y dispositivos grabadores y/o reproductores de audio digital

1857 Fonoautógrafo
Este artefacto es considerado el primero en ser capaz de registrar sonidos en un medio visible, fue
patentado por Leon Scott.
Podía transcribir sonido a un medio visible, pero no tenía un modo de ser reproducido después. Era usado
para determinar la frecuencia de un tono musical, y para estudiar el sonido y el habla.
1877 Fonógrafo
Creado por Thomas Alba Edison, fue el primer aparato capaz de grabar sonidos mediante un sistema
mecánico – analógico, que posteriormente los reproducía.
En 1889 Theo Wangeman grabó un segmento de las Danzas Húngaras de Johannes Brahms que aunque
todavía se conserva, presenta una calidad pésima.
1887 Gramófono
Emile Berliner patentó el primer sistema de grabación y reproducción de sonido que utilizó un disco plano
de metal tratado químicamente. El costo de las grabaciones era mucho menor que el del fonógrafo, pero los
usuarios no podían hacer sus propios registros.
En 1889 la fábrica de juguetes alemana Kammer & Reinhardt empezó a producir el “gramófono de juguete”
de Berliner y sus discos de 12.7 cm.
1900 Telegráfono
Valdemar Poulsen obtuvo el Gran Premio de la Exhibición Mundial de París con este invento que grababa
magnéticamente los sonidos sobre un carrete de hilo de acero. Fue el primer instrumento de lectura
magnético.
La intención de Poulsen era la de grabar un mensaje de voz para utilizarla en el caso de que se produjera una
llamada telefónica en su ausencia. En realidad podría decirse que inventó el primer contestador automático.
1926 Gramófono Eléctrico
La empresa Brunswick-Balke-Collender introdujo el primer gramófono totalmente eléctrico. Ya no se
necesitaba girar la manivela para generar el movimiento del motor.
El proceso de grabación eléctrico iniciado por la compañía Victor fue anterior a la reproducción eléctrica
hogareña, debido al alto costo inicial de los aparatos.
1934 Tocadiscos Wurlitzer P10
Insertando una moneda, se podía seleccionar una canción de entre 10 títulos de discos de goma laca. Este
primer tocadiscos resultó indispensable en restaurantes y bares.
El Wurlitzer “1015” lanzado en 1946 fue el más vendido de todos los tocadiscos del siglo XX: 56.000 unidades
en 18 meses.
1935 Magnetófono
AEG comercializó los primeros aparatos que grababan el sonido magnéticamente sobre un alambre de
acero. Contaban con una extensa duración mejor calidad sonora.
Los magnetófonos fueron empleados por emisores alemanes de radio para grabar sus programas con
antelación y evitar los errores de la transmisión en directo.
1948 Disco de vinilo
Este nuevo material permitió una reducción importante del ruido superficial en la grabación mecánica
analógica. Columbia Records presento en Nueva York el primer LP de 33 rpm y un año más tarde, RCA Victor
lanzó su primer simple de 45 rpm.
Los discos de vinilo deben su nombre al material con el que están fabricados: policloruro de vinilo (PVC).

7
Véase referencia 7.

Capítulo 1: Antecedentes y estado del arte 12


GRABADORA DIGITAL DE VOZ PARA UNA PC

1950 Magnetófono Revox


La empresa suiza Studer lanza su modelo para aficionados con carrete de cinta abierta. También desarrolla
el magnetófono Studer 27 para estudios discográficos, con una mejor calidad sonora.
La prestigiosa grabación del “Festival internacional de Música de Lucerna” se realizó con un prototipo de
primer grabador profesional Studer 27.
1958 Sonido Estereofónico
Audio Fidelity de EEUU y Pye de Gran Bretaña realizan las primeras grabaciones en dos canales. Este sistema
de sonido sustituyo a la grabación mono-aural por su mayor fidelidad y sonido equilibrado.
El sistema estéreo fue desarrollado y patentado por EMI en 1931, pero su comercialización se llevó a cabo
casi un cuarto de siglo más tarde.
1963 Reproductor de cassette compacto
Phillips lanza al mercado el primer reproductor para cintas de cassette compactas. Por su tamaño reducido
se podía transportar fácilmente. Además, su consumo era bajo.
En 1965 Ford ofreció para sus modelos de 1966 la opción de un reproductor de cassette de 8 pistas. Vendió
65.000 aparatos durante el primer año.
1979 Walkman
El primer Walkman TPS-L2 de Sony que salió a la venta en Japón introdujo un cambio en los hábitos de
escucha de las personas. Ahora cada uno podía llevar consigo su propia música.
En los primeros 10 años Sony vendió 50 millones de unidades y el término “Walkman” se incorporó al
lenguaje como sinónimo de un reproductor de audio estéreo portátil.
1982 Reproductor de CD
El sistema de audio digital Compact Disc fue presentado a la industria en 1980. Phillips desarrollo el sistema
óptico y Sony la lectura y codificación digital. El CDP-101 fue el primer reproductor de CD lanzado por Sony.
El primer álbum de música en formato CD fue “52nd Street” de Billy Joel.
1987 DAT Audio Digital
La DAT (cinta de audio digital) desarrollado por Sony, fue el primer formato de cassette digital capaz de
almacenar y reproducir audio con una altísima calidad.
Para prevenir la proliferación de copias ilegales de CDs, las casas discográficas trataron de impedir la
masificación del sistema DAT, quedado relegado su uso al ámbito profesional.
1992 MiniDisc
El MiniDisc fue desarrollado por Sony, combinando la capacidad de un grabador de cassette con la calidad
de sonido de un CD. Su pequeño disco es una maquina capacitada tanto para reproducir como para grabar.
El MiniDisc no resultó exitoso ni en EEUU ni en Europa debido al escaso número de álbumes a la venta y al
elevado costo del reproductor.
1998 Reproductor de MP3
MPMan fue el primer reproductor de audio digital basado en flash, creado por la empresa coreana SaeHan
Information System, con una capacidad de almacenamiento de 16 MB.
La tecnología de formato MP3 fue aprobado por la Moving Picture Experts Group (MPEG) en 1992. Su
nombre técnico es ISO MPEG Audio Layer 3.
2001 IPOD
El primer reproductor de música digital de Apple basado en la tecnología de disco duro, es conocido por
implementar una forma de navegación sencilla mediante una única rueda táctil.
Poco después de que Apple anunciara que el iPod sería compatible con PC, en EEUU se vendía un iPod por
segundo.
Siglo XXI Reproductor de MP4
Este dispositivo multimedia digital puede almacenar, organizar y reproducir archivos de videos, audio e
imágenes. La compresión de los archivos es mayor a la del MP3 y las canciones en este formato sólo son
distribuidas con previa autorización del artista.
En nombre “reproductor de MP4” surgió en China como una estrategia de marketing más que como una
especificación de formato de audio y vídeo, ya que aparenta ser superior que MP3.

Capítulo 1: Antecedentes y estado del arte 13


GRABADORA DIGITAL DE VOZ PARA UNA PC

La primera aplicación de digitalización del sonido se sitúa en la telefonía digital, para ésta
aplicación es preciso realizar un muestreo de 4 KHz, con esta frecuencia se asegura el correcto
muestreo de aquellos timbres de voz más agudos (timbre máximo de la voz humana 3.4 KHz
aproximadamente), para esta aplicación se emplea una resolución de 8 bits en la digitalización de
cada muestra. Esta técnica es conocida como PCM.

El software para grabación y reproducción de voz es una idea innovadora con los beneficios de
poder escuchar una y otra vez grabaciones registradas anteriormente de manera clara, pero que
tuvo sus limitaciones en su creación. Los primeros productos de voz de software tenían muchas
cuestiones y problemas que les hizo difícil trabajar en cuanto a la calidad del sonido. Durante los
últimos años, ha mejorado mucho y ahora software para grabación y reproducción de voz están
demostrando ser una solución de un gran negocio. En la actualidad hay inmensa cantidad de
software que nos permiten desde la comodidad de nuestra casa manipular el audio digital así
como hacer grabaciones de en tiempo real. Muchos de éstos permiten modificar parámetros
como la duración del sonido, la tasa de muestreo, la resolución utilizada, el formato en que
deseamos que se guarde la grabación procesada, el número de canales, efectos tales como la
reverberación, mezcla de dos o más pistas, etc. Por mencionar algunos ejemplos del software más
utilizados tenemos:

Audacity: Es una aplicación informática


multiplataforma libre, que se puede usar
para grabación y edición de audio, fácil de
usar, distribuido bajo la licencia GPL. Es un
software libre y multiplataforma.8

Figura 1. 6 Software Audacity

Características:
- Grabación en tiempo real mediante un micrófono, las líneas de entrada u otras fuentes.
- Importa archivos de sonido, permite editarlos y combinarlos con otros archivos o nuevas
grabaciones. Exporta las grabaciones en varios formatos de sonido. También permite la
conversión entre formatos de tipo de audio.
- Edición sencilla mediante cortar, copiar, pegar, borrar, deshacer y mezclar sonidos.
- Recuperación automática tras bloqueo en el caso de terminación anormal del programa.
8
Véase referencia 8.

Capítulo 1: Antecedentes y estado del arte 14


GRABADORA DIGITAL DE VOZ PARA UNA PC

- Posibilidad de agregar efectos al sonido (eco, inversión, tono, etc.). Elimina ruidos,
normaliza, ecualiza, amplifica, modifica tonos.
- Graba y edita muestras de 16-bits, 24-bits y 32-bits. Graba hasta un máximo de 96 KHz.
- Posibilidad de usar plug-ins para aumentar su funcionalidad

Free Audio Editor: es una sencilla


herramienta de edición de archivos
de audio, que permite realizar unas
cuantas opciones de edición y
configuración de este tipo de
archivos.9

Figura 1. 7 Software Free Audio Editor

Características:
- Edición del audio de archivos de videos.
- Interfaz fácil de usar.
- Puedes aplicar diversos efectos fácilmente
- Herramienta potente de reducción de ruido
- Es compatible con vista previa para ver los cambios en tiempo real
- Administrador de marcadores y regiones fácil de usar.
- Admite varios formatos de archivo incluyendo WAV (múltiples códecs), MP3, WMA, OGG y
muchos más.
- Permite grabar archivos de audio en un CD.
- Incluye herramientas para sintetizar la voz

Adobe Audition: Es un programa para


edición y grabación de música digital,
con el cual puedes obtener una gran
variedad de opciones, y puedas
obtener y realizar un trabajo de
calidad y obtener un buen producto.
Diseñado para los profesionales de
audio y video más exigentes, ofrece
funciones avanzadas de mezcla,
edición y efectos de sonido.10
Figura 1. 8 Software Adobe Audition

9
Véase referencia 9.
10
Véase referencia 10.

Capítulo 1: Antecedentes y estado del arte 15


GRABADORA DIGITAL DE VOZ PARA UNA PC

Características:
- Edita y mezcla audio.
- Aplica efectos de sonido y agrega filtros de ruido.
- Utiliza multipista y crea música.
- Compila y edita una banda sonora.
- Limpia el audio de una película.
- Graba y mezcla proyectos.

Pro Tools: Es una estación de trabajo de audio digital, una plataforma de grabación, edición y
mezcla multipista de audio y midi, que integra hardware y software. Por sus altas prestaciones, es
el considerado el estándar de grabación, edición y mezcla en estudios profesionales y
postproducción, usado mundialmente.11

Figura 1. 9 Software Pro Tools

11
Véase referencia 11.

Capítulo 1: Antecedentes y estado del arte 16


GRABADORA DIGITAL DE VOZ PARA UNA PC

Capítulo 2 Marco teórico

2.1 Estructura de un sistema de grabación de audio


digital
2.2 Etapa de acondicionamiento analógico
2.3 Conversión analógico-digital
2.4 Transmisión serie de datos
2.5 Almacenamiento digital

Capítulo 2: Marco teórico 17


GRABADORA DIGITAL DE VOZ PARA UNA PC

Capítulo 2: Marco teórico


En el presente capítulo expone las etapas necesarias para llevar a cabo el procesamiento de la voz
y así poder convertirla a su análoga digital, grabarla en un formato de archivo de audio y con la
capacidad de ser reproducida posteriormente. Cada una de esas etapas cumple con una tarea
específica e indispensable para el correcto funcionamiento del sistema de grabación digital de voz.

Un sistema está definido como un conjunto de elementos que están interrelacionados entre si y su
entorno, que interactúan, para lograr un objetivo. Un sistema en general se compone de una
entrada, un proceso y una salida, puede o no existir retroalimentación de la salida a la entrada, y
el proceso puede estar conformado a su vez de varios procesos.

El diagrama 3.2 muestra las partes que conforman un sistema en general.

Salida
Grabación de voz
Entrada Proceso digitalizada en un
Voz humana
archivo de formato
WAV
Retroalimentación
Figura 2. 1 Diagrama a bloques de un sistema

 Entrada: es el ingreso de las variables necesarias que se utilizan en el proceso.


 Proceso: es la ejecución de una secuencia de pasos para obtener un resultado.
 Salida: es el resultado de la ejecución del proceso.
 Retroalimentación: es la revisión desde la entrada para la corrección y/o mejoramiento
del sistema

Los sistemas digitales son un conjunto de procesos que involucran elementos electrónicos para el
procesamiento y transmisión de datos representados por valores estrictamente discretos.

La transmisión de datos es el proceso de envío de información de un punto a otro. En el caso de la


transmisión digital la información transmitida es en forma de pulsos digitales, la cual no
necesariamente puede provenir de una fuente donde estos se encuentren en forma digital, sino
que puede tratarse de una señal analógica que deberá ser discretizada para ser transmitida y a la
recepción, ésta será reconstruida para hacerla nuevamente variante en el tiempo. Para poder
realizar la comunicación entre los dos puntos, es necesario usar un medio de transmisión que
puede ser aire, un par de hilos metálicos, cable coaxial, o en un caso riguroso fibra óptica. 12

12
Tomasi, 2003: 607-613.

Capítulo 2: Marco teórico 18


GRABADORA DIGITAL DE VOZ PARA UNA PC

2.1 Estructura de un sistema de grabación de audio digital

Los sistemas de medición electrónicos están compuestos de instrumentos y componentes


interconectados para poder realizar una función específica. Cada componente del sistema no solo
debe realizar su función individual correctamente sino también trabajar efectivamente con los
demás componentes para que todo el sistema opere correctamente.

A continuación se muestra el diagrama de las etapas funcionales que conforman el sistema de la


grabadora digital de voz.

Señal analógica de entrada


Sensor seleccionado

Micrófono Shure C606N


Voz humana

Etapa de acondicionamiento de la señal

Amplificador de Filtro Pasa-bajas


pequeña señal a 4000 Hz

Amp. Operacional 358N Cuarto Orden (-80 dB/Década)

Capítulo 2: Marco teórico 19


GRABADORA DIGITAL DE VOZ PARA UNA PC

Codificación de la señal acondicionada

Módulo ADC PIC 18F4550

Interfaz de comunicación entre el microcontrolador y la PC

Estándar RS-232 Visual Studio C#

Figura 2. 2 Diagrama de las etapas funcionales que conforman el sistema de la grabadora de voz

Capítulo 2: Marco teórico 20


GRABADORA DIGITAL DE VOZ PARA UNA PC

2.1.1 Micrófonos

El micrófono es un transductor electroacústico, es decir, un dispositivo capaz de captar las ondas


sonoras emitidas por el medio ambiente, como la voz, por ejemplo, o cualquier otro tipo de
energía acústica y transformarla en energía eléctrica; y viceversa en proceso de grabación y
reproducción de sonido. 13

A su vez este transductor puede considerarse dividido en dos partes: un transductor acústico-
mecánico (T.A.M) y otro mecánico-eléctrico (T.M.E):
 El T.A.M. convierte las variaciones de presión de la onda sonora a las que la membrana o
diafragma del micrófono están expuestas, en oscilaciones mecánicas.
 El T.M.E. convierte estas oscilaciones mecánicas en variaciones de tensión o corriente
eléctrica (normalmente de +1V a -1 V).

Energía acústica Transductor Energía mecánica Transductor Energía eléctrica


acústico - mecánico -
mecánico eléctrico
Figura 2. 3 Diagrama a bloques de un transductor electroacústico

De esta forma podemos guardar y manipular sobre algún dispositivo o soporte analógico o digital.
Finalmente estos impulsos eléctrico se vuelven a transformar en ondas de presión a través de los
altavoces, por ello se define al micrófono como transductor.

Características de los micrófonos

Los micrófonos poseen una serie de características que son las que nos va definir en gran medida
su calidad y sus posibilidades de uso en las diferentes situaciones que se nos presenten.

1. Sensibilidad: Nos indica la capacidad del micrófono para captar sonidos de poca
intensidad. Es la relación entre la tensión generada por el micrófono, respecto de la
presión sonora que recibe. Se mide a 1 kHz y se expresa en mV/Pa. Cuanto mayor sea la
sensibilidad, mayor es el nivel de la señal de salida con igual presión incidente. No es
recomendable el uso de micrófonos con una sensibilidad menor a 1 mV/Pa.

2. Fidelidad: Representa la capacidad del micrófono para reproducir exactamente la onda de


presión que incide sobre el diafragma, una vez transformada en señal eléctrica. Nos indica
la variación de la sensibilidad respecto de la frecuencia. Se mide para todo el espectro
audible y así nos proporcionan sus curvas en frecuencia que informan de las desviaciones
sobre la horizontal de 0 dB. Cuanto más lineal sea esta curva mayor fidelidad.

13
Véase referencia 13.

Capítulo 2: Marco teórico 21


GRABADORA DIGITAL DE VOZ PARA UNA PC

La fidelidad de un micrófono depende de tres factores:


 Respuesta en frecuencia. Define cómo se comporta la sensibilidad del micrófono
dentro del margen de las frecuencias del espectro audible
 Regulación. Es aquel cuya respuesta es plana y se extiende a toda la banda de
frecuencias.
 Linealidad. Es la cualidad de un micrófono para proporcionar una tensión de
salida proporcional a la tensión de entrada.
Un micrófono con buena fidelidad es aquel cuya respuesta es plana y se extiende a toda la
banda de frecuencia.

Figura 2. 4 Micrófono es tanto mejor cuanto más rectilíneo sea su curva de respuesta de frecuencia. 1)
Micrófono de calidad. 2) Micrófono con poca sensibilidad a tonos bajos. 3) Micrófonos con poca sensibilidad
a los tonos altos. 4) Micrófono de baja calidad

3. Directividad: Señala la variación de la respuesta del micrófono dependiendo de la


dirección de donde provenga la fuente sonora (cobertura total de la captación de sonido
para cada uno de los ángulos de incidencia de la presión acústica), es decir, muestra como
varia la sensibilidad según de donde venga el sonido (en función de la incidencia de las
ondas sonoras). La directividad se representa mediante diagramas polares. En estos se
dibuja para distintos ángulos de incidencia del sonido respecto del micrófono (que está en
0 grados). Se prueba con varias frecuencias para ver su comportamiento en dichas
frecuencias.
Hay tres tipos de directividad fundamentales: Los unidireccionales, los bidireccionales y
los omnidireccionales.

Figura 2. 5 Diagramas polares de campos unidireccionales, micrófonos bidireccionales y omnidireccionales

Capítulo 2: Marco teórico 22


GRABADORA DIGITAL DE VOZ PARA UNA PC

4. Impedancia interna: Es la resistencia que opone el micrófono al paso de tensión.


De acuerdo con su impedancia los micrófonos se clasifican:
 Micrófono de alta impedancia. (>1 MΩ).
 Micrófono de media impedancia (entre 5 y 10 KΩ, 0.3 a 0.6 mV).
 Micrófono de baja impedancia ( 5 KΩ, V 0.3mV).
La impedancia interna de los micrófonos se mide en ohmios (Ω) para una frecuencia de 1
KHz. Si el micrófono es de alta impedancia y tiene un cable largo se produce una pérdida
muy grande.

Impedancia de salida: Es la resistencia que proporciona el micrófono a la salida del


mismo. La baja impedancia está entre 200 y 600 Ω a 1 kHz. Hay que tener en cuenta que la
impedancia de salida del micrófono tienen que ser la tercera parte como máximo de la del
equipo a la que se conecta para evitar la pérdida de señal y el incremento de ruido de
fondo.

5. Distorsión: Es la tensión o señal que nos entrega el micrófono sin que exista ningún sonido
incidiendo sobre él; y se refiere al conjunto de señales que aparecen en la salida de un
sistema que no estaban en la entrada. En de los micrófonos, los fabricantes no suelen dar
el valor de la distorsión.
Existen varias causas por las cuales se puede crear distorsión en los micrófonos.
 Distorsión interna: Efecto proximidad, resonancia interna, respuesta lenta a los
ataques y vibraciones parciales, en diagramas grandes.
 Distorsión externa: Sobrecarga o sobresaturación, poping, Ruido de viento y ruido
de vibración o golpeteo.

6. Dinámica: Es el margen existente entre el sonido más débil y el sonido más fuerte, que se
transforman en señal eléctrica sin distorsión, que es capaz de captar un micrófono.

7. Factor de sensibilidad a los campos magnéticos: Si un micrófono dinámico se encuentra


en las proximidades de un fuerte campo magnético y se mueve dentro de él, se originan
tensiones parásitas que dan origen a ruidos. También las líneas de campo eléctrico en las
proximidades de un micrófono pueden dar origen a tensiones parásitas, puesto que todo
campo eléctrico va acompañado de un campo magnético. Para subsanar este
inconveniente algunos micrófonos se fabrican dotados de una bobina de compensación,
que anula la tensión parásita generada por la bobina.

8. Ruido: las tensiones entregadas por el micrófono son muy débiles, con lo que el ruido
originado en el interior del micrófono puede cobrar una importancia excesiva. Los
fabricantes suelen indicar el nivel de ruido equivalente, que es el nivel de presión sonoro
que daría lugar a la misma tensión de salida que la generada por el ruido interno.

Capítulo 2: Marco teórico 23


GRABADORA DIGITAL DE VOZ PARA UNA PC

Clasificación de los micrófonos

El dividir un micrófono en dos transductores nos da la posibilidad de clasificarlos según el tipo de


transductor empleado. Así los micrófonos se pueden dividir según varias clasificaciones:

1. T.A.M. que dan lugar a las diferentes directividades.


 Micrófono de presión: El diafragma va a estar expuesto por una de sus caras a la
presión incidente y por la otra a una cavidad cerrada, en la que exista una
determinada presión gracias a un tubo ecualizador. La diferencia de presiones a
las que es sometida producirá el movimiento al transductor mecano eléctrico.
 Micrófono gradiente: El diafragma está expuesto por su cara exterior a la onda
incidente de presión y por su cara posterior a la misma onda pero después de que
éste haya recorrido un cierto camino, por lo sobre el diafragma existe una
diferencia de gradiente de presión, que lo hace moverse.
 Micrófono combinado de presión y gradiente: El diafragma se mueve por la
presión ejercida en la cara exterior de la membrana y por el gradiente de presión
que aparece entre sus caras. Así la cara anterior recibe la onda directamente,
mientras la cara posterior recibe la onda con un desfase controlado, debido a que
el camino recorrido por esta onda es diferente según su dirección de incidencia.

2. T.M.E. que indica la eficiencia del micrófono en la conversión de energía (onda) acústica a
energía (señal) eléctrica.
 Dinámicos
- Micrófono de bobina móvil: Basan su funcionamiento en el fenómeno de
generación de una tensión electromotriz, o inducida, en un condensador que
se desplaza, por efecto de la presión acústica, en el interior de un campo
magnético.
- Micrófono de cinta: Se basan en el mismo principio que los de bobina, pero
ahora el conductor que se mueve en el campo magnético es una cinta
metálica de aluminio en forma de zigzag, que se encuentra situada, y puede
oscilar, entre los polos de un potente imán.
 Electrostáticos
- Micrófono de condensador: Es un micrófono de alta calidad cuyos principios
de funcionamiento está basado en la atracción y repulsión de cargas
eléctricas. Consiste en un condensador formado por una placa fija y otra
móvil. Para funcionar necesita de una polarización de tensión continua que
mantenga cargado el condensador.
- Micrófono electret: Es un micrófono de condensador que utiliza un electrodo
laminar, que no necesita tensión de polarización externa. El electret es un
dieléctrico permanente polarizado, análogo a un imán permanente.

Capítulo 2: Marco teórico 24


GRABADORA DIGITAL DE VOZ PARA UNA PC

 Piezoeléctricos, de cristal o cerámico: La variación del diafragma moverá un


material mineral que debido a sus propiedades piezoeléctricas generara la señal
eléctrica de salida del micrófono,
 De carbón o de resistencia variable: Baja calidad, usados en telefonía. Es de
presión con carbón en su interior a modo de resistencia conectada a dos
terminales conductores. La presencia acústica determinara la compresión de las
partículas de carbón que variará la resistencia existente entre las dos terminales.

3. De acuerdo a su directividad.
 Micrófono Omnidireccional: En este micrófono el sonido es captado casi
uniformemente en todas las direccionales. La tensión obtenida en circuito abierto es
proporcional a la presión sonora incidente sobre su membrana, independientemente
de la orientación de ésta.
 Micrófono Bidireccional: Nos proporcionan una máxima sensibilidad al sonido que
proviene de la parte anterior y su opuesto. Esta sensibilidad disminuye hacia los lados.
Es un micrófono idóneo para ser utilizado entre dos locutores enfrentados, ya que
capta por igual el sonido de ambas.
 Micrófono Semidireccional: Captan preferentemente los sonidos precedentes de los
puntos situados delante de su membrana, y con menor nivel los que preceden de los
puntos situados detrás.
 Micrófono unidireccional o Cardiode: Sólo recoge los sonidos precedentes de puntos
situados delante del micrófono, quedando muy atenuados los procedentes de la zona
posterior. Son los ideales para ser utilizados en locales donde exista riesgo de
retroalimentación acústica

Figura 2. 6 Curva de directividad: a) Omnidireccional, b) Semidireccional, c) Bidireccional, d) Unidireccional

4. Otros tipos de micrófonos.


 Micrófonos inalámbricos: Permiten gran movilidad y flexibilidad en la captación de
fuentes sonoras móviles. La principal ventaja de éste tipo de sistema, en sala, es que
permiten al ejecutor moverse por el escenario sin ningún tipo de limitación.
 Micrófono de contacto: Captan las vibraciones a través de sólidos. Al conectarlos a la
superficie vibrante de un contrabajo, una guitarra eléctrica o una caja de resonancia
de un piano reproducen el sonido directo sin presencia de reflexiones.

Capítulo 2: Marco teórico 25


GRABADORA DIGITAL DE VOZ PARA UNA PC

2.2 Etapa de acondicionamiento analógico

La voz humana emite ondas analógicas de sonido, por lo que se dice que el sonido digitalizado es
una gráfica del cambio en la presión de airea través del tiempo. Al grabar un sonido, el micrófono
cambia las fluctuaciones de la presión de aire en fluctuaciones de tensión eléctrica, que la tarjeta
de sonido mide cada cierto tiempo y el número de cambios, llamados muestras. Al producir un
sonido de nuevo, el proceso se invierte, excepto que las fluctuaciones de voltaje van a altavoces
en lugar de un micrófono, y se convierten de nuevo en la presión de aire en el cono del altavoz.
Para llevar la etapa de muestreo, es necesaria una etapa previa de acondicionamiento de la señal
de voz que se desea digitalizar.

La etapa de acondicionamiento analógico está conformada a su vez de varias fases consecutivas:

 Una etapa de acoplamiento de impedancia interna del micrófono y el altavoz con el


objetivo de obtener la máxima transferencia de energía.
 En seguida una etapa conformada por un circuito amplificador de pequeña señal para
aumentar la ganancia del micrófono, esto debido al bajo voltaje que entrega.
 Por ultimo etapa compuesta por un circuito filtro pasa-bajas cuyo objetivo es limitar a la
calidad convencional de telefonía a 4 kHz.

2.2.1 Acoplamiento

El acoplamiento es la unión de dos impedancias, para que haya transferencia de uno a otra. La
eficaz transferencia de energía de una etapa a otra se logra cuando las impedancias de ambas
etapas se acoplen o igualen.

Cualquier equipo de audio puede representarse como un generador de tensión serie con una
impedancia, llamada impedancia interna ( ). A la salida del circuito equivalente se conectará otro
equipo que a su vez tendrá una impedancia de entrada ( ). En el caso de los micrófonos,
interesa que exista adaptación por tensión, es decir, que la impedancia de entrada de la etapa
siguiente sea mucho mayor que la impedancia interna, para que toda la tensión generada por el
micrófono caiga sobre la entrada del equipo conectado a él.

La impedancia interna depende del tipo de micrófono, es decir, de su técnica de construcción. La


impedancia de un micrófono debe ser la misma que la de entrada del preamplificador, con el fin
de que el acoplamiento entre ambos sea correcto y transmita la máxima energía de uno a otro,
aunque es preferible una adaptación por tensión, es decir, que la impedancia de carga o de
entrada del amplificador, sea de tres a diez veces la impedancia interna del micrófono. Un ejemplo
de un mal acoplamiento de impedancias es la perdida de volumen cuando un micrófono de baja
impedancia se conecta a un amplificador de alta impedancia. Una forma de compensar la falta de
acoplamiento es conector un transformador adaptador.

Capítulo 2: Marco teórico 26


GRABADORA DIGITAL DE VOZ PARA UNA PC

2.2.2 Amplificación

La etapa de potencia o amplificación de pequeña señal es la encargada de suministrar la potencia


a la salida del circuito de la señal de entrada. Es uno de los bloques funcionales más importantes
de los sistemas electrónicos, se diferencia entre gran señal y pequeña señal, en que esta última
tiene valores de tensión de pocos milivoltios. Sin entrar en el estudio en frecuencia, las
características más importantes es un amplificador son: su ganancia, impedancia de entrada e
impedancia de salida. Esta etapa aumenta la tensión de la señal original sin perturbar la forma de
onda. El voltaje que entrega un micrófono a la salida es muy bajo por lo que es necesaria una
etapa de amplificación de la señal. La principal característica que define a una etapa de potencia o
amplificación es la potencia que puede entregar a la salida.

Amplificador operacional

Un amplificador operacional es un circuito integrado que produce una señal de salida con la
misma forma de onda que la señal de entrada, pero con mayor amplitud. La relación entre la señal
de salida y la entrada es la ganancia. Su estructura interna es compleja, no es necesario conocer
mucho sobre la operación interna del amplificador operacional para emplearlo.14

El símbolo del amplificador operacional es un triángulo que apunta en la dirección del flujo de la
señal. Este componente tiene un número de identificación de parte colocado dentro del símbolo
del triángulo. El número designa al amplificador con características específicas. Todos los
amplificadores operaciones poseen por lo menos cinco terminales: la terminal de entrada
inversora (-), la terminal de entrada no inversora (+), la terminal de alimentación positiva o V+,
la terminal de fuente de alimentación negativa o V- y la terminal de salida .

Figura 2. 7 Terminales de un amplificador operacional de propósito general

14
Coughlin y Driscoll, 1999: 14-22.

Capítulo 2: Marco teórico 27


GRABADORA DIGITAL DE VOZ PARA UNA PC

El amplificador operacional ideal tiene ganancia infinita y respuesta a la frecuencia también


infinita, resistencias de entrada infinita y una resistencia cero a la salida.

En un circuito con las terminales anteriormente conectadas, el voltaje de salida se mide con
respecto a tierra. El límite superior de se denomina voltaje positivo de saturación , y el
límite inferior de voltaje negativo de saturación . La salida de la terminal puede caer hasta
1V debajo de +V y caer hasta 2V arriba de –V.

La polaridad del voltaje de salida depende sólo de la diferencia en voltaje entre las entradas
inversora y no inversora (ambos voltajes se miden respecto a tierra), por ello estas entradas se
denominan terminales de entrada diferencial. Esta diferencia de voltaje puede encontrarse por:

()( ) ( 1)

Para conocer la función de cada terminal del amplificador operacional, así como para saber un
poco sobre sus limitaciones de un amplificador real y sus características, consulte la referencia 14.

Ganancia de voltaje en lazo abierto

La ganancia de voltaje en circuito abierto , se denomina ganancia de voltaje en lazo abierto


porque las posibles conexiones de retroalimentación desde la terminal de salida a las terminales
de entrada se han dejado abiertas. En consecuencia, se puede expresar en forma ideal
mediante la relación.
( 2)

Donde el voltaje diferencia de entrada se denota por y la ganancia en lazo abierto del
amplificador por .

Amplificador no inversor.

Esta configuración tiene una resistencia externa de alimentación conectada entre la terminal de
salida y la terminal de entrada inversora (-). Este tipo de circuito se denomina circuito de
retroalimentación negativa. 15

Con la retroalimentación negativa se obtienen muchas ventajas, todas se basan en que el


comportamiento del circuito ya no depende de la ganancia a lazo abierto del amplificador
operacional ( ). Al agregar la resistencia de retroalimentación, se forma un circuito de la salida
a la entrada inversora (-). El circuito resultante tiene ahora una ganancia en lazo cerrado o
ganancia de amplificador , que es independiente de . La ganancia en lazo cerrado ,
depende sólo de las resistencias externas. El análisis del circuito se muestra a continuación.

15
Coughlin y Driscoll, 1999: 62-63.

Capítulo 2: Marco teórico 28


GRABADORA DIGITAL DE VOZ PARA UNA PC

En la figura 2.8 se ilustra un circuito no inversor; en donde el voltaje de salida , tiene la misma
polaridad que el voltaje de entrada . La resistencia de entrada del amplificador no inversor es
extremadamente grande, típicamente excede 100 MΩ. Para fines prácticos se tiene que el voltaje
entre las terminales (+) y (-) del amplificador operacional es de 0V, entonces ambas están al
mismo potencial . Por lo tanto aparece a través de , lo cual causa que la corriente fluya
como lo muestra la ecuación (3):

( 3)

Figura 2. 8 Polaridad de voltaje y dirección de corrientes para amplificadores no inversores

Capítulo 2: Marco teórico 29


GRABADORA DIGITAL DE VOZ PARA UNA PC

La dirección de depende de la polaridad de . La corriente de entrada a la terminal (-) del


amplificador operacional es despreciable. Por lo tanto , fluye a través de y la caída de voltaje a
través de se expresa por y se expresar como:

( ) ( 4)

El voltaje de salida se encuentra con la suma de la caída de voltaje a través de , el cual es , y


el voltaje a través de , el cual es :

( 5)

O bien:

( ) ( 6)

Al ordenar la ecuación (6) para expresar la ganancia el voltaje se obtiene:

( 7)

La ecuación (7) muestra que la ganancia de voltaje de un amplificador no inversor siempre es igual
o mayor que 1.

2.2.3 Relación señal/ruido

La relación señal/ruido (S/R) de la señal de audio expresa la relación de niveles entre la señal útil y
el ruido de fondo que le acompaña. Indica la calidad de ruido que añaden a la señal útil durante el
proceso de tratamiento de la señal de audio. Se mide en decibelios (dB). Cuanto más elevado es
su valor, menos ruido tendremos presente en la señal útil.16

Se utiliza para cuantificar la cantidad de ruido presente en alguna señal dada. Es relación entre la
potencia de la señal y la potencia del ruido.

( 8)
(⁄)

La relación se expresa en la ecuación (8) comúnmente en decibelio como en la ecuación (9):

16
Bolton, 1995: 50-51.

Capítulo 2: Marco teórico 30


GRABADORA DIGITAL DE VOZ PARA UNA PC

(⁄) () ( 9)

Como la potencia es ⁄ , entonces si es la tensión de la señal, la potencia de la señal es ⁄


y si es la tensión del ruido en los terminales de la misma resistencia entonces la potencia del
ruido es ⁄ . Por lo tanto:

( ⁄ ) ( ) ( ) ( 10)

Al ser las señales de ruido señales aleatorias superpuestas a la señal medida, tomar un valor
promedio en cc de la señal sobre un periodo de tiempo puede utilizarse para reducir el efecto del
ruido y mejorar la relación señal/ruido. La relación señal/ruido se incrementa en proporción a la
raíz cuadrada del tiempo sobre el que se promedia. Para señales repetitivas, promediando se
puede aumentar la relación señal/ruido. Se toman muestras para el mismo punto de la forma de
onda de la señal en cierto número de ciclos y se obtiene el valor promediado. Para cada muestra
como el ruido es aleatorio, la señal de ruido será diferente; a veces negativo a veces positivo. El
resultado del promedio de las muestras es, por tanto, una reducción del efecto del ruido y el
incremento de la relación señal/ruido para ese punto de la forma de onda. Este proceso de
promediado puede ser repetido para un número de puntos de la forma de onda y a señal
reconstruida. Esta técnica de promediado se realiza mediante software en los instrumentos
inteligentes, es decir, instrumentos que incorporan microprocesador.

2.2.4 Distorsión

La distorsión describe la variación de la forma de onda a la salida del equipo, con respecto a la
señal de entrada, y se debe a que los equipos de audio, no sólo los amplificadores, introducen
armónico en la señal, las causas de esta distorsión pueden ser múltiples. Esto se puede deber a la
falta de linealidad del dispositivo amplificador, desigual distancia de las curvas del transistor,
sobrepasar los limita de la zona lineal y a capacidades parásitas o asociadas al amplificador.

2.2.5 Respuesta en frecuencia

El rango de frecuencias y la respuesta en frecuencia no son lo mismo. Cuando se habla de rango de


frecuencias, a lo que se refiere, es entre que frecuencias la señal muestra respuesta. Lo que el
dato no nos dice: es que con que tanta precisión reproduce esas frecuencias. Por otro lado, el
parámetro respuesta de frecuencia representa que tan fiel se mantiene la misma intensidad de
referencia en todo el rango de frecuencias. Cuando reproduce la misma intensidad en todo el
rango de frecuencias, se tiene una respuesta lineal (caso ideal).17

17
Véase referencia 17.

Capítulo 2: Marco teórico 31


GRABADORA DIGITAL DE VOZ PARA UNA PC

La respuesta en frecuencia es el nivel de salida o sensibilidad de un micrófono a lo largo de su


rango operativo, desde la frecuencia más baja a la más alta. Generalmente, el análisis en
frecuencia de un amplificador se realiza sobre un rango muy variable de valores de frecuencia.
Para facilitar su caracterización se utiliza escalas logarítmicas en términos de decibelio.
Inicialmente el decibelio tuvo su origen para establecer una relación entre potencia y niveles de
audio en escala logarítmica. La definición de bel, cuyo nombre se debe a Alexander Graham Bell,
relativo a dos niveles de potencia y es:

( 11)

El bel es una unidad demasiado grande y para aplicaciones prácticas se utiliza el término decibelio
(dB) definida como 1dB = 0.1 bel o:

( 12)

Existe una segunda definición del decibelio aplicada más frecuentemente que opera sobre
tenciones en vez de potencias. Si consideramos la potencia disipada por una resistencia:

( 13)

Entonces sustituyendo la ecuación (13), en la ecuación (12) se obtiene:


( 14)

La presencia de condensadores en un amplificador hace que la ganancia de éste dependa de la


frecuencia.

2.2.6 Filtrado

Un filtro es un circuito diseñado para dejar pasar una banda de frecuencias especificada, mientras
atenúa todas las señales fuera de esta banda. Los circuitos de filtros pueden ser activos o pasivos.
Los circuitos de filtros pasivos contienen sólo resistores, inductores y capacitores. Los filtros
activos, emplean transistores o amplificadores operaciones más resistores, inductores y
capacitores. Los inductores no se utilizan a menudo en los filtros activos. Hay cuatro tipos de
filtros: pasa-bajas, pasa-altas, pasa-banda y elimina-banda. En la figura 2.9 se ilustran las gráficas
de respuestas en frecuencias de los cuatro tipos de filtros.18

18
Coughlin y Driscoll, 1999: 294-307.

Capítulo 2: Marco teórico 32


GRABADORA DIGITAL DE VOZ PARA UNA PC

Un filtro pasa-bajas es un circuito que tiene un voltaje de salida constante desde cd hasta una
frecuencia de corte . Conforme la frecuencia aumenta arriba de , el voltaje de salida se atenúa.
En la figura 2.9(a) se muestra una gráfica de la magnitud del voltaje de salida de un filtro pasa-
bajas en función de la frecuencia. La línea continua es la gráfica para el filtro pasa-bajas ideal, en
tanto que las líneas punteadas indican las curvas para los filtros pasa-bajas prácticos. La frecuencia
de corte también se denomina: frecuencia 0.707 o frecuencia a -3dB.

Los filtros pasa-altas atenúan el voltaje de salida para todas las frecuencias abajo de la frecuencia
de corte . Arriba de , la magnitud del voltaje de salida es constante. La figura 2.9(b) es la
gráfica para filtros pasa-altas ideal y práctico. La línea continua es la curva ideal, mientras que las
curvas punteadas muestran cómo los filtros prácticos pasa-altas pueden derivarse del ideal.

Los filtros pasa-banda permiten pasar sólo una banda de frecuencias mientras atenúan a todas las
demás. Los filtros rechaza-banda se comportan exactamente de manera opuesta; rechazan una
banda específica de frecuencias mientras que pasan todas las que se encuentran fuera de ella. Las
gráficas características de respuesta de frecuencia para los filtros pasa-banda y rechaza-banda, se
muestran en la figura 2.9(c) y (d). Como antes, la línea continua representa la gráfica ideal, en
tanto que las líneas punteadas muestran las curvas prácticas.

Figura 2. 9 Respuesta en frecuencia para cuatro categorías de filtros.

Capítulo 2: Marco teórico 33


GRABADORA DIGITAL DE VOZ PARA UNA PC

Filtro pasa-bajas de -20 dB/década

Un filtro pasa-bajas es un circuito que tiene un voltaje de salida constante desde cd hasta una
frecuencia de corte . Conforme la frecuencia aumenta arriba de , el voltaje de salida se atenúa.

El circuito en la figura 2.10(a) es un filtro activo pasa-bajas de uso común. El filtrado se hace con el
circuito y el amplificador operacional se utiliza como amplificador de ganancia unitaria. La
resistencia es igual a y se incluye para la desviación de cd.

Figura 2. 10 Filtro pasa-bajas y gráfica de respuesta en frecuencia para un filtro con una pendiente de -20 dB/década

El voltaje diferencia entre las terminales de entrada no inversora e inversora es en esencia 0V. Por
tanto, el voltaje a través del capacitor es igual al voltaje de salida , debido a que éste circuito
es un seguidor de voltaje. se divide entre y . El voltaje en el capacitor es igual a . Haciendo un
divisor de voltaje tenemos que:


( ) ( 15)

Capítulo 2: Marco teórico 34


GRABADORA DIGITAL DE VOZ PARA UNA PC

Donde es la frecuencia de en radianes por segundo ( ) y es igual a √ .


Ordenando la ecuación (15) para obtener la ganancia de voltaje de lazo cerrado , se obtiene:

( 16)

Para mostrar que el circuito de la figura 2.10(a) es un filtro pasa-bajas, basta con observar como
varía en la ecuación (16) conforme cambia la frecuencia y observaremos que:

 A frecuencias muy bajas, conforme se aproxima cero, hace | | .


 A frecuencias muy altas, conforme se aproxima a infinito, hace | | .

La figura 2.10(b) representa la gráfica | | en función de y se muestra que para frecuencias


mayores que la de corte , | | disminuye a una tasa de 20 dB/década. Esto equivale a decir
que la ganancia de voltaje se divide entre 10 cuando la frecuencia de se incrementa por 10.

Diseño del filtro.

La frecuencia de corte se define como la frecuencia de donde | | se reduce 0.707 veces su


valor a baja frecuencia. . La frecuencia de corte se evalúa mediante.

( 17)

Donde es la frecuencia de corte en radianes por segundo, es la frecuencia de corte en Hertz,


ésta en ohms y está en faradios. La ecuación (17) puede reordenarse para :

( 18)

Procedimiento de diseño.

1. Se escoge la frecuencia de corte o bien .


2. Se selecciona el capacitor C, por lo general entre0.001 y 0.1 .
3. Calcular a partir de la ecuación (18).

Repuesta del filtro.

El valor de a se encuentra al hacer en la ecuación (16).

( 19)

Capítulo 2: Marco teórico 35


GRABADORA DIGITAL DE VOZ PARA UNA PC

Por lo tanto, la magnitud de a es:

| | ( 20)

La curva continua en a figura 2.10(b) muestra cómo se desvía la magnitud de la respuesta en
frecuencia real respecto a la aproximación en línea recta punteada en la proximidad de .

Observando la respuesta en frecuencia del filtro pasa-bajas de la figura 2.10(b) es posible apreciar
diferentes valores de la magnitud para diferentes valores de : a | | ( ), a
| | ( ) y a | | ( ).

Muchas aplicaciones requieren atenuaciones mucho más pronunciadas después de la frecuencia


de corte. Es decir, es necesario que la ganancia en lazo cerrado esté tan próxima como sea posible
a 1 dentro del pasa-banda. El filtro Butterworth es el más adecuado para éste tipo de aplicaciones;
ya que ésta configuración de filtro común da atenuaciones más pronunciadas. Este primer filtro
que analizamos, sin embargo es paso básico para entender los Butterworth que se explican a
continuación.

Dos filtros activos similares al de la figura 2.10(a) pueden acoplarse juntos para dar una
atenuación de -40 dB/década, éste podría no ser el diseño más económico, ya que se requeriría
dos amplificadores operacionales. En la siguiente sección se muestra cómo puede utilizarse un
amplificador operaciones para construir un filtro Butterworth para dar una atenuación de -40
dB/década. Así mismo a un filtro de -40 dB/década se le puede colocar en cascada con un filtro de
-20 dB/década para producir un filtro de -60 dB/década.

Los filtros Butterworth no se diseñan para mantener un ángulo de fase constante a la frecuencia
de corte. Un filtro básico pasa-bajas de -20 dB/década tiene un ángulo de fase de -45° a , uno de
-40 dB/década tiene un ángulo de fase de -90° a y uno de -60 dB/década tiene un ángulo de -
135° a . Por tanto, por cada incremento de -20 dB/década, el ángulo de fase se incrementará
en -45° a

Filtro pasa-bajas de -40 dB/década

El circuito en la figura 2.11(a) es uno de los filtros pasa-bajas con una atenuación de -40
dB/década; esto es, después de la frecuencia de corte, la magnitud de decrece 40 dB cuando
aumenta a . La línea continua es la figura 2.11(b) muestra la gráfica de la respuesta en
frecuencia real. El amplificador operacional se conecta para una ganancia unitaria de cd. Se incluye
la resistencia para la desviación de cd, como se explicó anteriormente. El voltaje a través de
es igual al voltaje de salida , ya que el circuito del amplificador operacional básicamente es un
seguidor de voltaje.

Capítulo 2: Marco teórico 36


GRABADORA DIGITAL DE VOZ PARA UNA PC

Figura 2. 11 Circuito y gráfica de respuesta en frecuencia para un filtro pasa-bajas de -40 dB/década

El diseño del filtro pasa-bajas de la figura 2.12(a) se simplifica en gran medida al hacer las
resistencia y igual a .

Procedimiento de diseño.

1. Seleccionar la frecuencia de corte o bien .


2. Escoger ; seleccionar un valor adecuado entre 100 pF y 0.1 F.
3. Hacer .
4. Calcular:
( 21)

5. Seleccionar

Capítulo 2: Marco teórico 37


GRABADORA DIGITAL DE VOZ PARA UNA PC

Respuesta del filtro.

La curva continua de la figura 2.11(b) muestra que el filtro de la figura 2.11(a) no sólo tiene una
atenuación más pronunciada después de que el filtro que se muestra en la figura 2.10(a), sino
que además se mantiene a 0 dB casi hasta 0.25 . Los ángulos de fase para el circuito en la figura
2.12(a) varían desde 0° a 0 rad/s hasta -180° conforme se acerca a .

Observando la respuesta en frecuencia del filtro pasa-bajas de la figura 2.10(b) es posible apreciar
diferentes valores de la magnitud para diferentes valores de : a | | ( ), a
| | ( ) y a | | ( ).

A continuación se muestra que al colocar en cascada los dos filtros estudiados anteriormente
formamos un filtro pasa-bajas que produce una atenuación de -60 dB/década. Los resistores son
los únicos valores que tienen que calcularse.

Filtro Butterworth pasa-bajas de -60 dB/década

El filtro pasa-bajas de la figura 2.13(a) está construido con un filtro pasa-bajas de -40 dB/década
en cascada con otro de -20 dB/década para dar una atenuación general de -60 dB/década. La
ganancia global en lazo cerrado ( ) es la ganancia del primer filtro multiplicado por la ganancia
del segundo, es decir:

( 22)

Capítulo 2: Marco teórico 38


GRABADORA DIGITAL DE VOZ PARA UNA PC

Figura 2. 12 Circuito y gráfica de respuesta en frecuencia para un filtro pasa-bajas de -60 dB/década

Para el filtro, la magnitud de debe ser 0.707 en . A continuación se muestra los pasos que
deben seguirse para garantizar que la respuesta en frecuencia es plana en la pasa-banda.

Procedimiento de diseño.

1. Escoja la frecuencia de corte, o bien


2. Seleccionar , entre un valor de 0.001 y 0.1 .
3. Hacer:
4. Calcular

( 23)

5. Hacer .
6. y . Se recomienda que el valor de esté comprendido entre 10 y 100 kΩ.
Si el valor de se encuentra fuera de este intervalo, hay que regresar y seleccionar un
nuevo valor de .

El valor de la resistencia de la figura 2.13(a) es diferente a los de la figura 2.12(a), si bien la


frecuencia de corte es la misma. Esto es necesario para que | | se mantenga en 0 dB en la pasa-
banda hasta que casi se alcance la frecuencia de corte , en donde | | .

Capítulo 2: Marco teórico 39


GRABADORA DIGITAL DE VOZ PARA UNA PC

Respuesta del filtro.

La línea continua en la figura 2.12(b) es la gráfica real de la respuesta en frecuencia para la figura
2.12(a). La curva punteada muestra la aproximación en línea recta. Obsérvese además que
permanece bastante cercana a 1 (0dB) hasta la frecuencia de corte .

Observando la respuesta en frecuencia del filtro pasa-bajas de la figura 2.12(b) es posible apreciar
diferentes valores de la magnitud para diferentes valores de : a | | ( ), a
| | ( ) y a | | ( ).

En la figura 2.13 se muestra la respuesta en frecuencia ideal (línea continua) y la práctica (líneas
punteadas) para tres tipos de filtros Butterworth estudiados en ésta sección. Con forme las
pendientes se vuelven más pronunciadas, se aproximan al filtro ideal.

Figura 2. 13 Gráfica de respuesta en frecuencia para tres tipos de filtros pasa-bajas Butterworth

Con lo que se ha estudiado hasta ahora de los filtros pasa-bajas, ya es posible diseñar y realizar
filtros con pendiente más pronunciadas, sin embargo, hacerlo consiste gastar más recursos como
amplificadores operacionales, resistores y capacitores.

En nuestro caso cose considera que un filtro con una caída -80 dB/década es más que suficiente
para nuestra aplicación de la grabadora de voz. En el siguiente capítulo con dos amplificadores en
cascada de -40 dB/década se genera un filtro pasa-bajas de -80 dB/década.

Capítulo 2: Marco teórico 40


GRABADORA DIGITAL DE VOZ PARA UNA PC

2.3 Conversión analógico-digital

En el mundo real las señales analógicas varían constantemente, pueden variar lentamente como la
temperatura o rápidamente como una señal de voz. Lo que sucede con las señales analógicas es
que son muy difíciles de manipular, guardar y después recuperar con exactitud. Si esta
información analógica se convierte a información digital, se puede manipular sin problema, de ahí
la importancia de un ADC (Convertidor Analógico Digital).

La representación de audio más común es la de almacenar el sonido como un conjunto de


muestras de amplitudes, es decir, representar el sonido como una función variante en el tiempo.
La idea de audio digital es el uso de números para representar el sonido físico a través de un
proceso de conversión analógico-digital (A/D). Éste consiste en una secuencia de valores enteros,
los cuales se obtienen a partir de muestreo, la cuantificación y la codificación digital. Procesos
que se explicarán en esta sección.

La figura 2.14(a) y 2.14(b) muestra una señal representada de formas: analógica y digital
respectivamente. El proceso de conversión A/D implica la toma de muestras así como la
cuantificación y codificación de éstas. Estas etapas mencionadas son integradas en un ADC.

Figura 2. 14 (a) Representación de una señal analógica y (b) Representación de una señal digital

La Modulación por Pulsos Codificados hace posible la transmisión de señales digitales a diferencia
de los otros sistemas de modulación de pulsos (PWM, PPM O PAM) ya que un solo pulso o la
ausencia de éste representan un digito binario (bit), de ahí que PCM sea la técnica de modulación
más usada en un sistema de transmisión digital.19

19
Stremler, 2006: 402-413.

Capítulo 2: Marco teórico 41


GRABADORA DIGITAL DE VOZ PARA UNA PC

Un ADC (Convertidor Analógico Digital) es un circuito integrado que convierte señales analógicas
en datos binarios 0s y 1s. El objetivo básico de un ADC es transformar una señal eléctrica análoga
en un número digital equivalente. La información manipulada puede volver a tomar su valor
analógico, si se desea, con un DAC (Convertidor Digital Analógico). 20

El diagrama a bloques de la figura 2.15 muestra la secuencia desde que la variable física entra al
sistema hasta que es transformada a señal digital. Para que dicha señal ingrese al ADC, ésta debe
estar acondicionada y posteriormente muestreada, es decir, se toman valores discretos en
instantes de tiempo de la señal análoga. Matemáticamente es el equivalente a multiplicar la señal
analógica por una secuencia de impulsos de periodos constantes. Como resultado se obtiene un
tren de pulsos con amplitudes limitadas por la envolvente de la señal analógica. A esto prosigue
convertir las amplitudes de las muestras a un conjunto de datos o niveles de amplitud finitas
(cuantizar), para después representar los datos en código binario (codificar).

Sistema Convertidor
Sensor Computadora
físico analógico - digital

0101101

Señal eléctrica Señal eléctrica


Señal física Señal eléctrica (Digital)
(análoga)

Voz humana Voltaje Digitalización Código binario

Figura 2. 15 Etapas de un convertidor analógico-digital

A continuación se estudiaron las etapas de muestreo, cuantización y codificación. Estas dos


últimas son características del sistema PCM, en especial la codificación, que la distingue de los
demás tipos de modulación y da una gran utilidad para diversas aplicaciones en la electrónica
digital donde requerimos obtener muestras de una señal analógica y transformar estos datos en
información digital.

Existen una gran variedad de ADC’s, y se clasifican de acuerdo a sus parámetros como velocidad de
muestreo, resolución, entre otras. Para el caso de voz, no es necesaria una alta resolución por lo
que una calidad telefónica de 8 bits con un ancho de banda de 4 kHz es suficiente para poder
entender un mensaje de cualquier emisor.

20
Véase referencia 20.

Capítulo 2: Marco teórico 42


GRABADORA DIGITAL DE VOZ PARA UNA PC

2.3.1 Muestreo

El muestreo consiste en revisar constantemente la señal analógica de entrada y convertir esas


muestras en una serie de niveles PAM (Modulación por Amplitud de Pulsos).

La operación consiste en la toma de valores (de tensión eléctrica) de la señal analógica un número
determinado de veces por unidad de tiempo. Dichas medidas constituyen impulsos, los cuales son
una representación de la forma de onda original. El tiempo transcurrido entre una muestra y la
siguiente se llama periodo de muestreo y su inverso nos indica la frecuencia de muestro.

El muestro de una función ( ) produce la generación de réplicas de la amplitud en múltiplos de la


tasa de muestreo periódico. Las amplitudes de los pulsos generados variarán en proporción a los
valores de las amplitudes de muestra de la señal moduladora ( ).

Figura 2. 16 Muestreo de una señal analógica

Teorema de muestreo de Nyquist

El teorema de muestreo de Nyquist establece la mínima razón de muestreo que debe


considerarse en un sistema para garantizar la toma de la muestra y su conversión de manera
satisfactoria. La frecuencia de muestreo , debe ser como mínimo el doble de la frecuencia más
alta de entrada .

( 24)

Dónde: = frecuencia mínima del muestreo de Nyquist (Hz)


= frecuencia más alta contenida en una señal analógica

Capítulo 2: Marco teórico 43


GRABADORA DIGITAL DE VOZ PARA UNA PC

2.3.2 Cuantificación y codificación

En este bloque se convierten las muestras PAM en un flujo de datos binarios para la transmisión.

 La cuantificación consiste en tomar las amplitudes del proceso de muestreo y aproximarlas


a una serie de niveles permitidos. Ninguna muestra puede estar fuera de estos niveles.
 La codificación consiste en asignarle un valor binario a cada una de las muestras
cuantificadas. La cantidad de niveles que tenga el cuantificador dependerá del tamaño de
la palabra binaria.

Cuantificación

Si se desea cuantificar una señal, en cada tiempo de muestra debe decidirse cuál de los n niveles
discretos usados es la mejor aproximación a la señal original. Eligiendo el valor más cercano, se
mantiene hasta el siguiente tiempo de muestra. Este proceso de cuantificación introduce algunas
variaciones con respecto al valor real, estas pueden tomarse como ruido. El aumento de los
niveles de cuantificación tenderá a reducir ese ruido y aumentará la calidad de resolución. La
cuantificación puede ser:

 Lineal. Usa niveles igualmente espaciados. Este tipo de cuantificación es útil en los
sistemas en que todos los niveles de cuantificación nos son de igual importancia, entonces
se usan incrementos iguales de nivel de cuantificación.
 No lineal. Con niveles no espaciados de manera uniforme. Este tipo de cuantificación
resulta provechoso, por ejemplo en sistemas en que los niveles altos son más importantes
que los bajos.

Figura 2. 17 Cuantificación de una señal analógica

Capítulo 2: Marco teórico 44


GRABADORA DIGITAL DE VOZ PARA UNA PC

Codificación

La codificación consiste en asignar un valor binario (digital) a cada una de las muestras
cuantificadas de manera que exista correspondencia uno a uno entre los niveles y el conjunto de
los enteros reales. Este proceso reduce la señal a un conjunto de dígitos en los sucesivos tiempos
de muestra, originando un sistema de modulación completamente digital. Los dígitos se expresan
en forma codificada. El código más común para este propósito es el binario (solo dos posibles
niveles de pulso, 1 o 0). Así en lugar de enviar las muestras individuales en los tiempos de
muestra, se envía un código para conducir la información en forma cuantificada.

Figura 2. 18 Codificación de una señal analógica

2.3.4 Convertidores usados en audio

En las aplicaciones actuales de audio donde es requerida la adquisición de una señal analógica de
audio son usados gran infinidad de convertidores analógicos digitales que se comercializan, los
cuales varían sus capacidades de acuerdo a la aplicación final.

Para el caso de aplicaciones con calidad CD es necesario considerar una frecuencia de muestreo de
44.1 KHz y un tamaño de palabra de 16 bits, como mínimo, el aumento de estos dos factores
reflejará mayor calidad final, pero deberá considerarse el estándar del códec y del formato de
archivo final en el caso de almacenamiento. También pueden considerarse menos capacidades del
convertidor, pero eso dependerá de la aplicación final como ha sido mencionado.

En el caso de tratamiento de voz no es necesaria una alta resolución, por lo que una calidad
telefónica de 8 bits con un ancho de banda de 4 kHz es suficiente para poder entender un mensaje
de cualquier emisor. Ya que basta con hacer entendible el mensaje, que es el objetivo primordial.

Capítulo 2: Marco teórico 45


GRABADORA DIGITAL DE VOZ PARA UNA PC

Las principales características de cualquier tipo de ADC son las siguientes:

 Voltaje de Polarización (VCC o VDD)

Es el voltaje aplicado a un componente (circuito integrado) para su correcto funcionamiento.

a) Unipolar (+VCC, GND). Tienen solo polaridad de voltaje positivo. Son empleados para
representar tensiones de señales que oscilan de entre cero (típicamente tierra) a un
valor de voltaje positivo (por lo general la tensión de referencia positivo).
b) Bipolar (+VCC, -VDD). Estos se utilizan para representar tensiones de entrada positivos
y negativos, es decir, para señales que tienen un rango de voltaje de entrada por
encima y por debajo de un cierto punto de referencia. Los números inferiores a 0 V
son negativos y los números por encima de 0 V son positivos.

 Voltaje de referencia (+VREF, -VREF)

Son los voltajes límite de la señal de entrada ( ) y determinan el rango en el cual se


convertirá dicha señal. Dicho de otra forma podemos decir que los voltajes de referencia son
los valores analógicos de entrada límites entre los que deberá estar comprendida la tensión
analógica a convertir. El nivel superior se representa por y el inferior por .

Típicamente:
( 25)

( 26)

 Ancho de palabra

Se refiere al número de bits del bus de datos y por lo regular es representado por la letra n.
Típicamente n: 8, 10, 12, 16, 20 bits. Por lo tanto el rango de codificación está dado por:

( 27)

Es decir, si nuestro ADC tiene un ancho de palabra de 10 bits, el número total de


codificaciones para representar los niveles de la señal tratada es datos.

 Función de transferencia

Es un modelo matemático que a través de un cociente relaciona la respuesta del ADC del
microcontrolador, mostrando la equivalencia entre el mundo analógico y real. Una función de
transferencia ideal es aquella que no contiene errores.

Capítulo 2: Marco teórico 46


GRABADORA DIGITAL DE VOZ PARA UNA PC

ADC unipolar: En el caso de una señal unipolar entre 0V y 5V, su equivalente digital para n bits
sería 00…00 para 0V (zero-scale) y 11...11 para 5V (full-scale).

Figura 2. 19Función de transferencia de un ADC unipolar

ADC bipolar: En el caso de una señal bipolar entre -5V y 5V, su equivalente digital

Figura 2. 20 Función de transferencia de un ADC bipolar

Capítulo 2: Marco teórico 47


GRABADORA DIGITAL DE VOZ PARA UNA PC

 Resolución

El dispositivo establece una relación entre su entrada (señal analógica) y su salida (señal
digital) dependiendo de su resolución. Esta resolución se puede saber, siempre y cuando
conozcamos los valores máximos de voltajes que tenemos en la entrada y la cantidad máxima
de la salida en dígitos binarios.

La resolución es la variación mínima de voltaje de entrada que genera el cambio de un bit a la


salida. Dicho de otra manera es la variación más pequeña en el voltaje de entrada capaz de
producir un cambio en una unidad en el dato de salida. Un incremento en un solo bit permite
disponer del doble de precisión (doble resolución).

También se le conoce como sensibilidad, ya que el valor mínimo de voltaje que puede detectar
un ADC. Matemáticamente se puede considerar de la siguiente forma.

( )
( 28)

Primero se define el número máximo de bits de salida (la salida digital). Este dato permite
determinar el número máximo de combinaciones en la salida digital. Este número máximo
está dado por: 2n donde n es el número de bits del bus de datos (ancho de palabra). Una
mayor cantidad de bits, implica mayor número de niveles, lo que implica mayor precisión,
pero también mayor complejidad.

 Error de cuantización

Este error es parte de la etapa de conversión de la señal analógica en una representación


digital, y es la información que se pierde en ese proceso. Una señal analógica es continua, y
puede tener infinidad de valores, mientras que una señal digital es discreta, tiene cantidad
finita de valores posibles.

Es aquí entonces donde radica el error; al intentar traducir una señal que tiene infinitos
valores en otra que sólo puede tener valores finitos, está claro que se pierde información. La
cantidad de valores o estados posibles que puede tener la señal digital está relacionada con la
cantidad de bits con la cual ésta se representa. Sin embargo la cantidad de bits es una cantidad
finita. La única forma de hacer que este error sea nulo, es haciendo que la cantidad de bits
con la que se representa el valor digital sea infinito, lo cual no es posible. Esto implica que
cierto valor digital representa a muchos valores analógicos posibles. De esta forma, un valor
analógico produce una salida digital, y esta salida digital si se vuelve a convertir a un valor
analógico, puede que no corresponda con el valor original, si no con una aproximación
solamente. Cierta información se ha perdido en este proceso, y esto se le conoce como error
de cuantización.

Capítulo 2: Marco teórico 48


GRABADORA DIGITAL DE VOZ PARA UNA PC

En el caso de un conversor ideal, donde la función de salida puede creerse como una escalera
perfecta, el error entre la señal real de entrada y su correspondencia con la salida digital, tiene
una función de densidad de probabilidad uniforme. El error varía en el rango de ±1/2 LSB, o
bien; ±q/2, donde q es el ancho del escalón.

Figura 2. 21 a) Periodo de muestreo y b) redondeo de las muestras a valores discretos durante el proceso de la
cuantización y codificación.

es el máximo error que introduce un ADC al digitalizar una señal (no se puede eliminar).

|||| ( 27)

(30)

La frecuencia de muestreo se expresa como:

(31)

 Tiempo de conversión

Es el tiempo que tarda un ADC en muestrear, cuantizar y entregar en el bus de datos el


resultado de una conversión. Por lo tanto, el tiempo de conversión es el factor que limita la
frecuencia máxima de muestreo de un ADC.

( 32)

Capítulo 2: Marco teórico 49


GRABADORA DIGITAL DE VOZ PARA UNA PC

El tiempo de conversión está dado por el tipo de ADC.

a) ADC Rampa

() ( 33)

Donde es el periodo de reloj usado en el ADC.

b) ADC de aproximación sucesiva

( ) ( 34)

c) ADC paralelo o tipo “flash”

Es el ADC más rápido disponible en la actualidad pero requiere de muchos más circuitos
que los otros tipos de convertidores.

 Muestras por segundo

En algunas aplicaciones, es necesario disponer de un convertidor capaz de tratar señales de


elevada frecuencia. Siempre es importante disponer de una velocidad de muestreo que
garantice la conversión de forma correcta, teniendo en cuenta el teorema de muestreo, según
el cual la frecuencia de muestreo debe ser, como mínimo el doble de que el ancho de banda
de la señal muestreada para que sea posible la digitalización.

Este dato sirve para conocer el espacio requerido para almacenar las muestras, así como para
determinar el ancho de banda digital del canal que va a transmitir las muestras.

( 35)

 Tiempo de adquisición

Es el tiempo durante el cual el sistema de muestreo y retención deben permanecer en estado


de muestreo para asegurar que el consiguiente estado retención este dentro de la banda de
error especificada para la señal de entrada.

 Tiempo de asentamiento

Es el intervalo de tiempo entre la retención y el definitivo asentamiento de la señal.

Capítulo 2: Marco teórico 50


GRABADORA DIGITAL DE VOZ PARA UNA PC

2.4 Transmisión serie de datos

La comunicación serial consiste en el envío de un bit de información de manera secuencial, esto


es, un bit a la vez y a un ritmo acordado entre el emisor y el receptor en contraste con la
comunicación paralela que envía varios bits simultáneamente. Es frecuentemente utilizada por
computadoras y periféricos. Toda comunicación elaborada entre dos dispositivos requiere conocer
el protocolo que la gobierna a nivel hardware y software. Para el puerto serie se trata del
estándar RS-232 (Recommended Standard 232, Estándar Recomendado 232), también conocida
como EIA/TIA-232 (Electronic Industries Alliance RS-232C / Telecommunication Industry
Association RS-232C).

2.4.1 Comunicación RS-232 y sus características

El estándar RS-232 es una interfaz que designa una norma para el intercambio serie de datos
binarios entre un DTE (Data Terminal Equipment, Equipo terminal de datos) y un DCE (Data
Communication Equipment, Equipo de comunicación de datos). El RS-232 consiste en un conector
tipo DB-25 (de 25 pines), aunque hoy en día es normal encontrar la versión de 9 pines (DE-9, o
popularmente también denominado DB-9). 21

 Características
- Es lo que inicio la creación de redes
- La conexión no debe ser más de 50 pies (15 metros
aproximadamente).
- Los niveles lógicos de voltaje son: -15 para el 1
lógico y +15 para el 0 lógico.
Figura 2. 22 Cable Serial con adaptador USB
- Es una forma de comunicación asíncrona.
- Está diseñado para la transmisión de caracteres de 7 bits de longitud.
- Cuando la conexión está en modo “Idle”, el hardware vincula la conexión a 1 lógico.

 Ventajas
- La comunicación serie es la forma más simple de comunicación entre dos dispositivos.
- Es bastante intuitivo una vez que se ve el patrón.
- Si no necesita enviar datos, la comunicación ésta en modo “Idle” (inactiva). Una
medida o protección adicional de la CPU para la protección.

 Desventajas
- Los niveles de los voltajes de transmisión son -15 V a + 15 V.
- Está diseñada para distancias cortas, de hasta 15 metros según la norma.
- Velocidades de comunicación bajas, de no más de 20kbps.

21
Véase referencia 21.

Capítulo 2: Marco teórico 51


GRABADORA DIGITAL DE VOZ PARA UNA PC

Transmisión de datos con la interfaz RS-232

La comunicación RS-232 depende de una velocidad de transmisión para la comunicación entre


ambos dispositivos hardware. En otras palabras, el hardware sabe cuánto tiempo un bit debe estar
en alto o bajo. RS-232 también específica el uso de los bits de “start” (de inicio) y “stop” (de paro).

 Envío de un carácter. Cada vez que se envía un carácter, produce el mismo paquete o la
misma comunicación.

- 1 de inicio
- 7 bits de datos
- 1 de parada

Esta comunicación depende del hecho de que ambos dispositivos estén muestreando o
recibiendo los bits a la misma velocidad.

 Bit de inicio (start). El bit de inicio es un cero lógico enviado a la línea para que el otro
dispositivo (destino o receptor) comience a muestrear. Recordar que el 0 lógico es
+15VCD.

 Bit de parada (stop). El bit de parada es 1 lógico (-15 VCD). Un bit de parada se envía
siempre (por el estándar RS-232).

 Una transmisión:

Figura 2. 23 Ejemplo de la transmisión de un carácter

- Comienza en estado Idle la línea (-15V).


- El bit de inicio (start) lo lleva a +15V.
- A continuación 7 bits del carácter que se desea transmitir (1011010).
- Por último el bit de stop que mantiene a la línea en modo idle.

Capítulo 2: Marco teórico 52


GRABADORA DIGITAL DE VOZ PARA UNA PC

 Comunicación. Uno de los factores más importantes para establecer una buena
comunicación es que ambos dispositivos deben tener la misma velocidad para
comunicarse. La velocidad o tasa de transmisión de los dispositivos series se llama baudio.
Es el número de cambios en una señal por segundo.

La comunicación serie no tiene que utilizar siete bits de longitud. Una gran variedad de
patrones de inicio y final de bits pueden ser utilizados.

 Ajustes comunes del puerto serie. La mayoría de los ajustes para enviar caracteres son:

- Bits por segundo.


- Número de bits de datos
- Paridad
- Número de bits de parada.
- La comunicación típica es de 9600 bits/segundo, 8 bits de datos, 1 bit de paridad y 1
bit de alto.

 Línea de muestreo

- El hardware RS-232 muestrea la línea varias veces durante la transmisión de un solo


bit.
- Si todas las muestras no tienen las mismas tensiones se produce un error de trama.
- Un error de encuadre sólo debe ocurrir si un dispositivo está enviando más rápido que
el otro dispositivo que está configurado para recibir.
- Un error de trama intencional puede ser causado mediante el envío de una ruptura.

 Transmisión Full Dúplex: La transmisión Full-Dúplex (FDX) se produce cuando los datos se
pueden ser transmitidos simultáneamente por ambos dispositivos; se necesita una
conexión (cableado) especial para establecer la comunicación.

 Cableado RS-232: En la versión original la especificación RS-232 marcaba el uso de un


cable con clavija de 25 terminales, sin embargo como en los dispositivos más modernos no
se utilizaban la mayoría de estas terminales, entonces se optó por usar una conexión serie
de 9 pines.

Figura 2. 24 a) Conectores DB-25 macho/hembra respectivamente y conectores DB-9 macho/hembra respectivamente

Capítulo 2: Marco teórico 53


GRABADORA DIGITAL DE VOZ PARA UNA PC

 Tipos de conectores

- Los dos conectores diferentes están asociados con dos tipos diferentes de hardware:
El Equipo de comunicación de datos (DCE) y el Equipo terminal de datos (DTE).
- La computadora que transmite en la terminal 2 y recibe en la terminal 3 es el DCE, y
viceversa, el dispositivo que transmite sobre la terminal 3 y recibe en el pin 2 es el
DTE.

Figura 2. 25 Diagrama de comunicación entre un DTE y un DCE a través de una interface serial

 Limitaciones de velocidad

- Para las personas familiarizadas con las comunicaciones por modem, hay una
limitación de la velocidad asociada con la transmisión.
- 56K (kilobit) para módems analógicos, esta limitación se debe a los sistemas
telefónicos, y no los sistemas informáticos.
- Sin embargo, las comunicaciones seriales en dispositivos también poseen su propia
barrera de velocidad.

 Ruido

- Es causada por una variedad de las fuentes, lo cual conduce a velocidades más bajas y
menos fiables de transmisión.
- La tasa de bits máxima para una transmisión de una llamada de voz es de 64000 bps
(64 kbps) con una frecuencia de muestreo de 8 KHz.

La velocidad está estandarizada según la norma RS-232C en baudios: 75, 110, 150, 300, 600,
1200, 2400, 4800, 9600, 19200.

Fuera de la norma: 38400, 57600, 76800, 115200.

Capítulo 2: Marco teórico 54


GRABADORA DIGITAL DE VOZ PARA UNA PC

2.4.2 UART

El ordenador controla el puerto serie mediante un circuito integrado llamado UART


(Universal Asynchronous Receiver-Transmitter, Transmisor-Receptor Asíncrono Universal). Las
UART o USART se diseñaron para convertir las señales que maneja la CPU y transmitirlas al
exterior. Es en la UART en donde se implementa la interfaz.22

Entre sus características principales se encuentran que:

 Su función principal es convertir los datos recibidos del bus del PC en formato paralelo, a
un formato serie que será utilizado en la transmisión. También realiza el proceso
contrario: transformar los datos serie recibidos del exterior en un formato paralelo
entendible por el bus.
 Manejar las interrupciones de los dispositivos conectados al puerto serie.
 Las UART deben resolver problemas tales como la conversión de voltajes internos del DCE
con respecto al DTE.
 Gobierna las señales de control.
 Debe ser robusta y deberá tolerar circuitos abiertos, cortocircuitos y escritura simultánea
sobre un mismo pin, entre otras consideraciones.

Figura 2. 26 Diagrama a bloques de la conexión entre el CPU y la USART

Generalmente cuando se requiere conectar un microcontrolador (con señales típicamente entre


3.3 y 5 V) con un puerto RS-232 estándar se utiliza un driver de línea, típicamente un MAX232 o
compatible, el cual mediante dobladores de voltaje positivos y negativos permite obtener la señal
bipolar (típicamente alrededor de +/- 5V) requerida por el estándar.

Existe un dispositivo electrónico encargado de generar la UART en cada puerto serie. La mayoría
de los ordenadores modernos utiliza el chip UART 16550, que soporta velocidades de transmisión
de hasta 921,6 Kbps (Kilobits por segundo).

22
Véase referencia 22.

Capítulo 2: Marco teórico 55


GRABADORA DIGITAL DE VOZ PARA UNA PC

Transmisión y recepción de datos serie

El controlador del UART es el componente clave del subsistema de comunicaciones series de una
computadora. El UART toma bytes de datos y transmite los bits individuales de forma secuencial.
En el destino, un segundo UART reensambla los bits en bytes completos. La transmisión serie de la
información digital (bits) a través de un cable único u otros medios es mucho más efectiva en
cuanto a costo que la transmisión en paralelo a través de múltiples cables. Se utiliza un UART para
convertir la información transmitida entre su forma secuencial y paralela en cada terminal de
enlace. Cada UART contiene un registro de desplazamiento que es el método fundamental de
conversión entre las forma serie y paralelo.

El UART normalmente no genera directamente o recibe las señales externas entre los diferentes
módulos del equipo. Usualmente se usan dispositivos de interfaz separados para convertir las
señales de nivel lógico del UART hacia y desde los niveles de señalización externos.

Las señales externas pueden ser de variada índole. Ejemplos de estándares para señalización por
voltaje son RS-232, RS-422 y RS-485 de la EIA. Históricamente, se usó la presencia o ausencia de
corriente en circuitos telegráficos. Algunos esquemas de señalización no usan cables eléctricos.
Ejemplo de esto son la fibra óptica, infrarrojo y Bluetooth (inalámbrico).

2.4.3 Construcción física DB-9

La interfaz puede trabajar en comunicación asíncrona o síncrona y tipos de canal Simplex, Half-
Duplex o Full-Duplex.

 Simplex: se dice que el enlace entre DCE’s es simplex cuando hay trasmisión de datos en
un solo sentido.
 Half-Duplex: se dice que el enlace entre DCE’s es Half-Duplex cuando hay transmisión de
datos en ambas direcciones pero no simultáneamente. En un instante dado sólo hay
transmisión en un sentido.
 Full-Duplex: se habla de un enlace Full-Duplex cuando hay transmisión de datos en ambas
direcciones y en forma simultánea, el DCE transmite y recibe al mismo tiempo.

Las líneas de handshaking de la RS-232 se usan para resolver los problemas asociados con este
modo de operación, tal como en qué dirección los datos deben viajar en un instante determinado.

Si un dispositivo de los que están conectados a una interfaz RS-232 procesa los datos a una
velocidad menor de la que los recibe deben de conectarse las líneas handshaking que permiten
realizar un control de flujo tal que al dispositivo más lento le dé tiempo de procesar la
información. Las líneas de "handshaking" que permiten hacer este control de flujo son las líneas
RTS (Request To Send, Petición de envió) y CTS (Clear To Send, Preparado para él envió).

Capítulo 2: Marco teórico 56


GRABADORA DIGITAL DE VOZ PARA UNA PC

Los diseñadores del estándar no concibieron estas líneas para que funcionen de este modo, pero
dada su utilidad en cada interfaz posterior se incluye este modo de uso. El siguiente diagrama y
tabla muestran los pines de las señales RS-232 para la comunicación entre un DCE y un DTE.

Figura 2. 27 Diagrama de pines del conector DB-9

Tabla 2. 1 Señales de los pines del conector DB-9 para el RS-232


Pin Señal
1 DCD Data Carrier Detect (Detección de línea abierta)
2 RD Received Data (Recepción de datos)
3 TD Transmitted Data (Transmisión de datos)
4 DTR Data Terminal Ready (Terminal de datos listo)
5 G Common Ground (Señal de tierra)
6 DSR Data Set Ready (Receptor de datos listo)
7 RTS Request To Send (Petición de envió)
8 CTS Clear To Send (Preparado para el envío)
9 RI Ring Indicator (Timbre)

 Data Carrier Detect (DCD): DCE está conectado a la línea. Por este circuito el equipo de
comunicaciones indica al DTE si las señales recibidas a través del medio de
comunicaciones se ajusta a los niveles especificados por las normas.
 Received Data (RD): Transporta datos de DCE a DTE. Por este circuito pasan hacia el DTE
local los datos recibidos del DTE remoto.
 Transmitted Data (TD): Transporta datos de DTE a DCE. Por este conductor pasan los
datos de información originados en el DTE con dirección al DCE para ser transmitidos a
través del medio de comunicación al equipo remoto.
 Data Terminal Ready (DTR): Indica la presencia de DTE a DCE. Las señales transmitidas por
este circuito indican si el equipo terminal está encendido y listo para funcionar.
 Common Ground (G): Este conductor establece el potencial de tierra común de referencia
para todas las señales de interfaz, a excepción de la tierra de protección.
 Request To Send (RTS): Peticiones DTE al DCE se preparan para recibir datos. Cuando el
DTE está listo para transmitir datos activa este circuito, indicando con ello al DCE que se
prepare porque desea transmitir información. Al activarse este circuito obliga al equipo de

Capítulo 2: Marco teórico 57


GRABADORA DIGITAL DE VOZ PARA UNA PC

comunicaciones a pasar al estado de transmisión con respecto al medio de comunicación.


Este circuito permanecerá encendido durante el tiempo que el equipo terminal transfiera
datos por el circuito. Al desactivarse, obliga el DCE a pasar al modo de no transmisión.
 Clear To Send (CTS): Indica DCE está listo para aceptar datos. Por este circuito el DCE
responde a la petición para transmitir por el DTE. La activación de este circuito indica a la
terminal que el equipo de comunicaciones está listo para transmitir datos por el medio de
comunicación. Al desactivarse indica que el DCE no está en condiciones de transmitir.
 Data Set Ready (DSR): DCE está listo para recibir órdenes o datos. Las señales transmitidas
por este circuito indican si el DCE está encendido y listo para funcionar. Normalmente este
circuito está activado cuando el DCE está encendido, indicando que está conectado al
medio de comunicación y lista para intercambiar señales de control con el equipo terminal
a él conectado.
 Ring Indicator (RI): DCE ha detectado una señal de llamada entrante en la línea telefónica.

Las señales TD, DTR y RTS son de salida, mientras que RD, DSR, CTS y DCD son de entrada. La señal
de referencia para todas las señales es G.

Actualmente el RS-232 ha quedado relegado al control de ciertas máquinas de tipo industrial ya


que para uso doméstico el puerto serie USB ofrece una tasa de transferencia de información
mucho mayor. Muchas computadoras actuales ya dejan de incorporar de fábrica el estándar RS-
232 por lo tanto, para usar este estándar debemos hacer uso de adaptadores. El mayor
inconveniente del puerto USB es que no admite distancias de transmisión superiores a 5 metros.
Para superar esta limitación física tenemos los adaptadores USB-RS232 y USB-RS485, con lo que
conseguimos los beneficios de ambos estándar de comunicación, facilidad de manejo y conexión y
una distancia de control cableada entre 40 y 1000 metros.

Figura 2. 28 Diagrama del conector DB-9 con adaptador USB

Capítulo 2: Marco teórico 58


GRABADORA DIGITAL DE VOZ PARA UNA PC

2.4.4 Comunicación USB

USB (Universal Serial Bus, Bus Universal en Serie) es una interfaz para transmisión de datos y
distribución de energía que ha sido introducida en el mercado de PC´s y periféricos para mejorar
las lentas interfaces serie (RS-232) y paralelo. Esta interfaz de 4 hilos, 12 Mbps y “plug and play”,
distribuye 5V para alimentación, transmite datos y está siendo adoptada rápidamente por la
industria informática. 23

El Universal Serial Bus, es un bus serie que hace posible la conexión de hasta 127 periféricos a una
única puerta de un PC, con detección y configuración automáticas, siendo esto posible con el PC
conectado a la red y sin tener que instalar ningún hardware ni software adicionales, y sin tener
que reiniciar el ordenador. Ha sido desarrollado por empresas líderes del sector de las
telecomunicaciones y de los ordenadores: Compaq, DEC, IBM, Intel, Microsoft, NEC y Northern
Telecom. En este momento ya hay en el mercado PCs y periféricos (teclados, ratones, monitores,
etc.) que disponen de puertos USB.

Organización del USB

USB es un bus basado en el paso de un testigo, semejante a otros buses como los de las redes
locales en anillo con paso de testigo y la red FDDI (Fiber Distributed Data Interface, Interfaz de
Datos Distribuida por Fibra). El controlador USB distribuye testigos por el bus. El dispositivo cuya
dirección coincide con la que porta el testigo, responde aceptando o enviando datos al
controlador. Este también gestiona la distribución de energía a los periféricos que lo requieran.

USB emplea una topología de estrellas apiladas que permite el funcionamiento simultáneo de 127
dispositivos a la vez. En la raíz o vértice de las capas, está el controlador anfitrión o host que
controla todo el tráfico que circula por el bus. Esta topología permite a muchos dispositivos
conectarse a un único bus lógico sin que los dispositivos que se encuentran más abajo en la
pirámide sufran retardo. A diferencia de otras arquitecturas, USB no es un bus de almacenamiento
y envío, de forma que no hay retardo en el envío de un paquete de datos hacia capas inferiores.

El sistema de bus serie universal USB consta de tres componentes:

o Un controlador: Reside dentro del PC y es responsable de las comunicaciones entre los


periféricos USB y la CPU del PC.
o Hubs o concentradores: Son distribuidores inteligentes de datos y alimentación, y hacen
posible la conexión a un único puerto USB de 127 dispositivos.
o Periféricos: USB soporta periféricos de baja y media velocidad. Empleando dos
velocidades para la transmisión de datos de 1.5 y 12 Mbps se consigue una utilización más
eficiente de sus recursos.

23
Véase referencia 23.

Capítulo 2: Marco teórico 59


GRABADORA DIGITAL DE VOZ PARA UNA PC

2.5 Almacenamiento digital

WAV o WAVE (WAVEform audio file format) es un formato de audio digital normalmente
sin compresión de datos desarrollado y propiedad de Microsoft y de IBM que se utiliza para
almacenar archivos de sonidos en el PC, admite archivos mono y estéreo a diversas resoluciones y
velocidades de muestreo, su extensión es .WAV. Es una variante del formato RIFF (Resource
Interchange File Format, Formato de Fichero para Intercambio de Recursos), método para
almacenamiento en "paquetes”. 24

A pesar de que el formato WAV es compatible con casi cualquier códec de audio, se utiliza
principalmente con el formato PCM (no comprimido) y, al no tener pérdida de calidad, es
adecuado para uso profesional. Para tener calidad CD de audio se necesita que el sonido se grabe
a 44100 Hz y a 16 bits. Por cada minuto de grabación de sonido se consumen unos
10 megabytes de espacio en disco. Una de sus grandes limitaciones es que solo se pueden grabar
archivos de 4 gigabytes como máximo, lo cual equivale aproximadamente a 6.6 horas en calidad
de CD de audio. Es una limitación propia del formato, independientemente de que el sistema
operativo donde se utilice, y se debe a que en la cabecera del fichero se indica la longitud del
mismo con un número entero de 32 bits, lo que limita el tamaño del fichero a un máximo de 4,
294, 967, 295 bytes (4 gigabytes). En Internet no es popular, porque los archivos sin compresión
son muy grandes. Son más frecuentes los formatos comprimidos con pérdida, como el MP3. Como
éstos son más pequeños, la transferencia a través de Internet es mucho más rápida. Algunos
parámetros importantes que deben especificarse en cualquier formato de audio son:

 Número de canales: Depende del número de señales de audio simultáneos que contiene
el flujo de datos. Puede ser mono (1 canal), estéreo (2 canales) o multicanal como 5.1 (seis
canales) o 7.1 (ocho canales).
 Frecuencia de muestreo: Determina la calidad percibida, por lo tanto cuanto más alto sea
mayor será la fidelidad del sonido obtenido respeto al original. Para obtener calidad CD
nunca se utiliza frecuencias de muestreo superiores a 44.1kHz.
 Número de bits por muestra. Determina la precisión con la que se reproduce la señal
original y el rango dinámico de la misma. Se suelen utilizar 8 (para un rango dinámico de
hasta 45 dB), 16 (para un rango dinámico de hasta 90 dB como el formato CD) o 24 bits
por muestra (para 109 a 120 dB de rango dinámico). El más común es 16 bits.
 Tipo de compresión: Distingue entre compresión con pérdidas y sin pérdidas.
 Tasa de bits: Determina el número de bits de información necesarios por unidad de
tiempo. La tasa de bits no se puede deducir de los parámetros anteriores. Además, puede
ser constante (CBR), variable (VBR) o en media (ABR). En audio se utiliza tasa de bits
variable (VBR), puesto que es más eficiente que CBR cuando hay silencios o segmentos
donde la complejidad es baja y se pueden almacenar con menos bits.

24
Véase referencia 24.

Capítulo 2: Marco teórico 60


GRABADORA DIGITAL DE VOZ PARA UNA PC

2.5.1 RIFF

RIFF (Resource interchange file format, Intercambio de recursos de formato del archivo) es un
formato de archivo genérico para almacenar muchos tipos de datos, principalmente datos
multimedia como el audio o el video. Se basa en bloques y sub-bloques. Cada bloque tiene un tipo,
representado por una etiqueta de cuatro caracteres. Este tipo de bloque viene primero en el
archivo, seguido por el tamaño del bloque, a continuación, el contenido del bloque. Fue
introducida en 1991 por Microsoft e IBM, y fue presentada por Microsoft como el formato por
defecto para archivos multimedia de Windows 3.1 se basa en Electronic Arts' Interchange File
Format, introducida en 1985 para Amiga 1000, la única diferencia es que los enteros multi-byte
están en little-byte para 80x86, serie de procesadores utilizados en Amiga y computadoras Apple
Macintosh. 25

Lo primero en el contenido del bloque RIFF es el “tipo de formato”, que describe el tipo general
del contenido del archivo. Todos los enteros se almacenan en el orden de bytes de Intel bajo-alto
(normalmente conocido como “little-endian”). La implementación de Microsoft es conocida sobre
todo por medio de los formatos contenedores, como AVI, ANI y WAV, que utilizan RIFF como base.

Estructura de un archivo RIFF

Los archivos RIFF consisten en “bloques”. El formato general es idéntico a IFF (Interchange File
Format, Formato de intercambio de archivos), excepto por el orden de los bit, y el significado
diferente de los nombres de los “bloques”. Todos los “bloques” tiene el siguiente formato:

 BlockID (4 bytes): Contiene cuatro caracteres ASCII que identifican los datos del Bloque.
Por ejemplo los caracteres RIFF se utilizan para identificar bloques que contienen datos
RIFF. Si el identificar es menor de cuatro caracteres, se rellena por la derecha con espacios
(32 en ASCII). Ejemplos de lo anterior son los identificadores “fmt ” y “data”; note el
espacio después de “fmt“.
 BlockSize (4 bytes): Es la longitud de los datos almacenados en el campo BlockData, sin
incluir ningún relleno añadido a los datos. El tamaño de los campos BlockID y BlockSize no
están incluidos en este valor. En otras palabras Longitud del archivo entero – 8 bytes.
 BlockData: Contiene datos WORD que se alinean dentro del archivo RIFF. Si los datos son
una longitud impar en tamaño, un byte adicional de relleno NULL se añade al final de los
datos. El valor de BlockSize no incluye la longitud de relleno.
 Subblocks: También tiene la misma estructura como los bloques. Un sub-bloque es
simplemente un bloque que está contenido dentro de otro bloque. Los bloques únicos que
pueden contener los sub-bloques son los del archivo RIFF y los bloques List. Todos los
otros fragmentos pueden contener sólo datos.

25
Véase referencia 25.

Capítulo 2: Marco teórico 61


GRABADORA DIGITAL DE VOZ PARA UNA PC

Un archivo RIFF es en sí mismo un bloque RIFF entero. Si se va decodificar, el lector RIFF debe
ignorar cualquier bloque que el lector no reconozca o no se podrá utilizar. Si se desea, codificar el
escritor RIFF escribirá todos los bloques desconocidos y sin uso que se leyeron. No los desecha.

2.5.2 Estructura de un archivo WAV

El formato de archivo WAV es un subconjunto de las especificaciones RIFF de Microsoft para el


almacenamiento de archivos multimedia. Un archivo RIFF comienza con una cabecera de archivo
seguido por una secuencia de bloques de datos. Un archivo WAV es simplemente sólo un archivo
RIFF con un simple bloque “WAV” el cual consiste de dos subbloque: un bloque “fmt” que
especifica el formato de datos y un bloque “data” que contiene los datos reales de la muestra. 26

Tabla 2. 2 Estructura de un formato WAV

Nombre del bloque


0
Identificador ("RIFF")
4 Bloque “RIFF”
El formato de interés aquí es
Longitud de fichero - 8
8 WAVE, el cual requiere dos
sub-bloque: “fmt” y “data”
Formato ("WAVE")
12
Sub-identificador de formato ("fmt")
16

Longitud de formato de audio


20
Sub-bloque “fmt”
24 Formato de audio Número de canales Describe el formato de la
información de sonido en
28 Frecuencia de muestreo (muestras/seg) los datos del sub-bloque

32 Tasa de bytes (bytes/seg)

Alineamiento de
36 Bits por muestra
bloques

40 Sub-identificador de datos ("data") Sub-bloque “data”


Indica el tamaño de la
44 Longitud de campo de datos información de sonido y
contiene los datos de
(…) Datos sonido sin tratar.

26
Véase referencia 26.

Capítulo 2: Marco teórico 62


GRABADORA DIGITAL DE VOZ PARA UNA PC

Tabla 2. 3 Especificaciones de los bloques de un formato WAV

Desplazamiento Tamaño Nombre del


Bloque Descripción Contenido endian
(bytes) (bytes) campo
0 Es el archivo de la descripción de la cabecera. Contiene las letras "RIFF" en
4 BlockID Identificador "RIFF" big
0x00 forma ASCII (0x52494646).

4 Este es el tamaño del archivo completo en bytes menos 8 bytes para los dos
Bloque RIFF 4 BlockSize Longitud del fichero little
0x04 campos no incluidos en este cuenta: BlockID y BlockSize.
8 Descripción de la Descriptor de la cabecera "WAVE". Contiene las letras "WAVE" en forma
4 Format big
0x08 cabecera "WAVE" ASCII (0x57415645).
12 Sub-identificador de Descriptor de la cabecera "fmt ". Contiene las letras “fmt ” en forma ASCII
4 Subblock1 ID big
0x0C formato "fmt " (0x666D7420). Nótese el espacio después del “fmt”.
16 Longitud del formato Este es el tamaño del formato tipo WAVE (después de éste bloque). Es
4 Subblock1 Size little
0x10 de audio usualmente de 16 bytes para PCM.
20 Tipo de formato de Este es el encabezado para PCM = 0x01. Valores diferentes de 1 indican
2 AudioFormat little
0x14 audio WAVE algunas otras formas de compresión.
22
2 NumChannels Número de canales Mono=0x01, Stereo=0x02. little
0x16
Sub-bloque "fmt"
24 Tasa (frecuencia) de 8000, 44100, etc.
4 SampleRate little
0x18 muestreo (bytes/seg)
28 Tasa de bytes (Frecuencia de muestreo × Número de canales × Bits por
4 ByteRate (36) little
0x1C (bytes/seg) muestra)/8
32 El número de bytes para una muestra incluyendo todos los canales.
2 BlockAlign Bloque de alineación little
0x20 (Número de canales × Bits por muestra)/8 (37)
34
2 BitPerSample Bits por muestra 8 bits=8, 16 bits=16, etc. little
0x22
36 Sub-identificador de Descriptor de la cabecera "data". Contiene las letras “data” en forma ASCII
4 Subblockk2 ID big
0x24 datos ("data") (0x64617461).
Sub-bloque 40 Longitud del campo de Número de bytes de datos que se incluyen en la sección de datos.
"data" 4 Subblock2 Size little
0x28 datos (Número de muestras × Número de canales ×Bits por muestra)/8 ( 38)
44
… Data Datos Los datos de sonidos reales. little
ox2C

Capítulo 2: Marco teórico 63


GRABADORA DIGITAL DE VOZ PARA UNA PC

WAVE también puede contener cualquier otro tipo de bloque permitido por RIFF, incluyendo los
bloques LIST, que se utilizan para contener tipos opcionales de datos tales como la fecha de
creación, derechos de autor, nombre del autor.

Ejemplo Gráfico de un archivo WAVE.

A modo de ejemplo aquí están 72 bytes de apertura de un archivo WAVE con bytes que se
muestran como números hexadecimales:

52 49 46 46 24 08 00 00 57 41 56 45 66 6D 74 20 10 00 00 00 01 00 02 00
22 56 00 00 88 58 01 00 04 00 10 00 64 61 74 61 70 00 00 00 00 00 00 00
24 17 1E F3 3C 13 3C 14 16 F9 18 F9 34 E7 23 A6 3C F2 24 F2 11 CE 1A 0D

Esta es la interpretación de estos bytes como un archivo de sonido WAVE:

Tabla 2. 4 Ejemplo de la conformación de un archivo con formato WAV

Descriptor del bloque “RIFF”


52 49 46 46 24 08 00 00 57 41 56 45
R I F F W A V E
Longitud de fichero - 8
Identificador RIFF Identificador WAVE
Descriptor del bloque "fmt"
66 6D 74 20 10 00 00 00 01 00 02 00
f m T Longitud de formato de Formato de Número de
Sub-identificador "fmt" audio audio canales
22 56 00 00 88 58 01 00 04 00 10 00
Tasa de muestreo Tasa de bytes Alineamiento Bits por
(bytes/seg) (bytes/seg) de bloques muestra
Descriptor del bloque "data"
64 61 74 61 70 00 00 00 00 00 00 00
d a T a Longitud del campo de
Muestra 1
Sub-identificador "data" datos
24 17 1E F3 3C 13 3C 14 16 F9 18 F9

Muestra 2 Muestra 3 Muestra 4

34 E7 23 A6 3C F2 24 F2 11 CE 1A 0D

Muestra 5 Muestra 6 Muestra 7

Esta es la interpretación de estos bytes como un archivo de sonido WAVE.

Capítulo 2: Marco teórico 64


GRABADORA DIGITAL DE VOZ PARA UNA PC

Suponga que el tamaño del archivo original es de 2092 bytes, con una tasa de muestreo de 22050
bytes/s, de tipo Stereo y usando 16 bits por muestra (28 muestras totales). Basándonos en la
información proporcionada en la Tabla 2.4 es posible tener todos los parámetros necesarios para
formar las cabeceras de nuestro archivo WAV.

Descriptor del bloque “RIFF”

o Identificador “RIFF”: {R = 0x52, I = 0x49, F = 0x46 , F = 0x46}


Forma Big-endian = {52, 49, 46, 46}
o Longitud del fichero – 8: 2092 – 8 = 2084 = 0x00000824
Forma little-endian = {24, 08, 00, 00}
o Identificador “WAVE”: {W = 0x57, A =0x 41, V =0x 56, E = 0x45}
Forma big-endian = {57, 41, 56, 45}

Descriptor del bloque “fmt”

o Sub-identificador “fmt”: {f = 0x66, m = 0x6D, t = 0x74, espacio = 0x20}


Forma big-endian = {66, 6D, 74, 20}
o Longitud del formato de audio: 16 = 0x00000010
Forma little-endian = {10, 00, 00, 00}
o Formato de audio: 1 = 0x0001 (formato de audio PCM)
Forma little-endian = {01, 00}
o Número de canales: 2 = 0x0002 (Stereo)
Forma little-endian = {02, 00}
o Tasa de muestreo: 22050 bytes/s = 0x00005622
Forma little-endian = {22, 56, 00, 00}
o Tasa de bytes: (22050 × 2 × 16)/8 = 88200 = 0x00015888
Forma little-endian = {88 58 01 00}
o Alineamiento del bloque: (2 ×16)/8 = 4 = 0x0004
Forma little-endian = {04 00}
o Bits por muestra: 16 = 0x0010
Forma little-endian = {10 00}

Descriptor de bloque Data

o Sub-identificador “data”: {d = 0x64, a = 0x61, t = 0x74, a = 0x61}


Forma big-endian = {64, 61, 74, 61}
o Longitud del campo de datos: (28 × 2 ×16)/8 = 112 = 0x00000070
Forma little-endian = {70, 00, 00, 00}

Capítulo 2: Marco teórico 65


GRABADORA DIGITAL DE VOZ PARA UNA PC

Notas importantes:

 El byte de orden predeterminado asumido por archivos de datos WAVE es little-endian.


Los archivos escritos mediante el ordenamiento del esquema de bytes big-endian tienen el
identificador RIFX en lugar de RIFF.
 Los datos de la muestra deben terminar en un límite de hasta un byte. Lo que eso significa.
8 bits muestreados se almacenan como bytes sin signo, que van desde 0 hasta 255. 16 bits
muestreados se almacenan como complemento a dos enteros con signo, que van desde
los -32768 a 32767.
 Puede haber sub-bloques adicionales en un flujo de datos WAVE. Si es así, cada uno
tendrá un carácter [4] SubBlockID e independiente un SubBlockSize largo y una cantidad
de datos SubblockSize.
 RIFF significa Formato de archivos de intercambio de recursos y es un nombre genérico
para una variedad de archivos multimedia. Los archivos RIFF se denominan por el tipo de
dato que contienen, en lugar de por el nombre del formato real de RIFF. Por ejemplo, un
archivo RIFF que contiene datos Interleaved Audio/Visual es mejor conocido como “AVI” y
no como “RIFF Audio/Visual Interleaved Format.

Las aplicaciones multimedia requieren el almacenamiento y la gestión de una amplia variedad de


datos, incluidos los mapas de bits, datos de audio, datos de video, e información de control de los
dispositivos periféricos. RIFF proporciona una manera de almacenar todos estos diferentes tipos
de datos. El tipo de datos de un archivo RIFF contiene este indicador por la extensión del archivo.
Ejemplos de datos que pueden ser almacenados en archivos RIFF:

 Audio Video Interleave (.AVI)


 WAVE form audio file (.WAV).
 MIDI information (.RMI)
 Color palette (.PAL)
 Multimedia movie (.RMN)
 Animated cursor (.ANI)
 A bundle of other RIFF files (.BND)

Los archivos AVI son el único tipo de archivos RIFF que han sido totalmente implementados
mediante la especificación RIFF actual. Aunque los archivos WAV se han implementado, son muy
simples y sus desarrolladores suelen utilizar una especificación mayor en la construcción de ellos.

2.5.3 MP3

MP3 es el nombre abreviado por MPEG-1 Layer III, es un formato de datos que debe su nombre a
un algoritmo de codificación llamado MPEG-1 Layer III (o MPEG Audio Layer III) y es un
subconjunto de audio del estándar industrial MPEG (Moving Picture Experts Group) desarrollado
por ISO (International Standarization Organization) que se transformó en un estándar oficial en
1992 como parte del estándar MPEG-1. A su vez, es un sistema de compresión de audio que

Capítulo 2: Marco teórico 66


GRABADORA DIGITAL DE VOZ PARA UNA PC

permite almacenar sonido con una calidad similar a la de un CD y con un índice de compresión
muy elevado, del orden de 1:11. En la práctica, esto significa que en un CD-Rom se pueden grabar
unos 11 CD de audio, es decir, unas 150 canciones aproximadamente.

El sistema de codificación que utiliza MP3 es un algoritmo de pérdida. Es decir, el sonido original y
el que obtenemos posteriormente no son idénticos. Esto se debe a que MP3 aprovecha las
limitaciones del oído humano y elimina toda aquella información que no somos capaces de
percibir. Se han realizado multitud de estudios de percepción acústica descubriendo que hay una
serie de efectos que pueden ayudar a la codificación del sonido con el objetivo de reducir todo lo
posible la cantidad de información inútil o redundante. Los más importantes son:

 Límites de audición. El oído humano sólo es capaz de captar frecuencias entre 20Hz y
20Khz (es más sensible entre 2 y 4Khz), por lo que eliminando las frecuencias inaudibles se
puede conservar la esencia del sonido.
 Efecto de enmascaramiento. Es aquel que se produce cuando dos señales de frecuencia
similar se superponen. Entonces solo podemos percibir aquella que posee más volumen y,
por lo tanto, la de volumen menor es susceptible de ser eliminada.
 Redundancia de estéreo. Existen redundancias entre los componentes tonales y no
tonales del sonido en los dos canales estéreo, y, además, por debajo de una cierta
frecuencia el oído humano no es capaz de percibir la direccionalidad del sonido, por lo
cual por debajo de estas frecuencias es posible incluso codificar un solo canal, junto con
información complementaria para restaurar la sensación espacial para el otro canal.
 Para realizar ésta acción de "pérdida de información" se utiliza un sistema llamado
Codificación de Sub-bandas, proceso por el cual la señal se descompone en sub-bandas a
través de un banco de filtros. Estas sub-bandas se comparan a continuación con el original
mediante un modelo psicoacústico que es el encargado de determinar que bandas se
pueden eliminar y cuáles no. Dependiendo de la calidad que deseemos obtener, se
eliminarán más o menos bandas. Para finalizar el proceso, se cuantifican y codifican las
sub-bandas resultantes, y el resultado final se comprime mediante un algoritmo estándar,
obteniendo así el fichero MP3 resultante. El proceso de codificación es mucho más
complicado que el de decodificación, por ello se tarda mucho más en codificar un archivo
MP3 que en reproducirlo.

Tabla 2. 5 Comparación de formatos de calidad de audio

Calidad Muestreo Bits/Muestra Modo Tasa de bits Frecuencia


Teléfono 8 KHz 8 Mono 64 Kbps 200-3400 Hz
Radio AM 11.025 KHz 8 Mono 88 Kbps
Radio FM 22.05 KHz 16 Estéreo 352.8 Kbps
CD 44.1 KHz 16 Estéreo 705.6 Kbps 20-20000 Hz
DAT 48 KHz 16 Estéreo 768 Kbps 20-20000 Hz

Capítulo 2: Marco teórico 67


GRABADORA DIGITAL DE VOZ PARA UNA PC

Diseño de
Capítulo 3 hardware y
software

3.1 Micrófono SHURE C606N


3.2 Etapa de acondicionamiento y acoplamiento
3.3 Codificación de la señal acondicionada
3.4 Transmisión de datos (USART)
3.5 Prototipo final del hardware
3.6 Software de la Interfaz Gráfica de Usuario

Capítulo 3: Diseño de hardware y software 68


GRABADORA DIGITAL DE VOZ PARA UNA PC

Capítulo 3: Diseño de hardware y software

El presente capitulo aborda el diseño de hardware que comprende el sistema de adquisición de


datos, junto con la interfaz de comunicación con la PC, además del diseño del software que incluye
la programación del microcontrolador y la Interfaz Gráfica de Usuario para la PC.

La figura 3.1 muestra a continuación el diagrama a bloques de una grabadora digital de voz para
una PC.

Señal Amplificador de Filtro


Micrófono
de Voz pequeña señal Pasa-bajas

IGU USART Módulo de Módulo ADC del


Codificador comunicación Microcontrolador
WAV y MP3 PC RS-232
PIC18F4550

Figura 3. 1 Diagrama a bloques del sistema grabadora de voz

3.1 Micrófono SHURE C606N

El micrófono modelo C606N de Shure puede utilizarse para karaoke, refuerzo de sonido y
aplicaciones multimedia (compatible con la mayoría de las tarjetas de sonido más importantes). Su
amplia respuesta de frecuencia, su patrón de captación unidireccional y su salida alta hacen que
las interpretaciones vocales suenen claras y vibrantes.

En este dispositivo se genera un voltaje de salida en proporción con la amplitud de las ondas
sonoras que chocan con el micrófono. Las variaciones en el voltaje de salida siguen las mismas
variaciones del sonido de entrada.

Figura 3. 2 Micrófono Shure C606N

Capítulo 3: Diseño de hardware y software 69


GRABADORA DIGITAL DE VOZ PARA UNA PC

Sus características principales son:

 Tipo de micrófono y patrón de captación: Dinámico, patrón de captación unidireccional.


 Respuesta en frecuencia: 50 Hz a 15 kHz.
 Nivel de salida (a 1 kHz): -52dBV/Pa (2.5 mV).
 Impedancia de salida: 600 ohms.

Figura 3. 3 Función de transferencia del micrófono C606N dada por el fabricante

3.2 Etapa de acondicionamiento y acoplamiento

La etapa de acondicionamiento y acoplamiento de la señal consta de tres partes: la primera de


ellas es la entrada de la señal analógica (voz humana) a través del micrófono C606N, cuya salida,
enseguida es amplificada mediante el amplificador operacional 358N debido al bajo voltaje de
salida que entrega el micrófono; y por ultimo está la etapa del filtro pasa-bajas cuyo objetivo es
limitar a la calidad convencional de telefonía a 4 kHz. A éstas tres etapas prosigue la parte del
modulo del ADC del PIC18F4550 que se encarga de la parte del muestreo, cuantificación y
codificación de la señal previamente ya limitada en frecuencia.

Voz humana Amplificador de pequeña Filtro Pasa-bajas


Micrófono C606N señal de Av=250 (358N) de 4 kHz (358N)

Figura 3. 4 Bloques de la etapa de acondicionamiento de la señal

3.2.1 Amplificador de pequeña señal

El voltaje del micrófono que entrega a su salida es muy bajo, su rango es de -10mV a 10mV; por
consiguiente se tiene que amplificar para aprovechar toda la resolución del ADC que es unipolar
de 0 a 5 v. Dado esto, será diseñado un amplificador que se ajuste a estos valores.

Capítulo 3: Diseño de hardware y software 70


GRABADORA DIGITAL DE VOZ PARA UNA PC

Ganancia de voltaje

Existen diversas configuraciones de los amplificadores operacionales de acuerdo a su aplicación;


en este caso la configuración necesaria es la de amplificador no inversor, de modo que la señal a
amplificar se aplica al pin no inversor (+) del amplificador operacional. Como el nombre lo indica,
la señal de salida no está invertida respecto a la entrada.

En el tema 2.2.2 fue realizado un previo análisis de la configuración del circuito amplificador no
inversor; en el cual se obtiene la ecuación (7), de la que se deduce que la ganancia de tensión en
este tipo de configuración es de 1 o mayor.

Sabemos que el y el , por lo que si calculamos el cociente obtenemos que:

(39)

Si la ganancia deseada es 250 y se propone a , usando la ecuación (7) se obtiene:

( 40)

Despejando a :

( ) (41)

La figura 3.5 muestra el circuito del amplificador de pequeña señal o pre-amplificador de la


entrada de voz del micrófono. La finalidad del condensador conectado entre la entrada de voz del
micrófono y el circuito, es filtrar la corriente directa.
VCC

5V

R1
C1 10kΩ 8 U1A
3

1 V out
33µF
V1 2 Rf
4
LM358D 150kΩ
20mVrms R2
Vin 1kHz 10kΩ

Ri
600Ω
C2

1µF

Figura 3. 5 Circuito amplificador de pequeña señal

Capítulo 3: Diseño de hardware y software 71


GRABADORA DIGITAL DE VOZ PARA UNA PC

3.2.2 Filtro pasa-bajas

Como se estudio en el capítulo anterior, un filtro es un selector de frecuenciaS. Permite


seleccionar unicamente una banda particular de frecuencias, atenuando los voltajes de las
frecuencias que se encuentran fuera del rango deseado. Para el caso de la voz con calidad
telefonica se puede utilizar un filtro pasa bajas con un corte a los 4 KHz. Se realizará el diseño de
un filtro de 4° orden, es decir de -80 dB/ década, tomando de referencia el diseño planteado en el
tema 2.2.6 Filtrado.

Cálculos para la selección de los resistores y capacitores del filtro activo de voz pasa-bajas

Teniendo en cuenta que la frecuencia de corte es y siguiendo el procedimiento de


diseño de filtros planteado en el tema 2.2.6; se escoge un capacitor y se selecciona un valor
adecuado entre 100 pF y 0.1 F. En este caso es elegido uno de 0.1 F:

(42)

Se hace lo que resulta:

() (43)

Para calcular la resistencia es considerada la ecuación (21).

(44)
( )

( 28)

Por ultimo para el cálculo de se tiene que:

(46)

(47)

Para su construcción se usaron dos amplificadores operacionales LM358N que a comparación con
el amplificador operacional LM741 de propósito general y económico también, el LM358N
presenta una mejor calidad en cuanto la señal que procesa. Como puede observarse en la figura
3.6, el filtro está compuesto de dos filtros del mismo tipo, estos son de 2° orden cada uno con una
caída de -40 dB/Década; de modo que al estar conectados en forma seriada, se convierten en un
filtro de 4° orden con una caída de -80 dB/Década.

Capítulo 3: Diseño de hardware y software 72


GRABADORA DIGITAL DE VOZ PARA UNA PC

C1 VCC
100nF 5V C3 VCC 5V
R3 R4 8 U3A 100nF
Vin 3
R5 R6 8 U3B
281Ω 281Ω 1 5

2 281Ω 281Ω 7 Vout


6
4 LM358AD
4 LM358AD
Rf1
Rf2
562Ω
C2 562Ω
C4
200nF
200nF
Figura 3. 6 Filtro activo pasa bajas de 4000 Hz

3.2.3 Resultados

La simulación de la etapa de acondicionamiento (figura 3.7) se realizó con el software Multisim


versión 2010, para obtener la respuesta de frecuencia del filtro pasa-bajas y observar su eficiencia.

VCC

5V

R1
C1 10kΩ 8 U1A
3

1 XBP1
33µF
2 R4
V1
Vin LM358D 150kΩ IN OUT
20mVrms 4

1kHz R2
0° 10kΩ R3
C2 600Ω

VCC
1µF C3
100nF 5V VCC 5V
C5
Rf2 R5 8 U3A 100nF
3
R6 R7 8 U3B
281Ω 281Ω 1 5

2 281Ω 281Ω 7 Vout


LM358AD 6
4
LM358AD
4
Rf1
Rf3
C4 562Ω C6 562Ω
200nF
200nF

Figura 3. 7 Circuito de acondicionamiento de la señal

Capítulo 3: Diseño de hardware y software 73


GRABADORA DIGITAL DE VOZ PARA UNA PC

Multisim nos proporciona una herramienta que nos permite obtener un diagrama de Bode; una
manera de representación gráfica que sirve para caracterizar la respuesta en frecuencia de
cualquier sistema.

La salida del circuito amplificador de pequeña señal, el cual ya nos entrega un voltaje más
apropiado para esta aplicación, está conectada a la entrada del instrumento de medición de
gráficas de Bode y el otro extremo del instrumento a la salida del filtro activo pasa-bajas, como lo
ilustra la figura 3.7.

Hecho lo anterior, al momento de correr la simulación se obtiene la respuesta del filtro que se
muestra en la figura 3.8.

3.654 KHz -3.106 dB

Figura 3. 8 Respuesta del filtro pasa bajas de 4000 Hz

La simulación mostró que el filtro responde a una frecuencia de corte en 3.654 KHz a -3.106 dB; a
partir de ahí comienza a atenuarse cualquier frecuencia que esté por encima de ese punto.

Los circuitos impresos fueron diseñados con el software PCB Wizard; es cual es un programa que
permite crear, editar y diseñar circuitos impresos PCB en una computadora o laptop. Este software
nos ofrece varias opciones de vista del circuito. La vista previa del circuito terminado se ilustrada
en la figura 3.9 y muestra la distribución de los componentes que forman parte del sistema de
adquisición de datos. El amplificador operacional de lado izquierdo corresponde al amplificador de
pequeña señal y él de lado derecho corresponde a la etapa del filtrado.

Capítulo 3: Diseño de hardware y software 74


GRABADORA DIGITAL DE VOZ PARA UNA PC

Figura 3. 9 PCB de la etapa de acondicionamiento de la señal

La vista que muestras el lado de las líneas de cobre del circuito impreso para procesar la placa
fenólica se muestra en la figura 3.10.

Figura 3. 10 Diagrama del circuito impreso del filtro pasa bajas a 4 KHz

Finalmente la placa procesada y soldada con sus componentes correspondientes de la etapa de


acondicionamiento se muestra en la figura 3.11.

Figura 3. 11 Circuito de la etapa de acondicionamiento de la señal

Capítulo 3: Diseño de hardware y software 75


GRABADORA DIGITAL DE VOZ PARA UNA PC

3.3 Codificación de la señal acondicionada

La etapa de codificación es la clave para la digitalización de la señal analógica de audio. Dicha


codificación determinará radicalmente la calidad de la señal en base a la aplicación de ésta, que
previamente marcó también la etapa de acondicionamiento. El acondicionamiento en amplitud lo
determina el hardware utilizado para la codificación; pero el acondicionamiento en frecuencia es
en base a la aplicación, que para este caso es voz con una calidad telefónica, donde solo será
importante tener un mensaje entendible y la calidad tendrá un peso menor.

El uso de un microcontrolador facilita el proceso de codificación y envió de datos, puesto que son
módulos integrados dentro del mismo dispositivo en la mayoría de los casos. Por lo anterior, es
usado el PIC18F4550 que cuenta con un módulo ADC de 10 bits, además de contar con
comunicación serial USART; de esta manera pueden enviarse bit a bit los datos a la PC donde serán
almacenados.

3.3.1 Módulo convertidor analógico-digital

Como se mencionó en el capítulo anterior, hay características importantes que se deben


considerar del convertidor analógico digital dependiendo de la aplicación que se realice. Entre las
características más importantes en el módulo ADC del microcontrolador PIC18F4550 están:

a) Voltaje de Polarización: Tipo unipolar (0 - 5V).

b) Voltajes de referencia:

c) Ancho de palabra: 8 bits.


Por lo tanto el rango de codificación es de Con ese ancho de palabra es más
que suficiente para trabajar con voz ya que sólo pretendemos que el mensaje sea
perceptible y no de alta calidad. Nótese que el microcontrolador cuenta con un módulo de
10 bits pero será usado a 8 bits realizando una conversión.

d) Función de transferencia: ADC unipolar.

e) Resolución:
(48)

f) Error de cuantización:

|||| (49)

Capítulo 3: Diseño de hardware y software 76


GRABADORA DIGITAL DE VOZ PARA UNA PC

g) Tiempo de Conversión:

( ) (50)

(51)

(52)

El inverso del tiempo de conversión es la frecuencia máxima.

(53)

h) Muestras por segundo (rango de datos obtenidos):

( ) (54)

3.3.2 Software de adquisición de datos

Con los requerimientos ya considerados en el tema 3.3.1, debe ser implementado el software de la
adquisición de datos. La configuración de los registros correspondientes es una de las tareas
principales para que el hardware responda a las necesidades planteadas, como lo es la
configuración de todos los parámetros del ADC, elemento principal para el muestreo.

El manejo de la adquisición de datos es un muestreo capaz de obtener las 8000 muestras


necesarias en un segundo; tal que habrá que considerar un tiempo de envió de datos desarrollado
en el tema 3.4.1, de este modo, queda tentativo un ajuste al tiempo de muestreo que se verá en el
tema mencionado. Otro punto a tomar en cuenta es la Interfaz Gráfica de Usuario para la PC en
.NET con comunicación Serial, que en una de las herramientas de ésta, limita la adquisición a 1 ms,
de modo que es necesario hacer un envió por paquetes de 8 muestras cada milisegundo, así, se
tiene un buffer temporal de almacenamiento en el microcontrolador durante la adquisición de
datos. El algoritmo del programa principal que rige al microcontrolador en el sistema de
adquisición de datos se muestra en la figura 3.12.

El programa para la adquisición de datos de la señal de voz previamente acondicionada en


amplitud y frecuencia fue realizado en el software MPLAB IDE. El código se muestra en el
apéndice A.

Capítulo 3: Diseño de hardware y software 77


GRABADORA DIGITAL DE VOZ PARA UNA PC

Inicio

Declaración de la librería
<p18xxx.h>

Configuración de la fuente de
reloj

Declaración de variables y
constantes

Declaración de prototipos

Invocación de funciones de
configuración

No
Adquisición=1 Retardo de ajuste

Si

Envío de paquete
Contador<8 No
de datos

Si

Adquisición de dato del ADC

Suma uno a contador

Figura 3. 12 Diagrama de flujo del programa principal de la adquisición de datos en el microcontrolador

Capítulo 3: Diseño de hardware y software 78


GRABADORA DIGITAL DE VOZ PARA UNA PC

co
Innicfigo()

Entrada analógica AN0

Configuración de puertos de
salida a los leds indicadores

Fin

Figura 3. 13 Diagrama de flujo de la función config() para la configuración de puertos

La configuración general de los puertos administra los puertos de entrada y salida; es importante
tomar en cuenta que no todos los puertos pueden usarse, debido a que algunos como el RC6 y
RC7 son destinados para la transmisión serial, y el puerto RA0 es usado como entrada analógica,
por lo que se debe considerar esto.

Inicio

Configuración de:
-Reloj de ADC
-Tiempo de adquisición
-Puerto de entrada

Configurar resultado justificado


a la derecha

Activar ADC

Fin

Figura 3. 14 Diagrama de flujo de la función cfgADC() para la configuración del ADC

Capítulo 3: Diseño de hardware y software 79


GRABADORA DIGITAL DE VOZ PARA UNA PC

Configuración de los registros de control del ADC

Registro de control A/D0 (ADCON0)

Tabla 3. 1 Configuración del registro ADCON0

CHS3 CHS2 CHS1 CHS0 GO/DONE ADON


0 0 0 0 0 0 0 0
bit 7 bit 0
Tabla 3. 2 Función de cada bit del registro ADCON0

bit 7 - 6 No implementado
bit 5 - 2 CH3:CHS0 La señal de entrada del ADC se lee en AN0.
bit 1 GO/DONE Proceso de la conversión A/D en reposo.
bit 0 ADON Convertidor A/D desactivado.

Registro de control A/D 1 (ADCON1)

Tabla 3. 3 Configuración del registro ADCON1

VCFG1 VCFG0 PCFG3 PCFG2 PCFG1 PCFG0


0 0 0 0 1 1 1 0
bit 7 bit 0
Tabla 3. 4 Función de cada bit del registro ADCON1

bit 7 - 6 No implementado
bit 5 VCFG1 Se conecta a (GND).
bit 4 VCFG0 Se conecta a (+5V).
bit 3 - 0 PCFG3:PCFG0 RA0 se configura como la terminal analógica AN0.

Registro de control A/D2 (ADCON2)

Tabla 3. 5 Configuración del registro ADCON2

ADFM ACQT2 ACQT1 ACQT0 ADCS2 ADCS1 ADCS0


1 0 0 0 1 1 0 0
bit 7 bit 0
Tabla 3. 6 Función de cada bit del registro ADCON2

bit 7 ADFM El resultado se almacena justificado a la derecha.


bit 6 No implementado.
bit 5 - 3 ACQT2:ACQT0 El tiempo de adquisición se configura a 2 TAD.
bit 2 - 0 ADCS2:ADCS0 El tiempo de conversión es Fosc/4.
Capítulo 3: Diseño de hardware y software
80
GRABADORA DIGITAL DE VOZ PARA UNA PC

Al final del muestreo no debe olvidarse que en el microcontrolador PIC18F4550, el resultado es


guardado en dos registros debido a que el módulo ADC es de 10 bits; un registro guarda la parte
alta y otro la parte baja. Considerando los estándares del formato WAV que será el archivo final de
la adquisición en la PC, además de la calidad deseada, el resultado se convertirá de 10 a 8 bits,
antes de su almacenamiento en el buffer temporal del microcontrolador para su envío.

co
Innicfigo()

Iniciar conversión

No
¿Conversión
terminada?

Si

Retornar valor de
muestreo

Fin

Figura 3. 15 Diagrama de flujo de la función getADC() para conseguir el resultado del muestreo

3.4 Transmisión de datos (USART)

Otra etapa importante a mencionar es la configuración de la comunicación serial del


microcontrolador, en el que se deben ajustar los registros para tener sincronizada la comunicación
con la PC por el RS-232 de acuerdo a nuestras necesidades. Por ejemplo la velocidad es
configurada típicamente a una velocidad de 9600 bps; sin embargo esa velocidad no es suficiente
para transmitir voz a la velocidad de muestreo en calidad telefónica de forma paralela a la
adquisición, ya que mínimo se necesitarían 64 000 bps. Sin embargo, para este caso la transmisión
es controlada dentro del mismo proceso de la adquisición, de modo que son tareas secuenciales,
sin olvidar el buffer de adquisición de 8 bytes para hacer el envío por paquetes. Dicho lo anterior,
se efectúa la adquisición 8 veces, se guardan las muestras en el buffer temporal del
microcontrolador y se realiza el envío de las mismas. Tener una velocidad de transmisión rápida,
disminuirá el tiempo robado para el envío de datos, entonces entre mayor sea la velocidad será
mejor usando este método secuencial, sin olvidar que si fuera de manera paralela, bastaría con los
64 000 bps, pero como se explicó anteriormente, debido a las limitaciones del C# en cuanto a la

Capítulo 3: Diseño de hardware y software 81


GRABADORA DIGITAL DE VOZ PARA UNA PC

adquisición de datos, se ajustó una velocidad máxima soportada en la PC de 460800 bps,


considerando que hacemos un envío de 10 bytes, 8 son de datos y dos más para indicar el fin y
salto de línea.

3.4.1 Software de transmisión de datos

El algoritmo de retardo que se muestra en la figura 3.16, se usa para ajustar el envío de datos a la
PC, ya que como se mencionó anteriormente, se mandan paquetes de 8 datos, en lugar de mandar
dato por dato.

En la figura 3.16 y 3.17 se muestran el algoritmo de las funciones correspondientes a la


transmisión RS232. La función configUSART() configura todos los parámetros en los registros que
rigen la comunicación serial. Respecto a la función TXbyte() controla el envío de datos, de esta
manera solo es necesario mandarla a llamar en el programa principal colocando el dato a enviar.

configUSART()

Modo SPI deshabilitado

Configuración de transmisor Tx y
receptor Rx

Configuración de velocidad de
transmisión

Configurar recepción continua

Limpiar buffer

Fin

Figura 3. 16 Diagrama de flujo de la función configUSART() para la configuración del puerto serial

Capítulo 3: Diseño de hardware y software 82


GRABADORA DIGITAL DE VOZ PARA UNA PC

co
Innicfigo()

Recibir datos

No
¿Registro de
transmisión=0?

Si

Cargar datos en buffer de


transmisión

Fin
Figura 3. 17 Diagrama de flujo de la función TXbyte() para el envío de datos

Registro TXSTA
Tabla 3. 7 Configuración de los registros de control de la USART

CSRC TX9 TXEN SYNC SENDB BRGH TRMT TX9D


0 0 1 0 0 1 0 0
bit 7 bit 0
Tabla 3. 8 Función de cada bit del registro TXSTA

bit 7 CSRC Reloj de fuente externa.


bit 6 TX9 Selecciona 8 bits de transmisión.
bit 5 TXEN Transmisión habilitada.
bit 4 SYNC Selecciona el modo asíncrono.
bit 3 SENDB Transmisión asíncrona de ruptura completa.
bit 2 BRGH Alta velocidad.
bit 1 TMRT Registro de desplazamiento de transmisión ocupado.
bit 0 TX9D Puede ser bit de dirección/datos o un bit de paridad.

Registro RCSTA
Tabla 3. 9 Configuración del registro RCSTA

SPEN RX9 SREN CREN ADDEN FERR OERR RX9D


1 0 0 1 0 0 0 0
bit 7 bit 0

Capítulo 3: Diseño de hardware y software 83


GRABADORA DIGITAL DE VOZ PARA UNA PC

Tabla 3. 10 Función de cada bit del registro RCSTA

bit 7 SPEN Puerto serial habilitado.


bit 6 RX9 Selecciona la recepción de 8 bits.
bit 5 SREN No importa.
bit 4 CREN Habilita el receptor.
bit 3 ADDEN Desactiva la detección de dirección.
bit 2 FERR No hay error en el formato.
bit 1 OERR No hay error de saturación.
bit 0 RX9D Puede ser bit de dirección/datos o bit de paridad.

Registro BAUDCON

Tabla 3. 11 Configuración del registro BAUDCON

ABDOVF RCIDL RXDTP TXCKP BRG16 WUE ABDEN


0 0 0 0 1 0 0 0
bit 7 bit 0
Tabla 3. 12 Función de cada bit del registro BAUDCON

bit 7 ABDOVF No hay desbordamiento.


bit 6 RCIDL Recepción activa.
bit 5 RXDTP El dato RX recibido no se invierte.
bit 4 TXCKP El dato TX no se invierte.
bit 3 BRG16 Generador de velocidad de 16 bits
bit 2 No implementado
bit 1 WUE El pin RX no se controla ni detecta el flanco descendente.
bit 0 ABDEN No relevante.

Bien ha sido mencionada la limitación del C# en cuanto al tiempo de la adquisición de datos a 1


ms; por lo que el envío de datos desde el microcontrolador se realiza en paquetes de 8 bytes, para
que cada uno siendo de 125 µs, sumaran un tiempo total de 1 ms y se evitaran problemas de
sincronización y retardo con la Interfaz Gráfica de Usuario. Sin embargo es claro que usando un
tiempo para el envío de los 8 datos dentro del milisegundo, el periodo de muestreo disminuye,
aumentando en consecuencia la frecuencia de muestreo.

En la figura 3.18 se observa el tiempo que tardan las instrucciones en realizar el muestreo así
como el tiempo que tardan en enviar los datos por el puerto serial.

Capítulo 3: Diseño de hardware y software 84


GRABADORA DIGITAL DE VOZ PARA UNA PC

Figura 3. 18 Tiempo de muestreo y de transmisión de datos sin retardo

Como puede observarse el tiempo de envío del paquete de datos es de 180 µs y el tiempo en cada
muestra de 40 µs; entonces si dividimos 1 milisegundo en 8 tiempos para el muestreo más el
tiempo de envío dentro del mismo milisegundo tenemos:

= retardo
= El tiempo que tarda cada carácter en ser transmitido.
= El tiempo que se tarda en enviar todos los datos.

() ( 29)

() (56)

Despejando tenemos que:

( 57)

Entonces el retardo es igual a:

( 58)

Capítulo 3: Diseño de hardware y software 85


GRABADORA DIGITAL DE VOZ PARA UNA PC

Con ayuda del software PIC Timer Calculator y del algoritmo de la figura 3.19, se puede realizar el
retardo de ajuste para el muestreo y de esta manera tener repartidos de manera igual el tiempo
de muestreo para cada dato, dejando espacio para la transmisión del paquete de datos dentro del
mismo milisegundo y al final obtener las 8000 muestras deseadas en un segundo.

configTemp0()

Habilitar Timer0

Habilitar modo de 16 bits

Habilitar reloj interno del


microcontrolador

Habilitar flanco de subida

Deshabilitar prescaler

Inicializar TMR0H y TMR0L

Si
¿Bandera de
Tmer0=0?

No

Limpiar bandera

Detener Timer0

Fin

Figura 3. 19 Diagrama de flujo de la función configTemp0() para el retardo

Capítulo 3: Diseño de hardware y software 86


GRABADORA DIGITAL DE VOZ PARA UNA PC

Para calcular el retardo se usó el software PIC Timer Calculator, en donde debe considerarse lo
siguiente:

1. Especificar la frecuencia del CPU que es de 48 MHz.


2. Seleccionar si el modo de transmisión es de 8 o 16 bits.
3. El tiempo del retardo que deseamos generar.

El tiempo de retardo para cada muestra es de . Si especificamos esos valores en el PIC


Timer Calculator nos indica los valores de 0xFD para TMR0H, y de 0x12 para TMR0L como se
observa en la figura 3.20.

Figura 3. 20 Software PIC Timer Calculator para el cálculo de TMR0H y TMR0L

Con el retardo de ajuste, formulado en el algoritmo de la figura 3.18, se tienen 8 muestras en cada
milisegundo, considerando dentro de cada uno, el tiempo de envío de los datos. Puede observarse
claramente al comparar las figuras 3.18 y 3.21.

Capítulo 3: Diseño de hardware y software 87


GRABADORA DIGITAL DE VOZ PARA UNA PC

Figura 3. 21 Tiempo de muestreo y de transmisión de datos acondicionado a 1 ms

De la ecuación (55) se obtiene que el tiempo de muestreo es de:

(59)

Aplicando el inverso del periodo obtenemos la frecuencia de muestreo necesaria para no perder
datos, la cual resulta:

(60)

Como fue mencionado y puede observarse, al incluir el tiempo de envío, se redujo el periodo de
muestreo y a consecuencia aumentó la frecuencia de muestreo; de otra forma se perderían datos
y no se tendría la calidad deseada, que para este caso es telefónica de 4 KHz.

Capítulo 3: Diseño de hardware y software 88


GRABADORA DIGITAL DE VOZ PARA UNA PC

3.4.2 Interfaz de Comunicación del Microcontrolador con la PC

Para conectar la PC a un microcontrolador por el puerto serie se utilizan las señales TXD, RXD y
GND. La PC utiliza la norma RS232, por lo que los niveles de tensión están comprendidos entre +15
y -15 voltios. Los microcontroladores normalmente trabajan con niveles TTL (0-5v); por tanto es
necesario hacer uso del circuito MAX232 para que adapte los niveles de voltaje.

El circuito integrado MAX232 lleva internamente 2 conversores de nivel de TTL a RS232 y otros 2
de RS232 a TTL con lo que en total podremos manejar 4 señales del puerto serie del PC;
generalmente las más usadas son: TXD y RXD. Para que el MAX232 funcione correctamente deben
agregarse condensadores externos, todo esto puede observarse en la figura 3.22 en la que solo se
han conectado las líneas TXD y RXD que son las utilizadas en esta aplicación.

Figura 3. 22 Diagrama de conexión entre el microcontrolador y el puerto serial a través del MAX 232

La figura 3.23 ilustra la vista previa del circuito MAX2323 terminado y en la figura 3.24 se muestra
una fotografía real del circuito de comunicación terminado.

Figura 3. 23 PCB del circuito MAX 232 para la comunicación serial entre la PC y el microcontrolador

Capítulo 3: Diseño de hardware y software 89


GRABADORA DIGITAL DE VOZ PARA UNA PC

Figura 3. 24 Circuito PCB del circuito MAX232 para la comunicación serial entre la PC y el microcontrolador

3.5 Prototipo final del hardware

Después de unir los módulos del filtro pasa-bajas, el microcontrolador y la interfaz de


comunicación con sus conexiones correspondientes, puede observarse en la figura 3.25 el
hardware completo del sistema de adquisición de datos.

Figura 3. 25 Hardware del sistema de adquisición de datos

Las dimensiones del prototipo pueden aproximarse al comparar el micrófono, los conectores o el
encapsulado DIP-40 del microcontrolador. Por ser un prototipo es grande, sin embargo reducirlo
en una placa única disminuiría el tamaño.

Micrófono. Es un micrófono Shure C606 para aplicaciones generales, e indispensable para la


captura de la señal de voz. Cuenta con un interruptor de encendido-apagado y su conexión es tipo
canon. Para su conexión al hardware es necesario un cable canon hembra a Plug 7mm.

Capítulo 3: Diseño de hardware y software 90


GRABADORA DIGITAL DE VOZ PARA UNA PC

Microcontrolador. El PIC18f4550 es el microcontrolador implementado en este sistema, en el que


aloja el proceso de codificación con su convertidor analógico digital interno, así como el envío de
datos por el módulo USART.

Led de encendido. Led indicador de encendido en color rojo, colocado en la tarjeta principal
donde se encuentra el microcontrolador, que da alimentación a los demás circuitos.

Led de transmisión. Led indicador de transmisión en color ámbar, colocado en la tarjeta principal
donde se encuentra el microcontrolador. Se enciende al estar enviando datos a la PC.

Conector USB. El conector USB proporciona la alimentación de 5 VCD a todo el hardware, de


modo que puede conectarse a la PC o a algún adaptador; sin embargo es más práctico conectar
directamente a la PC para no requerir de conexiones adicionales de corriente y funcione inclusive
con una laptop operando con batería. Por este conector puede reprogramarse el microcontrolador
también.

Conector Serial DB9. Es la conexión de salida de la interfaz de comunicación y el tipo de conexión


usado por el estándar RS232; sin embargo, puede usarse un adaptador Serie-USB con el que se
tiene una mayor accesibilidad a los equipos actuales que no disponen de puerto serie.

Interfaz de comunicación. Es la tarjeta que recibe los datos del módulo USART del
microcontrolador y los convierte a los niveles de voltaje establecidos por el estándar RS232 para
su comunicación con la PC.

Potenciómetro de sensibilidad. El potenciómetro de sensibilidad realiza un ajuste de acuerdo al


nivel de volumen de entrada; si está muy sensible, la grabación será muy saturada y poco
entendible, por el contrario con una sensibilidad baja, la captura de datos no aprovechara todo la
escala de cuantificación del ADC y la calidad será más baja de lo establecido. Se recomienda un
punto medio en cuanto al grado de ajuste en este potenciómetro.

Filtro Pasa-bajas. La tarjeta de filtro pasa-bajas realiza el acondicionamiento en amplitud y


frecuencia de la señal de voz para el microcontrolador. Posee la conexión de entrada de señal de
tipo plug 3.5 mm.

Adaptador 7mm. a 3.5 mm. El adaptador de 7 mm. a 3.5 mm. reduce el tamaño de conexión
debido a que los cables comerciales para conexión de micrófono son de canon a plug 7 mm.

Conector Plug 7 mm. Es un conector usado típicamente en audio y es también conocido como
conector plug ¼.

Capítulo 3: Diseño de hardware y software 91


GRABADORA DIGITAL DE VOZ PARA UNA PC

3.6 Software de la Interfaz Gráfica de Usuario

La interfaz gráfica de usuario se realizó en C# con ayuda del Software Visual Studio 2010 Ultimate.
En éste programa se reciben los datos del microcontrolador y se estructuran para un archivo con
formato de audio WAV.

El diseño del mismo se basa en la adquisición de paquetes de 8 bytes más 2 extras: uno es el salto
de línea y otro es el salto de carro. Lo primero en el programa es realizar la captura de los datos y
almacenarlos directamente en un arreglo tipo byte, figura 3.29, que teóricamente su máxima
capacidad sería 4 GB ( ) en el sistema operativo de 32 bits y en un SO de 64 bits. Por
supuesto, el límite real sería la cantidad de memoria virtual disponible para el proceso en el
momento en que la llamada fue hecha. Este número depende básicamente de lo que es la reserva
del sistema (normalmente 2 GB)27, pero para efectos prácticos se reservaron 256 MB que graban
un aproximado de 9 horas con 19 minutos. Después se procede con el procesamiento de esos
datos para su almacenamiento en el archivo WAV. En la figura 3.26 se muestra el algoritmo del
programa principal; es importante no olvidar que la interfaz es visual y está orientada a eventos.

Inicio

Declaración de librerias

Declaración e inicialización de variables y arreglos

Inicializar componentes

Abrir puerto serial

Configurar codificación del puerto serial a código ASCII extendido

Ir a evento ¿Evento
Si
invocado invocado?

No

Figura 3. 26 Diagrama de flujo del programa principal de la Interfaz Gráfica de Usuario

27
Véase referencia 27.

Capítulo 3: Diseño de hardware y software 92


GRABADORA DIGITAL DE VOZ PARA UNA PC

Al comienzo del programa se tienen que inicializar las variables, así como dar apertura al puerto
serial, que de no estar conectado el adaptador USB Serial, si es que se virtualiza el puerto serial,
rechazará la apertura del puerto y mandará una excepción el compilador. El puerto serial tiene
que configurarse con las propiedades de la figura 3.27. La configuración del nombre del puerto es
importante que sea igual al que asigna el equipo. Puede obtenerse dicho dato en el administrador
de dispositivos de Windows como se observa en la figura 3.28.

Figura 3. 27 Diagrama de flujo del programa principal de la Interfaz Gráfica de Usuario

Figura 3. 28 Asignación de nombre COM3 al puerto serial en el “Administrador de dispositivos” de Windows

Capítulo 3: Diseño de hardware y software 93


GRABADORA DIGITAL DE VOZ PARA UNA PC

Enviar mensaje: Inicio


«Grabación
terminada»

Leer tiempo de grabación

¿Tiempo de ¿Tiempo
1
grabación=0? terminado?

No No

Tiempo de grabación menos uno Contador suma uno

¿8 datos+carrier en No Leer puerto serie


buffer?

Guardar datos en un
Si arreglo de 8 Bytes con
código ASCII extendido Guardar datos
Guardar datos en un arreglo de 8
bytes con código ASCII extendido

Copiar arreglo en la
posición i del Limpiar buffer
Copiar arreglo en la posición del arreglo principal
arreglo principal (Bloque de (Bloque de datos)
datos)

¿Contador=999? No
Repetir ultimo valor
i=i+8 del arreglo a los
espacios vacios Si

Reinicia contador

¿Arreglo=8? No

Incrementa tiempo
en segundos
Si

Figura 3. 29 Diagrama de flujo de la etapa de grabación en memoria temporal

Capítulo 3: Diseño de hardware y software 94


GRABADORA DIGITAL DE VOZ PARA UNA PC

La adquisición de datos es dedicada únicamente a eso, almacenar los datos en un buffer temporal
mientras se está grabando, una vez terminado, un mensaje de “grabación terminada” es mostrado
y posterior a eso se realiza la división de los paquetes de datos de 8 bits a un arreglo donde se
encuentren las muestras de manera individual. Estas muestras deben ser asignadas al bloque de
datos que se utilizará para el archivo WAV. No olvidar que en el arreglo destino, deberá
considerarse el espacio para las cabeceras del archivo. figura 3.31.

El bloque de datos, es decir las muestras capturadas o la voz digitalizada puede graficarse y
observar el espectro tiempo/amplitud que es formado tras la captura de datos. figura 3.30.

Inicio

Obtener resolución de la gráfica

Inicializar un objeto de la clase Graphics

Inicializar coordenadas

Obtener dato x
del buffer principal
(Bloque de datos)

Dibujar línea desde último valor a


nuevo valor obtenido del buffer

No

¿Fin del buffer? No

Si

Figura 3. 30 Diagrama de flujo de la etapa de graficación del espectro resultante.

Capítulo 3: Diseño de hardware y software 95


GRABADORA DIGITAL DE VOZ PARA UNA PC

Para la grabación del archivo WAV se debe considerar que es usado solo un canal de grabación, es
decir es monoaural, también se debe tomar en cuenta el ancho de palabra de 8 bits y la frecuencia
de muestreo que es de 8 000 muestras por segundo.

Inicio

Agregar identificador RIFF (4 Bytes)

Obtener longitud total del fichero (4 Bytes)

Agregar formato «WAVE» (4 Bytes)

Agregar sub-bloque «fmt» (4 Bytes)

Agregar longitud de formato de audio (4 Bytes)

Agregar formato de audio (2 Bytes)

Agregar número de canales (2 Bytes)

Agregar frecuencia de muestreo (4 Bytes)

Agregar tasa de bytes (4 Bytes)

Agregar alineamiento de bloques (2 Bytes)

Agregar bits por muestra (2 Bytes)

Agregar sub-bloque «Data» (4 Bytes)

Obtener y agregar longitud del campo de datos (4 Bytes)

¿Bloque de datos guardado


No
previamente?

Si

Guardar archivo WAV en el directorio destino

Inicializar parámetros para convertir WAV a MP3

Llamar función que convierte a MP3

Figura 3. 31 Diagrama de flujo para guardar un archivo WAV

Capítulo 3: Diseño de hardware y software 96


GRABADORA DIGITAL DE VOZ PARA UNA PC

La Interfaz Gráfica de Usuario cuenta con un botón de “Nueva grabación” y en este evento lo
único que se efectúa es el reinicio de todas las variables, incluyendo los arreglos.

Inicio

Reiniciar todas las


variables

Figura 3. 32 Diagrama de flujo del botón “Nueva grabación”

Antes de hacer la grabación final del archivo, se asignan las dimensiones de la grabación a la
cabecera correspondiente; de esta manera el tiempo de grabación será proporcional al tamaño del
archivo en memoria para su almacenamiento.

Inicio

Leer dimensiones del buffer

Convertir valor a hexadecimal en una cadena

Convertir cadena en un arreglo del tipo byte

Retornar arreglo y asignarlo al buffer

Figura 3. 33 Diagrama de flujo para asignar dimensiones de la grabación a la cabecera correspondiente

Capítulo 3: Diseño de hardware y software 97


GRABADORA DIGITAL DE VOZ PARA UNA PC

Una vez que es guardado el archivo WAV, el mismo programa manda a llamar un codificador de
formatos con licencia LGPL; se trata del software “Lame” que no posee ninguna interfaz gráfica
precisamente para ser usado en programas que lo manden a llamar como archivo de sistema, se le
manden los parámetros necesarios como las direcciones de ubicación del archivo original WAV y el
de destino MP3. También es importante localizar la ubicación del propio codificador. Para mayor
comodidad y eficiencia es recomendable guardar el archivo ejecutable lame.exe en la carpeta de
sistema de Windows (C:\Windows) para establecer una ruta predefinida y no encontrarnos con
problemas posteriores.

Inicio

Recibir parametros de rutas de origen y destino

Controlar excepciones de error en los parámetros de entrada

Mandar a llamar archivo «Lame.exe» para convertir archivos

¿Terminó la conversión de archivo? No

Si

Cerrar archivo

Figura 3. 34 Diagrama de flujo para convertir archivo WAV en MP3

Capítulo 3: Diseño de hardware y software 98


GRABADORA DIGITAL DE VOZ PARA UNA PC

La Interfaz Gráfica de Usuario final se muestra en la figura 3.35.

Figura 3. 35 Vista general de la Interfaz Gráfica de Usuario en C# para iniciar una grabación

El usuario tiene la opción de grabar de un segundo hasta aproximadamente 9 horas, definiendo un


tiempo de grabación en segundos. Se puede realizar una nueva grabación después de haber
finalizado alguna otra, y cada una de éstas puede graficarse su espectro así como guardarse en un
archivo de audio con formato WAV.

Capítulo 3: Diseño de hardware y software 99


GRABADORA DIGITAL DE VOZ PARA UNA PC

Resultados
Capítulo 4 experimentales

4.1 Sistema de adquisición de datos


4.2 Comunicación entre el microcontrolador y la
Interfaz Gráfica de Usuario
4.3 Uso de la Interfaz Gráfica de Usuario
4.4 Archivo final de la Grabación
4.5 Pruebas de funcionamiento

Capítulo 4: Resultados experimentales 100


GRABADORA DIGITAL DE VOZ PARA UNA PC

Capítulo 4: Resultados experimentales

El presente capítulo hace mención de las pruebas realizadas a las diferentes partes del sistema,
necesarias para el acondicionamiento, codificación, transmisión y almacenamiento de la voz hasta
llevar a cabo la reproducción digital en la PC del archivo final con formato WAV y MP3 después de
usar el codificador auxiliar.

4.1 Sistema de adquisición de datos

El sistema de adquisición de datos lleva a cabo el proceso de acondicionamiento de la señal de


voz, tanto en amplitud como en frecuencia. Es necesario dicho acondicionamiento para el
aprovechamiento total de la señal capturada a la calidad establecida que fue con un ancho de
banda de 4 KHz, lo necesario para un mensaje de voz entendible.

4.1.1 Respuesta del micrófono

La primera parte consiste en obtener los voltajes que entrega el micrófono al momento que éste
se ve expuesto a las ondas sonoras emitidas por la voz humana. Hablando con una intensidad de
volumen moderada y colocando el micrófono a una distancia de 10 cm del usuario; el voltaje
aproximado que se observa que entrega el micrófono es de 20 mVpp, cómo aparece en la figura
4.1; muestra tomada directamente del osciloscopio.

Figura 4. 1 Señal de voltaje de salida del micrófono

Como se había mencionado en el capítulo anterior; es neceario una etapa de amplificación de la


señal de voltaje de salida entregada por el micrófono. El siguiente diagrama muestra el sistema
empleado para la obtención de los voltajes deseados.

Capítulo 4: Resultados experimentales 101


GRABADORA DIGITAL DE VOZ PARA UNA PC

Entrada Salida
Amplificador de Voltaje de salida del
Voltaje de salida del
pequeña señal con micrófono amplificada
micrófono
pila de 2.5 V con un voltaje de 0 a 5V
Vpp = 20 mV
Figura 4. 2 Diagrama de un proceso

La siguiente figura muestra el resultado que se obtiene al pasar la señal del micrófono por la etapa
de amplificación, más un nivel de CD. de 2.5 V que eleva la señal; lo anterior para tener la señal
acondicionada de 0 a 5 V que será enviada a la parte del convertidor analógico digital.

Figura 4. 3 Señal de voltaje de salida del micrófono con la etapa de acondicionamiento

4.1.2 Respuesta del filtro

Tomando muestras de la señal de entrada y salida a diferentes frecuencias, es decir haciendo un


barrido de las mismas por todo el rango de interés que es de 20 Hz hasta 4 KHz, se forma la tabla
4.1 aplicando la ecuación (12) y (14) del tema 2.2.5 Respuesta en frecuencia. Cabe mencionar que
el límite inferior está acotado también por las especificaciones del micrófono, que a su vez
funciona como un filtro pasa-altas con frecuencia de corte de 50 Hz. Para el caso del límite
superior en el barrido de frecuencias, es importante ir más allá de los 4 KHz para notar el
decaimiento de la señal.

A partir de la tabla 4.1 se genera la gráfica de la respuesta en frecuencia de la figura 4.4.

Capítulo 4: Resultados experimentales 102


GRABADORA DIGITAL DE VOZ PARA UNA PC

Tabla 4. 1 Respuesta en frecuencia del filtro

Frecuencia Ganancia en dB
100 -4.277596399
200 -2.182889389
300 -2.271976217
400 -2.54485383
500 -1.338935793
600 -1.501293597
700 -1.666744116
800 -1.501293597
900 -1.666744116
1000 -1.750666408
1200 -1.338935793
1400 -1.501293597
1600 -1.666744116
1800 -1.501293597
2000 -1.835407467
2200 -1.179557199
2400 -1.501293597
2600 -1.338935793
2800 -2.731654355
3000 -2.361986242
3200 -3.317441877
3400 -2.731654355
3600 -2.922560714
3800 -3.521825181
4000 -4.860760974
4200 -4.622776508
4400 -5.883811423
4600 -6.444385895
4800 -6.738851031
5000 -8.752254269
5200 -8.752254269
5400 -12.46498581
5600 -9.542425094
5800 -8.028010816
6000 -8.382586155
6200 -9.966211076
6400 -12.46498581
6600 -12.46498581
6800 -12.46498581

Capítulo 4: Resultados experimentales 103


GRABADORA DIGITAL DE VOZ PARA UNA PC

Una vez obtenida la tabulación, mediante Excel o alguna otra herramienta de graficación se puede
generar la gráfica resultante. Podemos observar que el filtro que fue diseñado para una frecuencia
de corte de 4 KHz, tiene una frecuencia de corte en 3.6 KHz aproximadamente. La respuesta no es
lineal, sin embargo, considera las frecuencias deseadas.

Figura 4. 4 Respuesta del filtro pasa bajas de 4000 Hz

4.2 Comunicación entre el microcontrolador y la Interfaz Gráfica de Usuario

Las siguientes figuras muestran el resultado en la Interfaz Gráfica de Usuario al recibir como
parámetro de entrada una señal enviada por un generador de funciones a diferentes frecuencias;
dichas señales de entrada se muestran del lado izquierdo (capturas obtenidas directamente del
osciloscopio) y de lado derecho se muestra la respuesta en la Interfaz Gráfica de Usuario.

Señal de entrada del generador (Hz) Interfaz gráfica en C#


5 Hz

1b

1a

Capítulo 4: Resultados experimentales 104


GRABADORA DIGITAL DE VOZ PARA UNA PC

10 Hz

2b

2a
20 Hz

3b

3a
50 Hz

4b

4a

Figura 4. 5 Comparación de la señal de entrada del generador contra la señal en la IGU

La siguiente figura presenta como entradas frecuencias más elevadas en comparación de las que
se tienen en la figura 4.5, así como el espectro que grafica en una grabación de voz (ver figura
4.6c).

Capítulo 4: Resultados experimentales 105


GRABADORA DIGITAL DE VOZ PARA UNA PC

a) 5KHz

b) 6KHz

c) Voz

Figura 4. 6 Respuesta en frecuencia del sistema en la IGU

Capítulo 4: Resultados experimentales 106


GRABADORA DIGITAL DE VOZ PARA UNA PC

4.3 Uso de la Interfaz Gráfica de Usuario

La Interfaz Gráfica de Usuario esta compuesta por los elementos descritos en la figura 4.7.

1. Menú Archivo 2. Menú Ayuda

3. Tiempo a grabar
4. Botón Grabar
5. Botón Nueva 8. Espacio de
Grabación grabación

6. Velocidad de
bits para el MP3

7. Cronómetro en segundos

Figura 4. 7 Elementos de la Interfaz Gráfica de Usuario

1. Menú Archivo
Esta pestaña nos da tres diferentes opciones para el formato de archivo de voz generado:
 Guardar grabación: Esta opción genera un archivo de audio con formato WAV y
MP3 en la ruta que el usuario especifique, de esta manera el usuario puede
conservar un archivo sin perdidas y/o uno comprimido 4 veces más pequeño que
el archivo WAV con una calidad aceptable para entender el mensaje de voz.
 Graficar señal de voz: Esta opción genera una aproximación del espectro
resultante de toda la grabación. Es una aproximación debido a la resolución
manejada, por lo que se tiene que realizar un submuestreo para mostrar en
pantalla.
 Salir: Esta opción cierra la aplicación de la grabadora digital de voz.

2. Menú Ayuda
Esta pestaña nos da dos opciones referentes acerca de la IGU en general:
 Ver la ayuda: Muestra el manual usuario de la IGU.
 Acerca de Grabadora digital de voz: Muestra información acerca de los autores.

3. Tiempo a grabar
Este espacio esta designado para que el usuario introduzca un tiempo de grabación en
segundos, de esta manera puede estar grabando un tiempo definido, sin necesidad de que
un usuario tenga que oprimir un botón de paro.

Capítulo 4: Resultados experimentales 107


GRABADORA DIGITAL DE VOZ PARA UNA PC

4. Botón “Grabar”
El botón Grabar esta designado para comenzar una grabación. En el momento que es
oprimido, la captura de datos se pone en marcha para ser almacenados en memoria
temporal para posteriormente ser almacenados en disco duro con un formato de audio
WAV o MP3 o bien, iniciar una nueva grabación sin que esta pase a disco duro.

5. Botón “Nueva grabación”


El botón Nueva Grabación descarta la grabación previamente obtenida para poder
comenzar una captura nueva.

6. Opción de velocidad de bits para el MP3.


Nos muestra tres diferentes opciones para la velocidad de bits para el archivo de MP3, por
default está habilitado en la opción de 16 kbps.

7. Cronómetro en segundos
El cronometro en segundos muestra el transcurso de la grabación en curso.

8. Espacio de graficación
En este espacio es generado el espectro resultante de la grabación, tras haber oprimido el
botón graficar.

4.4 Archivo final de la Grabación

Después de haber realizado una grabación y haberla guardado en Disco Duro como se explicó en el
tema anterior, se generan dos archivos en la carpeta principal del proyecto de la Interfaz Gráfica
de Usuario como se observa en la figura 4.8. Uno de ellos se genera en formato WAV, que es el
archivo directamente grabado y construido en el programa de C#. El otro archivo generado, es en
formato de audio MP3, que es 4 veces más pequeño que el original en formato WAV.

Gracias al software de codificacion “lame”, bajo la licencia LGPL, se genera el segundo archivo que
como se mencionó, es cuatro veces mas pequeño que el original grabado en formato WAV. Esta
herramienta se usa en forma auxiliar al programa principal en C# para mandar a llamar desde el
mismo programa, ayudando a obtener la reduccion de espacio de almacenamiento. Se pueden
comparar las propiedades del archivo WAV y MP3 mostradas en las figuras 4.9 y 4.10.

Capítulo 4: Resultados experimentales 108


GRABADORA DIGITAL DE VOZ PARA UNA PC

Figura 4. 8 Archivos generados en carpeta destino

a) b)

Figura 4. 9 a) Espacio de almacenamiento en disco del archivo WAV b) Duración y velocidad en bits del archivo WAV

En la figura 4.9 se muestran las propiedades del archivo WAV, en las que se tiene una velocidad de
64 kbps, lo que genera un espacio de almacenamiento de 8 KB por cada segundo; para una hora
son 8 KB * 3600 segundos; es decir 28 800 KB y es precisamente lo que se observa en la figura
4.9a. La velocidad de bits es igual a la calculada ya en el tema 3.3.1.
Después de haber usado en el código fuente de la Interfaz Gráfica de Usuario el software “Lame”,
se obtiene un archivo de salida con las propiedades descritas en la figura 4.10.

Capítulo 4: Resultados experimentales 109


GRABADORA DIGITAL DE VOZ PARA UNA PC

a) b)

Figura 4. 10 a) Duración y velocidad en bits del archivo MP3 b) Extensión MP3 y espacio en disco del archivo MP3

El archivo WAV usado como ejemplo en la figura 4.9 es el mismo para la figura 4.10, solo que
después de haber sido convertido al formato MP3. En las propiedades del archivo mostradas en la
figura 4.10a se tiene una misma duración de una hora pero a una velocidad de 16 Kbps, lo que
reduce 4 veces el espacio de almacenamiento como se observa comparando la figura 4.9b y la
figura 4.10a. La reducción de la velocidad 4 veces con respecto a la original, tiene como
consecuencia la misma reducción en almacenamiento con una calidad aceptable para entender un
mensaje de voz. Pruebas a distintos locutores reflejan que es entendible el mensaje en ambos
formatos.

4.5 Pruebas de funcionamiento

Todo prototipo debe someterse a pruebas de evaluación donde se pueden encontrar debilidades o
bien cerciorarse del buen funcionamiento del mismo. Por ello serán de importancia las siguientes
pruebas.

4.5.1 Portabilidad del archivo

El formato de archivo de audio WAV, es un formato sin perdidas estandarizado que permite llevar
el archivo a distintos reproductores y tener la seguridad de que sera reproducido; de esta manera,
se evitaran muchos problemas de compatibilidad o de la falta de algun codec o plugin para
reproducirse. Para el caso de MP3, se trata de uno de los formatos mas populares que implementa
compresión.

Capítulo 4: Resultados experimentales 110


GRABADORA DIGITAL DE VOZ PARA UNA PC

La prueba de portabilidad se muestra a continuación en los 3 sistemas operativos más populares


del mundo.

Figura 4. 11 Archivos WAV y MP3 en el explorador de Windows

La figura 4.11 muestra los archivos en el explorador de Windows, que como se observa detecta
con la extension WAV y MP3, mismos que reconoce ya como archivos de audio. Para comprobar la
efectividad del archivo, puede ejecutarse con el reproductor default de Windos como se observa
en la figura 4.12.

Figura 4. 12 Reproductor de Windows Media Player

En la figura 4.13 se observan al igual que en el ambiente Windows, los archivos de audio ya
identificados por el explorador Finder de Mac OS. Al ejecutar dichos archivos con el reproductor

Capítulo 4: Resultados experimentales 111


GRABADORA DIGITAL DE VOZ PARA UNA PC

default del sistema operativo Mac OS como se observa en la figura 4.14 se obtiene el mismo
resultado y no se encuentra ningún problema para la reproducción.

Figura 4. 13 Archivos WAV y MP3 en el explorador de archivos Finder de Mac OS

Figura 4. 14 Reproductor iTunes de Mac OS

Finalmente para la prueba de portabilidad el tercer sistema operativo mas usado en el mundo es
Linux en sus distintas distribuciones, según estudios en la red de internet. La figura 4.15 muestra
los dos archivos en el explorador de Linux Ubuntu, mismos que ya son reconocidos por el sistema
como archivos de audio y que al ejecutarse con el reproductor Totem que es el reproductor

Capítulo 4: Resultados experimentales 112


GRABADORA DIGITAL DE VOZ PARA UNA PC

default de este sistema operativo, se observa la efectividad de los archivos y no se presenta


ningun problema en la reproducción.

Figura 4. 15 Archivos WAV y MP3 en el explorador de archivos de Linux Ubuntu

Figura 4. 16 Reproductor de música Totem 3.0.1 de Linux Ubuntu

Capítulo 4: Resultados experimentales 113


GRABADORA DIGITAL DE VOZ PARA UNA PC

4.5.2 Grabación en un periodo largo

Otra de las pruebas necesarias es realizar una grabación larga, que tendrá una duración de una
hora, que es el tiempo aproximado que graba un CD, a diferencia de que no tendrá comparación el
tamaño final de la grabación con la capacidad de almacenamiento que tiene un CD, debido a que
esta aplicación es limitada a voz con calidad telefónica de 4 KHz.

Para realizar la grabación se puede ayudar de alguna persona que hable durante una hora o bien
auxiliarse de alguna grabación de algún aparato reproductor. Para este caso se usa un documental
de internet, se pone a reproducir y se comienza la captura a través del micrófono frente a las
bocinas de la computadora sin necesidad de que hable directamente una persona.

Finalmente el resultado es observado en la figura 4.17, en donde aparece la Interfaz Gráfica de


Usuario con la grabación de una hora finalizada. También puede apreciarse el espectro resultante
de la grabación.

Figura 4. 17 Resultado de la grabación de 1 hora continua

Otra prueba consistió en comprobar que tan eficiente es el tiempo de grabación capturado con el
reloj programado en la IGU en comparación de un reloj externo. El tiempo de grabación para
ambos relojes fue considerando para una grabación de una hora. La siguiente imagen muestra el
resultado de la prueba de funcionamiento para el tiempo de captura de una hora de audio. Como
podemos apreciar, la IGU ha terminado de capturar el tiempo de grabación mientras el reloj digital
del celular marca que ha transcurrido 0:57:07.39 (el tamaño del archivo resultante fue de 27.4
MB).

Capítulo 4: Resultados experimentales 114


GRABADORA DIGITAL DE VOZ PARA UNA PC

Figura 4. 18 Diferencia de tiempo de un cronometro contra la IGU en una hora.

Ahora vamos a calcular cuánto tiempo de adelanto existe por parte de la IGU para posteriormente
obtener una relación del más adelanto para otros tiempos de grabación más superiores. Los
cálculos se muestran a continuación. En primera instancia sabemos que:

( 30)

( 31)

Si sustituimos la ecuación (30) en la ecuación (31) obtenemos:

( 32)

Con el resultado anterior podemos saber los ms contenidos en una hora de grabación:

( 33)

Ahora basándonos en los cálculos anteriores obtenemos el tiempo de grabación obtenida con el
reloj digital que resulto de 0:57:07.39 (57 minutos, 7 segundos y 390 milésimas).

( ) ( ) ( 34)

Con las ecuaciones (33) y (34) podemos obtener el tiempo de adelanto de la IGU generada en una
hora:

( 35)

Capítulo 4: Resultados experimentales 115


GRABADORA DIGITAL DE VOZ PARA UNA PC

El resultado anterior muestra la cantidad en ms del tiempo de adelanto de una grabación con
duración de una hora. Si pasamos el resultado anterior a minutos para hacerlo más entendible
resulta:

( 36)

Tomando en cuenta el resultado anterior, se muestra a continuación una relación de la desviación


del adelanto del reloj de la IGU con forme a periodos más largos de tiempo:

Tabla 4. 2 Diferencia de tiempo de un cronometro contra la IGU.

Horas Adelanto en ms hh:mm:ss:ms


1 172,610 00:02:52.610
2 345,220 00:05.45.220
4 690,440 00:11:30.440
8 1,380,880 00:23:00.880

Milisegundos Diferencia de tiempo de un


cronometro contra la IGU
1600000

1400000 8, 1380880
1200000

1000000

800000
Adelanto en ms
4, 690440
600000

400000
2, 345220
200000 1, 172610
0
0 2 4 6 8 10 Horas

Figura 4. 19 Diferencia de tiempo de un cronometro contra la IGU.

Con lo que podemos concluir que el reloj interno de la IGU no es del todo preciso, ya que existe un
adelanto de 2:52.61 por cada hora transcurrido por un reloj digital. Calcular el adelanto para un
tiempo superior a 18 horas no sería práctico ya que como lo mencionamos en el desarrollo, la
máxima capacidad de grabación para la IGU en un formato de archivo WAV es de 9 horas.

Capítulo 4: Resultados experimentales 116


GRABADORA DIGITAL DE VOZ PARA UNA PC

4.5.3 Prueba a diferentes locutores

La última prueba es la grabación de un mismo texto leído por distintos locutores; de esta manera,
al hacer un análisis escuchando a cada uno de ellos leyendo el mismo texto, se puede deducir la
efectividad en cuanto a claridad del mensaje, que es uno de los objetivos principales, obtener un
mensaje entendible de voz. Para la prueba, se pidió a los locutores leyeran el decálogo del
politécnico frente al micrófono para poder capturar la grabación y así al finalizar se les hizo
escucharla pidiendo su opinión en cuanto a la claridad del mensaje; es decir, que tan entendible
era, tras haber sido grabada en este formato de baja calidad. Los resultados fueron capturados en
la siguiente tabla.

Tabla 4. 3 Estadística de entendimiento del mensaje con grabaciones a diferentes locutores

Claridad Muy
Muy mala Mala Regular Buena
Locutor buena
Nicolás – 26 años X
Daniel – 24 años X
Alberto – 28 años X
Juan Pablo – 23 años X
Hombres

Alejandro -23 años X


Gonzalo – 49 años X
Mario – 51 años X
Yael – 9 años X
Gerardo – 23 años X
Diego – 24 años X
Esther – 46 años X
Dámaris – 22 años X
Miriam – 17 años X
Elizabeth – 27 años X
Mujeres

Jessica – 23 años X
Zeyra – 22 años X
Verónica – 16 años X
Alejandra – 21 años X
Nancy – 21 años X
Sara – 17 años X

Es evidente que cada locutor tiene un timbre de voz distinto, por lo que cada grabación entre
locutores se escucha diferente, además de que su voz grabada no se escucha igual a su voz
original, por la finalidad de obtener una calidad telefónica; sin embargo, es lo más parecida y

Capítulo 4: Resultados experimentales 117


GRABADORA DIGITAL DE VOZ PARA UNA PC

comparando a todos los locutores con el mismo mensaje, cada uno determinó la inteligibilidad del
mensaje como se muestra en la tabla 4.2 y en la gráfica siguiente.

Gráfica estadística de inteligibilidad del mensaje en una grabación

10

8
Personas

6
10
4
6
2 3
1
0 0
Muy mala Mala Regular Buena Muy buena
Inteligibilidad del mensaje

Figura 4. 20 Gráfica estadística de inteligibilidad del mensaje en una grabación

Con los resultados obtenidos en la encuesta, en una escala de muy mala, mala, regular, buena y
muy buena, se obtiene que un 0% calificó muy mala, un 5% mala, un 30% regular, el 50% como
buena y el 15% restante con la máxima calificación, muy buena. Así, se concluye que la
inteligibilidad del mensaje es aceptable para la mayoría de las personas y es útil para grabar voz
calidad telefónica, con la finalidad de tener un mensaje entendible con poca cantidad de
almacenamiento y fácil transmisión.

Capítulo 4: Resultados experimentales 118


GRABADORA DIGITAL DE VOZ PARA UNA PC

CONCLUSIONES
El objetivo general y los objetivos particulares fueron alcanzados ya que se obtuvo el archivo de
audio en formato WAV que fue sometido a algunas pruebas como portabilidad, duración y una
prueba a distintos locutores interpretando el mismo mensaje.

La grabadora digital de voz realizada en este proyecto tiene algunas limitantes que pueden ser
mejoradas a futuro. La calidad de grabación es baja, debido a que solo se requiere tener un
mensaje entendible de la voz. Para fines prácticos, usar la menor calidad posible, sin llegar a la
distorsión del mensaje, reducirá el ancho de banda y podrá ser transmitido por casi cualquier
canal, además de los beneficios en cuanto a espacio de almacenamiento son muy altos
comparados con una grabación de audio que contempla de los 20 Hz a los 20,000 HZ.

Una de las principales mejoras sería aumentar la calidad de la grabación considerando un ancho
de banda mayor, de modo que no sea únicamente para voz, sino para audio en general o por lo
menos un ancho de banda mayor a 4KHz. Aumentar el ancho de banda mejorará
considerablemente la calidad, sin embargo se requerirá de un muestreo mucho mayor que deberá
ser adaptado al hardware o bien buscar alguno más rápido. Otra opción que mejorará mucho la
calidad es aumentar el ancho de palabra; para este caso se usó de 8 bits, sin embargo usar otro
hardware que permita un muestreo de 16 bits aumentará la calidad considerablemente.

En cuanto a la adquisición de datos, tuvo que ser adaptada a un envío por paquetes de 8 muestras,
debido a que se tenía un tiempo de muestreo de 125 us y la Interfaz Gráfica de Usuario (IGU)
realizada en Visual Studio 2010 presentó complicaciones con la adquisición a esta velocidad. Para
resolver estos problemas de sincronización el sistema de adquisición de datos se adaptó a la forma
ya mencionada, envió por paquetes; de esta manera, 8 muestras de 125 us suman un tiempo de 1
ms, tiempo necesario para que la IGU no pierda datos. También para evitar retrasos en la
adquisición, se evitaron procesos innecesarios en la misma, como la graficación en tiempo real.
Simplemente se capturan los datos obtenidos y son mandados a un arreglo tipo string, donde una
vez capturados los datos, son tratados para acondicionar de acuerdo a los estándares establecidos
en WAV. Más opciones de codificación para el archivo de audio final también son mejoras
considerables para el proyecto, ya que le da al usuario una mayor gama de opciones de acuerdo a
sus necesidades.

La interfaz de comunicación es otro punto crítico del proyecto que puede mejorarse; para este
caso se hizo uso del puerto serial con el que fue necesario un adaptador serial-USB, porque a la
actualidad ya no es común encontrar en los equipos este tipo de conexión. Usar directamente una
interfaz USB aumentará la velocidad de transmisión del canal, y así transmitir señales con mayor
ancho de banda, además de que no será necesario un adaptador como en el caso de este
proyecto.

CONCLUSIONES 119
GRABADORA DIGITAL DE VOZ PARA UNA PC

La adición del formato de salida MP3 fue gracias a la ayuda del software Lame de licencia LGPL,
que puede ser llamado desde la misma interfaz para que al usuario le sea transparente dicha
conversión. Finalmente se obtienen ambos archivos, dándole al usuario la opción de conservar los
dos y comparar por sí mismo la calidad de ellos; que con pruebas a distintos locutores concluyeron
que era aceptable la claridad del mensaje en ambos formatos y no existía mucha diferencia entre
ellos.

CONCLUSIONES 120
GRABADORA DIGITAL DE VOZ PARA UNA PC

Apéndices

Apéndices 121
GRABADORA DIGITAL DE VOZ PARA UNA PC

Apéndice A
Programación del microcontrolador en lenguaje C

*********************************************************************************
* PROGRAMA DE LA ADQUISICION DE DATOS
*********************************************************************************
* Escuela: IPN - ESIME Zacatenco
* Autor: Antonio Bautista Gustavo
* Cureño Martínez Humberto Yahveh
******************************************************************************* */

#include <p18cxxx.h>

/***************************** Bits de Configuración ***************************/

#pragma config PLLDIV = 5 // (20 MHz crystal on PICDEM FS USB board)


#pragma config CPUDIV = OSC1_PLL2
#pragma config USBDIV = 2 // Clock source from 96MHz PLL/2
#pragma config FOSC = HSPLL_HS
#pragma config FCMEN = OFF
#pragma config IESO = OFF
#pragma config PWRT = OFF
#pragma config BOR = ON
#pragma config BORV = 3
#pragma config VREGEN = ON
#pragma config WDT = OFF
#pragma config WDTPS = 32768
#pragma config MCLRE = ON
#pragma config LPT1OSC = OFF
#pragma config PBADEN = OFF
#pragma config CCP2MX = ON
#pragma config STVREN = ON
#pragma config LVP = OFF
#pragma config ICPRT = OFF
#pragma config XINST = OFF
#pragma config CP0 = OFF
#pragma config CP1 = OFF
#pragma config CP2 = OFF
#pragma config CP3 = OFF
#pragma config CPB = OFF
#pragma config CPD = OFF
#pragma config WRT0 = OFF
#pragma config WRT1 = OFF
#pragma config WRT2 = OFF
#pragma config WRT3 = OFF
#pragma config WRTB = ON
#pragma config WRTC = OFF
#pragma config WRTD = OFF
#pragma config EBTR0 = OFF
#pragma config EBTR1 = OFF
#pragma config EBTR2 = OFF
#pragma config EBTR3 = OFF
#pragma config EBTRB = OFF

/****** Este programa prueba el hardware de la tarjeta con el bootloader *******/

#define L1 LATAbits.LATA4
#define L2 LATAbits.LATA5
#define L3 LATCbits.LATC0
#define L4 LATCbits.LATC1

/****************************** Entradas Digitales *****************************/

#define sw2 PORTBbits.RB5


#define sw3 PORTBbits.RB4

Apéndices 122
GRABADORA DIGITAL DE VOZ PARA UNA PC

Las variables utilizadas en el programa son las siguientes:

 int resultado: Ésta variable es de tipo entero de 16 bits y en ésta se almacenan los resultados de la conversión las lecturas obtenidas del
convertidor analógico digital.
 int i: esta variable es de tipo entero y funciona como un acumulador de la lectura de los caracteres. El valor se inicializa en 0 y el máximo es 7.
 char y[ ]: Éste arreglo es de tipo carácter y en él se almacenan cada uno de los caracteres que se van a enviar. El valor mínimo que pude tener
es 0 y el valor máximo es 255.

/****************************** V A R I A B L E S ******************************/
#pragma udata
int resultado;
int i = 0;
char y[];

/********************** DEFINICION DE ALGUNAS CONSTANTES ***********************/

#define TIMER0L_VAL 0x12


#define TIMER0H_VAL 0xFD

/************************ DECLARACION DE LOS PROTOTIPOS ************************/

void YourHighPriorityISRCode(void);
void YourLowPriorityISRCode(void);
void configUSART(void);
void config(void);
void CfgADC(void);
void configTemp0(void);
void TXbyte(unsigned char data);

/****************************** VECTOR REMAPPING *******************************/

#define REMAPPED_RESET_VECTOR_ADDRESS 0x1000


#define REMAPPED_HIGH_INTERRUPT_VECTOR_ADDRESS 0x1008
#define REMAPPED_LOW_INTERRUPT_VECTOR_ADDRESS 0x1018

/*******************************************************************************/

extern void _startup (void); // See c018i.c in your C18 compiler dir
#pragma code REMAPPED_RESET_VECTOR = REMAPPED_RESET_VECTOR_ADDRESS
void _reset (void)
{
_asm goto _startup _endasm
}

/*******************************************************************************/

#pragma code REMAPPED_HIGH_INTERRUPT_VECTOR = REMAPPED_HIGH_INTERRUPT_VECTOR_ADDRESS


void Remapped_High_ISR (void)
{
_asm goto YourHighPriorityISRCode _endasm
}

/*******************************************************************************/

#pragma code REMAPPED_LOW_INTERRUPT_VECTOR = REMAPPED_LOW_INTERRUPT_VECTOR_ADDRESS


void Remapped_Low_ISR (void)
{
_asm goto YourLowPriorityISRCode _endasm
}

#pragma code

//************************** VECTOR DE ALTA PRIORIDAD **************************/

#pragma interrupt YourHighPriorityISRCode


void YourHighPriorityISRCode()
{

Apéndices 123
GRABADORA DIGITAL DE VOZ PARA UNA PC

//AGREGAR CODIGO
} //This return will be a "retfie fast", since this is in a #pragma interrupt section

/******************** VECTOR DE INTERRUPCION BAJA PRORIDAD *********************/

#pragma interruptlow YourLowPriorityISRCode


void YourLowPriorityISRCode()
{
//AGREGAR CODIGO
}

El programa principal se conforma de las siguientes funciones e instrucciones:

 configTemp0(): Ésta instrucción manda a llamar la función que se encarga de la configuración de los tiempos de cada uno de los datos que van
a ser enviados.
 CfgADC(): Ésta instrucción manda a llamar la función, que se encarga de todas las configuración del convertidor analógico digital.
 configUSART(): Ésta instrucción manda a llamar la función USART, la cual tiene la función de configurar el modulo universal de comunicación
serie asíncrona entre el transmisor (TX) y receptor (RX).

El while(1) es un ciclo infinito que estará ahí mientras


 L3 = 1: Es el Led 3 de la tarjeta que sirve como un simple indicador de que el programa está funcionando.
 resultado = getADC(): En la variable resultado se almacenan los resultados de la conversión analógico digital. El ADC tiene un ancho de palabra
de 10 bits por lo que el valor máximo de resultados que vamos a tener en la variable resultado es de 1024 ( ).
 y[i] = resultado*0.25: Él arreglo y[i]almacenan cada uno de los caracteres que se van a enviar. Como sólo se requiere una resolución para un
ancho de palabra de 8 bits, multiplicamos el valor leído en resultado por 0.25 para tener 256 valores diferentes ( ).
 if(i==7): El programa va a entrar a esta condición cuando se hayan completado las ocho muestras (recordar que i es el acumulador del nú mero
de caracteres leídos), una vez estando en esta condición llama a la función TXbyte que va a enviar cada uno de los caracteres; seguida de esta
cadena se envía el salto de carro TXbyte(0x0D) y el salto de línea TXbyte(0x0A).

/****************************** PROGRAMA PRINCIPAL *****************************/

void main (void)


{
config();
configTemp0();
CfgADC();
configUSART();
T0CON=0B00000111; // Deshabilitado el timer0 y prescaler a 256
INTCON=0B00000000; // Pone a ceros registro INTCON

//while(sw3);
//transmitir=1;
while(1)
{
if (RCREG == '1')
{
L3=1;
resultado=getADC();
y[i]= resultado*0.25;
if(i==7)
{
TXbyte(y[0]);
TXbyte(y[1]);
TXbyte(y[2]);
TXbyte(y[3]);
TXbyte(y[4]);
TXbyte(y[5]);
TXbyte(y[6]);
TXbyte(y[7]);

TXbyte(0x0D);
TXbyte(0x0A);
i=0;
}
i++;
configTemp0();
}
L3=0;
}

Apéndices 124
GRABADORA DIGITAL DE VOZ PARA UNA PC

}
/*******************************************************************************/

void configUSART(void)
{ unsigned char temp;
SSPCON1 = 0; // Asegura que el módulo SPI no esté habilitado
TRISCbits.TRISC7=1; // Entrada de datos - terminal Rx
TRISCbits.TRISC6=0; // Salida de datos - terminal Tx
SPBRG = 25; // Configura 9600 bauds para Fosc de 48 MHz
SPBRGH = 0; // (SPBRG=103 y SPBRGH=0 para 115 kbps) //225
TXSTA = 0x24; // Habilita modo de 16 bits con BRGH=1 //4
RCSTA = 0x90; // Recepción continua en Rx
BAUDCON = 0x08; // BRG16 = 1,
temp = RCREG; // Limpia registro del receptor (hacerlo 2 veces)
temp = RCREG; //RCREG = buffer del receptor
}

/******************************************************************************/

void config(void)
{
ADCON1 |= 0x0F;
TRISB=0xFF;
ADCON1=0x0E; //RA0 se configura como la terminal analógica AN0
TRISA=0X01; //RA0(AN0) es entrada y las demás del puerto son salidas
LATA=0X00; //Leds indicadores de nivel apagados
TRISC=0X00;
LATC=0X00;
}
/*******************************************************************************/

void CfgADC(void)
{ ADCON0=0x00; //La señal de entrada del ADC se lee en AN0
ADCON2=0X8C; //Configura el reloj del ADC y el tiempo de adquisición
ADCON0bits.ADON=1; //Enciende el ADC
}

/*******************************************************************************/

int getADC(void)
{ int resultado;
ADCON0bits.GO = 1; //Inicio de conversión
while(ADCON0bits.NOT_DONE); //Espera se termine la conversión
resultado=(int)(ADRESH*256) + ADRESL;
return resultado;
}

/*******************************************************************************/

void TXbyte(unsigned char data)


{
while(TXSTAbits.TRMT==0);
TXREG = data; //TXREG = buffer del transmisor
}

/*******************************************************************************/

void configTemp0(void)
{
T0CON = 0b10001000;
TMR0H = TIMER0H_VAL;
TMR0L = TIMER0L_VAL;

while(INTCONbits.TMR0IF == 0) // Mientras la bandera no se halla desbordado


{} // hace nada, espera que termine la interrupcion
INTCONbits.TMR0IF = 0; // Al desbordarse la bandera sale del while
T0CONbits.TMR0ON=0; // Paramos el timer0 para que no empiece hasta
}

Apéndices 125
GRABADORA DIGITAL DE VOZ PARA UNA PC

Programación de la Interfaz Gráfica de Usuario en lenguaje C#

La interfaz gráfica de usuario se realizó en C# con ayuda del software Visual Studio 2010 Ultimate.
En éste programa se reciben los datos del microcontrolador y se estructuran para un archivo con
formato de audio WAV.

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Windows.Forms;
using System.IO.Ports;
using System.IO;
using System.Diagnostics;

namespace IGU
{
public partial class Form1 : Form
{
#region Inicializacion de variables
string[] POT = new string[67108864];
byte[] mBuffer = new byte[268435456]; // 536870912----------- CHUNK DE DATOS----------- 536,870,912
Bytes = 512 MB 4294967296
byte[] array = new byte[8];
byte[] data = new byte[268435456]; // CHUNK DE DATOS EN MODO LITTLE ENDIAN
byte[] SubChunk2_Size = new byte[4];
int x = 44; //Número de la muestra, inicializado en 44 por las cabeceras que
anteceden de WAV
int j = 0;
int i = 0;
int parar = 0;
int cont = 0;
int x1, y1, x2, y2, resolucion_x;
string sPathName_enc; // Direccion de Lame.exe para la codificacion a MP3
string sFileName_wav; // Dirección del archivo WAV de origen
string sFileName_mp3; // Direccion para el archivo de salida MP3
//bool bandera; // Bandera para encontrar "\" y modificar URL destino
int size; // Tamaño de la URL destino
byte[] arrayWAV = new byte[100]; // Arreglo en Bytes de URL WAV
byte[] arrayMP3 = new byte[100]; // Arreglo en Bytes de URL MP3
byte[] arrayURL = new byte[100]; // Arreglo en Bytes de URL
//string codificador;
bool bWait; // Bandera de codificacion a MP3
#endregion

public Form1()
{
InitializeComponent();
serialPort1.Open();
serialPort1.Encoding = Encoding.GetEncoding(28591);
}

private void BotonGrabar_Click(object sender, EventArgs e)


{
parar = Int32.Parse(textBox1.Text) * 1000;

byte[] adquiriendo = new byte[1];


adquiriendo[0] = 0x31; //ASCII "1"
serialPort1.Write(adquiriendo, 0, adquiriendo.Length);

#region Obtencion de datos


///////////////////////// OBTENCION DE DATOS ////////////////////////////////////////// for
(cont = 0; cont < parar; cont++)
{
i++;
POT[cont] = serialPort1.ReadLine();
serialPort1.DiscardInBuffer();
if (i == 999)
{
i = 0;

Apéndices 126
GRABADORA DIGITAL DE VOZ PARA UNA PC

j++;
label1.Text = j.ToString();
}
} //Fin de la adquisición de datos

//byte[] adquiriendo = new byte[1];


adquiriendo[0] = 0x30; //ASCII "0"
serialPort1.Write(adquiriendo, 0, adquiriendo.Length);

MessageBox.Show("Grabación terminada, presione aceptar y esperé un momento");


#endregion

#region Generación de muestraas


/////////////////////// GENERACIÓN DE MUESTRAS ////////////////////////////////////////
for (cont = 0; cont < parar; cont++)
{
int a = POT[cont].Length;
if (a == 9)
{
array = System.Text.Encoding.GetEncoding(28591).GetBytes(POT[cont]);
for (int dato = 0; dato < 8; dato++)
{
if (array[dato] == 0 || /*array[dato] == 32 || array[dato] == 150 ||*/ array[dato] == 128)
{
mBuffer[x + dato] = mBuffer[x + dato - 1];
}
else
{
mBuffer[x + dato] = array[dato];
}
}
x = x + 8;
}
else
{
for (int dato = 0; dato < a; dato++)
{
if (array[dato] == 0 || /*array[dato] == 32 || array[dato] == 150 || */array[dato] == 128)
{
mBuffer[x + dato] = mBuffer[x + dato - 1];
}
else
{
mBuffer[x + dato] = array[dato];
}
}
for (int dato = a; dato < 8; dato++)
{
mBuffer[x + dato] = mBuffer[x + dato - 1];
}
x = x + 8;
}
} //Fin de la obtención de muestras individuales
#endregion

}//Fin del botón Grabar

private void BotonNuevaGrabacion_Click(object sender, EventArgs e)


{
Array.Clear(mBuffer, 0, x); //Borra el Chunk de datos
Array.Clear(POT, 0, x); //Borra el Chunk de datos
x = 44;
j = 0;
i = 0;
parar = 0;
cont = 0;
pictureBox1.Refresh();
label1.Text = "";
}

private void guardarGrabaciónToolStripMenuItem_Click(object sender, EventArgs e)


{
#region Cabeceras del archivo WAV
//Identificador RIFF
mBuffer[0] = 0x52;
mBuffer[1] = 0x49;
mBuffer[2] = 0x46;
mBuffer[3] = 0x46;
//Longitud del fichero *************

Apéndices 127
GRABADORA DIGITAL DE VOZ PARA UNA PC

string valor_hex1 = (x - 8).ToString("X8");


SubChunk2_Size = StringToByteArray(valor_hex1);
mBuffer[4] = SubChunk2_Size[3]; //0xA4;
mBuffer[5] = SubChunk2_Size[2]; //0x3E;
mBuffer[6] = SubChunk2_Size[1]; //0x00;
mBuffer[7] = SubChunk2_Size[0]; //0x00;
//formato WAVE
mBuffer[8] = 0x57;
mBuffer[9] = 0x41;
mBuffer[10] = 0x56;
mBuffer[11] = 0x45;

//Subchunk "fmt"
mBuffer[12] = 0x66;
mBuffer[13] = 0x6D;
mBuffer[14] = 0x74;
mBuffer[15] = 0x20;
//Longitud de formato de audio
mBuffer[16] = 0x10; mBuffer[17]
= 0x00; mBuffer[18] = 0x00;
mBuffer[19] = 0x00;
//Formato de audio
mBuffer[20] = 0x01;
mBuffer[21] = 0x00;
//Número de canales
mBuffer[22] = 0x01;
mBuffer[23] = 0x00;

//Frecuencia de muestreo
mBuffer[24] = 0x40;
mBuffer[25] = 0x1F;
mBuffer[26] = 0x00;
mBuffer[27] = 0x00;
//Tasa de bytes (bytes/seg)
mBuffer[28] = 0x40;
mBuffer[29] = 0x1F;
mBuffer[30] = 0x00;
mBuffer[31] = 0x00;
//Alineamiento de bloques
mBuffer[32] = 0x01;
mBuffer[33] = 0x00;
//Bits por muestra
mBuffer[34] = 0x08;
mBuffer[35] = 0x00;

//Subchunk "data"
mBuffer[36] = 0x64;
mBuffer[37] = 0x61;
mBuffer[38] = 0x74;
mBuffer[39] = 0x61;
//Longitud de campo de datos
string valor_hex2 = (x - 44).ToString("X8");
SubChunk2_Size = StringToByteArray(valor_hex2);
mBuffer[40] = SubChunk2_Size[3]; //0x80;
mBuffer[41] = SubChunk2_Size[2]; //0x3E;
mBuffer[42] = SubChunk2_Size[1]; //0x00;
mBuffer[43] = SubChunk2_Size[0]; //0x00;
#endregion

#region Guardar con SaveFileDialog


SaveFileDialog file = new SaveFileDialog();
file.Filter = "Archivo de Texto (.wav) |*.wav";
file.DefaultExt = ".wav";
file.Title = "Guardar grabación como...";
DialogResult dialogResult = file.ShowDialog();

if (dialogResult == DialogResult.OK)
{
if (String.IsNullOrEmpty(file.FileName))
{
//Inform the user
}
string path = file.FileName;
FileInfo fi = new FileInfo(path);

// Open the stream for writing.


using (FileStream fs = fi.OpenWrite())
{

Apéndices 128
GRABADORA DIGITAL DE VOZ PARA UNA PC

// Add some information to the file.


fs.Write(mBuffer, 0, x);
}
//MessageBox.Show(path); //Muestra direccion de archivo WAV
sFileName_wav = @path;
}
#endregion

#region (Sin uso) Guardar mBuffer en ruta predefinida


/*System.IO.FileStream oFileStream = null;
oFileStream = new
System.IO.FileStream("C:\\Users/YAHVEH/Dropbox/TESIS/SOFTWARE/grabador/ciclos/bin/Debug/grabacion.wav",
System.IO.FileMode.Create);
oFileStream.Write(mBuffer, 0, x); //mBuffer.Length -> x
oFileStream.Close();
*/
#endregion

#region (Sin uso) Direcciones origen y destino predefinidas para codificacion MP3
/*
sPathName_enc = @"C:\Users\YAHVEH\Dropbox\TESIS\SOFTWARE\grabador\ciclos\bin\Debug"; sFileName_wav
= @"C:\Users\YAHVEH\Dropbox\TESIS\SOFTWARE\grabador\ciclos\bin\Debug\grabacion.wav";
sFileName_mp3 = @"C:\Users\YAHVEH\Dropbox\TESIS\SOFTWARE\grabador\ciclos\bin\Debug\grabacionMP3.mp3";
*/
#endregion

size = sFileName_wav.Length;
arrayWAV = System.Text.Encoding.GetEncoding(28591).GetBytes(sFileName_wav);

arrayMP3 = arrayWAV;
arrayMP3[size - 1] = 51; //Numero "3" en ASCII
arrayMP3[size - 2] = 112; //Numero "p" en ASCII
arrayMP3[size - 3] = 109; //Numero "m" en ASCII
sFileName_mp3 = System.Text.Encoding.Default.GetString(arrayMP3);

#region (sin uso) Obtención de URL del archivo Lame.exe


/*
arrayURL = arrayWAV;
for (int i = size - 1; i >= 0; i--)
{
if (bandera == true)
{ arrayURL[i] = arrayWAV[i]; }
else
{
if (arrayWAV[i] == 92)
{ bandera = true; }
else { arrayURL[i] = 32; }
}
}
sPathName_enc = System.Text.Encoding.Default.GetString(arrayURL);
*/
#endregion
sPathName_enc = @"C:\Windows";

bWait = true;
WavToMP3(sPathName_enc, sFileName_wav, sFileName_mp3, bWait);
}

/////////////////////// FUNCIÓN PARA CONVERTIR CADENA DE HEXADECIMAL A UN ARREGLO BYTE


/////////////////////////////////
public static byte[] StringToByteArray(string hex)
{
return Enumerable.Range(0, hex.Length)
.Where(x => x % 2 == 0)
.Select(x => Convert.ToByte(hex.Substring(x, 2), 16))
.ToArray();
}

////////////////////////////////// FUNCION PARA CONVERTIR ARCHIVO WAV A MP3


////////////////////////////////////////
public string WavToMP3(string sPathName_enc, string sFileName_wav, string sFileName_mp3, bool bWait)
{
FileInfo fi;

// Path para el archivo WAV.


fi = new FileInfo(sFileName_wav);
string sPath_wav = fi.DirectoryName;

// Path para el archivo MP3.

Apéndices 129
GRABADORA DIGITAL DE VOZ PARA UNA PC

fi = new FileInfo(sFileName_mp3);
string sPath_mp3 = fi.DirectoryName;

if (!Directory.Exists(sPathName_enc))
{
return "Directory for encoder not found:\r\n" + sPathName_enc;
}

if (!File.Exists(sFileName_wav))
{
return "WAV file not found:\r\n" + sFileName_wav;
}

if (!Directory.Exists(sPath_mp3))
{
return "Directory for MP3 file not found:\r\n" + sPath_mp3;
}

try
{
ProcessStartInfo psi = new ProcessStartInfo();
psi.UseShellExecute = false;
psi.CreateNoWindow = true;
psi.WindowStyle = ProcessWindowStyle.Hidden;
psi.FileName = "\"" + sPathName_enc + @"\lame.exe" + "\"";
if (radioButton1.Checked)
{
psi.Arguments = "-b 8 --resample 22.05 -m j " +
"\"" + sFileName_wav + "\"" + " " +
"\"" + sFileName_mp3 + "\"";
}
if (radioButton2.Checked)
{
psi.Arguments = "-b 16 --resample 22.05 -m j " +
"\"" + sFileName_wav + "\"" + " " +
"\"" + sFileName_mp3 + "\"";
}
if (radioButton3.Checked)
{
psi.Arguments = "-b 32 --resample 22.05 -m j " +
"\"" + sFileName_wav + "\"" + " " +
"\"" + sFileName_mp3 + "\"";
}
Process p = Process.Start(psi);
if (bWait)
{
p.WaitForExit();
}
p.Close();
p.Dispose();
return "";
}
catch (Exception ex)
{
return ex.Message;
}
}

private void salirToolStripMenuItem_Click(object sender, EventArgs e)


{
if (MessageBox.Show("¿Está seguro de que desea Salir?", "Salir", MessageBoxButtons.YesNo,
MessageBoxIcon.Question, MessageBoxDefaultButton.Button1) == System.Windows.Forms.DialogResult.Yes)
{
this.Close();
}
}

private void graficarSeñalDeVozToolStripMenuItem_Click(object sender, EventArgs e)


{
resolucion_x = x / 800;
if (resolucion_x < 1)
{ resolucion_x = 1; }
j = 0;
Graphics g = pictureBox1.CreateGraphics();
for (i = 0; i < x; i = i + resolucion_x)
{
//x2 = i;
j++;
x2 = j;

Apéndices 130
GRABADORA DIGITAL DE VOZ PARA UNA PC

y2 = 255 - mBuffer[i];
if (j > 799)
{
y2 = 255;
x2 = 800;
}
g.DrawLine(Pens.White, x1, y1, x2, y2);
x1 = x2;
y1 = y2;
}
}

private void créditosToolStripMenuItem_Click(object sender, EventArgs e)


{
AcercaDe ob = new AcercaDe();
ob.Show();
}

private void verLaAyudaToolStripMenuItem_Click(object sender, EventArgs e)


{
VerLaAyuda ob = new VerLaAyuda();
ob.Show();
}

}
}

Apéndices 131
GRABADORA DIGITAL DE VOZ PARA UNA PC

Apéndice B
Costo de elaboración del prototipo

El cálculo del costo total de un proyecto de hardware-software es estimado mediante la


consideración de los siguientes parámetros:

Recursos humanos
o Costos de esfuerzo
o Costos de viajes y capacitación

Recursos materiales
o Costos de hardware
o Costos de software
o Maquinaria y equipo

Para el cálculo de los costos de esfuerzo, se tomaron en cuenta los siguientes datos:

- Sueldo promedio de un programador: $20 000 mensuales


- Tiempo de programación: 6 meses

Considerando una jornada de trabajo de 8 horas diarias que es el tiempo completo de lunes a
viernes; en un mes se trabajan 160 horas aproximadamente. Si dividimos el total del sueldo del
programador entre el número de horas trabajadas se tiene:

Es decir el pago por hora equivale a: $125.00

Considerando un trabajo diario de 2 horas, se tienen 480 horas totales.

Multiplicando las horas totales de trabajo en la programación por el precio estimado por hora se
tiene:

Sumando un 15% por concepto de la depreciación del equipo se tiene:

( )

Apéndices 132
GRABADORA DIGITAL DE VOZ PARA UNA PC

Para el diseño y realización del hardware del equipo se ocuparon aproximadamente 6 meses
posteriores a la programación del mismo. Considerando un salario promedio igual al de un
programador y sabiendo que se ocupó el mismo tiempo aproximadamente, podemos multiplicar
el resultado anterior por dos, así tenemos un costo total aproximado del esfuerzo.

Los costos de viajes y capacitación no serán tomados en cuenta, ya que todo fue desarrollado en la
misma escuela y no se requirió capacitación externa ni viajes largos.

En la tabla 1 se muestran los costos unitarios y por cantidad de cada uno de los elementos
necesarios para la elaboración del proyecto, respecto a material para el hardware, el software
utilizado así como el equipo necesario para su diseño y realización.

Tabla 1. Costos de material para hardware

Cantidad Descripción Precio unitario Precio total


1 micrófono Shure C606 385 385
1 cable para micrófono canon-plug 45 45
1 adaptador plug 7mm a 3.5mm 15 15
1 conector para placa miniplug 3.5 mm hembra 12 12
1 placa fenólica de 10 x 10 cm 19 19
2 base para CI DIP-8 4 8
1 bornera terminal 5 5
1 headers hembra 15 15
1 headers macho 8 8
1 metro de cable para protoboard 2 2
6 tripod 15 90
6 capacitores cerámicos 1 6
2 capacitores electrolíticos 3 6
2 resistencias 2 4
1 potenciómetro 10 10
2 CI 358N 8 16
1 metro de cable plano 10 10
1 cloruro férrico de 355 ml 25 25
10 metros de soldadura 10 100
1 marcador de tinta indeleble 15 15
2 acetato 3 6
1 conector db-9 hembra para placa 7.5 7.5
1 base DIP-16 2.5 2.5
4 capacitores electrolíticos 3 12
1 termofit 7.5 7.5
1 CI Max 232 18 18

Apéndices 133
GRABADORA DIGITAL DE VOZ PARA UNA PC

1 microcontrolador PIC 18F4550 110 110


1 tarjeta de practica Microchip para el PIC18F4550 150 150
1 cable USB 25 25
1 adaptador Serial-USB 200 200
2 placas de acrílico 85 170
6 tornillos 1 6
6 barriles 0.5 3
6 tuercas 0.5 3
Total 1516.5

Tabla 2. Costos de Software utilizado

Cantidad Descripción Precio unitario Precio total


1 paquetería de software Multisim 22655 22655
1 paquetería de software Mplab XC8 estándar 6257 6257
1 paquetería de software Visual Studio Profesional 15282.21 15282.21
TOTAL 44194.21

Tabla 3. Costos de equipo utilizado

Cantidad Descripción Precio unitario Precio total


1 computadora 6000 6000
1 osciloscopio 7800 7800
1 multímetro 200 200
1 puntas de osciloscopio 180 180
6 puntas de prueba 25 150
1 generador de funciones 1300 1300
1 impresora laser 1500 1500
1 plancha 350 350
1 recipiente para proceso de PCB 10 10
1 pinzas de corte 45 45
1 pinzas de punta 45 45
1 cautín 140 140
1 arco/Segueta 130 130
Total 17850

Apéndices 134
GRABADORA DIGITAL DE VOZ PARA UNA PC

Para obtener el costo total de los recursos materiales realizamos la siguiente suma:

( ) ( )
()

Sumando los recursos humanos y los recursos materiales, se obtiene el costo total del proyecto.

( )
( )

Redondeando el dato anterior:

Apéndices 135
GRABADORA DIGITAL DE VOZ PARA UNA PC

Referencias
1. Scribd. (2009). “Definición de sonido” en Scribd. [Internet]. Disponible en:
http://es.scribd.com/doc/245590/Definicion-de-sonido. [Acceso el día 12 de noviembre de
2012].
2. Definición.DE. (2008). “Definición de voz” en Definicion.DE. [Internet]. Disponible en:
http://definicion.de/sonido/#ixzz2NRwVEPuk. [Acceso el día 15 de noviembre de 2012].
3. Wikipedia. (2013). “Audio Digital” en WIKIPEDIA. *Internet+. Disponible en:
http://es.wikipedia.org/wiki/Audio_digital . [Acceso el día 19 de noviembre de 2012].
4. Wikipedia. (2013). “Grabación digital de sonido” en WIKIPEDIA. *Internet+. Disponible en:
http://es.wikipedia.org/wiki/Grabaci%C3%B3n_digital_de_sonido. [Acceso el 22 de
noviembre de 2012].
5. Wikipedia. (2013). “Formatos de archivo de audio” en WIKIPEDIA. [Internet]. Disponible
en: http://es.wikipedia.org/wiki/Formato_de_archivo_de_audio. [Acceso el 24 de
noviembre de 2012].
6. Wikipedia. (2013). “Códec de audio” en WIKIPEDIA. [Internet]. Disponible en:
http://es.wikipedia.org/wiki/C%C3%B3dec_de_audio. [Acceso el 26 de noviembre de
2012].
7. Discovery. (2013). “Audio” en Discovery. [Internet]. Disponible en:
www.tudiscovery.com/gadgets/audio.shtml. [Acceso del 29 de noviembre de 2012].
8. Audacity. (2013). “Audacity” en Audacity. *Internet+. Disponible en:
www.jesusda.com/docs/ebooks/ebook_tutorial-edicion-de-sonido-con-audacity.pdf.
[Acceso el 3 de diciembre de 2012].
9. Usuario Digital. (2010). “Free Audio Editor 2010: Editor de audio para Windows” en
Usuario Digital. Disponible en: http://usuariodigital.com/free-audio-editor-2010-editor-de-
audio-para-windows/. [Acceso el 3 de diciembre de 2012].
10. EcuRed. (2013). “Adobe Audition” en EcuRed [Internet]. Disponible en:
www.ecured.cu/index.php/Adobe_Audition. [Acceso el 3 de diciembre de 2012].
11. Wikipedia. (2013). “Pro Tools” en WIKIPEDIA [Internet]. Disponible en:
http://es.wikipedia.org/wiki/Pro_Tools. [Acceso el 3 de diciembre de 2012].
12. Tomasi, W. (2003), Sistemas de comunicaciones electrónicas, Cuarta edición, Prentice Hall,
México, p. 607-613.
13. Roldán, A. (2000-2001). “Los micrófonos en Acústica” en Departamento Electrónica y
Tecnología de Computadoras Universidad de Granada. [Internet]. Disponible en:
http://electronica.ugr.es/~amroldan/modulos/proyectos/microfonos_en_acustica.pdf.
[Acceso el 10 de diciembre de 2012].
14. Coughlin, R.F. y Driscoll, F.F. (1999). Amplificadores operacionales y circuitos integrados
lineales, Tercera edición, Prentice Hall, México, p. 14-22.
15. Coughlin, R.F. y Driscoll, F.F. (1999). Amplificadores operacionales y circuitos integrados
lineales, Tercera edición, Prentice Hall, México, p. 62-63.

Referencias 136
GRABADORA DIGITAL DE VOZ PARA UNA PC

16. Bolton, W. (1995), Mediciones y pruebas eléctricas y electrónicas, Marcombo, Barcelona


España, p. 50-51.
17. López, J. (2013). “Respuesta en frecuencia de Amplificadores” en U.A. de Baja California.
[Internet]. Disponible en: http://fcqi.tij.uabc.mx/usuarios/jjesuslg/Tema3.pdf. [Acceso el
21 de diciembre de 2012].
18. Coughlin, R.F. y Driscoll, F.F. (1999). Amplificadores operacionales y circuitos integrados
lineales, Tercera edición, Prentice Hall, México, p. 294-307.
19. Stremler, F. (2006), Introducción a los sistemas de comunicación, Edición Especial 2006,
Pearson, México, p. 402-413.
20. Huircán, J. (2010). “Conversores Análogo-Digital y Digital-Análogo: Conceptos Básicos” en
Quidel. [Internet]. Disponible: http://quidel.inele.ufro.cl/~jhuircan/PDF_CTOSII/ad03.pdf.
[Acceso el 28 de enero de 2012].
21. Wikipedia. (2013). “RS-232” en WIKIPEDIA La enciclopedia Libre. [Internet]. Disponible en:
http://es.wikipedia.org/wiki/RS-232. [Acceso el 4 de febrero de 2012].
22. Wikipedia. (2013). “Universal Asynchronous Receiver-Transmitter” en WIKIPEDIA.
[Internet] Disponible en: http://es.wikipedia.org/wiki/Universal_Asynchronous_Receiver-
Transmitter. [Acceso el 7 de febrero de 2012].
23. Universidad de Sevilla. (2013). “USB Universal Serial Bus” en Hardware. *Internet+.
Disponible en: http://www.forpas.us.es/aula/hardware/dia2_USB.pdf. [Acceso el 11 de
febrero de 2012].
24. Wikipedia. (2013). “Waveform Audio Format” en WIKIPEDIA. [Internet]. Disponible en:
http://es.wikipedia.org/wiki/Waveform_Audio_Format. [Acceso el 13 de febrero de 2012].
25. Wikipedia. (2013). “Resource Interchange File Format” en WIKIPEDIA. [Internet].
Disponible en: http://es.wikipedia.org/wiki/Resource_Interchange_File_Format. [Acceso el
18 de febrero de 2012].
26. Scott, W.J. (2013). “WAVE PCM soundfile format” en CCRMA Center for Computer
Research in Music and Acoustics in Perceptual Audio Coding in Descriptions of Soundfile.
[Internet]. Disponible: https://ccrma.stanford.edu/courses/422/projects/WaveFormat/.
[Acceso el 20 de febrero de 2012].
27. Ritchieh P. MSDN [Blog Internet]. Estados Unidos: Perter Ritchieh. Febrero 2008 [Citado 20
de Junio de 2013]. Disponible en: http://social.msdn.microsoft.com/Forums/en-
US/57d73f0d-e72d-4d27-88b8-3c681782c1cf/max-length-of-byte-array.

Referencias 137
GRABADORA DIGITAL DE VOZ PARA UNA PC

Glosario
Acople: es un fenómeno producido por la realimentación que ocurre en un sistema cuando una
determinada fuente recoge su propia señal, reintroduciéndola en el sistema. En el caso de una
señal acústica, el resultado es un pitido característico muy molesto que aumenta su volumen
progresivamente.
Algoritmo: es un conjunto de instrucciones o reglas bien definidas, ordenadas y finitas que
permite realizar una actividad mediante pasos sucesivos que no generen dudas a quien deba
realizar dicha actividad.
Amplitud: es la distancia máxima entre el punto más alejado de una onda y el punto de equilibrio
o medio.
Ancho de banda (filtro): es la diferencia entre las frecuencias en las que su atenuación al pasar a
través de filtro se mantiene igual o inferior a 3 dB comparada con la frecuencia central de pico (fc)
Archivo: conjunto de bits almacenados en un fichero periférico.
Armónico: es el resultado de una serie de variaciones adecuadamente acomodadas en un rango o
frecuencia de emisión, denominado paquete de información.
ASCII: American Standard Code for Information Interchange, Código Estándar Estadounidense para
el Intercambio de Información.
Asíncrono: que se encuentra completamente aislado y sin continuación o correspondencia en el
tiempo con otro suceso, sea o no similar.
Audible: Ser lo suficiente sonoro, para ser más claro, saber si el sonido alcanza un nivel suficiente
de modo que el oyente no necesite esforzarse o recurrir al control de volumen.
Audio: es una señal analógica eléctricamente exacta a una señal sonora; normalmente está
acotada al rango de frecuencias audibles por los seres humanos que está entre los 20 y los
20.000Hz, aproximadamente.
Baudio: es una unidad de medida, usada en telecomunicaciones, que representa el número de
símbolos por segundo en un medio de transmisión analógico. Cada símbolo puede codificar 1 o
más bits dependiendo del esquema de modulación.
Big-endian: adoptado por Motorola, consiste en representar los bytes en el orden “natural”: si el
valor hexadecimal es 0x4A3B2C1D se codifica en memoria en la secuencia {4A, 3B, 2C, 1D}.
Bit: es un dígito del sistema de numeración binario. Mientras que en el sistema de numeración
decimal se usan diez dígitos, en el binario se usan sólo dos dígitos, el 0 y el 1. Un bit o dígito
binario puede representar uno de esos dos valores, 0 ó 1.
Canal de comunicación: es el medio de transmisión por el que viajan las señales portadoras de
la información emisor y receptor.
Carácter: es una unidad de información que corresponde aproximadamente con un grafema o con
una unidad o símbolo parecido, como los de un alfabeto o silabario de la forma escrita de
un lenguaje natural.
Circuito integrado: es una combinación de elementos de un circuito que están miniaturizados y
que forman parte de un mismo chip o soporte.

Glosario 138
GRABADORA DIGITAL DE VOZ PARA UNA PC

Chunk: es un fragmento de información, contenido en muchos formatos multimedia como PNG,


MP3, AVI y otros. Cada bloque contiene una cabecera que indica algunos parámetros como el tipo,
comentarios, tamaño, etc.
Códec de audio: es un conjunto de algoritmos que permite codificar y decodificar los datos
auditivos, lo cual significa reducir la cantidad de bits que ocupa el fichero de audio.
Codificación: proceso de conversión de un sistema de datos de origen a otro sistema de datos de
destino.
Compresión: es la reducción del volumen de datos tratables para representar una determinada
información empleando una menor cantidad de espacio.
Cuantificación: consiste en convertir el nivel de las muestras fijados en el proceso de muestreo,
normalmente, un nivel de tensión, en un valor entero de rango finito y predeterminado.
Decodificación: es un proceso mediante el cual se convierten símbolos en información entendible
por el receptor. Proceso inverso a la codificación.
Digitalización: consiste en la transcripción de señales analógicas en señales digitales, con el
propósito de facilitar su procesamiento y hacer la señal resultante más inmune al ruido y
otras interferencias a las que son más sensibles las señales analógicas.
Discretizar: convertir algo continuo en algo discontinuo.
Distorsión: sucede cuando el sistema no responde correctamente ante la señal y por ello ésta
sufre alteraciones. Dicho en otras palabras es la deformación de la señal a causa de elementos del
sistema de comunicación.
Emisor: es aquel objeto que codifica el mensaje y lo transmite por medio de un canal o medio
hasta un receptor.
Estéreo: generalmente, se llama sonido estereofónico o estéreo al grabado y reproducido en dos
canales.
Fidelidad: Cada uno de los componentes de la trayectoria del sonido, puede afectar el carácter
tonal del sonido que llega al oído de oyente. Esto modifica el realismo y la precisión de la
grabación. El oyente, aunque pueda escuchar tus palabras claramente y a un nivel cómodo, si no
suena igual a la interpretación original, carece de fidelidad.
Formato: es una forma particular de codificar información para ser almacenamiento. Existen
diferentes tipos de formatos para diferentes tipos de información. Los formatos suelen estar
asociados a una o más extensiones de archivo que los identifica.
Frecuencia: número de repeticiones o ciclos que se producen por unidad de tiempo de cualquier
fenómeno o suceso periódico. La frecuencia se mide en hercios (Hz).
Frecuencia de muestro: es el número de muestras por unidad de tiempo que se toman de
una señal continua para producir una señal discreta, durante el proceso necesario para convertirla
de analógica en digital. Generalmente se expresa en hercios(Hz, ciclos por segundo) o múltiplos
suyos, como el kilohercio (kHz), aunque pueden utilizarse otras magnitudes.
Ganancia: relación de transferencia entre la salida y la entrada de un sistema electrónico.
Grabación: es el proceso de capturar datos o convertir la información a un formato almacenado
en un medio de almacenamiento.
Información: es todo conocimiento nuevo que adquiere un sistema.

Glosario 139
GRABADORA DIGITAL DE VOZ PARA UNA PC

Inteligibilidad: Se refiere a qué tan bien comprende el oyente la información que escucha (si la
información es suficientemente clara). La inteligibilidad es crítica, ya que determina si el oyente ha
escuchado con toda claridad la diferencia entre palabras como “caso” y “paso”, Una inteligibilidad
deficiente puede ser resultado de una dicción o pronunciación defectuoso del hablante, una mala
grabación, o simplemente demasiados ruidos o sonidos ambientales no deseados.
Interrupción: es una señal recibida por el procesador de un ordenador, indicando que debe
"interrumpir" el curso de ejecución actual y pasar a ejecutar código específico para tratar esta
situación.
Little-endian: es una forma de ordenamiento de los bits (adoptado por Intel). Si el valor
hexadecimal es 0x4A3B2C1D se codifica en memoria en la secuencia {1D, 2C, 3B, 4A}, de manera
que este modo se hace más intuitivo el acceso a los datos, porque se efectúa de manera
incremental de menos relevante a más relevante.
MAX232: este integrado es usado para comunicar un microcontrolador o sistema digital con un PC
o sistema basado en el estándar RS232.
Micrófono: es un transductor electroacústico. Su función es la de traducir las vibraciones debidas
a la presión acústica ejercida sobre su cápsula por las ondas sonoras en energía eléctrica, lo que
permite por ejemplo grabar sonidos de cualquier lugar o elemento.
Monoaural: es el sonido que solo está definido por un canal (ya sea una grabación captada con un
solo micrófono o bien una mezcla final) y que origina un sonido semejante al escuchado con un
solo oído.
Muestreo: Consiste en fijar la amplitud de la señal eléctrica a intervalos regulares de tiempo (tasa
de muestreo).
Modulación: engloba el conjunto de técnicas que se usan para transportar información sobre
una onda portadora.
Multimedia: se utiliza para referirse a cualquier objeto o sistema que utiliza múltiples medios de
expresión (físicos o digitales) para presentar o comunicar información.
Multiplataforma: es un término usado para referirse a los programas, sistemas
operativos, lenguajes de programación, u otra clase de software, que puedan funcionar en
diversas plataformas.
Palabra: es una cadena finita de bits que son manejados como un conjunto por la máquina. El
tamaño o longitud de una palabra hace referencia al número de bits contenidos en ella.
Paridad: se usan en Telecomunicaciones para detectar, y en algunos casos corregir, errores en la
transmisión. Para ellos se añade en origen un bit extra llamado bit de paridad a los n bits que
forman el carácter original.
PCM (Pulse Code Modulation, modulación por impulsos codificados): es un procedimiento
de modulación utilizado para transformar una señal analógica en una secuencia de bits (señal
digital)
Periodo: este término se utiliza regularmente para designar al intervalo de tiempo necesario para
completar un ciclo repetitivo, o simplemente el espacio de tiempo que dura algo.
Plug-and-Play: es la tecnología o un cualquier avance que permite a un dispositivo informático ser
conectado a una computadora sin tener que configurar, mediante jumpers o software específico
(no controladores) proporcionado por el fabricante, ni proporcionar parámetros a sus

Glosario 140
GRABADORA DIGITAL DE VOZ PARA UNA PC

controladores. Para que sea posible, el sistema operativo con el que funciona el ordenador debe
tener soporte para dicho dispositivo.
Receptor: es el agente que recibe el mensaje (señal o código) emitido por un emisor. Es
el destinatario a quien va dirigida la comunicación.
Ruido: toda señal no deseada que se mezcla con la señal útil que se quiere transmitir.
Señal analógica: es un tipo de señal generada por algún tipo de fenómeno electromagnético y que
es representable por una función matemática continúa en la que es variable su amplitud y periodo
(representando un dato de información) en función del tiempo.
Señal analógica eléctrica: es aquella en la que los valores de la tensión o voltaje varían
constantemente en forma de corriente alterna, incrementando su valor con signo eléctrico
positivo (+) durante medio ciclo y disminuyéndolo a continuación con signo eléctrico negativo (–)
en el medio ciclo siguiente.
Síncrono: que tiene un intervalo de tiempo constante entre cada evento. on procesos síncronos
los que dependen de un acontecimiento externo que los dispara.
Sonido: es cualquier fenómeno que involucre la propagación en forma de ondas elásticas (sean
audibles o no), generalmente a través de un fluido (u otro medio elástico) que esté generando el
movimiento vibratorio de un cuerpo.
Tasa de muestreo: De acuerdo con el Teorema de Nyquist, la tasa de muestreo es el número de
muestras con las que se realiza el proceso de muestreo en una unidad de tiempo, determina
exclusivamente la frecuencia máxima de los componentes armónicos que pueden formar parte del
material a digitalizar.
Transductor: es un dispositivo capaz de transformar o convertir un determinado tipo
de energía de entrada, en otra diferente a la salida.
Transductor de presión (un micrófono): Convierte las ondas de presión de aire (ondas sonoras) en
señales eléctricas (señales analógicas).
Umbral del dolor: Intensidad máxima de sonido (140 dB) a partir de la cual éste produce en el
oído sensación de dolor.

Glosario 141

Anda mungkin juga menyukai