Fundamentos de Procesamiento de Audio y Aprendizaje Automático

MAY

2026

Portada » Informática » Fundamentos de Procesamiento de Audio y Aprendizaje Automático

Fundamentos de Procesamiento de Audio y Aprendizaje Automático

by estudiapuntes

Deep Learning, Espectrogramas, Machine Learning, procesamiento de audio, Redes Neuronales, señales digitales

0 Comment

1. Del sonido a la señal digital

El proceso de digitalización del sonido sigue estos pasos:

Emisor: Produce vibraciones sonoras (cuerdas, membranas, columnas de aire o software).
Sonido: Onda mecánica que se propaga por el aire, continua en tiempo y amplitud.
Micrófono: Transduce la onda sonora en señal eléctrica analógica (transductor electroacústico).
Señal analógica: Continua en tiempo y amplitud, sigue la forma de la onda original.
Muestreo: Discretiza el tiempo, obteniendo una secuencia de muestras x[n] (ej. 44.100 Hz).
Cuantización: Discretiza la amplitud, aproximando cada muestra a niveles finitos.
Señal digital: Cada muestra es un número entero; el tiempo y la amplitud son discretos; se almacena como un array de samples [x[0], x[1], …].

Parámetros físicos del sonido

Fórmula: x(t) = A · sin(2πft + φ)

Frecuencia: Describe el número de oscilaciones por segundo (Hz). Determina el tono o pitch. Frecuencia baja = oscilaciones lentas; frecuencia alta = oscilaciones rápidas.
Amplitud: Indica la magnitud de las oscilaciones. Determina la energía y la intensidad percibida (volumen). Es clave para la detección de eventos y normalización.
Fase: Indica el desplazamiento temporal de la onda. Importante en modelos generativos y síntesis avanzada.

Tipos de señales: Mono (1 canal), Estéreo (2 canales), Multicanal (>2 canales) y Normalizadas (amplitud escalada, ej. -1 a 1).

2. Características del audio

Temporales

Representan cómo cambia la señal a lo largo del tiempo:

Energía: Potencia acumulada de la señal.
RMS (Root Mean Square): Promedio de la intensidad sonora.
Zero Crossing Rate (ZCR): Cuenta los cambios de signo. Útil para clasificar voz/ruido.
Envelope: Mide la amplitud a lo largo del tiempo.

Frecuenciales

Describen el contenido en frecuencias mediante la Transformada de Fourier Discreta (DFT):

FFT (Fast Fourier Transform): Algoritmo eficiente para calcular la DFT.
Spectral Centroid: Indica el «centro de gravedad» del espectro (brillo).
Spectral Bandwidth: Mide la dispersión de la energía.
Spectral Roll-off: Frecuencia donde se acumula un porcentaje específico (85%) de la energía.

Espectrales avanzadas

MFCC: Capturan la percepción humana del timbre.
Chroma Features: Miden la energía de cada semitono musical.
Spectral Contrast: Diferencia entre picos y valles del espectro.
Spectral Flatness: Diferencia ruido de tono puro.

Representación tiempo-frecuencia

Espectrograma: Visualización de frecuencias en el tiempo.
Mel-spectrograma: Espectrograma filtrado en escala Mel.
CQT (Constant-Q Transform): Frecuencia logarítmica, ideal para música.

Correlación y estadísticas

Autocorrelación: Detecta periodicidad y pitch.
Kurtosis: Describe la concentración de la amplitud.
Skewness: Indica la asimetría de la distribución de amplitudes.

3. Preparación de Datasets

Segmentación: Dividir el audio en ventanas (ej. 20–50 ms). El frame length define la resolución temporal y el hop length el solapamiento.

Procesamiento: Extracción de características, etiquetado, creación de matrices de features y normalización (Min-Max Scaling, Standardisation, Log-scaling).

Tipos de bases de datos

Metadata en CSV: (ej. UrbanSound8K). Fácil manipulación con pandas.
Etiquetas en el nombre: (ej. RAVDESS). Requiere parsing.
Estructura jerárquica (carpetas): (ej. GTZAN). Importación rápida.
Anotaciones en JSON: (ej. AudioSet). Alta flexibilidad.

4. Modelos de Machine Learning y Deep Learning

Modelos clásicos

Regresión logística: Clasificación binaria.
K-NN: Clasificación basada en proximidad.
Árboles de decisión: Reglas simples de división.
SVM: Búsqueda de hiperplanos de separación.

Deep Learning

Entrada: Waveform (cruda), Espectrogramas (2D) o Features precomputadas.
Arquitecturas:
- CNN: Ideales para espectrogramas (patrones locales).
- RNN/LSTM: Modelan dependencias temporales.
- Transformers: Capturan dependencias globales mediante self-attention.

Visualización y Evaluación

Técnicas como activaciones, mapas de atención y occlusion/masking permiten interpretar qué partes del audio influyen en la predicción del modelo.

Fundamentos de Procesamiento de Audio y Aprendizaje Automático

1. Del sonido a la señal digital

Parámetros físicos del sonido

2. Características del audio

Temporales

Frecuenciales

Espectrales avanzadas

Representación tiempo-frecuencia

Correlación y estadísticas

3. Preparación de Datasets

Tipos de bases de datos

4. Modelos de Machine Learning y Deep Learning

Modelos clásicos

Deep Learning

Visualización y Evaluación

Relacionados

Publicidad

Temas