Portada » Informática » Fundamentos de Procesamiento de Audio y Aprendizaje Automático
El proceso de digitalización del sonido sigue estos pasos:
Fórmula: x(t) = A · sin(2πft + φ)
Tipos de señales: Mono (1 canal), Estéreo (2 canales), Multicanal (>2 canales) y Normalizadas (amplitud escalada, ej. -1 a 1).
Representan cómo cambia la señal a lo largo del tiempo:
Describen el contenido en frecuencias mediante la Transformada de Fourier Discreta (DFT):
Segmentación: Dividir el audio en ventanas (ej. 20–50 ms). El frame length define la resolución temporal y el hop length el solapamiento.
Procesamiento: Extracción de características, etiquetado, creación de matrices de features y normalización (Min-Max Scaling, Standardisation, Log-scaling).
Técnicas como activaciones, mapas de atención y occlusion/masking permiten interpretar qué partes del audio influyen en la predicción del modelo.
