Uploaded by djuan prod

R-REC-BS.1770-4-201510-I!!MSW-E es 2

advertisement
Suscríbete a DeepL Pro para poder editar este documento.
Entra en www.DeepL.com/pro para más información.
Recomendación UIT-R BS.1770-4
(10/2015)
Algoritmos para medir
la sonoridad de los programas de audio
y el nivel de audio de pico real
Serie BS
Servicio de radiodifusión (sonora)
ii
Rec. ITU-R BS.1770-4
Prólogo
La función del Sector de Radiocomunicaciones es garantizar la utilización racional, equitativa, eficaz y económica del
espectro de radiofrecuencias por todos los servicios de radiocomunicaciones, incluidos los servicios por satélite, y
realizar estudios sin límite de gama de frecuencias sobre la base de los cuales se adopten Recomendaciones.
Las funciones de reglamentación y política del Sector de Radiocomunicaciones son desempeñadas por las Conferencias
Mundiales y Regionales de Radiocomunicaciones y las Asambleas de Radiocomunicaciones, con el apoyo de las
Comisiones de Estudio.
Política de derechos de propiedad intelectual (DPI)
La política del UIT-R en materia de DPI se describe en la Política Común de Patentes para el UIT-T/UIT-R/ISO/CEI a
la que se hace referencia en el Anexo 1 de la Resolución UIT-R 1. Los formularios que deben utilizarse para la
presentación de declaraciones de patentes y declaraciones de concesión de licencias por parte de los titulares de patentes
están disponibles en http://www.itu.int/ITU-R/go/patents/en, donde también pueden encontrarse las Directrices para la
aplicación de la Política Común de Patentes para el UIT-T/UIT-R/ISO/CEI y la base de datos de información sobre
patentes del UIT-R.
Serie de Recomendaciones UIT-R
(También disponible en línea en http://www.itu.int/publ/R-REC/en)
Serie
Título
BO
Envío por satélite
BR
Grabación para producción, archivo y reproducción; películas para televisión
BS
Servicio de radiodifusión (sonora)
BT
Servicio de radiodifusión (televisión)
F
Servicio fijo
M
Servicios móviles, de radiodeterminación, de aficionados y afines por satélite
P
Propagación de las ondas radioeléctricas
RA
Radioastronomía
RS
Sistemas de teledetección
S
Servicio fijo por satélite
SA
Aplicaciones espaciales y meteorología
SF
Compartición de frecuencias y coordinación entre sistemas del servicio fijo por satélite y del
servicio fijo
SM
Gestión del espectro
SNG
Recopilación de noticias por satélite
TF
Emisiones de señales horarias y normas de frecuencia
V
Vocabulario y temas relacionados
Nota: Esta Recomendación UIT-R fue aprobada en inglés según el procedimiento detallado en la Resolución
UIT-R 1.
Publicación electrónica
Ginebra, 2017
Rec. ITU-R BS.1770-4
iii
© UIT 2017
Todos los derechos reservados. Queda prohibida la reproducción total o parcial de esta publicación, por cualquier medio, sin la
autorización escrita de la UIT.
1
Rec. ITU-R BS.1770-4
1770-4*.
RECOMENDACIÓN ITU-R BS.
Algoritmos para medir
la sonoridad de los programas de audio
y el nivel de audio de pico real
(Cuestión UIT-R 2/6)
(2006-2007-2011-2012-2015)
Alcance
Esta Recomendación especifica los algoritmos de medición de audio para determinar la sonoridad subjetiva
de los programas y el nivel de señal de pico real.
La Asamblea de Radiocomunicaciones de la UIT,
considerando
a)
que las modernas técnicas de transmisión digital del sonido ofrecen una gama dinámica
extremadamente amplia;
b)
que las técnicas modernas de producción y transmisión de sonido digital proporcionan una
mezcla de formatos mono, estéreo y multicanal 3/2 especificados en la Recomendación UIT-R
BS.775 y formatos de sonido avanzados especificados en la Recomendación UIT-R BS.2051, y que
los programas de sonido se producen en todos estos formatos;
c)
que los oyentes desean que la sonoridad subjetiva de los programas de audio sea uniforme
para las distintas fuentes y tipos de programas;
d)
que existen muchos métodos para medir los niveles de audio, pero que los métodos de
medición empleados en la producción de programas no indican el volumen subjetivo;
e)
que, a efectos del control de la sonoridad en el intercambio de programas, para reducir las
molestias a la audiencia, es esencial disponer de un único algoritmo recomendado para la
estimación objetiva de la sonoridad subjetiva;
f)
que futuros algoritmos complejos basados en modelos psicoacústicos pueden proporcionar
mejores medidas objetivas del volumen para una amplia variedad de programas de audio;
g)
que los medios digitales se sobrecargan bruscamente, por lo que debe evitarse incluso la
sobrecarga momentánea,
considerando además
h)
que los niveles máximos de señal pueden aumentar debido a procesos aplicados
habitualmente, como el filtrado o la reducción de la velocidad binaria;
j)
que las tecnologías de medición existentes no reflejan el nivel de pico real contenido en una
señal digital, ya que el valor de pico real puede producirse entre muestras;
k)
que el estado del procesamiento digital de señales hace que resulte práctico aplicar un
algoritmo que estime con exactitud el nivel de pico real de una señal;
l)
que el uso de un algoritmo de indicación de pico real permitirá una indicación precisa del
margen entre el nivel de pico de una señal de audio digital y el nivel de recorte,
*La
Radiocomunicaciones
Comisión de Estudio 6 de
introdujo modificaciones de redacción en esta
Recomendación en el año 2016 de conformidad con la Resolución UIT-R 1.
Rec. ITU-R BS.1770-4
2
recomienda
1que cuando se requiera una medida objetiva de la sonoridad de un canal o programa de audio,
producido con hasta 5 canales principales según la Recomendación UIT-R BS.775 (fuente mono,
estéreo y sonido multicanal 3/2), para facilitar la entrega y el intercambio de programas, se utilice el
algoritmo especificado en el Anexo 1;
2que cuando se requiera una medida objetiva de la sonoridad de un programa de audio
producido con un mayor número de canales (como las configuraciones de canales especificadas en
la Recomendación ITUR BS.2051), se utilice el algoritmo especificado en el Anexo 3;
3que los métodos empleados en la producción y postproducción de programas para indicar la
sonoridad de los programas pueden basarse en el algoritmo especificado en los Anexos 1 y 3;
4º que cuando se requiera una indicación del nivel de pico real de una señal de audio
digital, el método de medición se base en las directrices que figuran en el Anexo 2, o en un método
que ofrezca resultados similares o superiores,
NOTA 1 - Los usuarios deben ser conscientes de que la sonoridad medida es una estimación de la
sonoridad subjetiva e implica cierto grado de incertidumbre en función de los oyentes, el material
de audio y las condiciones de escucha.
recomienda además
1que se
considere la posible necesidad de actualizar esta Recomendación en caso de que se
demuestre que los nuevos algoritmos de sonoridad proporcionan un rendimiento significativamente
mejor que el algoritmo especificado en el Anexo 1 y el Anexo 3;
2que esta Recomendación se actualice cuando se hayan desarrollado nuevos algoritmos que
permitan medir la sonoridad de los programas de audio basados en objetos y escenas.
NOTA 2 - Para probar la conformidad de los contadores con arreglo a esta Recomendación, puede
utilizarse material de prueba del conjunto descrito en el Informe UIT-R BS.2217.
ANEXO 1
Especificación del algoritmo objetivo de medición multicanal de la sonoridad
El presente anexo especifica el algoritmo de modelización de la medición multicanal de la
sonoridad.
El algoritmo consta de cuatro etapas
-
Ponderación de frecuencia "K";
-Cálculo del cuadrado medio para cada canal;
-Suma ponderada por canal (los
canales de sonido envolvente tienen ponderaciones
mayores y se excluye el canal LFE);
-gating de bloques de 400 ms (solapamiento del 75%), en los que se utilizan dos umbrales:
-el primero a -70 LKFS;
-el segundo a -10 dB en relación con el nivel medido tras la aplicación del primer umbral.
La figura 1 muestra un diagrama de bloques de los distintos componentes del algoritmo. Para
facilitar la descripción del algoritmo, se han colocado etiquetas en distintos puntos del recorrido de
3
Rec. ITU-R BS.1770-4
la señal. El diagrama de bloques muestra entradas para cinco canales principales (izquierdo, central,
derecho, envolvente izquierdo y envolvente derecho); esto permite monitorizar programas que
contengan de uno a cinco canales. Para un programa que tenga menos de cinco canales, algunas
entradas no se utilizarían. El canal de efectos de baja frecuencia (LFE) no se incluye en la medición.
FIGURA 1
Diagrama de bloques simplificado del algoritmo de sonoridad multicanal
xL
xR
xC
xL s
xRs
K- filter
K- filter
K- filter
K- filter
K- filter
yL
yR
yC
Mean square
Mean square
zL
zR
Mean square
zC
yL s
Mean square
zL s
yRs
Mean square
zRs
GL
GR
GC
Σ
10 Log 10
Gate
Measured
loudness
GLs
GRs
BS. 1770 -01
1
En la primera etapa del algoritmo se aplica un prefiltrado de la señal en dos etapas . La primera
etapa del prefiltrado tiene en cuenta los efectos acústicos de la cabeza, que se modela como una
esfera rígida. La respuesta se muestra en la Fig. 2.
FIGURA 2
Respuesta de la etapa 1 del prefiltro utilizado para tener en cuenta los efectos acústicos de la cabeza
La etapa 1 del prefiltro está definida por el filtro mostrado en la Fig. 3 con los coeficientes
especificados en la Tabla 1.
1
El filtro de ponderación K se compone de dos etapas de filtrado: un filtro shelving de primera etapa y un
filtro de paso alto de segunda etapa.
Rec. ITU-R BS.1770-4
4
FIGURA 3
Diagrama de flujo de la señal como filtro de 2º orden
Σ
-
b0
Z–1
a1
+
+
Σ
+
b1
Z–1
a2
b2
BS.1770 -03
TABLA 1
Coeficientes de filtrado de la etapa 1 del prefiltro para modelar una cabeza esférica
b0
1.53512485958697
a1
-1.69065929318241
b1
-2.69169618940638
a2
0.73248077421585
b2
1.19839281085285
Estos coeficientes de filtro son para una frecuencia de muestreo de 48 kHz. Las implementaciones a
otras frecuencias de muestreo requerirán valores de coeficiente diferentes, que deben elegirse para
proporcionar la misma respuesta en frecuencia que el filtro especificado proporciona a 48 kHz. Los
valores de estos coeficientes pueden necesitar ser cuantizados debido a la precisión interna del
hardware disponible. Las pruebas han demostrado que el rendimiento del algoritmo no es sensible a
pequeñas variaciones en estos coeficientes.
La segunda etapa del prefiltro aplica un filtro paso alto simple, como se muestra en la Fig. 4.
La curva de ponderación de la etapa se especifica como un filtro de orden 2nd como se muestra en la
Fig. 3, con los coeficientes especificados en la Tabla 2.
Estos coeficientes de filtro son para una frecuencia de muestreo de 48 kHz. Las implementaciones a
otras frecuencias de muestreo requerirán valores de coeficiente diferentes, que deben elegirse para
proporcionar la misma respuesta de frecuencia que el filtro especificado proporciona a 48 kHz.
FIGURA 4
Curva de ponderación de la segunda etapa
5
Rec. ITU-R BS.1770-4
CUADRO 2
Coeficientes del filtro para la curva de ponderación de la segunda etapa
b0
1.0
a1
-1.99004745483398
b1
-2.0
a2
0.99007225036621
b2
1.0
La potencia, el cuadrado medio de la señal de entrada filtrada en un intervalo de medida T se mide
como:
zi
1
=
T
T
2
∫ yi dt
0
(1)
donde yi es la señal de entrada (filtrada por el prefiltro de 2 etapas descrito anteriormente), e i∈ I
donde I = {L,R,C,Ls,Rs}, el conjunto de canales de entrada.
La sonoridad a lo largo del intervalo de medición T se define como:
Sonoridad, LK = -0,691 + 10 log 10
∑ Gi ⋅ zi
i
LKFS
(2)
donde Gi son los coeficientes de ponderación de cada canal.
Para calcular una medición de sonoridad con gating, el intervalo T se divide en un conjunto de
intervalos de bloques de gating superpuestos. Un bloque de gating es un conjunto de muestras de
audio contiguas de duración Tg = 400 ms, a la muestra más cercana. El solapamiento de cada bloque
de sincronización será del 75 % de la duración del bloque de sincronización.
El intervalo de medición se limitará de forma que termine al final de un bloque de compuerta. No se
utilizarán los bloques de sincronización incompletos al final del intervalo de medición.
La potencia, el cuadrado medio del bloque de compuerta jth del canal de entrada ith en el intervalo T
es:
1
zij =
Tg
Tg ⋅ ( j ⋅step +1)
yi2dt
Tg ⋅ j ⋅step
∫
donde paso = 1 solapamiento
⎧⎪
T – Tg ⎫⎪
j ∈ ⎨0,1,2,...
⎬
Tg ⋅ step ⎪⎭
⎪⎩
y
(3)
La sonoridad del bloque de compuerta jth se define como:
l j = – 0.691 + 10 log10 ∑ Gi ⋅ zij
i
(4)
Rec. ITU-R BS.1770-4
6
Para un umbral de gating Γ existe un conjunto de índices de bloque de gating Jg = {j : lj > Γ} donde
la sonoridad del bloque de gating está por encima del umbral de gating. El número de elementos en
Jg es |Jg |.
La sonoridad gated del intervalo de medición T se define entonces como:
Gated loudness, LKG = – 0.691 + 10 log10
⎛ 1
⎞
⎜
G
⋅
⋅
z
∑ i ⎜ J ∑ ij ⎟⎟ LKFS
i
⎝ g Jg ⎠
(5)
Para realizar una medición con gating se utiliza un proceso en dos etapas, primero con un umbral
absoluto y después con un umbral relativo. Los bloques de gating por debajo del umbral absoluto no
se utilizan en el cálculo del gating relativo. El umbral relativo Γr se calcula midiendo la sonoridad
con el umbral absoluto, Γa = -70 LKFS, y restando 10 al resultado, así:
Γr = –0.691 + 10 log10
⎛ 1
G
⋅
∑ i ⎜⎜ J ⋅
i
⎝ g
⎞
z
∑ ij ⎟⎟ – 10 LKFS
Jg
⎠
donde:
{
J g = j : l j > Γa
}
Γa = – 70 LKFS
(6)
La sonoridad gated puede calcularse mediante Γr :
Gated loudness, LKG = – 0.691 + 10 log10
⎛ 1
∑ Gi ⋅ ⎜⎜ J
i
⎝
g
⎞
⋅ ∑ zij ⎟ LKFS
⎟
Jg
⎠
donde:
Jg = { j : lj > Γr y lj > Γa }
(7)
La ponderación frecuencial en esta medida, generada por el prefiltro (concatenación del filtro de
etapa 1 para compensar los efectos acústicos de la cabeza, y del filtro de etapa 2, la ponderación
RLB) se designa ponderación K. El resultado numérico para el valor de sonoridad que se calcula en
la ecuación (2) debe ir seguido de la designación LKFS. Esta designación significa: Sonoridad,
ponderación K, relativa al fondo de escala nominal. La unidad LKFS equivale a un decibelio en el
sentido de que un aumento del nivel de una señal en 1 dB hará que la lectura de sonoridad aumente
en 1 LKFS.
Si se aplica una onda sinusoidal de 0 dB FS, 1 kHz (997 Hz para ser exactos, véanse las Notas 1 y
2) a la entrada de los canales izquierdo, central o derecho, la sonoridad indicada será igual a -3,01
LKFS.
NOTA 1 - La constante -0,691 de la ecuación (2) anula la ganancia de ponderación K para 997 Hz.
NOTA 2 - La norma IEC 61606 establece que, a menos que se especifique lo contrario, la frecuencia de
referencia para la medición será la frecuencia real 997 Hz, que puede indicarse, en contextos no críticos,
como la frecuencia nominal 1 kHz.
7
Rec. ITU-R BS.1770-4
El coeficiente de ponderación de cada canal figura en el cuadro 3.
CUADRO 3
Ponderación de cada canal de audio
Canal
Ponderación, Gi
Izquierda (G )L
1,0 (0 dB)
Derecha (G )R
1,0 (0 dB)
Centro (G )C
1,0 (0 dB)
Surround izquierdo (G )Ls
1,41 (~ +1,5 dB)
Surround derecho (G )Rs
1,41 (~ +1,5 dB)
Debe tenerse en cuenta que, aunque este algoritmo ha demostrado ser eficaz para su uso en
programas de audio que son típicos de los contenidos de radiodifusión, el algoritmo no es, en
general, adecuado para su uso en la estimación de la sonoridad subjetiva de los tonos puros.
Apéndice 1
del Anexo 1
(informativo)
Descripción y desarrollo del algoritmo de medición multicanal
Este apéndice describe un algoritmo desarrollado recientemente para medir objetivamente la
sonoridad percibida de las señales de audio. El algoritmo puede utilizarse para medir con precisión
la sonoridad de señales mono, estéreo y multicanal. Una de las principales ventajas del algoritmo
propuesto es su sencillez, que permite aplicarlo con un coste muy bajo. Este apéndice también
describe los resultados de las pruebas subjetivas formales realizadas para formar una base de datos
subjetiva que se utilizó para evaluar el rendimiento del algoritmo.
1Introducción
Hay muchas aplicaciones en las que es necesario medir y controlar el volumen percibido de las
señales de audio. Ejemplos de ello son las aplicaciones de radiodifusión y televisión, en las que la
naturaleza y el contenido del material de audio cambian con frecuencia. En estas aplicaciones, el
contenido de audio puede cambiar continuamente entre música, voz y efectos de sonido, o alguna
combinación de estos. Estos cambios en el contenido del material del programa pueden dar lugar a
cambios significativos en la sonoridad subjetiva. Además, a menudo se aplican diversas formas de
procesamiento dinámico a las señales, lo que puede tener un efecto significativo en la sonoridad
percibida de la señal. Por supuesto, la cuestión de la sonoridad subjetiva también es de gran
importancia para la industria musical, donde el procesamiento de la dinámica se utiliza
habitualmente para maximizar la sonoridad percibida de una grabación.
En los últimos años, el Grupo de Trabajo 6P de Radiocomunicaciones ha realizado un esfuerzo
continuo para identificar un medio objetivo de medir la sonoridad percibida del material de un
programa típico para aplicaciones de radiodifusión. La primera fase del esfuerzo del UIT-R
examinó exclusivamente algoritmos objetivos de sonoridad monofónica, y se demostró que una
Rec. ITU-R BS.1770-4
8
medida de cuadrado medio ponderado, Leq(RLB), ofrecía el mejor rendimiento para señales
monofónicas [Soulodre, 2004].
Es bien sabido que para las aplicaciones de radiodifusión se necesita un medidor de sonoridad que
pueda funcionar con señales mono, estéreo y multicanal. El presente documento propone un nuevo
algoritmo de medición de sonoridad que funciona correctamente con señales de audio mono,
estéreo y multicanal. El algoritmo propuesto se basa en una extensión directa del algoritmo
Leq(RLB). Además, el nuevo algoritmo multicanal conserva la muy baja complejidad
computacional del algoritmo monofónico Leq(RLB).
2Contexto
En la primera fase del estudio del UIT-R se desarrolló un método de prueba subjetivo para examinar
la percepción de la sonoridad de materiales de programas monofónicos típicos [Soulodre, 2004]. Se
realizaron pruebas subjetivas en cinco lugares de todo el mundo con el fin de crear una base de
datos subjetiva para evaluar el rendimiento de posibles algoritmos de medición de la sonoridad. Los
sujetos compararon la sonoridad de varias secuencias de audio monofónicas con una secuencia de
referencia. Las secuencias de audio procedían de emisiones reales (televisión y radio).
Junto con estas pruebas, siete proponentes diferentes presentaron un total de diez sonómetros/
algoritmos monofónicos desarrollados comercialmente para su evaluación en el Laboratorio de
Percepción de Audio del Centro de Investigación de Comunicaciones de Canadá.
Además, Soulodre aportó otros dos algoritmos básicos de sonoridad para que sirvieran como
referencia de rendimiento [Soulodre, 2004]. Estas dos medidas objetivas consistían en una simple
función de ponderación de frecuencias, seguida de un bloque de medición del cuadrado medio. Una
de las dos medidas, Leq(RLB), utiliza una curva de ponderación de frecuencias de paso alto
denominada curva B de baja frecuencia revisada (RLB).
La otra medida, Leq, es simplemente una medida cuadrática media no ponderada.
La figura 5 muestra los resultados del estudio ITUR inicial para el sonómetro Leq(RLB). El eje
horizontal indica la sonoridad subjetiva relativa derivada de la base de datos subjetiva, mientras que
el eje vertical indica la sonoridad predicha por la medida Leq(RLB). Cada punto del gráfico
representa el resultado de una de las secuencias de audio de la prueba. Los círculos abiertos
representan secuencias de audio basadas en el habla, mientras que las estrellas son secuencias no
basadas en el habla. Se puede observar que los puntos de datos están muy agrupados alrededor de la
diagonal, lo que indica el muy buen rendimiento del medidor Leq(RLB).
Leq(RLB) obtuvo el mejor rendimiento de todos los medidores evaluados (aunque, dentro de la
significación estadística, algunos de los medidores psicoacústicos también obtuvieron buenos
resultados). El rendimiento de Leq fue casi tan bueno como el de RLB. Estos resultados sugieren
que, para el material de radiodifusión monofónico típico, una medida de sonoridad simple basada
en la energía es igual de sólida que otras medidas más complejas que pueden incluir modelos
perceptivos detallados.
9
Rec. ITU-R BS.1770-4
GRÁFICO 5
Sonómetro monofónico Leq (RLB) frente a resultados subjetivos (r = 0,982)
3Diseño del algoritmo Leq(RLB)
El algoritmo de sonoridad Leq(RLB) se diseñó específicamente para ser muy sencillo. En la Fig. 6
se muestra un diagrama de bloques del algoritmo Leq(RLB). Consiste en un filtro de paso alto
seguido de un medio para promediar la energía en el tiempo. La salida del filtro va a un bloque de
procesamiento que suma la energía y calcula el promedio en el tiempo.
El objetivo del filtro es proporcionar una ponderación perceptualmente relevante del contenido
espectral de la señal. Una de las ventajas de utilizar esta estructura básica para las medidas de
sonoridad es que todo el procesamiento puede realizarse con bloques simples en el dominio del
tiempo que tienen requisitos computacionales muy bajos.
FIGURA 6
Diagrama de bloques de las medidas de sonoridad simples basadas en la energía
x
Frequency
weighting
W
xW
Leq (W)
Σ
1/T
BS. 1770 -0 6
El algoritmo Leq(RLB) mostrado en la Fig. 6 es simplemente una versión ponderada en frecuencia
de una medida de Nivel Sonoro Equivalente (Leq). Leq se define de la siguiente manera:
⎡ 1 T x2
⎤
Leq (W ) = 10 log10 ⎢ ∫ 2W dt ⎥
⎢⎣ T 0 xRef
⎥⎦
(8)
donde:
xW
xRef
T:
:señal a la salida del filtro de ponderación
:algún nivel de referencia
longitud de la secuencia de audio.
dB
Rec. ITU-R BS.1770-4
10
El símbolo W en Leq(W) representa la ponderación de frecuencia, que en este caso fue la curva B de
baja frecuencia revisada (RLB).
4Pruebas subjetivas
Para evaluar las posibles medidas de sonoridad multicanal fue necesario realizar pruebas subjetivas
formales con el fin de crear una base de datos subjetiva. De este modo, los posibles algoritmos de
medición de la sonoridad podrían evaluarse en función de su capacidad para predecir los resultados
de las pruebas subjetivas. La base de datos proporcionó clasificaciones de sonoridad percibida para
una amplia variedad de programas mono, estéreo y multicanal. Los programas utilizados en las
pruebas procedían de emisiones reales de radio y televisión de todo el mundo, así como de CD y
DVD. Las secuencias incluían música, series de televisión y películas, acontecimientos deportivos,
informativos, efectos de sonido y anuncios. Las secuencias incluían segmentos de habla en varios
idiomas.
4.
1Sistema de pruebas subjetivas
Las pruebas subjetivas consistieron en una tarea de ajuste del volumen. Los sujetos escucharon una
amplia gama de programas típicos y ajustaron el nivel de cada elemento de prueba hasta que el
volumen percibido coincidiera con el de una señal de referencia (véase la Fig. 7).
La señal de referencia se reprodujo siempre a un nivel de 60 dBA, un nivel que Benjamin considera
un nivel de escucha típico para ver la televisión en hogares reales [Benjamin, 2004].
FIGURA 7
Metodología de pruebas subjetivas
Reference
Test item
BS.1770-0 7
Un sistema de prueba subjetiva multicanal basado en software, desarrollado y aportado por la
Australian Broadcasting Corporation, permitía al oyente pasar instantáneamente de un elemento de
prueba a otro y ajustar el nivel (sonoridad) de cada elemento. En la Fig. 8 se muestra una captura de
pantalla del software de prueba. El nivel de los elementos de prueba podía ajustarse en pasos de
0,25 dB. Al seleccionar el botón "1" se accedía a la señal de referencia. El nivel de la señal de
referencia se mantenía fijo.
11
Rec. ITU-R BS.1770-4
FIGURA 8
Interfaz de usuario del sistema de pruebas subjetivas
Con el teclado del ordenador, el sujeto seleccionaba un elemento de prueba determinado y ajustaba
su nivel hasta que su volumen coincidía con la señal de referencia. Los sujetos podían cambiar
instantáneamente entre cualquiera de los elementos de prueba seleccionando la tecla adecuada. Las
secuencias se reproducían continuamente (en bucle) durante las pruebas. El programa informático
registraba los ajustes de ganancia de cada elemento de prueba según los establecía el sujeto. Por lo
tanto, las pruebas subjetivas produjeron un conjunto de valores de ganancia (decibelios) necesarios
para igualar el volumen de cada secuencia de prueba con la secuencia de referencia. Esto permitió
determinar directamente el volumen relativo de cada elemento de prueba.
Antes de realizar las pruebas ciegas formales, cada sujeto se sometió a una sesión de entrenamiento
en la que se familiarizó con el software de la prueba y con su tarea en el experimento. Dado que
muchas de las pruebas contenían una mezcla de habla y otros sonidos (por ejemplo, música, ruidos
de fondo, etc.), los sujetos recibieron instrucciones específicas para igualar el volumen de la señal
global, no sólo del componente de habla de las señales.
Durante las pruebas ciegas formales, el orden en que se presentaban los ítems de la prueba a cada
sujeto era aleatorio. Por lo tanto, no se presentaron los ítems de la prueba en el mismo orden a dos
sujetos. Esto se hizo para eliminar cualquier posible sesgo debido a efectos de orden.
4.2La base de datos subjetiva
La base de datos subjetiva utilizada para evaluar el rendimiento del algoritmo propuesto constaba
en realidad de tres conjuntos de datos distintos. Los conjuntos de datos se crearon a partir de tres
pruebas subjetivas independientes realizadas a lo largo de varios años.
El primer conjunto de datos estaba formado por los resultados del estudio original del UIT-R, en el
que los sujetos emparejaban la sonoridad percibida de 96 secuencias de audio monofónicas. Para
este conjunto de datos, se realizaron pruebas subjetivas en cinco lugares distintos de todo el mundo,
con un total de 97 oyentes. Un panel de tres miembros compuesto por miembros del SRG3 del GT
6P de Radiocomunicaciones seleccionó las secuencias de prueba, así como el elemento de
referencia. La señal de referencia en este experimento consistió en el habla de una mujer inglesa.
Las secuencias se reprodujeron a través de un único altavoz colocado directamente delante del
oyente.
Tras el estudio monofónico original del UIT-R, algunos de los defensores del algoritmo especularon
con que la gama y el tipo de señales utilizadas en las pruebas subjetivas no eran lo suficientemente
amplios. Además, especularon con que, por este motivo, el algoritmo simple basado en la energía
Leq(RLB) superaba a todos los demás algoritmos.
Rec. ITU-R BS.1770-4
12
Para solucionar este problema, se pidió a los proponentes que enviaran nuevas secuencias de audio
para una nueva ronda de pruebas subjetivas. Se les animó a aportar secuencias monofónicas que, en
su opinión, supondrían un mayor reto para el algoritmo Leq(RLB). Sólo dos de los proponentes del
medidor aportaron nuevas secuencias.
Con estas nuevas secuencias, se realizaron pruebas subjetivas formales en el Laboratorio de
Percepción de Audio del Centro de Investigación de Comunicaciones de Canadá. Un total de 20
sujetos evaluaron la sonoridad de 96 secuencias monofónicas. En las pruebas se utilizó la misma
metodología subjetiva empleada para crear el primer conjunto de datos, así como la misma señal de
referencia. Los resultados de estas pruebas constituyeron el segundo conjunto de datos de la base de
datos subjetiva.
El tercer conjunto de datos consistió en clasificaciones de sonoridad de 144 secuencias de audio.
Las secuencias de prueba consistían en 48 elementos monofónicos, 48 elementos estéreo y 48
elementos multicanal. Además, la mitad de los elementos monofónicos se reprodujeron a través del
canal central (mono), mientras que la otra mitad de los elementos monofónicos se reprodujeron a
través de los altavoces izquierdo y derecho (mono dual). Esto se hizo para tener en cuenta las dos
maneras diferentes en las que se puede escuchar una señal monofónica. Para esta prueba, la señal de
referencia consistió en el habla de una mujer inglesa con ambiente estéreo y música de fondo de
bajo nivel. En esta prueba participaron un total de 20 sujetos y se utilizó la configuración de
altavoces especificada en la Recomendación UIT-R BS.775 y representada en la Fig. 9.
FIGURA 9
Configuración de los altavoces utilizada para el tercer conjunto de datos
Los dos primeros conjuntos de datos se limitaban a secuencias de prueba monofónicas, por lo que la
imagen no era un factor importante. En el tercer conjunto de datos, que también incluía secuencias
estereofónicas y multicanal, la imagen era un factor importante que había que tener en cuenta. Se
consideró que era probable que la imagen y el ambiente de una secuencia tuvieran un efecto
significativo en el volumen percibido de la secuencia. Por lo tanto, se eligieron secuencias estéreo y
multicanal para incluir una amplia gama de estilos de imagen (por ejemplo, panorámica central
frente a izquierda/derecha, fuentes delante frente a fuentes alrededor) y distintas cantidades de
ambiente (por ejemplo, seco frente a reverberante).
13
Rec. ITU-R BS.1770-4
El hecho de que los sujetos tuvieran que igualar simultáneamente el volumen de señales mono,
mono dual, estéreo y multicanal significaba que esta prueba era intrínsecamente más difícil que los
conjuntos de datos anteriores, que se limitaban a señales mono. Esta dificultad se vio agravada por
los distintos estilos de imagen y las diferentes cantidades de ambiente. Se temía que, como
consecuencia de estos factores, los sujetos se sintieran abrumados por la tarea. Afortunadamente, las
pruebas preliminares sugirieron que la tarea era manejable y, de hecho, los 20 sujetos fueron
capaces de proporcionar resultados coherentes.
5Diseño
del algoritmo de sonoridad multicanal
Como ya se ha dicho, el algoritmo Leq(RLB) se diseñó para funcionar con señales monofónicas, y
un estudio anterior ha demostrado que es bastante satisfactorio para esta tarea. El diseño de un
algoritmo de sonoridad multicanal plantea varios retos adicionales. Un requisito clave para el éxito
de un algoritmo multicanal es que también debe funcionar bien con señales mono, mono dual y
estéreo. Es decir, estos formatos deben verse como casos especiales de una señal multicanal
(aunque sean casos muy comunes).
En el presente estudio asumimos que las señales multicanal se ajustan a la configuración de canales
5.1 de la Recomendación UIT-R BS.775 estándar. No se hace ningún esfuerzo por tener en cuenta el
canal LFE.
En el sonómetro multicanal, la sonoridad de cada uno de los canales de audio individuales se mide
de forma independiente mediante un algoritmo monofónico Leq(RLB), como se muestra en la Fig.
10. Sin embargo, se aplica un prefiltrado a cada canal antes de la medida Leq(RLB).
FIGURA 10
Diagrama de bloques del sonómetro multicanal propuesto
xL
xR
xC
xL s
xR s
Pre-filter
RLB filter
Pre-filter
RLB filter
Pre-filter
RLB filter
Pre-filter
RLB filter
Pre-filter
RLB filter
yL
yR
yC
yL s
yR s
Mean square
Mean square
Mean square
Mean square
Mean square
zL
zR
zC
zL s
zRs
GL
GR
GC
Σ
Loudness
GL s
GRs
BS. 1770 -10
El objetivo del prefiltro es tener en cuenta los efectos acústicos de la cabeza sobre las señales
entrantes. En este caso, la cabeza se modela como una esfera rígida. Se aplica el mismo prefiltro a
cada canal. Los valores de sonoridad resultantes se ponderan (Gi ) en función del ángulo de llegada
de la señal y se suman (en el dominio lineal) para obtener una medida de sonoridad compuesta. Las
ponderaciones se utilizan para tener en cuenta el hecho de que los sonidos que llegan por detrás de
un oyente pueden percibirse como más fuertes que los sonidos que llegan por delante del oyente. La
combinación del "prefiltro" y el "filtro RLB" de la Fig. 10 se denomina ponderación K, como se
indica en la parte principal del anexo 1.
Una de las principales ventajas del algoritmo de sonoridad multicanal propuesto es su sencillez. El
algoritmo se compone en su totalidad de bloques de procesamiento de señales muy básicos que
pueden implementarse fácilmente en el dominio temporal en hardware de bajo coste. Otra ventaja
clave del algoritmo es su escalabilidad. Dado que el procesamiento aplicado a cada canal es
idéntico, es muy sencillo implementar un medidor que pueda acomodar cualquier número de
canales de 1 a N. Además, dado que las contribuciones de los canales individuales se suman como
Rec. ITU-R BS.1770-4
14
valores de sonoridad, en lugar de a nivel de señal, el algoritmo no depende de la fase o correlación
entre canales. Esto hace que la medida de sonoridad propuesta sea mucho más genérica y robusta.
6Evaluación
del algoritmo multicanal
Las 336 secuencias de audio utilizadas en los tres conjuntos de datos se procesaron mediante el
algoritmo multicanal propuesto y se registraron las clasificaciones de sonoridad previstas. Como
resultado de este proceso, se pudo evaluar el rendimiento global del algoritmo a partir de la
concordancia entre las valoraciones previstas y las valoraciones subjetivas reales obtenidas en las
pruebas subjetivas formales.
Las figuras 11, 12 y 13 muestran el rendimiento del sonómetro propuesto para los tres conjuntos de
datos. En cada figura, el eje horizontal indica la sonoridad subjetiva de cada secuencia de audio del
conjunto de datos. El eje vertical indica la sonoridad objetiva predicha por el sonómetro propuesto.
Cada punto del gráfico representa el resultado de una secuencia de audio individual. Cabe señalar
que un algoritmo objetivo perfecto daría como resultado que todos los puntos de datos cayeran
sobre la línea diagonal con pendiente 1 y pasaran por el origen (como se muestra en las figuras).
FIGURA 11
Resultados del primer conjunto de datos (monofónico) (r = 0,979)
La Fig. 11 muestra que el algoritmo de sonoridad multicanal propuesto predice muy bien los
resultados del primer conjunto de datos (monofónico). La correlación entre las clasificaciones
subjetivas de sonoridad y la medida objetiva de sonoridad es r = 0,979.
Como se observa en la Fig. 12, la correlación entre las valoraciones subjetivas de la sonoridad y la
medida objetiva de la sonoridad para el segundo conjunto de datos también es muy buena (r =
0,985). Es interesante señalar que aproximadamente la mitad de las secuencias de este conjunto de
datos eran musicales.
15
Rec. ITU-R BS.1770-4
GRÁFICO 12
Resultados del segundo conjunto de datos (monofónico) (r = 0,985)
GRÁFICO 13
Resultados del tercer conjunto de datos (mono, estéreo y multicanal) (r = 0,980)
La figura 13 muestra los resultados del tercer conjunto de datos, que incluía señales mono, mono
dual, estéreo y multicanal. Los resultados multicanal incluidos en las Figs 13 y 14 corresponden al
algoritmo especificado, pero con las ponderaciones del canal surround fijadas en 4 dB (propuesta
original) en lugar de 1,5 dB (especificación final). Se ha comprobado que el cambio de 4,0 dB a 1,5
dB no tiene ningún efecto significativo en los resultados. Una vez más, el rendimiento del algoritmo
es muy bueno, con una correlación de r = 0,980.
Resulta útil examinar el rendimiento del algoritmo para las 336 secuencias de audio que componían
la base de datos subjetiva. Por lo tanto, la Fig. 14 combina los resultados de los tres conjuntos de
datos. Puede observarse que el rendimiento es muy bueno en toda la base de datos subjetiva, con
una correlación global de r = 0,977.
Rec. ITU-R BS.1770-4
16
FIGURA 14
Resultados combinados de los tres conjuntos de datos (r = 0,977)
Los resultados de esta evaluación indican que el algoritmo de medición de sonoridad multicanal,
basado en la medida de sonoridad Leq(RLB), funciona muy bien en las 336 secuencias de la base de
datos subjetiva. La base de datos subjetiva contenía una amplia gama de programas, como música,
series de televisión y películas, eventos deportivos, noticiarios, efectos de sonido y anuncios.
También se incluyeron en las secuencias segmentos de habla en varios idiomas. Además, los
resultados demuestran que el sonómetro propuesto funciona bien con señales mono, mono dual,
estéreo y multicanal.
Referencias
BENJAMIN, E. [octubre, 2004] Preferred Listening Levels and Acceptance Windows for Dialog
Reproduction in the Domestic Environment, 117th Convention of the Audio Engineering Society,
San Francisco, Preprint 6233.
SOULODRE, G.A. [mayo, 2004] Evaluation of Objective Loudness Meters, 116th Convention of the Audio
Engineering Society, Berlín, Preprint 6161.
ANEXO 2
Directrices para la medición precisa del nivel de "pico real
Este Anexo describe un algoritmo para la estimación del nivel de pico verdadero dentro de una
señal de audio digital PCM lineal de un solo canal. El análisis que sigue presupone una frecuencia
de muestreo de 48 kHz. El nivel de cresta real es el valor máximo (positivo o negativo) de la forma
de onda de la señal en el dominio de tiempo continuo; este valor puede ser superior al mayor valor
de muestra en el dominio de muestreo de tiempo de 48 kHz.
17
Rec. ITU-R BS.1770-4
1Resumen
Las etapas del tratamiento son:
1Atenuación
: 12,04 dB de atenuación
24× sobremuestreo
3Filtro de paso bajo
4Absoluto : Valor absoluto
5Conversión
a dB TP
2Diagrama de bloques
3Descripción detallada
El primer paso consiste en imponer una atenuación de 12,04 dB (desplazamiento de 2 bits). El
propósito de este paso es proporcionar margen para el posterior procesamiento de la señal que
podría emplear aritmética entera. Este paso no es necesario si los cálculos se realizan en coma
flotante.
El filtro de sobremuestreo 4× aumenta la frecuencia de muestreo de la señal de 48 kHz a 192 kHz.
Esta versión de mayor frecuencia de muestreo de la señal indica con mayor precisión la forma de
onda real que representan las muestras de audio. Es preferible utilizar frecuencias de muestreo y
relaciones de sobremuestreo más altas (véase el Apéndice 1 de este Anexo). Las señales entrantes
con frecuencias de muestreo más altas requieren un sobremuestreo proporcionalmente menor (por
ejemplo, para una señal entrante con una frecuencia de muestreo de 96 kHz sería suficiente un
sobremuestreo de 2× ).
Un conjunto de coeficientes de filtro (para el orden 48, 4 fases, interpolación FIR) que satisfaría los
requisitos sería el siguiente:
Fase 0
Fase 1
Fase 2
Fase 3
0.0017089843750
-0.0291748046875
-0.0189208984375
-0.0083007812500
0.0109863281250
0.0292968750000
0.0330810546875
0.0148925781250
-0.0196533203125
-0.0517578125000
-0.0582275390625
-0.0266113281250
0.0332031250000
0.0891113281250
0.1015625000000
0.0476074218750
-0.0594482421875
-0.1665039062500
-0.2003173828125
-0.1022949218750
0.1373291015625
0.4650878906250
0.7797851562500
0.9721679687500
0.9721679687500
0.7797851562500
0.4650878906250
0.1373291015625
-0.1022949218750
-0.2003173828125
-0.1665039062500
-0.0594482421875
0.0476074218750
0.1015625000000
0.0891113281250
0.0332031250000
-0.0266113281250
-0.0582275390625
-0.0517578125000
-0.0196533203125
0.0148925781250
0.0330810546875
0.0292968750000
0.0109863281250
-0.0083007812500
-0.0189208984375
-0.0291748046875
0.0017089843750
Rec. ITU-R BS.1770-4
18
El valor absoluto de las muestras se toma invirtiendo las muestras de valor negativo; en este punto
la señal es unipolar, sustituyéndose los valores negativos por valores positivos de la misma
magnitud.
El resultado después de cuatro etapas (atenuación, sobremuestreo, filtrado y toma del valor
absoluto) es un número en el mismo dominio que los valores de muestra originales (por ejemplo,
entero de 24 bits). Después, es necesario compensar la atenuación inicial de 12,04 dB. Esto
normaliza la ganancia global del procesado a la unidad.
Debe entenderse que la amplificación del valor atenuado en 12,04 dB (desplazamiento a la
izquierda de 2 bits) requerirá, en general, la conversión del valor a un formato numérico capaz de
representar valores superiores al rango de escala completa del formato original. Realizar los pasos
de cálculo en formato de coma flotante satisface este requisito. Una alternativa a la amplificación
del resultado, es calibrar adecuadamente la escala del medidor.
Los medidores que siguen estas directrices, y que utilizan una frecuencia de muestreo
sobremuestreada de al menos 192 kHz, deben indicar el resultado en las unidades de dB TP,
habiendo convertido el resultado a una escala logarítmica. Esto puede conseguirse calculando
"20log10 " del valor absoluto atenuado, sobremuestreado y filtrado, y añadiendo a continuación
12,04 dB. El "dB TP". significa decibelios relativos al 100% de la escala completa, medida de pico
verdadero.
2
Apéndice 1
al Anexo 2
(informativo)
Consideraciones para la medición precisa de picos de señales digitales de audio
¿Cuál es el problema?
Los medidores de picos de los sistemas de audio digital suelen registrar "pico-muestra" en lugar de
"pico real".
Un medidor de pico-muestra suele funcionar comparando el valor absoluto (rectificado) de cada
muestra entrante con la lectura actual del medidor; si la nueva muestra es mayor, sustituye a la
lectura actual; si no, la lectura actual se multiplica por una constante ligeramente inferior a la
unidad para producir un decaimiento logarítmico. Estos medidores son omnipresentes porque son
fáciles de implementar, pero no siempre registran el valor de pico real de la señal de audio.
Por lo tanto, utilizar un medidor de picos de muestreo cuando es importante medir con precisión los
picos del programa puede dar problemas. Por desgracia, la mayoría de los medidores de picos
digitales son medidores de picos por muestreo, aunque esto no suele ser obvio para el operador.
El problema se debe a que los valores de pico reales de una señal muestreada suelen producirse
entre las muestras y no precisamente en un instante de muestreo, por lo que el medidor de picomuestra no los registra correctamente.
Esto da lugar a varias anomalías conocidas de los medidores de pico-muestra:
-
Lecturas de picos incoherentes: A menudo se observa que la reproducción repetida de una
grabación analógica en un sistema digital con un medidor de picos y muestras produce
lecturas muy diferentes de los picos del programa en cada reproducción. Del mismo modo,
2
NOTA 1 - El siguiente texto informativo fue aportado por AES Standards Working Group SC02-01 a través
de Radiocommunication WP 6J Rapporteur on loudness metering.
19
Rec. ITU-R BS.1770-4
si una grabación digital se reproduce repetidamente a través de un convertidor de
frecuencia de muestreo antes de la medición, los picos registrados son igualmente
diferentes en cada reproducción. Esto se debe a que los instantes de muestreo pueden caer
sobre diferentes partes de la señal real en cada reproducción.
-
Sobrecargas inesperadas: Dado que las señales muestreadas pueden contener sobrecargas
incluso cuando no tienen muestras en, o incluso cerca de, la escala completa digital, la
indicación de sobrecarga por parte de un medidor de pico-muestra no es fiable. Las
sobrecargas pueden provocar recortes en procesos posteriores, como en determinados
convertidores D/A o durante la conversión de la frecuencia de muestreo, aunque no hayan
sido registradas previamente por el medidor de picos/muestras (e incluso hayan sido
inaudibles cuando se monitorizaron en ese punto).
-
Sub-lectura y batido de tonos medidos: Los tonos puros (como los tonos de alineación)
cercanos a factores enteros de la frecuencia de muestreo pueden subleer o producir una
lectura que varía constantemente aunque la amplitud del tono sea constante.
¿Qué gravedad puede tener el problema?
En general, cuanto mayor sea la frecuencia de la señal medida de pico-muestra, peor será el error
potencial.
Para tonos puros continuos es fácil demostrar, por ejemplo, una sub-lectura de 3 dB para un tono
desafortunadamente desfasado a un cuarto de la frecuencia de muestreo. Sin embargo, la mayoría de
las señales de audio digital no contienen energía significativa a esta frecuencia (porque los filtros
antialiasing la excluyen en gran medida en el punto de conversión D/A y porque los sonidos "reales"
no suelen estar dominados por frecuencias altas continuas).
Los tonos continuos que no se acercan a factores enteros bajos de la frecuencia de muestreo no se
leen por debajo en los medidores de pico-muestra porque la frecuencia de batido (la diferencia entre
n.ftone y fs ) es alta comparada con el recíproco de la tasa de decaimiento del medidor. En otras
palabras, el instante de muestreo está lo suficientemente cerca del verdadero pico del tono como
para que el medidor no subestime.
Sin embargo, en el caso de los transitorios individuales, este mecanismo no oculta las lecturas por
debajo de lo normal, por lo que cuanto mayor sea el contenido de frecuencia del transitorio, mayor
será la posible lectura por debajo de lo normal. En el sonido "real" es normal que se produzcan
transitorios con un contenido significativo de altas frecuencias, y la infravaloración de estos
transitorios puede ser de varios dB.
Como los sonidos reales suelen tener un espectro que cae hacia frecuencias más altas, y como esto
no cambia con el aumento de la frecuencia de muestreo, la infravaloración del medidor de picomuestra es menos grave a frecuencias de muestreo originales más altas.
¿Cuál es la solución?
Para medir el valor de pico real de una señal muestreada es necesario "sobremuestrear" (o
"sobremuestrear") la señal, esencialmente recreando la señal original entre las muestras existentes, y
aumentando así la frecuencia de muestreo de la señal. Esta propuesta suena dudosa: ¿cómo recrear
una información que parece ya perdida? De hecho, la teoría del muestreo demuestra que podemos
hacerlo, porque sabemos que la señal muestreada no contiene frecuencias superiores a la mitad de la
frecuencia de muestreo original.
¿Qué proporción de sobremuestreo es necesaria? Para averiguarlo, debemos responder a un par de
preguntas:
-¿Cuál es el error máximo aceptable de lectura por defecto?
Rec. ITU-R BS.1770-4
20
-¿Cuál es la relación entre la frecuencia más alta que debe medirse y la frecuencia de muestreo (la
"frecuencia normalizada" máxima)?
Si conocemos estos criterios, es posible calcular la relación de sobremuestreo que necesitamos
(incluso sin considerar todavía el detalle de la implementación del sobremuestreo) mediante un
método directo de "papel cuadriculado". Basta con considerar qué submuestreo resultaría de un par
de muestras a la velocidad de sobremuestreo que se produjeran simétricamente a ambos lados del
pico de una sinusoide a nuestra frecuencia normalizada máxima. Este es el "peor caso" de
submuestreo.
Por tanto, para: relación de sobremuestreo, n
frecuencia máxima normalizada, fnorm
frecuencia de muestreo, fs
podemos verlo:
el periodo de muestreo a la velocidad de sobremuestreo es 1/n.fs
el periodo de la frecuencia máxima normalizada es 1/fnorm .fs
Así que..:
la máxima sub-lectura (dB) es 20.log(cos(2.π.fnorm .fs /n.fs .2))
(2 en el denominador, ya que podemos perder un pico por un máximo de la mitad del
periodo de sobremuestreo)
o:
sub-lectura máxima (en dB) = 20.log(cos(π.fnorm /n))
Esta ecuación se utilizó para construir la siguiente Tabla, que probablemente cubre el rango de
interés:
Relación de sobremuestreo
Infravaloración (dB) máxima
fnorm = 0,45
Infravaloración (dB) máxima
fnorm = 0,5
4
0.554
0.688
8
0.136
0.169
10
0.087
0.108
12
0.060
0.075
14
0.044
0.055
16
0.034
0.042
32
0.008
0.010
¿Cómo debe implantarse un contador de picos reales?
La operación de sobremuestreo se realiza insertando muestras de valor cero entre las muestras
originales para generar un flujo de datos a la velocidad de sobremuestreo deseada, y aplicando a
continuación un filtro de "interpolación" de paso bajo para excluir las frecuencias por encima del
máximo deseado fnorm . Si ahora operamos el algoritmo de pico-muestreo sobre la señal
sobremuestreada, tenemos un medidor de pico verdadero con la sub-lectura máxima deseada.
Es interesante considerar la implementación de un sobreamplificador de este tipo. Es habitual
implementar este filtro de paso bajo como un FIR simétrico. Cuando estos filtros se utilizan para
pasar audio de alta calidad, por ejemplo en convertidores D/A de sobremuestreo (a la antigua
usanza) o en convertidores de frecuencia de muestreo, es necesario calcular un gran número de
21
Rec. ITU-R BS.1770-4
"taps" para mantener una ondulación muy baja de la banda de paso y lograr una atenuación extrema
de la banda de parada y una banda de transición estrecha. También hay que mantener una gran
longitud de palabra para preservar el rango dinámico y minimizar la distorsión.
Sin embargo, dado que no vamos a escuchar la salida de nuestro sobremuestreador, sino que sólo lo
vamos a utilizar para mostrar una lectura o manejar un gráfico de barras, probablemente no
tengamos los mismos requisitos de precisión. Mientras la ondulación de la banda de paso, junto con
la adición de componentes espurios de la banda de parada, no degrade la precisión de la lectura más
allá de nuestro objetivo, estaremos satisfechos. Esto reduce considerablemente el número de
derivaciones necesarias, aunque puede que sigamos necesitando una banda de transición estrecha en
función de nuestro objetivo de frecuencia normalizada máxima. Del mismo modo, es posible que la
longitud de la palabra sólo tenga que ser suficiente para garantizar nuestra precisión objetivo hasta
la parte inferior del gráfico de barras, a menos que se requiera una salida numérica precisa a bajas
amplitudes.
Así que es posible que un sobremuestreador adecuado (posiblemente para muchos canales) pueda
implementarse cómodamente en un DSP o FPGA ordinario de bajo coste, o quizá en un procesador
aún más modesto. Por otra parte, los medidores de sobremuestreo se han implementado utilizando
chips de sobremuestreo de alta precisión destinados al uso de convertidores D/A. Aunque esto
supone un derroche de silicio y energía, los dispositivos son baratos y fáciles de conseguir.
La forma más sencilla de determinar el número necesario de derivaciones y los coeficientes de
derivación para una especificación de contador concreta es utilizar un programa de diseño de filtros
FIR recursivos como Remez o Meteor.
También puede ser un requisito en un medidor de picos excluir el efecto de cualquier CC de
entrada, ya que los medidores de audio han sido tradicionalmente bloqueados por CC. Por otro lado,
si estamos interesados en el valor de la señal de pico real a efectos de eliminación de sobrecargas,
entonces el contenido de CC debe mantenerse y medirse. Si es necesario, la exclusión de la CC
puede lograrse con baja potencia de cálculo mediante la inclusión de un filtro de paso alto IIR de
bajo orden en la entrada del medidor.
A veces es necesario medir la amplitud máxima de la señal tras la aplicación de algún tipo de filtro
de ponderación para enfatizar los efectos de determinadas partes de la banda de frecuencias. La
aplicación depende de la naturaleza del filtro de ponderación concreto.
Anexo 3
Algoritmo ampliado de medición de la sonoridad para
configuraciones de
altavoces
de sistemas de sonido avanzados
1
Ampliación para configuraciones de altavoces del sistema de sonido avanzado
Esta sección especifica el algoritmo de medición objetiva de la sonoridad para configuraciones de
altavoces colocados arbitrariamente del sistema de sonido avanzado.
El algoritmo es una ampliación del algoritmo básico para el sistema de sonido multicanal 3/2
especificado en el anexo 1, en el que se aumenta el número de canales de entrada y se modifica la
tercera etapa del algoritmo básico de la siguiente manera:
Rec. ITU-R BS.1770-4
22
-suma ponderada por canal (cada canal, excepto los canales LFE, tiene un coeficiente de
ponderación Gi en función de los ángulos de acimut y elevación de su posición).
La figura 15 muestra un diagrama de bloques del algoritmo de medición objetiva de la sonoridad
para configuraciones de altavoces del sistema de sonido avanzado especificado en la
Recomendación UIT-R BS.2051. N es el número de canales de entrada, excluidos los canales LFE.
Las etapas primera, segunda y cuarta del algoritmo (procedimiento de filtrado y gating) son las
mismas que en el algoritmo para el formato multicanal 3/2 que es independiente de la posición del
canal.
FIGURA 15
Diagrama de bloques simplificado del algoritmo de medición objetiva de la sonoridad
para las configuraciones de altavoces del sistema de sonido avanzado
x1
x2
xn
xN
K- filter
K- filter
K- filter
K- filter
y1
y2
yn
yN
Mean square
Mean square
Mean square
Mean square
z1
z2
zn
zN
G1
G2
Σ
Gn
10 Log 10
Gate
Measured
loudness
GN
BS. 1770 -15
El coeficiente de ponderación Gi para la posición de un canal se indica en el cuadro 4. Gi depende
de la dirección de la posición del canal, especificada por el ángulo acimutal (θ) y el ángulo de
elevación (φ).
CUADRO 4
Ponderación de los canales en función de la posición
Elevación (φ)
|φ| < 30°
si no
Acimut (θ)
|θ| < 60°
60° ≦ |θ| ≦ 120°
120° < |θ| ≦ 180°
1,00 (±0 dB)
1,41 (+1,5 dB)
1,00 (±0 dB)
1,00 (±0 dB)
De acuerdo con la Tabla 4, las ponderaciones dependientes de la posición de los canales para las
configuraciones de altavoces especificadas en la Recomendación UIT-R BS.2051 se definen en la
Tabla 5.
23
Rec. ITU-R BS.1770-4
CUADRO 5
Ponderaciones dependientes de la posición para las configuraciones de altavoces
especificadas en la Recomendación UIT-R BS.2051
Configuración de altavoces
Etiqueta del
altavoz
Ponderación
A
B
C
D
E
F
G
H
0+2+0
0+5+0
2+5+0
4+5+0
4+5+1
3+7+0
4+9+0
9+10+3
X
X
X
X
X
X
X
M+000
1.00
(±0,0 dB)
M+SC
1.00
(±0,0 dB)
X
M-SC
1.00
(±0,0 dB)
X
M+030
1.00
(±0,0 dB)
X
X
X
X
X
X
X
X
M-030
1.00
(±0,0 dB)
X
X
X
X
X
X
X
X
M+060
1.41
(+1,5 dB)
X
M-060
1.41
(+1,5 dB)
X
M+090
1.41
(+1,5 dB)
X
X
X
M-090
1.41
(+1,5 dB)
X
X
X
M+110
1.41
(+1,5 dB)
X
X
X
X
M-110
1.41
(+1,5 dB)
X
X
X
X
M+135
1.00
(±0,0 dB)
X
X
X
Rec. ITU-R BS.1770-4
24
CUADRO 5 (fin)
Configuración de altavoces
Etiqueta del
altavoz
Ponderación
A
B
C
D
E
F
G
H
0+2+0
0+5+0
2+5+0
4+5+0
4+5+1
3+7+0
4+9+0
9+10+3
X
X
X
M-135
1.00
(±0,0 dB)
M+180
1.00
(±0,0 dB)
X
U+000
1.00
(±0,0 dB)
X
U+030
1.00
(±0,0 dB)
X
X
X
U-030
1.00
(±0,0 dB)
X
X
X
U+045
1.00
(±0,0 dB)
X
X
X
U-045
1.00
(±0,0 dB)
X
X
X
U+090
1.00
(±0,0 dB)
X
U-090
1.00
(±0,0 dB)
X
U+110
1.00
(±0,0 dB)
X
X
X
U-110
1.00
(±0,0 dB)
X
X
X
U+135
1.00
(±0,0 dB)
X
U-135
1.00
(±0,0 dB)
X
U+180
1.00
(±0,0 dB)
X
UH+180
1.00
(±0,0 dB)
T+000
1.00
(±0,0 dB)
B+000
1.00
(±0,0 dB)
B+045
1.00
(±0,0 dB)
X
B-045
1.00
(±0,0 dB)
X
X
X
X
______________
X
Download