Suscríbete a DeepL Pro para poder editar este documento. Entra en www.DeepL.com/pro para más información. Recomendación UIT-R BS.1770-4 (10/2015) Algoritmos para medir la sonoridad de los programas de audio y el nivel de audio de pico real Serie BS Servicio de radiodifusión (sonora) ii Rec. ITU-R BS.1770-4 Prólogo La función del Sector de Radiocomunicaciones es garantizar la utilización racional, equitativa, eficaz y económica del espectro de radiofrecuencias por todos los servicios de radiocomunicaciones, incluidos los servicios por satélite, y realizar estudios sin límite de gama de frecuencias sobre la base de los cuales se adopten Recomendaciones. Las funciones de reglamentación y política del Sector de Radiocomunicaciones son desempeñadas por las Conferencias Mundiales y Regionales de Radiocomunicaciones y las Asambleas de Radiocomunicaciones, con el apoyo de las Comisiones de Estudio. Política de derechos de propiedad intelectual (DPI) La política del UIT-R en materia de DPI se describe en la Política Común de Patentes para el UIT-T/UIT-R/ISO/CEI a la que se hace referencia en el Anexo 1 de la Resolución UIT-R 1. Los formularios que deben utilizarse para la presentación de declaraciones de patentes y declaraciones de concesión de licencias por parte de los titulares de patentes están disponibles en http://www.itu.int/ITU-R/go/patents/en, donde también pueden encontrarse las Directrices para la aplicación de la Política Común de Patentes para el UIT-T/UIT-R/ISO/CEI y la base de datos de información sobre patentes del UIT-R. Serie de Recomendaciones UIT-R (También disponible en línea en http://www.itu.int/publ/R-REC/en) Serie Título BO Envío por satélite BR Grabación para producción, archivo y reproducción; películas para televisión BS Servicio de radiodifusión (sonora) BT Servicio de radiodifusión (televisión) F Servicio fijo M Servicios móviles, de radiodeterminación, de aficionados y afines por satélite P Propagación de las ondas radioeléctricas RA Radioastronomía RS Sistemas de teledetección S Servicio fijo por satélite SA Aplicaciones espaciales y meteorología SF Compartición de frecuencias y coordinación entre sistemas del servicio fijo por satélite y del servicio fijo SM Gestión del espectro SNG Recopilación de noticias por satélite TF Emisiones de señales horarias y normas de frecuencia V Vocabulario y temas relacionados Nota: Esta Recomendación UIT-R fue aprobada en inglés según el procedimiento detallado en la Resolución UIT-R 1. Publicación electrónica Ginebra, 2017 Rec. ITU-R BS.1770-4 iii © UIT 2017 Todos los derechos reservados. Queda prohibida la reproducción total o parcial de esta publicación, por cualquier medio, sin la autorización escrita de la UIT. 1 Rec. ITU-R BS.1770-4 1770-4*. RECOMENDACIÓN ITU-R BS. Algoritmos para medir la sonoridad de los programas de audio y el nivel de audio de pico real (Cuestión UIT-R 2/6) (2006-2007-2011-2012-2015) Alcance Esta Recomendación especifica los algoritmos de medición de audio para determinar la sonoridad subjetiva de los programas y el nivel de señal de pico real. La Asamblea de Radiocomunicaciones de la UIT, considerando a) que las modernas técnicas de transmisión digital del sonido ofrecen una gama dinámica extremadamente amplia; b) que las técnicas modernas de producción y transmisión de sonido digital proporcionan una mezcla de formatos mono, estéreo y multicanal 3/2 especificados en la Recomendación UIT-R BS.775 y formatos de sonido avanzados especificados en la Recomendación UIT-R BS.2051, y que los programas de sonido se producen en todos estos formatos; c) que los oyentes desean que la sonoridad subjetiva de los programas de audio sea uniforme para las distintas fuentes y tipos de programas; d) que existen muchos métodos para medir los niveles de audio, pero que los métodos de medición empleados en la producción de programas no indican el volumen subjetivo; e) que, a efectos del control de la sonoridad en el intercambio de programas, para reducir las molestias a la audiencia, es esencial disponer de un único algoritmo recomendado para la estimación objetiva de la sonoridad subjetiva; f) que futuros algoritmos complejos basados en modelos psicoacústicos pueden proporcionar mejores medidas objetivas del volumen para una amplia variedad de programas de audio; g) que los medios digitales se sobrecargan bruscamente, por lo que debe evitarse incluso la sobrecarga momentánea, considerando además h) que los niveles máximos de señal pueden aumentar debido a procesos aplicados habitualmente, como el filtrado o la reducción de la velocidad binaria; j) que las tecnologías de medición existentes no reflejan el nivel de pico real contenido en una señal digital, ya que el valor de pico real puede producirse entre muestras; k) que el estado del procesamiento digital de señales hace que resulte práctico aplicar un algoritmo que estime con exactitud el nivel de pico real de una señal; l) que el uso de un algoritmo de indicación de pico real permitirá una indicación precisa del margen entre el nivel de pico de una señal de audio digital y el nivel de recorte, *La Radiocomunicaciones Comisión de Estudio 6 de introdujo modificaciones de redacción en esta Recomendación en el año 2016 de conformidad con la Resolución UIT-R 1. Rec. ITU-R BS.1770-4 2 recomienda 1que cuando se requiera una medida objetiva de la sonoridad de un canal o programa de audio, producido con hasta 5 canales principales según la Recomendación UIT-R BS.775 (fuente mono, estéreo y sonido multicanal 3/2), para facilitar la entrega y el intercambio de programas, se utilice el algoritmo especificado en el Anexo 1; 2que cuando se requiera una medida objetiva de la sonoridad de un programa de audio producido con un mayor número de canales (como las configuraciones de canales especificadas en la Recomendación ITUR BS.2051), se utilice el algoritmo especificado en el Anexo 3; 3que los métodos empleados en la producción y postproducción de programas para indicar la sonoridad de los programas pueden basarse en el algoritmo especificado en los Anexos 1 y 3; 4º que cuando se requiera una indicación del nivel de pico real de una señal de audio digital, el método de medición se base en las directrices que figuran en el Anexo 2, o en un método que ofrezca resultados similares o superiores, NOTA 1 - Los usuarios deben ser conscientes de que la sonoridad medida es una estimación de la sonoridad subjetiva e implica cierto grado de incertidumbre en función de los oyentes, el material de audio y las condiciones de escucha. recomienda además 1que se considere la posible necesidad de actualizar esta Recomendación en caso de que se demuestre que los nuevos algoritmos de sonoridad proporcionan un rendimiento significativamente mejor que el algoritmo especificado en el Anexo 1 y el Anexo 3; 2que esta Recomendación se actualice cuando se hayan desarrollado nuevos algoritmos que permitan medir la sonoridad de los programas de audio basados en objetos y escenas. NOTA 2 - Para probar la conformidad de los contadores con arreglo a esta Recomendación, puede utilizarse material de prueba del conjunto descrito en el Informe UIT-R BS.2217. ANEXO 1 Especificación del algoritmo objetivo de medición multicanal de la sonoridad El presente anexo especifica el algoritmo de modelización de la medición multicanal de la sonoridad. El algoritmo consta de cuatro etapas - Ponderación de frecuencia "K"; -Cálculo del cuadrado medio para cada canal; -Suma ponderada por canal (los canales de sonido envolvente tienen ponderaciones mayores y se excluye el canal LFE); -gating de bloques de 400 ms (solapamiento del 75%), en los que se utilizan dos umbrales: -el primero a -70 LKFS; -el segundo a -10 dB en relación con el nivel medido tras la aplicación del primer umbral. La figura 1 muestra un diagrama de bloques de los distintos componentes del algoritmo. Para facilitar la descripción del algoritmo, se han colocado etiquetas en distintos puntos del recorrido de 3 Rec. ITU-R BS.1770-4 la señal. El diagrama de bloques muestra entradas para cinco canales principales (izquierdo, central, derecho, envolvente izquierdo y envolvente derecho); esto permite monitorizar programas que contengan de uno a cinco canales. Para un programa que tenga menos de cinco canales, algunas entradas no se utilizarían. El canal de efectos de baja frecuencia (LFE) no se incluye en la medición. FIGURA 1 Diagrama de bloques simplificado del algoritmo de sonoridad multicanal xL xR xC xL s xRs K- filter K- filter K- filter K- filter K- filter yL yR yC Mean square Mean square zL zR Mean square zC yL s Mean square zL s yRs Mean square zRs GL GR GC Σ 10 Log 10 Gate Measured loudness GLs GRs BS. 1770 -01 1 En la primera etapa del algoritmo se aplica un prefiltrado de la señal en dos etapas . La primera etapa del prefiltrado tiene en cuenta los efectos acústicos de la cabeza, que se modela como una esfera rígida. La respuesta se muestra en la Fig. 2. FIGURA 2 Respuesta de la etapa 1 del prefiltro utilizado para tener en cuenta los efectos acústicos de la cabeza La etapa 1 del prefiltro está definida por el filtro mostrado en la Fig. 3 con los coeficientes especificados en la Tabla 1. 1 El filtro de ponderación K se compone de dos etapas de filtrado: un filtro shelving de primera etapa y un filtro de paso alto de segunda etapa. Rec. ITU-R BS.1770-4 4 FIGURA 3 Diagrama de flujo de la señal como filtro de 2º orden Σ - b0 Z–1 a1 + + Σ + b1 Z–1 a2 b2 BS.1770 -03 TABLA 1 Coeficientes de filtrado de la etapa 1 del prefiltro para modelar una cabeza esférica b0 1.53512485958697 a1 -1.69065929318241 b1 -2.69169618940638 a2 0.73248077421585 b2 1.19839281085285 Estos coeficientes de filtro son para una frecuencia de muestreo de 48 kHz. Las implementaciones a otras frecuencias de muestreo requerirán valores de coeficiente diferentes, que deben elegirse para proporcionar la misma respuesta en frecuencia que el filtro especificado proporciona a 48 kHz. Los valores de estos coeficientes pueden necesitar ser cuantizados debido a la precisión interna del hardware disponible. Las pruebas han demostrado que el rendimiento del algoritmo no es sensible a pequeñas variaciones en estos coeficientes. La segunda etapa del prefiltro aplica un filtro paso alto simple, como se muestra en la Fig. 4. La curva de ponderación de la etapa se especifica como un filtro de orden 2nd como se muestra en la Fig. 3, con los coeficientes especificados en la Tabla 2. Estos coeficientes de filtro son para una frecuencia de muestreo de 48 kHz. Las implementaciones a otras frecuencias de muestreo requerirán valores de coeficiente diferentes, que deben elegirse para proporcionar la misma respuesta de frecuencia que el filtro especificado proporciona a 48 kHz. FIGURA 4 Curva de ponderación de la segunda etapa 5 Rec. ITU-R BS.1770-4 CUADRO 2 Coeficientes del filtro para la curva de ponderación de la segunda etapa b0 1.0 a1 -1.99004745483398 b1 -2.0 a2 0.99007225036621 b2 1.0 La potencia, el cuadrado medio de la señal de entrada filtrada en un intervalo de medida T se mide como: zi 1 = T T 2 ∫ yi dt 0 (1) donde yi es la señal de entrada (filtrada por el prefiltro de 2 etapas descrito anteriormente), e i∈ I donde I = {L,R,C,Ls,Rs}, el conjunto de canales de entrada. La sonoridad a lo largo del intervalo de medición T se define como: Sonoridad, LK = -0,691 + 10 log 10 ∑ Gi ⋅ zi i LKFS (2) donde Gi son los coeficientes de ponderación de cada canal. Para calcular una medición de sonoridad con gating, el intervalo T se divide en un conjunto de intervalos de bloques de gating superpuestos. Un bloque de gating es un conjunto de muestras de audio contiguas de duración Tg = 400 ms, a la muestra más cercana. El solapamiento de cada bloque de sincronización será del 75 % de la duración del bloque de sincronización. El intervalo de medición se limitará de forma que termine al final de un bloque de compuerta. No se utilizarán los bloques de sincronización incompletos al final del intervalo de medición. La potencia, el cuadrado medio del bloque de compuerta jth del canal de entrada ith en el intervalo T es: 1 zij = Tg Tg ⋅ ( j ⋅step +1) yi2dt Tg ⋅ j ⋅step ∫ donde paso = 1 solapamiento ⎧⎪ T – Tg ⎫⎪ j ∈ ⎨0,1,2,... ⎬ Tg ⋅ step ⎪⎭ ⎪⎩ y (3) La sonoridad del bloque de compuerta jth se define como: l j = – 0.691 + 10 log10 ∑ Gi ⋅ zij i (4) Rec. ITU-R BS.1770-4 6 Para un umbral de gating Γ existe un conjunto de índices de bloque de gating Jg = {j : lj > Γ} donde la sonoridad del bloque de gating está por encima del umbral de gating. El número de elementos en Jg es |Jg |. La sonoridad gated del intervalo de medición T se define entonces como: Gated loudness, LKG = – 0.691 + 10 log10 ⎛ 1 ⎞ ⎜ G ⋅ ⋅ z ∑ i ⎜ J ∑ ij ⎟⎟ LKFS i ⎝ g Jg ⎠ (5) Para realizar una medición con gating se utiliza un proceso en dos etapas, primero con un umbral absoluto y después con un umbral relativo. Los bloques de gating por debajo del umbral absoluto no se utilizan en el cálculo del gating relativo. El umbral relativo Γr se calcula midiendo la sonoridad con el umbral absoluto, Γa = -70 LKFS, y restando 10 al resultado, así: Γr = –0.691 + 10 log10 ⎛ 1 G ⋅ ∑ i ⎜⎜ J ⋅ i ⎝ g ⎞ z ∑ ij ⎟⎟ – 10 LKFS Jg ⎠ donde: { J g = j : l j > Γa } Γa = – 70 LKFS (6) La sonoridad gated puede calcularse mediante Γr : Gated loudness, LKG = – 0.691 + 10 log10 ⎛ 1 ∑ Gi ⋅ ⎜⎜ J i ⎝ g ⎞ ⋅ ∑ zij ⎟ LKFS ⎟ Jg ⎠ donde: Jg = { j : lj > Γr y lj > Γa } (7) La ponderación frecuencial en esta medida, generada por el prefiltro (concatenación del filtro de etapa 1 para compensar los efectos acústicos de la cabeza, y del filtro de etapa 2, la ponderación RLB) se designa ponderación K. El resultado numérico para el valor de sonoridad que se calcula en la ecuación (2) debe ir seguido de la designación LKFS. Esta designación significa: Sonoridad, ponderación K, relativa al fondo de escala nominal. La unidad LKFS equivale a un decibelio en el sentido de que un aumento del nivel de una señal en 1 dB hará que la lectura de sonoridad aumente en 1 LKFS. Si se aplica una onda sinusoidal de 0 dB FS, 1 kHz (997 Hz para ser exactos, véanse las Notas 1 y 2) a la entrada de los canales izquierdo, central o derecho, la sonoridad indicada será igual a -3,01 LKFS. NOTA 1 - La constante -0,691 de la ecuación (2) anula la ganancia de ponderación K para 997 Hz. NOTA 2 - La norma IEC 61606 establece que, a menos que se especifique lo contrario, la frecuencia de referencia para la medición será la frecuencia real 997 Hz, que puede indicarse, en contextos no críticos, como la frecuencia nominal 1 kHz. 7 Rec. ITU-R BS.1770-4 El coeficiente de ponderación de cada canal figura en el cuadro 3. CUADRO 3 Ponderación de cada canal de audio Canal Ponderación, Gi Izquierda (G )L 1,0 (0 dB) Derecha (G )R 1,0 (0 dB) Centro (G )C 1,0 (0 dB) Surround izquierdo (G )Ls 1,41 (~ +1,5 dB) Surround derecho (G )Rs 1,41 (~ +1,5 dB) Debe tenerse en cuenta que, aunque este algoritmo ha demostrado ser eficaz para su uso en programas de audio que son típicos de los contenidos de radiodifusión, el algoritmo no es, en general, adecuado para su uso en la estimación de la sonoridad subjetiva de los tonos puros. Apéndice 1 del Anexo 1 (informativo) Descripción y desarrollo del algoritmo de medición multicanal Este apéndice describe un algoritmo desarrollado recientemente para medir objetivamente la sonoridad percibida de las señales de audio. El algoritmo puede utilizarse para medir con precisión la sonoridad de señales mono, estéreo y multicanal. Una de las principales ventajas del algoritmo propuesto es su sencillez, que permite aplicarlo con un coste muy bajo. Este apéndice también describe los resultados de las pruebas subjetivas formales realizadas para formar una base de datos subjetiva que se utilizó para evaluar el rendimiento del algoritmo. 1Introducción Hay muchas aplicaciones en las que es necesario medir y controlar el volumen percibido de las señales de audio. Ejemplos de ello son las aplicaciones de radiodifusión y televisión, en las que la naturaleza y el contenido del material de audio cambian con frecuencia. En estas aplicaciones, el contenido de audio puede cambiar continuamente entre música, voz y efectos de sonido, o alguna combinación de estos. Estos cambios en el contenido del material del programa pueden dar lugar a cambios significativos en la sonoridad subjetiva. Además, a menudo se aplican diversas formas de procesamiento dinámico a las señales, lo que puede tener un efecto significativo en la sonoridad percibida de la señal. Por supuesto, la cuestión de la sonoridad subjetiva también es de gran importancia para la industria musical, donde el procesamiento de la dinámica se utiliza habitualmente para maximizar la sonoridad percibida de una grabación. En los últimos años, el Grupo de Trabajo 6P de Radiocomunicaciones ha realizado un esfuerzo continuo para identificar un medio objetivo de medir la sonoridad percibida del material de un programa típico para aplicaciones de radiodifusión. La primera fase del esfuerzo del UIT-R examinó exclusivamente algoritmos objetivos de sonoridad monofónica, y se demostró que una Rec. ITU-R BS.1770-4 8 medida de cuadrado medio ponderado, Leq(RLB), ofrecía el mejor rendimiento para señales monofónicas [Soulodre, 2004]. Es bien sabido que para las aplicaciones de radiodifusión se necesita un medidor de sonoridad que pueda funcionar con señales mono, estéreo y multicanal. El presente documento propone un nuevo algoritmo de medición de sonoridad que funciona correctamente con señales de audio mono, estéreo y multicanal. El algoritmo propuesto se basa en una extensión directa del algoritmo Leq(RLB). Además, el nuevo algoritmo multicanal conserva la muy baja complejidad computacional del algoritmo monofónico Leq(RLB). 2Contexto En la primera fase del estudio del UIT-R se desarrolló un método de prueba subjetivo para examinar la percepción de la sonoridad de materiales de programas monofónicos típicos [Soulodre, 2004]. Se realizaron pruebas subjetivas en cinco lugares de todo el mundo con el fin de crear una base de datos subjetiva para evaluar el rendimiento de posibles algoritmos de medición de la sonoridad. Los sujetos compararon la sonoridad de varias secuencias de audio monofónicas con una secuencia de referencia. Las secuencias de audio procedían de emisiones reales (televisión y radio). Junto con estas pruebas, siete proponentes diferentes presentaron un total de diez sonómetros/ algoritmos monofónicos desarrollados comercialmente para su evaluación en el Laboratorio de Percepción de Audio del Centro de Investigación de Comunicaciones de Canadá. Además, Soulodre aportó otros dos algoritmos básicos de sonoridad para que sirvieran como referencia de rendimiento [Soulodre, 2004]. Estas dos medidas objetivas consistían en una simple función de ponderación de frecuencias, seguida de un bloque de medición del cuadrado medio. Una de las dos medidas, Leq(RLB), utiliza una curva de ponderación de frecuencias de paso alto denominada curva B de baja frecuencia revisada (RLB). La otra medida, Leq, es simplemente una medida cuadrática media no ponderada. La figura 5 muestra los resultados del estudio ITUR inicial para el sonómetro Leq(RLB). El eje horizontal indica la sonoridad subjetiva relativa derivada de la base de datos subjetiva, mientras que el eje vertical indica la sonoridad predicha por la medida Leq(RLB). Cada punto del gráfico representa el resultado de una de las secuencias de audio de la prueba. Los círculos abiertos representan secuencias de audio basadas en el habla, mientras que las estrellas son secuencias no basadas en el habla. Se puede observar que los puntos de datos están muy agrupados alrededor de la diagonal, lo que indica el muy buen rendimiento del medidor Leq(RLB). Leq(RLB) obtuvo el mejor rendimiento de todos los medidores evaluados (aunque, dentro de la significación estadística, algunos de los medidores psicoacústicos también obtuvieron buenos resultados). El rendimiento de Leq fue casi tan bueno como el de RLB. Estos resultados sugieren que, para el material de radiodifusión monofónico típico, una medida de sonoridad simple basada en la energía es igual de sólida que otras medidas más complejas que pueden incluir modelos perceptivos detallados. 9 Rec. ITU-R BS.1770-4 GRÁFICO 5 Sonómetro monofónico Leq (RLB) frente a resultados subjetivos (r = 0,982) 3Diseño del algoritmo Leq(RLB) El algoritmo de sonoridad Leq(RLB) se diseñó específicamente para ser muy sencillo. En la Fig. 6 se muestra un diagrama de bloques del algoritmo Leq(RLB). Consiste en un filtro de paso alto seguido de un medio para promediar la energía en el tiempo. La salida del filtro va a un bloque de procesamiento que suma la energía y calcula el promedio en el tiempo. El objetivo del filtro es proporcionar una ponderación perceptualmente relevante del contenido espectral de la señal. Una de las ventajas de utilizar esta estructura básica para las medidas de sonoridad es que todo el procesamiento puede realizarse con bloques simples en el dominio del tiempo que tienen requisitos computacionales muy bajos. FIGURA 6 Diagrama de bloques de las medidas de sonoridad simples basadas en la energía x Frequency weighting W xW Leq (W) Σ 1/T BS. 1770 -0 6 El algoritmo Leq(RLB) mostrado en la Fig. 6 es simplemente una versión ponderada en frecuencia de una medida de Nivel Sonoro Equivalente (Leq). Leq se define de la siguiente manera: ⎡ 1 T x2 ⎤ Leq (W ) = 10 log10 ⎢ ∫ 2W dt ⎥ ⎢⎣ T 0 xRef ⎥⎦ (8) donde: xW xRef T: :señal a la salida del filtro de ponderación :algún nivel de referencia longitud de la secuencia de audio. dB Rec. ITU-R BS.1770-4 10 El símbolo W en Leq(W) representa la ponderación de frecuencia, que en este caso fue la curva B de baja frecuencia revisada (RLB). 4Pruebas subjetivas Para evaluar las posibles medidas de sonoridad multicanal fue necesario realizar pruebas subjetivas formales con el fin de crear una base de datos subjetiva. De este modo, los posibles algoritmos de medición de la sonoridad podrían evaluarse en función de su capacidad para predecir los resultados de las pruebas subjetivas. La base de datos proporcionó clasificaciones de sonoridad percibida para una amplia variedad de programas mono, estéreo y multicanal. Los programas utilizados en las pruebas procedían de emisiones reales de radio y televisión de todo el mundo, así como de CD y DVD. Las secuencias incluían música, series de televisión y películas, acontecimientos deportivos, informativos, efectos de sonido y anuncios. Las secuencias incluían segmentos de habla en varios idiomas. 4. 1Sistema de pruebas subjetivas Las pruebas subjetivas consistieron en una tarea de ajuste del volumen. Los sujetos escucharon una amplia gama de programas típicos y ajustaron el nivel de cada elemento de prueba hasta que el volumen percibido coincidiera con el de una señal de referencia (véase la Fig. 7). La señal de referencia se reprodujo siempre a un nivel de 60 dBA, un nivel que Benjamin considera un nivel de escucha típico para ver la televisión en hogares reales [Benjamin, 2004]. FIGURA 7 Metodología de pruebas subjetivas Reference Test item BS.1770-0 7 Un sistema de prueba subjetiva multicanal basado en software, desarrollado y aportado por la Australian Broadcasting Corporation, permitía al oyente pasar instantáneamente de un elemento de prueba a otro y ajustar el nivel (sonoridad) de cada elemento. En la Fig. 8 se muestra una captura de pantalla del software de prueba. El nivel de los elementos de prueba podía ajustarse en pasos de 0,25 dB. Al seleccionar el botón "1" se accedía a la señal de referencia. El nivel de la señal de referencia se mantenía fijo. 11 Rec. ITU-R BS.1770-4 FIGURA 8 Interfaz de usuario del sistema de pruebas subjetivas Con el teclado del ordenador, el sujeto seleccionaba un elemento de prueba determinado y ajustaba su nivel hasta que su volumen coincidía con la señal de referencia. Los sujetos podían cambiar instantáneamente entre cualquiera de los elementos de prueba seleccionando la tecla adecuada. Las secuencias se reproducían continuamente (en bucle) durante las pruebas. El programa informático registraba los ajustes de ganancia de cada elemento de prueba según los establecía el sujeto. Por lo tanto, las pruebas subjetivas produjeron un conjunto de valores de ganancia (decibelios) necesarios para igualar el volumen de cada secuencia de prueba con la secuencia de referencia. Esto permitió determinar directamente el volumen relativo de cada elemento de prueba. Antes de realizar las pruebas ciegas formales, cada sujeto se sometió a una sesión de entrenamiento en la que se familiarizó con el software de la prueba y con su tarea en el experimento. Dado que muchas de las pruebas contenían una mezcla de habla y otros sonidos (por ejemplo, música, ruidos de fondo, etc.), los sujetos recibieron instrucciones específicas para igualar el volumen de la señal global, no sólo del componente de habla de las señales. Durante las pruebas ciegas formales, el orden en que se presentaban los ítems de la prueba a cada sujeto era aleatorio. Por lo tanto, no se presentaron los ítems de la prueba en el mismo orden a dos sujetos. Esto se hizo para eliminar cualquier posible sesgo debido a efectos de orden. 4.2La base de datos subjetiva La base de datos subjetiva utilizada para evaluar el rendimiento del algoritmo propuesto constaba en realidad de tres conjuntos de datos distintos. Los conjuntos de datos se crearon a partir de tres pruebas subjetivas independientes realizadas a lo largo de varios años. El primer conjunto de datos estaba formado por los resultados del estudio original del UIT-R, en el que los sujetos emparejaban la sonoridad percibida de 96 secuencias de audio monofónicas. Para este conjunto de datos, se realizaron pruebas subjetivas en cinco lugares distintos de todo el mundo, con un total de 97 oyentes. Un panel de tres miembros compuesto por miembros del SRG3 del GT 6P de Radiocomunicaciones seleccionó las secuencias de prueba, así como el elemento de referencia. La señal de referencia en este experimento consistió en el habla de una mujer inglesa. Las secuencias se reprodujeron a través de un único altavoz colocado directamente delante del oyente. Tras el estudio monofónico original del UIT-R, algunos de los defensores del algoritmo especularon con que la gama y el tipo de señales utilizadas en las pruebas subjetivas no eran lo suficientemente amplios. Además, especularon con que, por este motivo, el algoritmo simple basado en la energía Leq(RLB) superaba a todos los demás algoritmos. Rec. ITU-R BS.1770-4 12 Para solucionar este problema, se pidió a los proponentes que enviaran nuevas secuencias de audio para una nueva ronda de pruebas subjetivas. Se les animó a aportar secuencias monofónicas que, en su opinión, supondrían un mayor reto para el algoritmo Leq(RLB). Sólo dos de los proponentes del medidor aportaron nuevas secuencias. Con estas nuevas secuencias, se realizaron pruebas subjetivas formales en el Laboratorio de Percepción de Audio del Centro de Investigación de Comunicaciones de Canadá. Un total de 20 sujetos evaluaron la sonoridad de 96 secuencias monofónicas. En las pruebas se utilizó la misma metodología subjetiva empleada para crear el primer conjunto de datos, así como la misma señal de referencia. Los resultados de estas pruebas constituyeron el segundo conjunto de datos de la base de datos subjetiva. El tercer conjunto de datos consistió en clasificaciones de sonoridad de 144 secuencias de audio. Las secuencias de prueba consistían en 48 elementos monofónicos, 48 elementos estéreo y 48 elementos multicanal. Además, la mitad de los elementos monofónicos se reprodujeron a través del canal central (mono), mientras que la otra mitad de los elementos monofónicos se reprodujeron a través de los altavoces izquierdo y derecho (mono dual). Esto se hizo para tener en cuenta las dos maneras diferentes en las que se puede escuchar una señal monofónica. Para esta prueba, la señal de referencia consistió en el habla de una mujer inglesa con ambiente estéreo y música de fondo de bajo nivel. En esta prueba participaron un total de 20 sujetos y se utilizó la configuración de altavoces especificada en la Recomendación UIT-R BS.775 y representada en la Fig. 9. FIGURA 9 Configuración de los altavoces utilizada para el tercer conjunto de datos Los dos primeros conjuntos de datos se limitaban a secuencias de prueba monofónicas, por lo que la imagen no era un factor importante. En el tercer conjunto de datos, que también incluía secuencias estereofónicas y multicanal, la imagen era un factor importante que había que tener en cuenta. Se consideró que era probable que la imagen y el ambiente de una secuencia tuvieran un efecto significativo en el volumen percibido de la secuencia. Por lo tanto, se eligieron secuencias estéreo y multicanal para incluir una amplia gama de estilos de imagen (por ejemplo, panorámica central frente a izquierda/derecha, fuentes delante frente a fuentes alrededor) y distintas cantidades de ambiente (por ejemplo, seco frente a reverberante). 13 Rec. ITU-R BS.1770-4 El hecho de que los sujetos tuvieran que igualar simultáneamente el volumen de señales mono, mono dual, estéreo y multicanal significaba que esta prueba era intrínsecamente más difícil que los conjuntos de datos anteriores, que se limitaban a señales mono. Esta dificultad se vio agravada por los distintos estilos de imagen y las diferentes cantidades de ambiente. Se temía que, como consecuencia de estos factores, los sujetos se sintieran abrumados por la tarea. Afortunadamente, las pruebas preliminares sugirieron que la tarea era manejable y, de hecho, los 20 sujetos fueron capaces de proporcionar resultados coherentes. 5Diseño del algoritmo de sonoridad multicanal Como ya se ha dicho, el algoritmo Leq(RLB) se diseñó para funcionar con señales monofónicas, y un estudio anterior ha demostrado que es bastante satisfactorio para esta tarea. El diseño de un algoritmo de sonoridad multicanal plantea varios retos adicionales. Un requisito clave para el éxito de un algoritmo multicanal es que también debe funcionar bien con señales mono, mono dual y estéreo. Es decir, estos formatos deben verse como casos especiales de una señal multicanal (aunque sean casos muy comunes). En el presente estudio asumimos que las señales multicanal se ajustan a la configuración de canales 5.1 de la Recomendación UIT-R BS.775 estándar. No se hace ningún esfuerzo por tener en cuenta el canal LFE. En el sonómetro multicanal, la sonoridad de cada uno de los canales de audio individuales se mide de forma independiente mediante un algoritmo monofónico Leq(RLB), como se muestra en la Fig. 10. Sin embargo, se aplica un prefiltrado a cada canal antes de la medida Leq(RLB). FIGURA 10 Diagrama de bloques del sonómetro multicanal propuesto xL xR xC xL s xR s Pre-filter RLB filter Pre-filter RLB filter Pre-filter RLB filter Pre-filter RLB filter Pre-filter RLB filter yL yR yC yL s yR s Mean square Mean square Mean square Mean square Mean square zL zR zC zL s zRs GL GR GC Σ Loudness GL s GRs BS. 1770 -10 El objetivo del prefiltro es tener en cuenta los efectos acústicos de la cabeza sobre las señales entrantes. En este caso, la cabeza se modela como una esfera rígida. Se aplica el mismo prefiltro a cada canal. Los valores de sonoridad resultantes se ponderan (Gi ) en función del ángulo de llegada de la señal y se suman (en el dominio lineal) para obtener una medida de sonoridad compuesta. Las ponderaciones se utilizan para tener en cuenta el hecho de que los sonidos que llegan por detrás de un oyente pueden percibirse como más fuertes que los sonidos que llegan por delante del oyente. La combinación del "prefiltro" y el "filtro RLB" de la Fig. 10 se denomina ponderación K, como se indica en la parte principal del anexo 1. Una de las principales ventajas del algoritmo de sonoridad multicanal propuesto es su sencillez. El algoritmo se compone en su totalidad de bloques de procesamiento de señales muy básicos que pueden implementarse fácilmente en el dominio temporal en hardware de bajo coste. Otra ventaja clave del algoritmo es su escalabilidad. Dado que el procesamiento aplicado a cada canal es idéntico, es muy sencillo implementar un medidor que pueda acomodar cualquier número de canales de 1 a N. Además, dado que las contribuciones de los canales individuales se suman como Rec. ITU-R BS.1770-4 14 valores de sonoridad, en lugar de a nivel de señal, el algoritmo no depende de la fase o correlación entre canales. Esto hace que la medida de sonoridad propuesta sea mucho más genérica y robusta. 6Evaluación del algoritmo multicanal Las 336 secuencias de audio utilizadas en los tres conjuntos de datos se procesaron mediante el algoritmo multicanal propuesto y se registraron las clasificaciones de sonoridad previstas. Como resultado de este proceso, se pudo evaluar el rendimiento global del algoritmo a partir de la concordancia entre las valoraciones previstas y las valoraciones subjetivas reales obtenidas en las pruebas subjetivas formales. Las figuras 11, 12 y 13 muestran el rendimiento del sonómetro propuesto para los tres conjuntos de datos. En cada figura, el eje horizontal indica la sonoridad subjetiva de cada secuencia de audio del conjunto de datos. El eje vertical indica la sonoridad objetiva predicha por el sonómetro propuesto. Cada punto del gráfico representa el resultado de una secuencia de audio individual. Cabe señalar que un algoritmo objetivo perfecto daría como resultado que todos los puntos de datos cayeran sobre la línea diagonal con pendiente 1 y pasaran por el origen (como se muestra en las figuras). FIGURA 11 Resultados del primer conjunto de datos (monofónico) (r = 0,979) La Fig. 11 muestra que el algoritmo de sonoridad multicanal propuesto predice muy bien los resultados del primer conjunto de datos (monofónico). La correlación entre las clasificaciones subjetivas de sonoridad y la medida objetiva de sonoridad es r = 0,979. Como se observa en la Fig. 12, la correlación entre las valoraciones subjetivas de la sonoridad y la medida objetiva de la sonoridad para el segundo conjunto de datos también es muy buena (r = 0,985). Es interesante señalar que aproximadamente la mitad de las secuencias de este conjunto de datos eran musicales. 15 Rec. ITU-R BS.1770-4 GRÁFICO 12 Resultados del segundo conjunto de datos (monofónico) (r = 0,985) GRÁFICO 13 Resultados del tercer conjunto de datos (mono, estéreo y multicanal) (r = 0,980) La figura 13 muestra los resultados del tercer conjunto de datos, que incluía señales mono, mono dual, estéreo y multicanal. Los resultados multicanal incluidos en las Figs 13 y 14 corresponden al algoritmo especificado, pero con las ponderaciones del canal surround fijadas en 4 dB (propuesta original) en lugar de 1,5 dB (especificación final). Se ha comprobado que el cambio de 4,0 dB a 1,5 dB no tiene ningún efecto significativo en los resultados. Una vez más, el rendimiento del algoritmo es muy bueno, con una correlación de r = 0,980. Resulta útil examinar el rendimiento del algoritmo para las 336 secuencias de audio que componían la base de datos subjetiva. Por lo tanto, la Fig. 14 combina los resultados de los tres conjuntos de datos. Puede observarse que el rendimiento es muy bueno en toda la base de datos subjetiva, con una correlación global de r = 0,977. Rec. ITU-R BS.1770-4 16 FIGURA 14 Resultados combinados de los tres conjuntos de datos (r = 0,977) Los resultados de esta evaluación indican que el algoritmo de medición de sonoridad multicanal, basado en la medida de sonoridad Leq(RLB), funciona muy bien en las 336 secuencias de la base de datos subjetiva. La base de datos subjetiva contenía una amplia gama de programas, como música, series de televisión y películas, eventos deportivos, noticiarios, efectos de sonido y anuncios. También se incluyeron en las secuencias segmentos de habla en varios idiomas. Además, los resultados demuestran que el sonómetro propuesto funciona bien con señales mono, mono dual, estéreo y multicanal. Referencias BENJAMIN, E. [octubre, 2004] Preferred Listening Levels and Acceptance Windows for Dialog Reproduction in the Domestic Environment, 117th Convention of the Audio Engineering Society, San Francisco, Preprint 6233. SOULODRE, G.A. [mayo, 2004] Evaluation of Objective Loudness Meters, 116th Convention of the Audio Engineering Society, Berlín, Preprint 6161. ANEXO 2 Directrices para la medición precisa del nivel de "pico real Este Anexo describe un algoritmo para la estimación del nivel de pico verdadero dentro de una señal de audio digital PCM lineal de un solo canal. El análisis que sigue presupone una frecuencia de muestreo de 48 kHz. El nivel de cresta real es el valor máximo (positivo o negativo) de la forma de onda de la señal en el dominio de tiempo continuo; este valor puede ser superior al mayor valor de muestra en el dominio de muestreo de tiempo de 48 kHz. 17 Rec. ITU-R BS.1770-4 1Resumen Las etapas del tratamiento son: 1Atenuación : 12,04 dB de atenuación 24× sobremuestreo 3Filtro de paso bajo 4Absoluto : Valor absoluto 5Conversión a dB TP 2Diagrama de bloques 3Descripción detallada El primer paso consiste en imponer una atenuación de 12,04 dB (desplazamiento de 2 bits). El propósito de este paso es proporcionar margen para el posterior procesamiento de la señal que podría emplear aritmética entera. Este paso no es necesario si los cálculos se realizan en coma flotante. El filtro de sobremuestreo 4× aumenta la frecuencia de muestreo de la señal de 48 kHz a 192 kHz. Esta versión de mayor frecuencia de muestreo de la señal indica con mayor precisión la forma de onda real que representan las muestras de audio. Es preferible utilizar frecuencias de muestreo y relaciones de sobremuestreo más altas (véase el Apéndice 1 de este Anexo). Las señales entrantes con frecuencias de muestreo más altas requieren un sobremuestreo proporcionalmente menor (por ejemplo, para una señal entrante con una frecuencia de muestreo de 96 kHz sería suficiente un sobremuestreo de 2× ). Un conjunto de coeficientes de filtro (para el orden 48, 4 fases, interpolación FIR) que satisfaría los requisitos sería el siguiente: Fase 0 Fase 1 Fase 2 Fase 3 0.0017089843750 -0.0291748046875 -0.0189208984375 -0.0083007812500 0.0109863281250 0.0292968750000 0.0330810546875 0.0148925781250 -0.0196533203125 -0.0517578125000 -0.0582275390625 -0.0266113281250 0.0332031250000 0.0891113281250 0.1015625000000 0.0476074218750 -0.0594482421875 -0.1665039062500 -0.2003173828125 -0.1022949218750 0.1373291015625 0.4650878906250 0.7797851562500 0.9721679687500 0.9721679687500 0.7797851562500 0.4650878906250 0.1373291015625 -0.1022949218750 -0.2003173828125 -0.1665039062500 -0.0594482421875 0.0476074218750 0.1015625000000 0.0891113281250 0.0332031250000 -0.0266113281250 -0.0582275390625 -0.0517578125000 -0.0196533203125 0.0148925781250 0.0330810546875 0.0292968750000 0.0109863281250 -0.0083007812500 -0.0189208984375 -0.0291748046875 0.0017089843750 Rec. ITU-R BS.1770-4 18 El valor absoluto de las muestras se toma invirtiendo las muestras de valor negativo; en este punto la señal es unipolar, sustituyéndose los valores negativos por valores positivos de la misma magnitud. El resultado después de cuatro etapas (atenuación, sobremuestreo, filtrado y toma del valor absoluto) es un número en el mismo dominio que los valores de muestra originales (por ejemplo, entero de 24 bits). Después, es necesario compensar la atenuación inicial de 12,04 dB. Esto normaliza la ganancia global del procesado a la unidad. Debe entenderse que la amplificación del valor atenuado en 12,04 dB (desplazamiento a la izquierda de 2 bits) requerirá, en general, la conversión del valor a un formato numérico capaz de representar valores superiores al rango de escala completa del formato original. Realizar los pasos de cálculo en formato de coma flotante satisface este requisito. Una alternativa a la amplificación del resultado, es calibrar adecuadamente la escala del medidor. Los medidores que siguen estas directrices, y que utilizan una frecuencia de muestreo sobremuestreada de al menos 192 kHz, deben indicar el resultado en las unidades de dB TP, habiendo convertido el resultado a una escala logarítmica. Esto puede conseguirse calculando "20log10 " del valor absoluto atenuado, sobremuestreado y filtrado, y añadiendo a continuación 12,04 dB. El "dB TP". significa decibelios relativos al 100% de la escala completa, medida de pico verdadero. 2 Apéndice 1 al Anexo 2 (informativo) Consideraciones para la medición precisa de picos de señales digitales de audio ¿Cuál es el problema? Los medidores de picos de los sistemas de audio digital suelen registrar "pico-muestra" en lugar de "pico real". Un medidor de pico-muestra suele funcionar comparando el valor absoluto (rectificado) de cada muestra entrante con la lectura actual del medidor; si la nueva muestra es mayor, sustituye a la lectura actual; si no, la lectura actual se multiplica por una constante ligeramente inferior a la unidad para producir un decaimiento logarítmico. Estos medidores son omnipresentes porque son fáciles de implementar, pero no siempre registran el valor de pico real de la señal de audio. Por lo tanto, utilizar un medidor de picos de muestreo cuando es importante medir con precisión los picos del programa puede dar problemas. Por desgracia, la mayoría de los medidores de picos digitales son medidores de picos por muestreo, aunque esto no suele ser obvio para el operador. El problema se debe a que los valores de pico reales de una señal muestreada suelen producirse entre las muestras y no precisamente en un instante de muestreo, por lo que el medidor de picomuestra no los registra correctamente. Esto da lugar a varias anomalías conocidas de los medidores de pico-muestra: - Lecturas de picos incoherentes: A menudo se observa que la reproducción repetida de una grabación analógica en un sistema digital con un medidor de picos y muestras produce lecturas muy diferentes de los picos del programa en cada reproducción. Del mismo modo, 2 NOTA 1 - El siguiente texto informativo fue aportado por AES Standards Working Group SC02-01 a través de Radiocommunication WP 6J Rapporteur on loudness metering. 19 Rec. ITU-R BS.1770-4 si una grabación digital se reproduce repetidamente a través de un convertidor de frecuencia de muestreo antes de la medición, los picos registrados son igualmente diferentes en cada reproducción. Esto se debe a que los instantes de muestreo pueden caer sobre diferentes partes de la señal real en cada reproducción. - Sobrecargas inesperadas: Dado que las señales muestreadas pueden contener sobrecargas incluso cuando no tienen muestras en, o incluso cerca de, la escala completa digital, la indicación de sobrecarga por parte de un medidor de pico-muestra no es fiable. Las sobrecargas pueden provocar recortes en procesos posteriores, como en determinados convertidores D/A o durante la conversión de la frecuencia de muestreo, aunque no hayan sido registradas previamente por el medidor de picos/muestras (e incluso hayan sido inaudibles cuando se monitorizaron en ese punto). - Sub-lectura y batido de tonos medidos: Los tonos puros (como los tonos de alineación) cercanos a factores enteros de la frecuencia de muestreo pueden subleer o producir una lectura que varía constantemente aunque la amplitud del tono sea constante. ¿Qué gravedad puede tener el problema? En general, cuanto mayor sea la frecuencia de la señal medida de pico-muestra, peor será el error potencial. Para tonos puros continuos es fácil demostrar, por ejemplo, una sub-lectura de 3 dB para un tono desafortunadamente desfasado a un cuarto de la frecuencia de muestreo. Sin embargo, la mayoría de las señales de audio digital no contienen energía significativa a esta frecuencia (porque los filtros antialiasing la excluyen en gran medida en el punto de conversión D/A y porque los sonidos "reales" no suelen estar dominados por frecuencias altas continuas). Los tonos continuos que no se acercan a factores enteros bajos de la frecuencia de muestreo no se leen por debajo en los medidores de pico-muestra porque la frecuencia de batido (la diferencia entre n.ftone y fs ) es alta comparada con el recíproco de la tasa de decaimiento del medidor. En otras palabras, el instante de muestreo está lo suficientemente cerca del verdadero pico del tono como para que el medidor no subestime. Sin embargo, en el caso de los transitorios individuales, este mecanismo no oculta las lecturas por debajo de lo normal, por lo que cuanto mayor sea el contenido de frecuencia del transitorio, mayor será la posible lectura por debajo de lo normal. En el sonido "real" es normal que se produzcan transitorios con un contenido significativo de altas frecuencias, y la infravaloración de estos transitorios puede ser de varios dB. Como los sonidos reales suelen tener un espectro que cae hacia frecuencias más altas, y como esto no cambia con el aumento de la frecuencia de muestreo, la infravaloración del medidor de picomuestra es menos grave a frecuencias de muestreo originales más altas. ¿Cuál es la solución? Para medir el valor de pico real de una señal muestreada es necesario "sobremuestrear" (o "sobremuestrear") la señal, esencialmente recreando la señal original entre las muestras existentes, y aumentando así la frecuencia de muestreo de la señal. Esta propuesta suena dudosa: ¿cómo recrear una información que parece ya perdida? De hecho, la teoría del muestreo demuestra que podemos hacerlo, porque sabemos que la señal muestreada no contiene frecuencias superiores a la mitad de la frecuencia de muestreo original. ¿Qué proporción de sobremuestreo es necesaria? Para averiguarlo, debemos responder a un par de preguntas: -¿Cuál es el error máximo aceptable de lectura por defecto? Rec. ITU-R BS.1770-4 20 -¿Cuál es la relación entre la frecuencia más alta que debe medirse y la frecuencia de muestreo (la "frecuencia normalizada" máxima)? Si conocemos estos criterios, es posible calcular la relación de sobremuestreo que necesitamos (incluso sin considerar todavía el detalle de la implementación del sobremuestreo) mediante un método directo de "papel cuadriculado". Basta con considerar qué submuestreo resultaría de un par de muestras a la velocidad de sobremuestreo que se produjeran simétricamente a ambos lados del pico de una sinusoide a nuestra frecuencia normalizada máxima. Este es el "peor caso" de submuestreo. Por tanto, para: relación de sobremuestreo, n frecuencia máxima normalizada, fnorm frecuencia de muestreo, fs podemos verlo: el periodo de muestreo a la velocidad de sobremuestreo es 1/n.fs el periodo de la frecuencia máxima normalizada es 1/fnorm .fs Así que..: la máxima sub-lectura (dB) es 20.log(cos(2.π.fnorm .fs /n.fs .2)) (2 en el denominador, ya que podemos perder un pico por un máximo de la mitad del periodo de sobremuestreo) o: sub-lectura máxima (en dB) = 20.log(cos(π.fnorm /n)) Esta ecuación se utilizó para construir la siguiente Tabla, que probablemente cubre el rango de interés: Relación de sobremuestreo Infravaloración (dB) máxima fnorm = 0,45 Infravaloración (dB) máxima fnorm = 0,5 4 0.554 0.688 8 0.136 0.169 10 0.087 0.108 12 0.060 0.075 14 0.044 0.055 16 0.034 0.042 32 0.008 0.010 ¿Cómo debe implantarse un contador de picos reales? La operación de sobremuestreo se realiza insertando muestras de valor cero entre las muestras originales para generar un flujo de datos a la velocidad de sobremuestreo deseada, y aplicando a continuación un filtro de "interpolación" de paso bajo para excluir las frecuencias por encima del máximo deseado fnorm . Si ahora operamos el algoritmo de pico-muestreo sobre la señal sobremuestreada, tenemos un medidor de pico verdadero con la sub-lectura máxima deseada. Es interesante considerar la implementación de un sobreamplificador de este tipo. Es habitual implementar este filtro de paso bajo como un FIR simétrico. Cuando estos filtros se utilizan para pasar audio de alta calidad, por ejemplo en convertidores D/A de sobremuestreo (a la antigua usanza) o en convertidores de frecuencia de muestreo, es necesario calcular un gran número de 21 Rec. ITU-R BS.1770-4 "taps" para mantener una ondulación muy baja de la banda de paso y lograr una atenuación extrema de la banda de parada y una banda de transición estrecha. También hay que mantener una gran longitud de palabra para preservar el rango dinámico y minimizar la distorsión. Sin embargo, dado que no vamos a escuchar la salida de nuestro sobremuestreador, sino que sólo lo vamos a utilizar para mostrar una lectura o manejar un gráfico de barras, probablemente no tengamos los mismos requisitos de precisión. Mientras la ondulación de la banda de paso, junto con la adición de componentes espurios de la banda de parada, no degrade la precisión de la lectura más allá de nuestro objetivo, estaremos satisfechos. Esto reduce considerablemente el número de derivaciones necesarias, aunque puede que sigamos necesitando una banda de transición estrecha en función de nuestro objetivo de frecuencia normalizada máxima. Del mismo modo, es posible que la longitud de la palabra sólo tenga que ser suficiente para garantizar nuestra precisión objetivo hasta la parte inferior del gráfico de barras, a menos que se requiera una salida numérica precisa a bajas amplitudes. Así que es posible que un sobremuestreador adecuado (posiblemente para muchos canales) pueda implementarse cómodamente en un DSP o FPGA ordinario de bajo coste, o quizá en un procesador aún más modesto. Por otra parte, los medidores de sobremuestreo se han implementado utilizando chips de sobremuestreo de alta precisión destinados al uso de convertidores D/A. Aunque esto supone un derroche de silicio y energía, los dispositivos son baratos y fáciles de conseguir. La forma más sencilla de determinar el número necesario de derivaciones y los coeficientes de derivación para una especificación de contador concreta es utilizar un programa de diseño de filtros FIR recursivos como Remez o Meteor. También puede ser un requisito en un medidor de picos excluir el efecto de cualquier CC de entrada, ya que los medidores de audio han sido tradicionalmente bloqueados por CC. Por otro lado, si estamos interesados en el valor de la señal de pico real a efectos de eliminación de sobrecargas, entonces el contenido de CC debe mantenerse y medirse. Si es necesario, la exclusión de la CC puede lograrse con baja potencia de cálculo mediante la inclusión de un filtro de paso alto IIR de bajo orden en la entrada del medidor. A veces es necesario medir la amplitud máxima de la señal tras la aplicación de algún tipo de filtro de ponderación para enfatizar los efectos de determinadas partes de la banda de frecuencias. La aplicación depende de la naturaleza del filtro de ponderación concreto. Anexo 3 Algoritmo ampliado de medición de la sonoridad para configuraciones de altavoces de sistemas de sonido avanzados 1 Ampliación para configuraciones de altavoces del sistema de sonido avanzado Esta sección especifica el algoritmo de medición objetiva de la sonoridad para configuraciones de altavoces colocados arbitrariamente del sistema de sonido avanzado. El algoritmo es una ampliación del algoritmo básico para el sistema de sonido multicanal 3/2 especificado en el anexo 1, en el que se aumenta el número de canales de entrada y se modifica la tercera etapa del algoritmo básico de la siguiente manera: Rec. ITU-R BS.1770-4 22 -suma ponderada por canal (cada canal, excepto los canales LFE, tiene un coeficiente de ponderación Gi en función de los ángulos de acimut y elevación de su posición). La figura 15 muestra un diagrama de bloques del algoritmo de medición objetiva de la sonoridad para configuraciones de altavoces del sistema de sonido avanzado especificado en la Recomendación UIT-R BS.2051. N es el número de canales de entrada, excluidos los canales LFE. Las etapas primera, segunda y cuarta del algoritmo (procedimiento de filtrado y gating) son las mismas que en el algoritmo para el formato multicanal 3/2 que es independiente de la posición del canal. FIGURA 15 Diagrama de bloques simplificado del algoritmo de medición objetiva de la sonoridad para las configuraciones de altavoces del sistema de sonido avanzado x1 x2 xn xN K- filter K- filter K- filter K- filter y1 y2 yn yN Mean square Mean square Mean square Mean square z1 z2 zn zN G1 G2 Σ Gn 10 Log 10 Gate Measured loudness GN BS. 1770 -15 El coeficiente de ponderación Gi para la posición de un canal se indica en el cuadro 4. Gi depende de la dirección de la posición del canal, especificada por el ángulo acimutal (θ) y el ángulo de elevación (φ). CUADRO 4 Ponderación de los canales en función de la posición Elevación (φ) |φ| < 30° si no Acimut (θ) |θ| < 60° 60° ≦ |θ| ≦ 120° 120° < |θ| ≦ 180° 1,00 (±0 dB) 1,41 (+1,5 dB) 1,00 (±0 dB) 1,00 (±0 dB) De acuerdo con la Tabla 4, las ponderaciones dependientes de la posición de los canales para las configuraciones de altavoces especificadas en la Recomendación UIT-R BS.2051 se definen en la Tabla 5. 23 Rec. ITU-R BS.1770-4 CUADRO 5 Ponderaciones dependientes de la posición para las configuraciones de altavoces especificadas en la Recomendación UIT-R BS.2051 Configuración de altavoces Etiqueta del altavoz Ponderación A B C D E F G H 0+2+0 0+5+0 2+5+0 4+5+0 4+5+1 3+7+0 4+9+0 9+10+3 X X X X X X X M+000 1.00 (±0,0 dB) M+SC 1.00 (±0,0 dB) X M-SC 1.00 (±0,0 dB) X M+030 1.00 (±0,0 dB) X X X X X X X X M-030 1.00 (±0,0 dB) X X X X X X X X M+060 1.41 (+1,5 dB) X M-060 1.41 (+1,5 dB) X M+090 1.41 (+1,5 dB) X X X M-090 1.41 (+1,5 dB) X X X M+110 1.41 (+1,5 dB) X X X X M-110 1.41 (+1,5 dB) X X X X M+135 1.00 (±0,0 dB) X X X Rec. ITU-R BS.1770-4 24 CUADRO 5 (fin) Configuración de altavoces Etiqueta del altavoz Ponderación A B C D E F G H 0+2+0 0+5+0 2+5+0 4+5+0 4+5+1 3+7+0 4+9+0 9+10+3 X X X M-135 1.00 (±0,0 dB) M+180 1.00 (±0,0 dB) X U+000 1.00 (±0,0 dB) X U+030 1.00 (±0,0 dB) X X X U-030 1.00 (±0,0 dB) X X X U+045 1.00 (±0,0 dB) X X X U-045 1.00 (±0,0 dB) X X X U+090 1.00 (±0,0 dB) X U-090 1.00 (±0,0 dB) X U+110 1.00 (±0,0 dB) X X X U-110 1.00 (±0,0 dB) X X X U+135 1.00 (±0,0 dB) X U-135 1.00 (±0,0 dB) X U+180 1.00 (±0,0 dB) X UH+180 1.00 (±0,0 dB) T+000 1.00 (±0,0 dB) B+000 1.00 (±0,0 dB) B+045 1.00 (±0,0 dB) X B-045 1.00 (±0,0 dB) X X X X ______________ X