Télévision Haute Définition TVHD : Techniques et Formats

T E C H N O LO G I E S D E L' I N F O R M AT I O N Ti383 - Le traitement du signal et ses applications Télévision haute déinition TVHD Réf. Internet : 42498 Actualisation permanente sur www.techniques-ingenieur.fr Tec h n ique s de l ’I n gé ni eur La plus impor tante ressource documentaire scientifique et technique en français Une information fiable, claire et actualisée Validés par un comité scientifique et mis à jour en permanence sur Internet, les articles Techniques de l’Ingénieur s’adressent à tous les ingénieurs et scientifiques, en poste ou en formation. Outil d’accompagnement de la formation et de la carrière des ingénieurs, les ressources documentaires Techniques de l’Ingénieur constituent le socle commun de connaissances des acteurs de la recherche et de l’industrie. Les meilleurs experts techniques et scientifiques Plus de 200 conseillers scientifiques et 3 500 auteurs, industriels, chercheurs, professeurs collaborent pour faire de Techniques de l’Ingénieur l’éditeur scientifique et technique de référence. Les meilleurs spécialistes sont réunis pour constituer une base de connaissances inégalée, vous former et vous accompagner dans vos projets. Une collection 100 % en ligne • Accessibles sur www.techniques-ingenieur.fr, les dernières nouveautés et actualisations de votre ressource documentaire • Les articles téléchargeables en version PDF Des services associés Rendez-vous sur votre espace « Mon compte » en ligne pour retrouver la liste des services associés à vos droits d’accès et les utiliser.  Des services associés Pour toute information, le service clientèle reste à votre disposition : Tél : 01 53 35 20 20 l Fax : 01 53 26 79 18 l Mail : infos.clients@teching.com III Cet ouvrage fait par tie de Le traitement du signal et ses applications (Réf. Internet ti383) composé de : Traitement du signal : bases théoriques Réf. Internet : 42295 Radiolocalisation Réf. Internet : 42297 Captation et restitution des images Réf. Internet : 42353 Captation et restitution des sons Réf. Internet : 42618 Télévision haute définition TVHD Réf. Internet : 42498 Diffusion - distribution des images et du son Réf. Internet : 42507 Formats et gestion des données audio et vidéo Réf. Internet : 42300 Réalité virtuelle Réf. Internet : 42299  Sur www.techniques-ingenieur.fr • Saisissez la référence Internet pour accéder directement aux contenus en ligne • Retrouvez la liste complète des ressources documentaires IV Cet ouvrage fait par tie de Le traitement du signal et ses applications (Réf. Internet ti383) dont les exper ts scientifiques sont : François LE CHEVALIER Directeur scientifique à Thalès systèmes aéroportés, Professeur à l'université de Delft Jacques JOUHANEAU Professeur, ancien titulaire de la chaire d'Acoustique du CNAM Jean-Noël GOUYET Ingénieur en techniques numériques Broadcast et multimédia, Ancien chargé d'études à la Direction de la Recherche de l'Institut National de l'Audiovisuel (INA) Philippe FUCHS Professeur à l'École Mines Paristech  Sur www.techniques-ingenieur.fr • Saisissez la référence Internet pour accéder directement aux contenus en ligne • Retrouvez la liste complète des ressources documentaires V Les auteurs ayant contribué à cet ouvrage sont : Bernard FOUQUET Pour l’article : TE5685 Jacques GAUDIN Pour les articles : TE5680 – TE5682 Jean-Noël GOUYET Pour les articles : TE5674 – TE5680 – TE5681 – TE5682 – TE5683 – TE5676 Marc LEGER Pour les articles : TE5682 – TE5676 Francis MAHIEU Pour les articles : TE5680 – TE5681 – TE5684 – TE5676 Jean-José WANEGUE Pour l’article : TE5683  Sur www.techniques-ingenieur.fr • Saisissez la référence Internet pour accéder directement aux contenus en ligne • Retrouvez la liste complète des ressources documentaires VI Télévision haute définition TVHD (Réf. Internet 42498) SOMMAIRE 1– Techniques de restitution Réf. Internet page Images haute déinition : entre cinéma numérique et télévision HD TE5674 2– Techniques de difusion Réf. Internet page Télévision haute déinition (TVHD). Formats natifs, paramètres, normes, conversion TE5680 19 Télévision haute déinition (TVHD). Formats de compression. Formats-conteneurs TE5681 29 Télévision haute déinition (TVHD). Captation. Montage TE5682 35 Télévision haute déinition (TVHD). Difusion. Distribution TE5683 39 Télévision haute déinition (TVHD). Aichage. Qualité TE5684 45 Télévision haute déinition (TVHD). Son multicanal TE5685 51 Télévision en relief stéréoscopique. Principe, production et formats TE5676 55  11 Sur www.techniques-ingenieur.fr • Saisissez la référence Internet pour accéder directement aux contenus en ligne • Retrouvez la liste complète des ressources documentaires VII  Sur www.techniques-ingenieur.fr • Saisissez la référence Internet pour accéder directement aux contenus en ligne • Retrouvez la liste complète des ressources documentaires Télévision haute définition TVHD (Réf. Internet 42498) Ｑ 1– Techniques de restitution Réf. Internet page Images haute déinition : entre cinéma numérique et télévision HD TE5674 11 2– Techniques de difusion  Sur www.techniques-ingenieur.fr • Saisissez la référence Internet pour accéder directement aux contenus en ligne • Retrouvez la liste complète des ressources documentaires ＹＱＱＰｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＷＴ Images haute définition : entre cinéma numérique et télévision HD Ｑ par Jean-Noël GOUYET Ingénieur en techniques numériques Broadcast et multimédia Ancien chargé d’études à la Direction de la Recherche de l’Institut National de l’Audiovisuel (INA) 1. 1.1 1.2 1.3 1.4 2. 2.1 Paramètres des images haute définition, vidéo et film ................ Paramètres de numérisation ...................................................................... 1.1.1 Paramètres d’échantillonnage des images vidéo et film................. 1.1.2 Paramètres de quantification............................................................. 1.1.3 Poids des images numériques haute définition............................... Rapports de formats d’image ..................................................................... 1.2.1 Formats des images-source film ou vidéo ....................................... 1.2.2 Conversion des formats cinéma en formats télévision................... Paramètres de niveaux de gris et de couleur............................................ 1.3.1 Contraste et dynamique..................................................................... 1.3.2 Courbe de transfert............................................................................. 1.3.3 Palette de couleurs ............................................................................. Comparaison des paramètres film – vidéo................................................ 2.4 Standards et normes............................................................................... Standards et normes de HDTV ................................................................... 2.1.1 ATSC .................................................................................................... 2.1.2 Standards SMPTE............................................................................... 2.1.3 Norme internationale ITU-R BT.709-5 ............................................... 2.1.4 Interface numérique de liaison série vidéo HD-SDI......................... 2.1.5 Format d’échange de fichiers MXF.................................................... Standards et normes de cinéma numérique............................................. 2.2.1 Enjeux et acteurs de la normalisation............................................... 2.2.2 Format de fichier film numérique DPX ............................................. 2.2.3 Digital Cinema Distribution Master DCDM....................................... Représentation en format de fichiers de données ou en format vidéo numérique ? ................................................................................................. 2.3.1 Comparaison des représentations .................................................... 2.3.2 Inconvénients des deux types de représentation ............................ Réduction de débits images numériques HD............................................ 3. Conclusion ................................................................................................. 2.2 2.3 Pour en savoir plus ........................................................................................... TE 5 674 - 3 — 3 — 3 — 8 — 9 — 9 — 9 — 10 — 12 — 12 — 12 — 12 — 12 — — — — — — — — — — — 13 13 13 13 14 14 14 14 14 16 17 — — — — 17 17 19 20 — 20 Doc. TE 5674 es images haute définition sont souvent assimilées à celles de la télévision haute définition naissante (TVHD). Or, le cinéma depuis 100 ans offre, avec la pellicule film, des images animées d’une finesse de détail inégalée. De plus, l’infographie (production d’images par informatique) depuis le début des années 1980, ainsi que la CAO (conception assistée par ordinateur) génèrent des images d’une grande définition. D’autres domaines comme ceux de l’imagerie médicale, scientifique ou militaire produisent également de telles images. La télévision HD, initiée au milieu des années 1980 en analogique par les japonais puis par les européens, et abandonnée ensuite, ne démarrera vraiment qu’avec le projet de télévision numérique aux États-Unis. Ce processus aboutira à des normes internationales au milieu des années 1990. ｐ｡ｲｵｴｩｯｮ＠Ｚ＠ｦ￩ｶｲｩ･ｲ＠ＲＰＰＴ L Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. © Techniques de l’Ingénieur ＱＱ TE 5 674 − 1 ｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＷＴ IMAGES HAUTE DÉFINITION : ENTRE CINÉMA NUMÉRIQUE ET TÉLÉVISION HD _____________________________________________________________________ Ｑ Mais si la télévision a accompli sa révolution numérique, le cinéma n’en est qu’au début. Or à travers la mise en place d’une postproduction numérique dans les laboratoires film intégrant des images-sources film et vidéo, les expérimentations de distribution numérique dans les salles de cinéma, la distribution future de DVD HD, se pose la question soit de la convergence, soit de la co-existence de compatibilité des images produites et distribuées par la télévision HD et par le cinéma numérique. Les images « haute définition » proposées par le cinéma et la télévision sont diverses et différentes. Certes, on a vu en l’an 2000 la publication d’une norme se voulant un pont entre les deux industries, mais prenant en compte essentiellement des paramètres de la télévision HD. Des tournages en vidéo numérique HD de longs métrages, de films publicitaires, de films musicaux, et de documentaires, utilisant cette norme, ont été effectués. Mais le film numérique exige, en particulier au niveau de la production et de la postproduction, des valeurs de paramètres plus étendues, que l’industrie du cinéma devrait publier en 2004. Ce document présente les paramètres de base à prendre en compte pour la numérisation et la réduction de débit des images haute définition, rendant possibles leur captation, leur transport, leur stockage, leur émission et leur réception, dans le monde de la télévision et dans celui du cinéma. Il détaille aussi le problème de la représentation des images haute définition en format de fichier de données ou en format vidéo numérique. Puis sont exposées les normes déjà mises en œuvre en télévision HD et celles en préparation pour le cinéma numérique. Enfin, sont présentés un panorama rapide des chaînes numériques de télévision HD et de cinéma numérique et des exemples d’équipements les composant. Avant d’aborder la présentation des paramètres des images haute définition, un bref rappel des principes de base du passage de la représentation analogique à la représentation numérique des images animées est donné dans le tableau A). (0) Abréviations et acronymes ATSC Av AVC CAO CCD CD CDR CIF CMJ/CMY CRT CST D-Cinema DCDM DCI DCEN DLP DPX DVB DVD e-Cinema EBU (voir UER) EDCF EDL FCC HD (TV) TE 5 674 − 2 Abréviations et acronymes (suite) HL i i/s ISO ITU (voir UIT) l LAN LUT Advanced Television Systems Committee Acuité visuelle Advanced Video Coding Conception assistée par ordinateur Charged Coupled Device Compact Disc Common Data Rate ; débit numérique commun Common Image Format Cyan Magenta Jaune / Cyan Magenta Yellow Cathode Ray Tube Commission supérieure technique de l’image et du son Digital Cinema ; cinéma numérique Digital Cinema Distribution Master Digital Cinema Initiatives LLC D-Cinema Europa Network Digital Light Processing Digital Moving Picture eXchange Digital Video Broadcasting Digital Versatile Disc Electronic Cinema ; cinéma électronique European Broadcasting Union European Digital Cinema Forum Edit Decision List ; liste de montage Federal Communications Commission High Definition (Television) ; (télévision) haute définition MAC ML MP MPEG MTF MXF MUSE NTSC p psf PAL RAM RVB/RGB QXGA SD (TV) SDI SECAM High Level (norme MPEG-2) Interlaced ; entrelacé (analyse de l’image) Image/seconde (fréquence-image) International Organisation for Standardization International Telecommunication Union Lignes (d’analyse de l’image) Local Area Network ; réseau local, d’entreprise Look-up Table Multiplex Analog Component ; multiplexage analogique des composantes Main Level (norme MPEG-2) Main Profile (norme MPEG-2) Motion Picture Experts Group Modulation Transfer Function Media eXchange Format Multiple Sub-Nyquist Sampling Encoding National Television System Committee (USA) Progressive ; progressif (analyse de l’image) Progressive Segmented Frame Phase Alternation Line Random Access Memory ; mémoire vive Rouge Vert Bleu / Red Green Blue Quantum XGA Standard Definition (Television) ; (télévision de) définition standard Serial Digital Interface Séquentiel à mémoire Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. © Techniques de l’Ingénieur ＱＲｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＷＴ _____________________________________________________________________ IMAGES HAUTE DÉFINITION : ENTRE CINÉMA NUMÉRIQUE ET TÉLÉVISION HD 1.1.1 Paramètres d’échantillonnage des images vidéo et film Abréviations et acronymes (suite) SF SMPTE SVGA SXGA TV TVHD UER (voir EBU) UIT (voir ITU) UXGA VGA VTR WAN YCrCb XGA Segmented Frame Society of Motion Picture and Television Engineers Super VGA Super XGA Télévision Télévision haute définition Union européenne de radiotélévision Union internationale des télécommunications Ultra XGA Video Graphics Array Video Tape Recorder ; magnétoscope Wide Area Network ; réseau étendu, grande distance Composantes Luminance (Y) et Chrominance (Cr et Cb) eXtended Graphics Array (0) Les paramètres d’échantillonnage d’une image animée s’appliquent aux trois axes : horizontal (selon la largeur de l’image), vertical (selon sa hauteur) et temporel (selon son évolution dans le temps). 1.1.1.1 Définition temporelle des images animées Le cinéma et la télévision sont le domaine des « images animées », avec comme paramètre caractéristique le nombre d’images par seconde (i/s), ou fréquence-image, dont la valeur doit être suffisante pour satisfaire la propriété de persistance rétinienne de l’œil. La télévision actuelle (SDTV, Standard Definition Television) compte non pas 25 images par seconde (30 aux États-Unis et Japon), mais plutôt 50 trames (respectivement 60 aux États-Unis et Japon) comportant chacune 2 fois moins de lignes que l’imagesource (§ 1.1.1.3). Les valeurs de 50 et de 60 correspondent aux fréquences en hertz de la tension alternative du réseau électrique des pays correspondants. Ces fréquences-image/trame de base ont été conservées pour la TVHD, y compris celles utilisées pour le système de télévision couleur NTSC aux États-Unis et au Japon. En effet, pour des raisons de compatibilité entre la télévision noir/blanc et la télévision couleur NTSC, les fréquences nominales de 30 images/ 60 trames par seconde sont divisées par 1,001 produisant des fréquences-image/trame légèrement inférieures de 29,97 et 59,94 Hz. À noter que pour rendre les transferts film-NTSC compatibles, le 24 Hz du cinéma devient alors 23,97. Les fréquences d’échantillonnage de l’audio numérique de 48 kHz et 44,1 kHz deviennent respectivement 47,952 et 44,056 kHz. Tableau A – De l’analogique au numérique Avant l’avènement des techniques numériques (cf. dates-clés du cinéma numérique et de la télévision HD), l’acquisition, l’enregistrement, la transmission et la restitution des images animées s’effectuait uniquement sous forme analogique. En télévision, les paramètres de brillance et de couleur d’une scène étaient traduits par le signal électrique vidéo analogique, continu dans le temps et d’amplitude proportionnelle à l’intensité de la lumière captée par la caméra. Ce même signal vidéo était ensuite enregistré sous forme magnétique sur une bande de magnétoscope, ou même sous forme optique sur les anciens vidéodisques optiques LaserDisc (1978). En cinéma, les valeurs des informations de couleur de la scène filmée étaient traduites par des densités proportionnelles d’une émulsion chimique à 3 couches de la pellicule dans la caméra (support optique, resté unique, qui sera désigné dans la suite de l’article par « film »). La numérisation, directement dans les nouvelles caméras vidéo ou dans un numériseur film (scanner), se traduit par une représentation discontinue dans le temps et codée par un nombre de la grandeur physique lumière colorée. Ce nombre constitué de chiffres binaires 0 ou 1 est ensuite traduit en signal électrique à 2 niveaux bas ou haut, enregistrable sur une bande magnétique (de magnétoscope numérique en télévision, ou d’enregistreur informatique) ou sur un disque optique (DVD). Le numérique a donc permis une même forme de représentation des images animées en télévision ou au cinéma. Mais les valeurs des paramètres d’origine des images de ces deux médias restent différentes, et c’est ce qui est précisé dans le paragraphe 1. En cinéma muet, pour des raisons d’économie de pellicule, une fréquence de 18 images par seconde était utilisée, nettement perçue par l’œil. Avec le cinéma sonore, le 24 images par seconde a été normalisé pour augmenter la vitesse de défilement de la pellicule et donc les fréquences reproduites (la « bande passante ») du signal audio lu optiquement sur cette pellicule. Cette fréquence-image, insuffisante à la projection, est alors doublée (48 Hz), ou même triplée (72 Hz) sur les projecteurs récents de cinéma. Dans les standards et normes de TVHD et de cinéma numérique, la fréquenceimage de 24p (§ 1.1.1.3) est présentée comme format d’échange international « global » permettant d’utiliser la source universelle d’images de haute qualité que sont les films. Si cette solution est valable dans toutes les applications acceptant une définition temporelle réduite, elle ne permet pas d’obtenir une bonne reproduction des mouvements rapides (pour le sport par exemple). 1. Paramètres des images haute définition, vidéo et film 1 2 3 1.1 Paramètres de numérisation Axe optique Temps a Tout processus de numérisation s’apparente à une mesure et comporte trois étapes : l’échantillonnage ou fréquence de la mesure, la quantification ou comparaison de chaque échantillon à une échelle de mesure dont on détermine la précision, le codage ou représentation numérique de la valeur des échantillons. En ce qui concerne les images haute définition, le codage utilisé est le codage numérique binaire classique. La forme numérique permet, par le choix de la fréquence et de la précision des mesures, une maîtrise des paramètres de la qualité de cette représentation. C’est l’objet des paragraphes ci-après de détailler les paramètres d’échantillonnage et de quantification dans le cadre des images numériques « haute définition ». Ecran 3 2 1 Axe optique b Figure 1 – Axe optique de perception visuelle et mouvement [18] Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. © Techniques de l’Ingénieur ＱＳ TE 5 674 − 3 Ｑｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＷＴ IMAGES HAUTE DÉFINITION : ENTRE CINÉMA NUMÉRIQUE ET TÉLÉVISION HD _____________________________________________________________________ En informatique, la fréquence-image varie de 50 à 85 Hz (Tableau 1) Ｑ Axe optique Il faut plus d’images, pas moins ! Pour déterminer la fréquence image permettant une reproduction réaliste des mouvements, il n’y a qu’un seul critère : le niveau d’artefact, de défaut visible, doit se situer au-dessous du seuil de perception de notre système visuel. Or, selon un technologue anglais John Watkinson [17] [18], si un objet bouge dans une image, l’œil le traque, et cet objet est rendu stationnaire par rapport à la rétine. La figure 1 a montre que lorsque l’œil traque un objet sur l’écran, le spectateur l’observe selon un axe optique, non selon l’axe des temps, et ces deux axes ne sont pas parallèles quand il y a mouvement. On peut définir cet axe optique de perception comme étant un axe imaginaire dans le volume spatio-temporel, qui joint les mêmes points sur un objet dans des images successives. Lorsque l’œil traque un objet sur l’image, des images successives apparaissent en différentes positions par rapport à la rétine. Si un objet traverse l’écran de gauche à droite, l’œil va le suivre, et l’écran va en fait bouger de droite à gauche par rapport à la rétine (figure 1 b). Le fond est donc présenté à la rétine avec des positions différentes à chaque image. La rétine percevant séparément chaque impression du fond, un effet gênant en résulte (background strobing). C’est pourquoi, le critère pour choisir une fréquence image suffisante est la réduction de cet effet. Les constructeurs de stations infographiques, qui utilisent des fréquences d’affichage bien au-dessus de celles du cinéma et de la télévision (50 à 120 kHz) le font pour une bonne raison : les résultats sont meilleurs ! De plus, en projetant l’image film non pas à 24 Hz (figure 2 a) mais à 48 Hz, comme il ne peut y avoir de mouvement entre les images répétées (figure 2 b), et l’œil essayant de suivre le mouvement du mieux qu’il peut, l’axe optique oscille par rapport à la rétine (figure 2 c). Les deux versions identiques d’une image apparaissent donc à des endroits différents sur la rétine. Le résultat est que l’œil perçoit une trépidation du fond (judder), défaut irritant mais toléré par habitude (le film look). Pour le réduire, on veille à ne réaliser que des panoramiques lents et l’on tourne avec une faible profondeur de champ de façon à ce que le sujet en mouvement soit net mais se déplace sur un fond flou. Les techniciens du cinéma ont intégré ces procédés par expérience, même si au début ils n’en connaissaient pas la théorie. Si le mérite du 24p est de permettre le transfert en numérique du vaste catalogue de films sans dégradation supplémentaire, la conclusion est sévère : la fréquence de 24 Hertz est inadéquate pour une présentation de haute qualité, spécialement sur grand écran. Choisir une fréquence d’image HD à 24 Hertz, c’est comme si l’on avait conservé la qualité du son 78 tours sur le CD-Audio ! La solution, c’est de monter en fréquence image. Le Showscan (film défilant à 60 images par seconde) l’a démontré : le résultat est magnifique... mais coûteux. Un format à 60 Hz (ou 75 Hz !) pourrait, et devrait, devenir le format optimal de la HD. a comment les images sont prises b comment les images sont projetées c comment l'image bouge par rapport à la rétine Figure 2 – Projection film à 48 Hz et trépidation du fond [18] souvent utilisé comme synonyme de définition, alors que ces termes sont reliés par la formule : Résolution = Définition/Dimension En télévision, la définition d’une image s’obtient en multipliant le nombre de pixels par ligne (définition horizontale) par le nombre de lignes d’analyse (définition verticale). En télévision numérique de définition « standard » (SDTV, celle des bouquets numériques de télévision), la définition spatiale est de 720 pixels × 576 lignes affichables, soit 414 720 pixels par image. En télévision numérique HD (TVHD ou HDTV), c’est la définition spatiale de 1 920 pixels × 1 080 lignes qui a été retenue au niveau international (§ 2.1.3). Le but de la HDTV, quand ses paramètres furent déterminés, était d’offrir une définition spatiale double de la télévision à définition standard, soit en horizontal 2 × 720 pixels ou 1 440 pixels par ligne. Par ailleurs, la HDTV devait se rapprocher de l’expérience cinéma en offrant une image grand écran. L’augmentation en largeur de l’image du format 4/3 au format 16/9, soit un rapport de 1,33:1 (en effet, le rapport 16/9:4/3 = 1,78:1,33 = 1,33), impliquait un nombre de 1,33 × 1 440 pixels, soit 1 920 pixels par ligne. Le rapport du format d’image 16/9 combiné avec des pixels « carrés » détermine alors 1 080 pixels en définition verticale (à partir du rapport 1 920:16/9 = 1 920:1,78 = 1 080). En cinéma numérique, les numériseurs film offrent une définition horizontale dite de 2k (2 048 pixels), ou déjà de 4k (4 096 pixels), ainsi que le plus souvent la définition vidéo HD (1 920 pixels × 1 080 lignes). Les propositions de standard de fichier DCDM (Digital Cinema Distribution Master, § 2.2.3) prévoient plusieurs niveaux de définition. L’industrie informatique a développé une série de définitions d’affichage (tableau 1), utilisant des pixels carrés et ne recouvrant pas exactement les formats de télévision SD et HD, ce qui pose des problèmes d’utilisation des images informatiques en télévision et vice-versa. Seul le format QXGA est identique au format film 2k (2 048 × 1 556), car pour un film 35 mm la surface d’image habituellement scannée correspond à 2 048 × 1 536 pixels ; les 20 lignes supplémentaires du bandeau noir séparant 2 images successives ne transportant de l’information d’image que si l’obturateur reste ouvert lors du tournage. 1.1.1.2 Définition spatiale des images Si l’on considère le cinéma et la télévision comme une suite d’images fixes, un autre paramètre est la finesse de détails de l’image ou définition spatiale. La définition est la « qualité d’un support d’information mesurée en nombre d’éléments significatifs ». Par extension, c’est la qualité de l’information codée sur ce support exprimée en nombre d’informations élémentaires. Pour une image, elle s’exprime en nombre de pixels (picture elements, ou pels), ou nombre de points constituant l’image. La figure 3 compare les différentes résolutions des images SDTV, HDTV et film 2k ou 4k à résolution égale. La figure 4 compare les résolutions d’images SDTV et HDTV, à hauteur d’image égale, ainsi que la taille respective de leurs pixels. La résolution s’exprime en points, ou traits ou lignes par unité de mesure du système d’acquisition (scanner, pellicule) ou de reproduction (imprimante, affichage). Ce terme est malheureusement TE 5 674 − 4 Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. © Techniques de l’Ingénieur ＱＴｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＷＴ _____________________________________________________________________ IMAGES HAUTE DÉFINITION : ENTRE CINÉMA NUMÉRIQUE ET TÉLÉVISION HD 4 096 Film 4k Ｑ 2 048 Film 2k 3 072 (1,33:1) 1 920 1 080-HD 1 536 (1,33:1) 720 576-SD 576 640 480-SD 480 1 080 1 280 720-HD 720 Figure 3 – Comparaison des définitions des images (à résolution égale) [1] HD, 2k ou 4k : quelle définition est assez haute ? La référence est celle de la qualité du film 35 mm. Une mesure reconnue de la résolution spatiale du film est sa MTF, ou Modulation Transfer Function, similaire à la réponse en fréquence des images électroniques. Pour l’évaluer le film est exposé à des images test comprenant des mires sinus avec des barres de fréquence croissante. Les résultats sur le film développé sont obtenus en mesurant sa densité et s’expriment en amplitude de modulation en fonction du nombre de cycles/mm. Mais il y a une grande différence entre ce qui est capté sur le film négatif de la caméra et ce qui est projeté dans les salles de cinéma – spécialement si le positif, ou copie d’exploitation, en est à sa 100e ou 200e projection, avec rayures, poussière... (figure 5). On applique un modèle spécifique aux matrices CCD des caméras électroniques, prenant en compte la taille de la surface des cellules de détection et la taille spatiale du modèle de modulation. La figure 6 représente la MTF théorique d’une image film 35 mm au format Academy, scanné, avec une sélection de résolutions de 1 500 à 4 000 pixels sur la largeur de l’image de la pellicule film (le nombre de cellules de la barrette du capteur CCD). Mais divers facteurs rendent cette réponse réelle inférieure à cette réponse théorique. Elle dépend aussi de la longueur d’onde, étant généralement meilleure dans le bleu et moins bonne vers le rouge. Il en résulte que la réponse globale du système, incluant caméra, pellicule, CCD et objectif du scanner (figure 7) ne présente pas de si grand écart aux différentes résolutions. Il serait donc économiquement justifié d’utiliser la définition vidéo HD de 1 920 pixels par ligne. Toutefois un réel désavantage en est la définition verticale associée de 1 080 lignes, avec le rapport de format d’image de 16/9 soit 1,78 – tandis que le film Academy de rapport d’image 1,316:1 scanné en 2k (2 048 × 1 556) bénéficie d’une définition verticale de 50 % supérieure. SDTV (480i ; 4/3) HDTV (1 080i ; 16/9) Ces deux photos sont données à titre comparatif, la définition des images étant altérée par la reproduction Figure 4 – Comparaison des résolutions et des pixels des images SDTV – HDTV (à hauteur d’image égale) http://www.satellite.co.jp/hdtv.html (0) Tableau 1 – Définitions d’affichage numérique [10] Type Définition Rapport du FréquenceMégapixels (x · y pixels) format d’image image (Hz) VGA SVGA XGA SXGA UXGA 640 × 480 800 × 600 1 024 × 768 1 280 × 1 024 1 600 × 1 280 0,31 0,48 0,79 1,31 2,05 4/3 4/3 4/3 4/3 5/4 60 72 60 60 - 85 75 QXGA 2 048 × 1 536 3,15 4/3 75 L’utilisation d’une définition de 4k (4 096 × 3 112) se justifie pour les travaux d’effets spéciaux, qui nécessitent une grande attention aux détails très fins et un insert invisible avec les plans du film négatif original. Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. © Techniques de l’Ingénieur ＱＵ TE 5 674 − 5 ＱＱＶ Télévision haute définition TVHD (Réf. Internet 42498) Ｒ 1– Techniques de restitution 2– Techniques de difusion Réf. Internet page Télévision haute déinition (TVHD). Formats natifs, paramètres, normes, conversion TE5680 19 Télévision haute déinition (TVHD). Formats de compression. Formats-conteneurs TE5681 29 Télévision haute déinition (TVHD). Captation. Montage TE5682 35 Télévision haute déinition (TVHD). Difusion. Distribution TE5683 39 Télévision haute déinition (TVHD). Aichage. Qualité TE5684 45 Télévision haute déinition (TVHD). Son multicanal TE5685 51 Télévision en relief stéréoscopique. Principe, production et formats TE5676 55  Sur www.techniques-ingenieur.fr • Saisissez la référence Internet pour accéder directement aux contenus en ligne • Retrouvez la liste complète des ressources documentaires ＱＷＲＱＸｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＰ Télévision haute définition (TVHD) Formats natifs, paramètres, normes, conversion Ｒ par Jacques GAUDIN Diplômé de l’École nationale supérieure Louis Lumière Responsable de la filière Image des formations de l’Institut national de l’audiovisuel (Ina SUP) Jean-Noël GOUYET Ingénieur-formateur en techniques et systèmes numériques télévision et multimédia Ancien chargé d’études à la Direction de la Recherche de l’Ina et Francis MAHIEU Formateur en techniques Vidéo numérique à Ina SUP TE 5 680 - 2 1. Historique et domaines........................................................................... 2. 2.1 2.2 2.3 2.4 2.5 2.6 Formats et paramètres natifs de la vidéo numérique HD ............. Colorimétrie (ce qui est mesuré... et reproduit) ........................................ Échantillonnage (nombre de mesures) ...................................................... Quantification (précision de la mesure) ..................................................... Codage (représentation des résultats de mesure) .................................... Comparaison de paramètres....................................................................... Au-delà de la TVHD ...................................................................................... — — — — — — — 3 4 10 18 20 20 23 3. 3.1 3.2 3.3 Normes ........................................................................................................ ATSC ............................................................................................................. SMPTE 274M et 296M.................................................................................. ITU-R BT 709................................................................................................. — — — — 24 24 24 25 4. 4.1 4.2 Conversion de paramètres natifs......................................................... SD ↔ HD........................................................................................................ Conversion HD ↔ film.................................................................................. — — — 28 28 30 5. Conclusion.................................................................................................. — 34 Pour en savoir plus ........................................................................................... Doc. TE 5 680 es images haute définition (HD) sont maintenant proposées par la télévision, c’est la TVHD (télévision haute définition). Initiée en analogique au milieu des années 1980 par les Japonais, puis par les Européens, provisoirement abandonnée, la TVHD ne redémarrera vraiment qu’avec le projet de télévision numérique aux États-Unis. Ce processus aboutira à des normes internationales au milieu des années 1990. Ce dossier constitue non seulement une mise à jour du dossier [TE 5 674] paru en février 2004 « Images haute définition : entre cinéma numérique et télévision HD », mais le complète par une présentation fonctionnelle et technique détaillée de toute la chaîne de télévision HD. Il est composé de trois parties : – une première partie concerne les formats. Dans ce 1er document [TE 5 680], sont décrits les paramètres natifs des images produites par la TVHD et les normes correspondantes. Le document suivant [TE 5 681] détaille les ｐ｡ｲｵｴｩｯｮ＠Ｚ＠｡ｯ￻ｴ＠ＲＰＱＰ L Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＱＹ TE 5 680 – 1 ｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＰ TÉLÉVISION HAUTE DÉFINITION (TVHD) _________________________________________________________________________________________________ Ｒ formats de compression, permettant de réduire le débit de la vidéo numérique HD, rendant ainsi possible la captation, le transport, le stockage, l’émission et la réception des images HD, dans le monde de la télévision. Il présente aussi le problème de l’encapsulation des images HD en format-conteneur de fichier de données ou en format de transport ; – une 2e partie, composée de trois documents, exposera les principales fonctions de captation/enregistrement, de montage [TE 5 682], de diffusion et de distribution [TE 5 683], d’affichage et d’évaluation de la qualité des images HD [TE 5 684], « from glass to glass », depuis le verre de l’objectif de la caméra jusqu’au verre de l’écran plat ; – la 3e partie mettra en relief une composante importante de la TVHD, le son multicanal [TE 5 685]. De nombreux termes et le texte de certaines figures ont été conservés en anglais, de manière à faciliter la lecture et l’utilisation de documents techniques. Pour permettre une lecture autonome de chaque document du dossier, une liste d’abréviations et d’acronymes est incluse à la fin de chacun (cf. tableau 13). De nombreuses références [indexées entre crochets dans le corps du texte], ainsi que des listes de normes, standards et recommandations [également indiqués entre crochets dans le corps du texte] ainsi que des organismes correspondants, sont jointes dans le document « Pour en savoir plus » [Doc. TE 5 680]. Les figures de ce dossier sont consultables en couleurs dans la version électronique en ligne. 1. Historique et domaines spécifiés dans la norme ITU-R BT 709, dès 1993 dans sa première version (§ 3.3) ; – en Europe, il faudra attendre le lancement le 1er janvier 2004 de la chaîne HD1 d’Euro1080 sur la base des systèmes de diffusion DVB, cela dans un contexte de prises de position de l’UER (Union Européenne de Radio-Télévision) concernant certains paramètres. En France, ce sera 2006 pour la TVHD sur satellite, câble et ADSL, et octobre 2008 sur la TNT. Quelques points de repère de l’histoire de la télévision haute définition sont présentés. Tout commence avec les systèmes analogiques, qui représentent l’information lumineuse des images captées par un signal électrique continu et proportionnel : – de 1949 à 1984, la 1re chaîne de télévision en France émettait des programmes en noir et blanc sur 819 lignes (737 lignes visibles d’image), au lieu des 625 ou 525 lignes des autres systèmes ; – développé dès 1979 par la télévision japonaise NHK, le système de TVHD analogique MUSE (Multiple Sub-Nyquist Encoding system) permettait de diffuser des programmes avec 1 035 lignes actives (1 125 total) au Japon jusqu’à fin 2007 ; – en 1986, basé sur le système hybride MAC (Multiplexed Analog Components), analogique mais utilisant des techniques numériques, le HD-MAC est proposé comme norme européenne et permettra en 1992 de diffuser expérimentalement les Jeux Olympiques d’Albertville puis de Barcelone. Il est abandonné en 1993 au démarrage du projet européen de diffusion de télévision numérique DVB (Digital Video Broadcasting). Les images vidéo haute définition sont destinées au départ à la TVHD. Mais d’autres domaines sont concernés (cf. figure 1) : Cinéma numérique « HD+ » Le développement de la TVHD numérique : – il fut initié en 1990 aux États-Unis, avec en particulier la formation en 1993 sur ordre de la FCC (Federal Communications Commission ) d’un consortium, la Digital HDTV Grand Alliance, et des tests de systèmes concurrents jusqu’en août 1994. Le standard de diffusion ATSC/A/53 (§ 3.1) de l’ATSC (Advanced Television Systems Committee) fut publié en 1995, ainsi que le standard de codage SMPTE 274M (§ 3.2), suivi du SMPTE 296M en 1997 (§ 3.3). La première diffusion publique a eu lieu en juillet 1996, puis le lancement du système en octobre 1998 ; – en parallèle, en 1993, un groupe de travail du secteur radiocommunication de l’Union internationale des télécommunications, UITR ou ITU-R (International Telecommunication Union) recherche un consensus autour de paramètres communs de codage, qui seront TE 5 680 − 2 Films cinéma Publicités Courts métrages Téléfilms Documentaires haut de gamme HDTV Programmes TV Reportages Vidéo HD Production à coût réduit Semi-pro Grand public Figure 1 – Domaines des images haute définition Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. − © Editions T.I. ＲＰｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＰ _________________________________________________________________________________________________ TÉLÉVISION HAUTE DÉFINITION (TVHD) Les formats natifs numériques des images vidéo, appelés aussi formats sources ou formats de production ou formats raw (que l’on pourrait traduire par brut de fonderie, c’est-à-dire issus des capteurs) ou formats non compressés, sont issus du codage, de la représentation numérique à la source (caméra vidéo numérique) de l’information physique image (intensité lumineuse réfléchie par la scène). Ces formats natifs, représentant l’information sous forme discontinue dans le temps et codée, sont spécifiés par des paramètres normalisés. Ils sont représentatifs de la qualité native des images en amont de la chaîne, par exemple dans le studio de production de télévision numérique. Tout processus de numérisation s’apparente à une mesure, dont les paramètres sont associés aux réponses à quatre questions : qu’est-ce-que je mesure ? Combien de mesures j’effectue ? Avec quelle précision ? Comment je représente le résultat ? Il en résulte les paramètres suivants : – la grandeur physique mesurée représentative de l’information (par exemple, intensité lumineuse réfléchie par la scène) ; – la fréquence d’échantillonnage ou fréquence de la mesure ; – le nombre d’échelons de mesure ou quantification, définissant la précision de la mesure ; – la loi de quantification (linéaire, logarithmique...) ; – le nombre d’échelons induit la quantité de bit (binary digits, ou chiffres binaires) à utiliser pour « numéroter » chaque échelon et ainsi attribuer une valeur à l’échantillon mesuré – on parle de profondeur de codage ; – le code utilisé pour représenter la valeur des échantillons dans le système numérique binaire (binaire pur, binaire décalé, code de Gray...). – le monde des consommateurs, des amateurs éclairés, de la production à coût réduit ; – le marché des productions haut de gamme ou même de film numérique produit grâce à des équipements vidéo numériques utilisant des paramètres de TVHD « gonflés », se rapprochant des paramètres natifs du Cinéma numérique, D-Cinema (cf. figure 26). Ce domaine, avec des paramètres supérieurs à ceux de la TVHD normalisée, est appelé « HD+ » dans la suite du dossier. 2. Formats et paramètres natifs de la vidéo numérique HD Tout média numérique ne peut être représenté, manipulé, stocké et distribué, que grâce à deux types de format (cf. figure 2) : – les formats de médias, forme sous laquelle l’information source audio et/ou visuelle est représentée, et qui peuvent être : • les formats natifs numériques issus directement des équipements de production (§ 2), • les formats de compression résultant de la réduction de la quantité de données des formats natifs [TE 5 681] ; – les formats conteneurs [TE 5 681] dans lesquels les formats de médias vont être encapsulés pour être stockés ou transportés. Métadonnées Images/Vidéo Audio Données Ceci est un texte affiché avec l'image Média source 0010000 10100011 101000100000011 0100 0011 0110 0101 Format natif numérique Format numérique de média ou/(et) Métadonnées structurelles/ descriptives Format de compression numérique Format conteneur 1 Format conteneur 2 Stockage « Tuyau » de livraison Figure 2 – Formats numériques de médias et formats conteneurs Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＲＱ TE 5 680 – 3 Ｒｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＰ TÉLÉVISION HAUTE DÉFINITION (TVHD) _________________________________________________________________________________________________ Image-source R G B Cinéma numérique Photo numérique Informatique-infographie Capteurs caméra vidéo On mesure la valeur de l'intensité lumineuse dans les composantes RGB du spectre lumineux Y CB Vidéo numérique produite On calcule : Y (luminance = valeurs niveaux de gris) + CB CR (chrominance) CB Y (luminance) CR Matriçage couleurs SD 0,564 (B-Y) 0,299 R + 0,587 G + 0,114 B 0,713 (R-Y) Matriçage couleurs HD 0,5389 (B-Y) 0,2126 R + 0,7152 G + 0,0722 B 0,6350 (R-Y) Capteurs Ｒ Matriçage colorimétrique CR « cocktail » luminance SD « cocktail » luminance HD Figure 3 – Matriçage colorimétrique en TVSD et TVHD 2.1 Colorimétrie (ce qui est mesuré... et reproduit) définition date de 1990. Cette recommandation, connue sous le nom de UIT-R BT 709, en abrégé 709, ne marque pas une rupture fondamentale avec le codage couleur vidéo numérique traditionnel, ni même réellement avec le codage couleur vidéo analogique dont il reprend le principe des composantes. Il est donc nécessaire, pour comprendre la courbe de transfert et le codage HD, de se replacer un instant dans l’historique des systèmes de télévision. En particulier, le système retenu en 1990, du point de vue de cette courbe de transfert (gamma) et du point de vue de l’espace colorimétrique, correspond à la réponse et à la colorimétrie des tubes à rayons cathodiques (CRT, Cathode Ray Tube), aujourd’hui en voie de disparition. Le principe de la télévision est d’analyser, mesurer avec les capteurs de la caméra les intensités lumineuses des couleurs primaires RGB (Red-Green-Blue, rouge-vert-bleu) de chaque point de l’image-source, ou pixel (picture element ), et de reproduire par synthèse additive la teinte correspondante sur l’écran du téléviseur. Mais avant la chaîne de transmission-diffusion, pour des raisons historiques de compatibilité de réception avec des téléviseurs noir/blanc, on calcule trois informations (par « matriçage » électronique) à partir des valeurs des grandeurs RGB : une de luminance (Y) + deux de chrominance CB et CR soit YCBCR (cf. figure 3). Ces trois grandeurs sont appelées les composantes. Dans les formats analogiques de codage couleur on trouve également les notations YIQ (en NTSC), YUV (en PAL), YDBDR (en SECAM) et parfois YPBPR . Quelles que soient les notations, ces informations de chrominance sont identiques à un facteur multiplicateur près. On peut remarquer que tous ces systèmes analogiques de télévision couleur introduisaient une forme de compression, de réduction de l’information de chrominance (en limitant particulièrement, par rapport à la luminance, la largeur de bande qui lui était allouée). Le signal vidéo, avant numérisation, et après la conversion numérique/analogique finale, au niveau de l’écran, s’établit toujours sur 1 volt crête à crête, 700 mV étant réservés, comme dans un système analogique classique, à la partie image du signal (vision) du noir au blanc (ou plus exactement du gris le plus sombre au gris le plus clair). Cette plage dynamique correspond à un système de télévision ancestral, adapté aux caméras à tubes et aux émetteurs analogiques, mais plus du tout adaptée à la plage dynamique, six à dix fois plus grande, des capteurs actuels équipant les caméras (cf. [TE 5 682] – § 1.2.2), qu’ils soient CCD (Charge-Coupled Device) ou CMOS (Complementary Metal Oxide Semiconductor ) ainsi qu’aux possibilités offertes par la télévision numérique. Les paragraphes qui suivent ont pour objet d’expliquer dans le détail les références choisies pour déterminer l’espace des couleurs mesurées [5] [8] [14]. Il faudra attendre 1998 pour que l’UIT propose dans sa recommandation UIT-R BT 1361 des « caractéristiques colorimétriques et caractéristiques connexes unifiées à l’échelle mondiale des futurs systèmes de télévision et d’imagerie » pour lesquels le dépassement de cette plage de 700 mV soit enfin envisagé (§ 2.1.6 Codage pour colorimétrie élargie xvYCC ). 2.1.1 Origines du codage couleur en TVHD La première mouture du codage couleur proposé par l’UIT (Union Internationale des Télécommunications), ou ITU (International Telecommunication Union) pour la télévision haute- TE 5 680 – 4 Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＲＲｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＰ _________________________________________________________________________________________________ TÉLÉVISION HAUTE DÉFINITION (TVHD) Jaune (Yellow) Vert (Green) 100 % gamma caméra Blanc (White) Signal vidéo Cyan 50 % pente de 4,5 u nd e rb de re Rouge (Red) u co Ｒ 20 % Noir (Black) gamma CRT Bleu (Blue) 0% 0% Éclairement Magenta Figure 5 – Cube colorimétrique additif et effet de la correction de gamma sur l’axe achromatique [5] 100 % techniciens vidéo ont pris l’habitude, depuis les tous débuts de la télévision, de décoller légèrement le niveau de noir pour retrouver des informations suffisantes dans ce pied de courbe ; – le gris neutre (18 %) est sensiblement ramené au centre du cube colorimétrique (cf. figure 5). Les basses lumières sont donc particulièrement bien représentées, 50 % du signal (350 mV) étant réservé à 20 % du signal correspondant aux basses lumières ou shadow area. L’ensemble du signal RGB est cependant distordu, ce qui peut poser des problèmes lors de détection de couleurs (pour l’incrustation, par exemple). Figure 4 – Courbe de gamma standard HD [5] 2.1.2 Courbe de gamma TVHD [5] [9] Du point de vue courbe de transfert, la télévision HD est, à la sortie de l’équipement de captation, un système non linéaire. Dans les premiers systèmes de télévision, dans les années 1930, cette non-linéarité était destinée à compenser la courbe caractéristique des tubes cathodiques des téléviseurs, pilotés par une électronique rudimentaire. Cette courbe, caractérisant la luminance L obtenue en fonction de la tension V appliquée, est de la forme L = k1Vγ (cf. figure 4 – courbe inférieure). Une valeur moyenne de gamma γ = 2,2 fut retenue pour un tube cathodique regardé dans une lumière ambiante correspondant à la valeur moyenne d’un intérieur domestique. La recommandation UIT-R BT 709-5 définit la conversion optoélectronique (étage analogique) pour la TVHD de la manière suivante, pour les trois signaux RGB (cf. figure 4) : Soient E la tension d’entrée et E′ la tension de sortie en volts : Si 0 ⭐ E < 0,018 alors E ′ = E × 4,5 Comme il n’était pas question de situer cette correction de gamma au niveau des récepteurs, une compensation de gamma de Si 0,018 ⭐ E ⭐ 1 alors E ′ = 1,099 × E 0,45 − 0,099 la forme V = Va1/ γ , avec Va = tension du signal vidéo en sortie du tube d’analyse, fut donc fixée à 1/2,2 soit 0,45 (cf. figure 4 – courbe supérieure) pour les télécinémas et les caméras de télévision. Les signaux des primaires corrigés en gamma sont alors notés Rⴕ, Gⴕ et Bⴕ. Le rendu final, au niveau du tube du téléviseur, était ainsi linéaire sans intervention d’aucune correction au niveau du récepteur : Cette correction de gamma est aussi celle qui a été retenue pour l’espace sRGB destiné à l’informatique, ce qui constitue un pont entre les deux technologies. Pour des applications de cinéma numérique ou pour définir un rendu caméra spécifique, les caméras HD les plus perfectionnées permettent l’utilisation de gammas spécifiques ([TE 5 682] – § 1.3) qui peuvent au besoin être exportés pour l’affichage et l’étalonnage en postproduction sous forme de LUT (Look Up Table). Ces gammas permettent d’améliorer parfois considérablement le rendu de l’image dans les hautes lumières, traditionnel point faible des images électroniques. L = k1(Va1/ γ )γ = k1(V 0a,45 )2,2 = k1Va = kE avec L E luminance de l’écran, éclairement de la scène (cf. figure 4 – courbe médiane). L’utilisation de cette compensation de gamma avec un exposant 0,45 n’est pas sans conséquences : – cette compensation de gamma n’est plus adaptée aux écrans plats actuels. Ces écrans doivent donc inclure des composants CMS (Color Management System ) destinés à émuler au mieux le gamma 2,2 défini pour les tubes ; – cet exposant correspond à un gain variable du noir au blanc (de 0 à 700 mV), les basses lumières (noirs) étant donc particulièrement bruitées ; – pour la partie basse du signal, l’application pure et simple de cet exposant correspondrait à une pente verticale, donc à un gain infini, donc à un bruit infini. Il est donc nécessaire, sur tout système vidéo, de limiter la pente du pied de courbe. Pour compenser ce fait, les 2.1.3 Espace RGB en TVHD L’espace RGB défini pour la télévision haute-définition est sensiblement proche de l’espace défini par l’EBU (European Broadcasting Union) et a été conçu, à cette époque, pour des technologies d’écran à tube. Les coordonnées des primaires et celles du blanc de référence dans l’espace XYZ de la CIE 1931 (Commission internationale de l’éclairage) sont définies ainsi (cf. tableau 1 et figure 6). L’espace colorimétrique défini sous le nom de sRGB pour l’informatique est identique, à la lumière ambiante prêt, ce qui constitue, là encore, un pont entre les deux univers. Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＲＳ TE 5 680 – 5 ｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＰ TÉLÉVISION HAUTE DÉFINITION (TVHD) _________________________________________________________________________________________________ Tableau 1 – Coordonnées primaires dans l’espace XYZ Ｒ X 0, 412 0, 358 0,180 R709 Y = 0, 213 0, 715 0, 072 × G709 Z 0, 019 0,119 0, 950 B709 Points X Y R 0,640 0,330 G 0,300 0,600 La valeur Y, dont la somme des coefficients est égale à 1, représente la luminance (cf. figure 3) : B 0,150 0,060 Y = 0,213 R + 0,715 G + 0,072 B White D65 0,3127 0,3290 2.1.4 Codage composantes de la TVHD Remarque Par rapport au standard EBU, le déplacement du point vert, pour le rapprocher du pic de la sensibilité spectrale de l’œil (555 nm) permet d’améliorer la luminance des tubes. Seuls les écrans plasma mais surtout les écrans LCD rétro-éclairés à LED peuvent respecter, et même dépasser, cet espace conçu à l’origine pour les luminophores des CRT. 2.1.4.1 Codage standard Lorsqu’au début des années 1950, la FCC (Federal Communications Commission) nord-américaine a défini le tout premier système de télévision couleur opérationnel aux États-Unis, le NTSC (National Television System Committee), l’idée retenue à l’époque fut de transformer le signal RGB en un système TeinteSaturation-Luminance (Hue, Saturation, Luma) seul système capable d’assurer une compatibilité avec la réception par la majorité des téléviseurs d’une image en noir et blanc. L’ensemble TeinteSaturation constitue le signal de Chrominance, les récepteurs en noir et blanc ne décodant que le seul signal de Luminance. Les matrices de passage de l’espace RGB 709 vers l’espace CIE XYZ 1931 pour l’observateur standard avec l’illuminant standard D65 peuvent se définir ainsi (cf. figure 6) : y 525 NTSC 550 5 EBU 500 709 575 600 D65 * * C 62 25 650 475 450 0 425 x Figure 6 – Espaces colorimétriques (gamut) comparés NTSC, EBU et ITU BT 709 [5] TE 5 680 – 6 Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＲＴｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＰ _________________________________________________________________________________________________ TÉLÉVISION HAUTE DÉFINITION (TVHD) Y Cr 700 mV Cb 0 mV Ｒ – 300 mV Chroma Luma Figure 7 – Signal de luminance (échelle de gris) et signal de chrominance (roue chromatique) de TVHD pour une mire de barres à 100 % [5] Ce codage n’a jamais correspondu en réalité à la colorimétrie d’aucun système d’affichage à tube réellement distribué et les normes industrielles retenues pour les luminophores ont très largement déplacées les coordonnées du point vert vers le pic de la sensibilité spectrale humaine. Le blanc de référence a également été remplacé par l’illuminant standard D65 correspondant plus fidèlement à la lumière du jour. Or, c’est ce codage du signal de luminance NTSC, dont le pic de la primaire verte se situe vers 535 nm, qui a été retenu à l’origine pour la télévision et qui a perduré pendant plus d’un demi-siècle à travers l’évolution des normes de la SMPTE (Society of Motion Picture and Television Engineers) et de l’EBU, normes numériques comprises. Ce codage couleur est insatisfaisant surtout en ce qui concerne le rendu des visages toujours un peu trop rouges comparés à l’excellent rendu de l’argentique. Tableau 2 – Espace colorimétrique du NTSC Points X Y R 0,670 0,330 G 0,210 0,710 B 0,140 0,080 White C 0,3101 0,3162 Un système teinte-saturation-luminance peut être représenté d’une part, par une échelle de gris correspondant au signal de luminance et d’autre part, par une roue chromatique dans laquelle la teinte correspond à l’angle de phase du vecteur couleur et la saturation au module de ce vecteur en pourcentage, les gris, le noir et le blanc correspondant donc au centre du cercle (cf. figure 7). 2.1.4.2 Codage HD Lors de la mise en place de la norme destinée à la télévision haute-définition, avec en vue d’une ouverture sur le cinéma numérique, il a donc été décidé de changer l’équation du codage de la luminance en tenant exactement compte des valeurs des primaires proposées pour les luminophores des tubes HD (cf. figure 6) : Or, le codage d’une roue chromatique parfaite demande l’utilisation de fonctions trigonométriques incompatibles avec la technologie de l’époque. Sans entrer dans toutes les subtilités du NTSC, le codage de la chrominance s’établit donc, au départ, selon deux axes de différentielles couleurs, DB = B – Y pour l’axe horizontal et DR = R – Y pour l’axe vertical, ce qui constitue une roue chromatique simplifiée, facilement réalisable avec l’électronique de l’époque. Y = 0,213 R + 0,715 G + 0,072 B Sur la roue chromatique, les couleurs complémentaires sont diamétralement opposées (cf. figure 7). La norme proposée par la FCC a défini comme espace colorimétrique du NTSC un très vaste espace RGB, avec un illuminant standard C (point blanc) qui n’a jamais pu être véritablement émulé par les luminophores des tubes (cf. tableau 2). La fabrication des tubes est maintenant arrêtée mais la sophistication des circuits intégrés destinés aux écrans plats, tout particulièrement ceux rétro éclairés à LED, permet d’introduire des composants CMS (Color Management System) tout à fait performants et capable d’émuler leurs caractéristiques. Les matrices de passage de l’espace RGB NTSC à l’espace CIE XYZ pour l’illuminant standard C pouvaient se définir ainsi : Pour les différentielles B – Y et R – Y, appelées en numérique respectivement composante bleue CB et composante rouge CR, nous aurons dans la représentation analogique en mV : X 0, 607 0,174 0, 200 RNTSC Y = 0, 299 0, 587 0,114 × GNTSC Z 0, 000 0, 066 1,116 BNTSC E CB = (B − Y) × 0,5389 + 350 E CR = (R − Y) × 0,635 + 350 La valeur Y représente le codage traditionnel de la luminance en vidéo SD (cf. figure 3) : Les coefficients d’échelle et l’offset de 350 mV sont destinés à ramener ces deux derniers signaux entre 0 et 700 mV pour pouvoir les quantifier sur la même échelle que le signal de luminance (cf. figure 8). Y = 0,299 R + 0,587 G + 0,114 B Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＲＵ TE 5 680 – 7 ｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＰ TÉLÉVISION HAUTE DÉFINITION (TVHD) _________________________________________________________________________________________________ 2.1.5 Problèmes posés par le codage composantes HD 100 % Ce codage couleur vidéo traditionnel pose, en numérique, deux problèmes importants : Une réduction de l’espace de quantification [10] 0% Y′ Cb Alors que l’espace RGB sur 8 bit par axe peut être représenté par un cube (cf. figure 9a ) contenant (28)3 = 16 777 216 couleurs possibles, la quantification des composantes vidéo sur 8 bits s’étale des niveaux 16 à 235 pour Y et de 16 à 240 pour CB et CR. Cette quantification réserve en effet un certain nombre de niveaux, de 0 à 16 et de 236 à 255, pour des données auxiliaires. La transformation des primaires en composantes correspond au passage d’un cube à un parallélépipède déformé (cf. figure 9b) qui n’offre plus que 2 784 375 combinaisons possibles soit approximativement 6 fois moins de couleurs. Cette réduction de l’espace de quantification, correspondant aux parties hachurées de la figure 9c (composée des projections de la figure 9b ), altère les dégradés (Mach’s banding) et limite les traitements de l’image en postproduction. Cr a SD 100 % Ｒ 0% Y′ Cb Cr b HD La possibilité de couleurs illégales Figure 8 – Aspect analogique des signaux vidéo SD et HD [5] Le décodage des informations couleurs sur 8 bits, soit un octet, pose le problème, récurrent en informatique, du repliement d’octet. Pour passer de 255 à 256 par exemple, soit en hexadécimal de FFH à 100H, il est nécessaire d’écrire les données sur deux octets. En écrivant les données sur un seul octet, on passe de 100H à 00H en hexadécimal (noté aussi $ 100 à $ 00), soit 256 à 0 en décimal, en oubliant l’octet de poids fort. Si, en informatique des fonctions peuvent facilement gérer ce problème, aucune couche logique n’est disponible en vidéo pour prévenir ce défaut et on L’aspect inhabituel de la mire de barre en vidéo HD n’est pas dû à une modification de cette dernière mais aux valeurs des primaires retenues pour le signal de luminance Y : tout ce qui contient du vert se trouve plus haut sur le signal, tout ce qui n’en contient pas se trouve plus bas. Nota : voir en particulier la différence entre les signaux SD et HD dans la transition vert-magenta (cf. figure 8b). Vue frontale Y 235 White Yellow Green Cyan Magenta Red Black Blue 16 a Cr 240 Y Cb 16 Vue latérale Vue de dessus b Figure 9 – Représentation 3D/2D de l’espace composantes – Réduction de l’espace des couleurs [Tektronix] [5] TE 5 680 – 8 Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＲＶｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＰ _________________________________________________________________________________________________ TÉLÉVISION HAUTE DÉFINITION (TVHD) Gamma xvYCC 1,2 1,1 1,0 0,9 0,8 Ｒ 0,7 0,6 0,5 E′ en V 0,4 0,3 0,2 0,1 – 0,300 – 0,200 – 0,100 0,0 0,000 0,100 0,200 0,300 0,400 0,500 0,600 0,700 0,800 0,900 1,000 1,100 1,200 1,300 1,400 – 0,1 – 0,2 -0.3 L en V Figure 10 – Colorimétrie élargie xvYCC [5] risque de voir apparaître dans l’image des couleurs aberrantes. Il est donc particulièrement important, avant la sortie du PAD (Prêt à Diffuser), de passer par une étape d’étalonnage numérique au cours de laquelle une légalisation du signal pourra être appliquée. En clair, il est tout à fait possible d’établir un codage correspondant aux parties hachurées de la figure ci-dessus, codage qui, dans une chaîne numérique, sera traduit par des couleurs aberrantes. Des outils de contrôles sophistiqués sont donc indispensables au moment de la fabrication du PAD. Notre signal s’étend donc de – 0,25 à 1,33 V, ce qui représente une plage de 1,58 V (cf. figure 10). Cette norme a été reprise par Sony sous les noms déposés de xvColour et xvColor, et est implémentée pour les écrans dans les spécificités de la norme HDMI (§ 7.1.1 et [TE 5 682] – § 4.3.2) à partir de la version 1.3 dont le flux passe de 4,95 à 10,2 Gbit/s, sous l’appellation DeepColor. Le DeepColor autorise un encodage RGB ou YCBCR sur 30, 36 ou 48 bits, souvent marqué sur les étiquettes comme « 4096 gradation steps ». 2.1.6 Codage pour colorimétrie élargie xvYCC 2.1.7 Codage pour le cinéma numérique XⴕYⴕZⴕ En 1998, l’UIT propose dans sa recommandation UIT-R BT 1361 des « caractéristiques colorimétriques et caractéristiques connexes unifiées à l’échelle mondiale des futurs systèmes de télévision et d’imagerie » pour lesquels le dépassement de cette plage de 700 mV est enfin envisagé (cf. figure 10). L’acronyme xvYCC signifie eXtended Video YCC. Le codage des couleurs en primaires RGB ou en composantes YCBCR ou même xvYCC pose un problème majeur : celui de la correspondance des profils utilisés. En d’autres termes, il faut renseigner l’utilisateur, ou plus exactement le système de projection sur écran, sur le rouge, le vert, le bleu, le point blanc et le gamma de référence. Cette correspondance, très bien gérée dans les arts graphiques et la photographie numérique au moyen des profils encapsulés dans les données EXIF des fichiers, était jusqu’à présent loin d’être d’un usage courant en vidéo, même numérique. La seule correction consiste, le plus souvent, dans l’application des modifications de matrices à l’intérieur de la caméra, parfois fantaisistes mais surtout non réversibles. Ces corrections sont devenues obsolètes avec l’arrivée du cinéma numérique. Fort heureusement sont apparus en postproduction des outils d’étalonnage sophistiqués permettant d’intégrer des tables de correspondances ou LUT (Look-Up Table). L’avènement des formats numériques de type Soit L la valeur de chaque voie R, G, B en volts. Pour chaque voie, le signal en volts sera converti de cette manière : E′ = – {1,099 (– 4 L)0,45 – 0,099}/4 pour − 0, 25 ⭐L < − 0,0045 E′ = 4,50 L pour − 0,0045 ⭐L < 0,018 E′ = 1,099 L0,45 – 0,099 pour 0,018 ⭐L < 1, 33 Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＲＷ TE 5 680 – 9 ＲＲＸｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＱ Télévision haute définition (TVHD) Formats de compression. Formats-conteneurs par Ｒ Jean-Noël GOUYET Ingénieur-formateur en techniques et systèmes numériques télévision et multimédia Ancien chargé d’études à la Direction de la Recherche de l’Institut national de l’audiovisuel (Ina) et Francis MAHIEU Formateur en techniques Vidéo numérique à Ina SUP 1. 1.1 1.2 1.3 1.4 1.5 1.6 Formats de compression et HD ............................................................ Réduction de débit vidéo............................................................................. Techniques de codage DCT en mode « Intra » .......................................... Techniques de codage MPEG en mode « Inter » ...................................... Techniques de codage en ondelettes ......................................................... Compression et débits ................................................................................. Cascade de compression/décompression ................................................. 2. 2.1 2.2 Formats-conteneurs et HD ..................................................................... Formats-conteneurs de transport HD ........................................................ Formats-conteneurs de stockage HD ........................................................ — — — 10 11 15 3. Conclusion.................................................................................................. — 18 Pour en savoir plus ........................................................................................... TE 5 681 - 2 — 2 — 4 — 4 — 7 — 8 — 8 Doc. TE 5 681 es images haute définition (HD) sont maintenant proposées par la télévision, c’est la TVHD (télévision haute définition). Initiée en analogique au milieu des années 1980 par les Japonais puis par les Européens, provisoirement abandonnée, la TVHD ne redémarrera vraiment qu’avec le projet de télévision numérique aux États-Unis. Ce processus aboutira à des normes internationales au milieu des années 1990. Ce dossier constitue non seulement une mise à jour du dossier [TE 5 674] paru en février 2004 « Images haute définition : entre cinéma numérique et télévision HD », mais le complète par une présentation fonctionnelle et technique détaillée de toute la chaîne de télévision HD. Il est composé de 3 parties : formats. Dans le 1er – une première partie concerne les document [TE 5 680], sont décrits les paramètres natifs des images produites par la TVHD et les normes correspondantes. Ce document [TE 5 681] détaille les formats de compression, permettant de réduire le débit de la vidéo numérique HD, rendant ainsi possible la captation, le transport, le stockage, l’émission et la réception des images HD, dans le monde de la télévision. Il présente aussi le problème de l’encapsulation des images HD en format-conteneur de fichier de données ou en format de transport ; – une 2e partie, composée de trois documents, exposera les principales fonctions de captation/enregistrement, de montage [TE 5 682], de diffusion et de distribution [TE 5 683], d’affichage et d’évaluation de la qualité des images ｐ｡ｲｵｴｩｯｮ＠Ｚ＠｡ｯ￻ｴ＠ＲＰＱＰ L Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＲＹ TE 5 681 – 1 ｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＱ TÉLÉVISION HAUTE DÉFINITION (TVHD) _________________________________________________________________________________________________ Ｒ HD [TE 5 684], « from glass to glass », depuis le verre de l’objectif de la caméra jusqu’au verre de l’écran plat ; – la 3e partie mettra en relief une composante importante de la TVHD, le son multicanal [TE 5 685]. De nombreux termes et le texte de certaines figures ont été conservés en anglais, de manière à faciliter la lecture et l’utilisation de documents techniques. Pour permettre une lecture autonome de chaque document du dossier, une liste d’abréviations et d’acronymes est incluse à la fin de chacun (cf. tableau 7). De nombreuses références [indexées entre crochets dans le corps du texte], ainsi que des listes de normes, standards et recommandations [également indiqués entre crochets dans le corps du texte] ainsi que des organismes correspondants, sont jointes dans le document « Pour en savoir plus » [Doc. TE 5 681]. Les figures de ce dossier sont consultables en couleurs dans la version électronique en ligne. 1. Formats de compression et HD Dans un premier temps, on cherche à réduire la quantité d’informations à traiter, c’est la décimation (cf. tableau 1), par exemple en : – éliminant les parties non visibles de l’image (suppressions horizontales et verticales). On traitera 1 920 pixels par ligne sur les 2 640 que contient la ligne complète ainsi que 1 080 lignes par image sur les 1 125 que contient l’image complète ; – utilisant une profondeur de codage plus faible, 8 bits de quantification au lieu de 10 bits ; – utilisant une définition spatiale plus faible, 1440 × 1080 ; – utilisant un sous-échantillonnage de chrominance plus importante, 4:2:0 ou 3:1:1 par exemple. Le débit, c’est-à-dire la quantité de « 0 » et de « 1 » par seconde, généré en studio de production HD par les formats natifs numériques, est trop important pour les supports de stockage et/ou de diffusion/distribution. Il est donc nécessaire de réduire cette quantité native de données, de « compresser ». On transforme donc, à l’aide de calculs mathématiques, les formats natifs en formats de compression réduisant le nombre de 0 et de 1. Les outils de codage utilisés pour les générer à partir d’un format natif ou de décodage pour retourner au format natif sont souvent appelés codecs (codeur/décodeur ou plus explicitement compresseur/ décompresseur). Ces outils soit font l’objet de normes internationales ou de standards industriels, soit sont des outils propriétaires ou open source. Certains des outils de réduction de débit ne détériorent pas la qualité du signal source. On dit qu’ils sont sans perte ou lossless. Malheureusement, ils ne permettent qu’un faible taux de compression (entre 2 et 4). D’autres outils occasionnent des pertes de qualité. On dit qu’ils sont avec pertes ou lossy. Le débit peut ainsi être réduit sans apparition d’artefacts de compression (cf. figure 3). Soit, par exemple, une vidéo HD, 10 bit en 4:2:2 brute, qui représente un débit d’environ 1,5 Gbit/s : – la même vidéo HD, 8 bits en 4:2:2 utile, représente un débit d’environ 830 Mbit/s. – cette vidéo HD, 8 bits en 3:1:1 utile, représente un débit d’environ 520 Mbit/s. Il y a donc une réduction significative du débit tout en gardant une qualité relative de l’image, bien que dégradée. L’art de la compression consiste à choisir les bons outils, les bons algorithmes, les mieux adaptés à l’application envisagée. Ce choix est fonction : – du niveau de qualité du média source ; – du niveau de qualité acceptable pour l’utilisation du média compressé ; – du débit disponible et raisonnable (économiquement) pour enregistrer, transporter, distribuer/diffuser le média compressé. Dans un deuxième temps, on mettra en œuvre les algorithmes de réduction de débit (compression) basés sur le traitement : – de la redondance spatiale, du fait que dans une image il y ait beaucoup de plages uniformes (cf. figure 4) ; – de la redondance subjective, du fait que les détails fins n’ont pas besoin d’être codés avec autant de précision que les plages essentielles (uniformes) ; – de la redondance statistique, du fait que certains codes reviennent plus fréquemment que d’autres ; – de la redondance temporelle, du fait qu’il y ait peu de changements entre des images successives (cf. figure 4). Important Souvent, les médias numériques à la source ne sont pas disponibles en format natif mais ont déjà subi une compression : c’est le cas des photos délivrées par les appareils de photo numérique grand public, ou de la vidéo sur tous les magnétoscopes SD ou HD professionnels ou grand public. Ces algorithmes de compression peuvent être mis en œuvre image par image, ce sera un codage en mode Intra, complété le plus souvent par un codage en mode Inter où les images sont codées les unes par rapport aux autres et par groupe d’images. 1.1 Réduction de débit vidéo Le codage en mode Intra se fait (cf. tableau 2) : – soit par l’intermédiaire de la DCT (Discrete Cosine Transform) avec des algorithmes propriétaires, comme le DVCPRO, ou des algorithmes normalisés comme le MPEG-2 I-frame only, ou encore le MPEG-4 AVC Intra (§ 1.2) ; – soit par des transformées à base d’ondelettes comme JPEG2000 ou Dirac (§ 1.4). En vidéo haute définition les débits engendrés sont très importants (5 fois plus que pour la TVSD), il est donc nécessaire de recourir à la réduction de débits aussi bien pour les applications de stockage que de diffusion (cf. figure 1). Cette réduction de débit se décompose en deux phases de traitement (cf. figure 2). TE 5 681 − 2 Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. − © Editions T.I. ＳＰｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＱ _________________________________________________________________________________________________ TÉLÉVISION HAUTE DÉFINITION (TVHD) Nécessité de la réduction de débit en TVHD Débit-source vidéo utile 829 Mbit/s Vidéo HD (1920*1080i, 25) 80 Ｒ 80 « Taux de compression » (taux de réduction de débit) Vidéo SD (720*576i, 25) 166 Mbit/s 0 64 k 384 k 80 1M 2M 4M 10 M 20 M 30 M 40 M Diffusion Satellite (DVB-S) Réseau Câblé (DVB-C) Télévision numérique terrestre (DVB-T) 24 Diffusion vers Mobiles (DVB-H) 7 50 M 100 M 200 M 400 M 38 800 M Débit réduit (bit/s) Débits des réseaux de distribution ADSL RTC RNIS CD-ROM Réseaux large bande – Fibre optique 1,5 DVD 100 Magnétoscope Num. SD 10 Débit des supports d'enregistrement Magnéto. Num. HD Blu-ray Disc 1,5 MPEG-1 X 10 G 36-54 15 80 MPEG-2 MP@ML MPEG-2 MP@HL MPEG-2 422P@ML Gamme de débits des outils de compression MPEG 50 1,8 G MPEG-4 (Part 2) / MPEG-4 AVC (Part 10) – H.264 Figure 1 – Nécessité de la réduction de débit en TVHD Tableau 1 – Débits natifs HD et décimation en définition horizontale, luminance et chrominance Codage 10 bits 8 bits Définition 1920 ⴛ 1080 Fréquence-image Définition 1440 ⴛ1080 4:4:4 4:2:2 4:2:0 3:1,5:1,5 (4:2:2 en 1440) 3.1.1 3:1,5:0 (4:2:0 en 1440) p/50 3 110 Mbit/s 2 073 Mbit/s 1 555 Mbit/s 1 555 Mbit/s 1 296 Mbit/s 1 166 Mbit/s i/25 1 555 Mbit/s 1 036 Mbit/s 777 Mbit/s 777 Mbit/s 648 Mbit/s 583 Mbit/s p/50 2 488 Mbit/s 1 658 Mbit/s 1 244 Mbit/s 1 244 Mbit/s 1 036 Mbit/s 933 Mbit/s i/25 1 244 Mbit/s 829 Mbit/s 622 Mbit/s 622 Mbit/s 518 Mbit/s 466 Mbit/s Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＳＱ TE 5 681 – 3 ｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＱ TÉLÉVISION HAUTE DÉFINITION (TVHD) _________________________________________________________________________________________________ Les images sont donc divisées en petits blocs de 8 × 8 pixels, voire de 4 × 4 pixels pour la télévision HD. La DCT convertit ces blocs de valeurs de pixels en blocs de coefficients de fréquences. Les blocs prélevés dans les zones uniformes de l’image donnent un coefficient continu DC de valeur élevée mais beaucoup de coefficients de hautes fréquences dont l’énergie est proche de zéro, et inversement pour les blocs situés dans les zones de détails. Les coefficients d’un bloc converti par la DCT apparaîtront par ordre croissant de fréquence. Vidéo HD Débit-source utile 1 920 × 1 080 p 50 i/s 4:4:4 10-bit 3 110 Mbit/s 1 920 × 1 080 i 25 i/s 1 036 Mbit/s 4:2:2 10 bits Ｒ 1 920 × 1 080 i 25 i/s 4:2:2 8-bits 829 Mbit/s 1 440 × 1 080 i 25 i/s 3:1:1 8 bits 518 Mbit/s 1 280 × 720 p 25 i/s 4:2:0 8 bits 276 Mbit/s 1re étape : « décimation » (réduire la quantité de données à traiter) Ce traitement par DCT a donc deux effets : l’un concentre l’énergie de l’image de telle façon que beaucoup de coefficients, résultants du calcul, soient voisins de zéro, l’autre décompose le spectre en hautes et basses fréquences permettant ainsi de faire varier la précision des coefficients en fonction des besoins de la vision humaine : les hautes fréquences (détails fins) n’ont pas besoin d’être codés avec autant de précision que les basses fréquences (zones uniformes). La quantification permettra ensuite de diminuer voire d’annuler l’énergie des coefficients de hautes fréquences ayant subjectivement moins d’importance. Des tables de quantification précisent la portée de la réduction de chaque coefficient. Les coefficients de hautes fréquences sont les plus réduits, le rapport de compression dépend directement des tables utilisées. 2e étape : Appliquer un algorithme de compression Les coefficients d’énergie sont ensuite transmis depuis les basses fréquences jusqu’aux hautes fréquences. La suite d’informations redondantes, notamment les zéros seront transmis sous une forme condensée. Le codage entropique permettra de réduire le volume d’information en codant les valeurs en fonction de leur probabilité d’apparition, aux événements les plus fréquents on attribue des mots de code courts, aux événements les plus rares des mots de code longs (le codage Morse fonctionne suivant le même principe). Débit final La norme MPEG-4 AVC (appelée aussi H.264) propose de faire de la prédiction spatiale dans les images Intra. Cette prédiction intervient dans le domaine spatial en se référant aux échantillons voisins de blocs déjà codés (voir [TE 5 367] § 1.3.3). Cette technique au final permet d’améliorer l’efficacité de compression de 50 % en comparaison à un codage Intra sans prédiction spatiale. Figure 2 – Étapes de la réduction de débit en HD 1 920 pixels HD Video 4:2:2 Nous pouvons classer dans ce profil de compression le format HDCAM de Sony, les formats DVCPRO 100 et HD-D5 de Panasonic, le format MPEG-4 « Studio Profile » du HDCAM SR de Sony, les formats MPEG-4 AVC Intra 50 et 100 proposés par Panasonic [20] mais aussi les formats de compression pour la postproduction comme le DNxHD d’Avid [3] ou le ProRes d’Apple [2]. Panasonic annonce même le lancement d’un codec AVC-Ultra à 200 Mbit/s offrant la possibilité d’encoder des formats 3D-Relief ou d’enregistrer en 1080p/50 ou 60 en 4:2:2 10 bits voire même en 1080p/24 (ou 2Kp/24 pour le cinéma numérique) en 4:4:4 12 bits. 1 080 pixels 1 440/1 280 pixels HD Video 4:2:0 1.3 Techniques de codage MPEG en mode « Inter » 1 080 pixels En MPEG-2, qui utilise en mode Intra la DCT, il est possible d’ajouter le traitement de la redondance temporelle où les images sont codées les unes par rapport aux autres. Le calcul se fera sur des blocs résultant de la différence entre un bloc à coder et un bloc de prédiction obtenu dans une image voisine (passée ou future). Si les deux blocs en question se ressemblent, leur différence engendrera beaucoup moins d’énergie dans les fréquences visuelles élevées, ce qui permettra de réduire considérablement le débit. Ce traitement se fait par groupe d’images appelé GOP (Group Of Pictures), contenant des images Intra (I) codées en utilisant leurs propres informations, des images Prédites (P) codées en utilisant la détection-compensation de mouvement par rapport à une image Intra ou Prédite précédente, et des images Bidirectionnelles (B) codées en utilisant la détection-compensation de mouvement par rapport à une image passée ou future, ou les deux, Intra ou Prédite (cf. figure 5). Les images sont donc transmises suivant une séquence répétitive appelée GOP définie par deux paramètres : M fixant la distance entre les images Prédites et N fixant la distance entre deux images Intra. Figure 3 – Décimation en définition spatiale, luminance et chrominance 1.2 Techniques de codage DCT en mode « Intra » La DCT, ou Transformée en cosinus discrète, est une transformée mathématique utilisant des fonctions trigonométriques qui permet de calculer, à partir des valeurs absolues de luminance et chrominance des pixels regroupés en blocs, les valeurs des coefficients entiers significatifs des fréquences visuelles présentes dans chaque bloc. Elle est de même nature que la transformée de Fourrier, mais n’utilise que des nombres réels. TE 5 681 – 4 Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＳＲｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＱ _________________________________________________________________________________________________ TÉLÉVISION HAUTE DÉFINITION (TVHD) Codage INTRA calcul des fréquences visuelles – par blocs (DCT/MPEG) – sur toute l’image (ondelettes/JPEG2000) Codage INTER détection-estimation des variations/mouvements entre images Zone uniforme (fréquences visuelles basses ou nulles) Valeur de pixels identiques Ｒ Zone identique d’une image à la suivante Zone de détails (hautes fréquences visuelles) ne nécessitant pas une grande précision Zone de mouvement Déplacement d’un objet d’une image à l’autre Figure 4 – Principes des algorithmes de compression – Éliminer la redondance spatiale et temporelle Tableau 2 – Techniques et formats de compression utilisés en TVHD Domaine DCT DCT Intra MPEG-2 MPEG-4 (Part 2) avec GOP Acquisition/ Production HDCAM XDCAM HD DVCPRO HD XDCAM Ex HD-D5 XDCAM HD422 Ondelettes MPEG-4 AVC (Part 10) Intra HDCAM SR (Lossless ou MP4 Intra) AVC Intra WMV (VC-1) M-JPEG2000 Dirac GOP Long AVC HD Infinity DiracPro *VCIP (EBU+VSF) ** D-Cinema DiracPro HDV Postproduction DNxHD ProRes422 Laison de contribution 422P@HL Diffusion MP@HL HP@L4 AP@L3 (*) VCIP = Video Contribution over IP. (**) D-Cinema = Digital Cinema. Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＳＳ TE 5 681 – 5 ＲＳＴｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＲ Télévision haute définition (TVHD) Captation. Montage par Jacques GAUDIN Diplômé de l’École nationale supérieure Louis Lumière Responsable de la filière Image des formations de l’Institut national de l’audiovisuel (Ina SUP) Jean-Noël GOUYET Ingénieur-formateur en techniques et systèmes numériques télévision et multimédia Ancien chargé d’études à la Direction de la Recherche de l’Ina et Marc LEGER Diplômé de l’École nationale supérieure Louis Lumière Opérateur de prise de vues Ingénieur vision Formateur Ina SUP 1. 1.1 1.2 1.3 1.4 Captation et enregistrement HD .......................................................... Domaine d’utilisation et niveau de qualité ................................................ Capteurs et optiques .................................................................................... Correction de gamma .................................................................................. Supports d’enregistrement HD ................................................................... 2. 2.1 2.2 2.3 Montage HD ............................................................................................... Caractéristiques propres à la HD ................................................................ Codecs........................................................................................................... Workflows ..................................................................................................... 3. Conclusion.................................................................................................. Pour en savoir plus ........................................................................................... TE 5 682 - 2 — 2 — 2 — 7 — 7 — — — — 10 10 10 11 — 14 Doc. TE 5 682 es images haute définition (HD) sont maintenant proposées par la télévision, c’est la TVHD (télévision haute définition). Initiée en analogique au milieu des années 1980 par les Japonais puis par les Européens, provisoirement abandonnée, la TVHD ne redémarrera vraiment qu’avec le projet de télévision numérique aux États-Unis. Ce processus aboutira à des normes internationales au milieu des années 1990. Ce dossier constitue non seulement une mise à jour du dossier [TE 5 674] paru en février 2004 « Images haute définition : entre cinéma numérique et télévision HD », mais le complète par une présentation fonctionnelle et technique détaillée de toute la chaîne de télévision HD. Il est composé de 3 parties : – une première partie concerne les formats. Dans le 1er document [TE 5 680], sont décrits les paramètres natifs des images produites par la TVHD et les normes correspondantes. Le document suivant [TE 5 681] détaille les formats de compression, permettant de réduire le débit de la vidéo numérique HD, rendant ainsi possible la captation, le transport, le stockage, l’émission et la réception des images HD, dans le monde de la télévision. Il présente aussi le problème de l’encapsulation des images HD en format-conteneur de fichier de données ou en format de transport ; ｐ｡ｲｵｴｩｯｮ＠Ｚ＠ｦ￩ｶｲｩ･ｲ＠ＲＰＱＱ L Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＳＵ TE 5 682 – 1 Ｒｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＲ TÉLÉVISION HAUTE DÉFINITION (TVHD) _________________________________________________________________________________________________ Ｒ – cette 2e partie, composée des trois documents, expose les principales fonctions, depuis le verre de l’objectif de la caméra jusqu’au verre de l’écran plat (from glass to glass), de captation/enregistrement, de montage [TE 5 682], de diffusion et de distribution [TE 5 683], d’affichage et d’évaluation de la qualité des images HD [TE 5 684] ; – la 3e partie mettra en relief une composante importante de la TVHD, le son multicanal [TE 5 685]. De nombreux termes et le texte de certaines figures ont été conservés en anglais, de manière à faciliter la lecture et l’utilisation de documents techniques. Pour permettre une lecture autonome de chaque document du dossier, une liste d’abréviations et d’acronymes est incluse à la fin de chacun (cf. tableau 7). De nombreuses références [indexées entre crochets dans le corps du texte], ainsi que des listes de normes, standards et recommandations [également indiqués entre crochets dans le corps du texte] ainsi que des organismes correspondants, sont jointes dans le document « Pour en savoir plus » [Doc. TE 5 682]. Les figures de ce dossier sont consultables en couleurs dans la version électronique en ligne. 1. Captation et enregistrement HD Les caractéristiques de ces équipements sont explicitées dans les paragraphes qui suivent et ceux de certains caméscopes sont détaillées dans le tableau 2. On notera en outsider dans le domaine de la photo numérique une évolution des appareils vers la vidéo HD avec, par exemple, le Canon EOS 5 MarkII (à 30 images/s progressif), ou l’EOS 7D (à 25p). La caméra et le système d’enregistrement sont les premiers maillons de la chaîne HD. La caméra, en particulier, détermine le niveau de qualité natif de l’image. Il convient là de se rappeler l’axiome : qui a le « plus » peut le « moins » mais qui part du « moins » ne peut le « plus » ! 1.2 Capteurs et optiques L’offre en caméras pour la captation d’images en haute définition étant extrêmement variée, il est important de lister quelques critères de différentiation, en fonction : – du domaine d’utilisation (§ 1.1) ; – du niveau de qualité, et donc du prix ; – de la taille, de la définition, de la technologie et du nombre des capteurs, ainsi que des optiques associées (§ 1.2) ; – des traitements effectués, en particulier de la correction de gamma (§ 1.3) ; – des supports d’enregistrement associés, intégrés dans le cas d’un caméscope, et de leur technologie (§ 1.4) ; – des formats de média livrés, natifs ou compressés (par un codec) et déjà détaillés dans le premier document ([TE 5 680] – § 6.2.1 – tableau 15) ; – des possibilités offertes pour la prise de son. 1.2.1 Taille et définition La taille de la puce (chipset ) des capteurs (et non la taille de l’image analysée) peut être de 2/3 de pouce (2/3′′) de 1/2′′ ou de 1/3′′. Plus la taille est grande, plus la quantité de lumière captée et donc la sensibilité est grande, et moins la profondeur de champ est importante, permettant de séparer comme en film le sujet du fond. Les définitions du capteur peuvent être selon les types de caméra HDTV et « Grand public » de 1920 × 1080, 1440 × 1080, 960 × 1080, 1280 × 720, 960 × 576 (cf. tableau 2). La caméra « HD+ » la Viper de Grass Valley présente la particularité de posséder trois capteurs CCD de définition 1920 × 4320 pixels, ce qui lui permet d’offrir sans interpolation, une définition d’image de sortie, par exemple, soit de 1920 × 1080 (rapport de format d’image 16/9 ou 1,78 :1) soit de 1920 × 1440 (rapport de format d’image 2,37 :1 Cinémascope ou WideScreen), ce qui la situe entre la HD+ et le Cinéma numérique. 1.1 Domaine d’utilisation et niveau de qualité Les caméras de cinéma numérique offrent quant à elle une définition horizontale de 2k ou 4k associée aux différents rapports de format d’image film. Le tableau 1 propose une hiérarchie en fonction de la qualité (et souvent du prix) de quelques caméras/caméscopes utilisés pour : – le « cinéma numérique », les productions haut de gamme, avec des caméras de D-Cinema (RGB, 2k ou 4k, conversion log) ou des caméras « HD+ » offrant des paramètres proches du cinéma numérique (RGB, 1920 × 1080, 4:4:4 log ou 4:2:2 avec gamma adaptable) ; – la « TVHD », avec soit des caméras de studio, soit des caméscopes professionnels tous associés à des formats de compression ; – les productions à budget réduit ou le « Grand public » ou avec les caméscopes AVC HD ou HDV, tous associés à des formats à fort taux de compression. TE 5 682 − 2 1.2.2 Technologies Les capteurs de caméra HD sont construits autour de deux technologies principales [5] [9] (cf. figure 1). 1.2.2.1 CCD La technologie CCD, Charged Coupled Device, peut se présenter en deux versions : Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. − © Editions T.I. ＳＶｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＲ _________________________________________________________________________________________________ TÉLÉVISION HAUTE DÉFINITION (TVHD) Tableau 1 – Domaines d’utilisation des caméras HD Type de Caméras/Caméscopes Domaine d’utilisation Exemples de caméras/Caméscopes (Constructeur) Genesis (Panavision + Sony) Caractéristiques et Remarques 1 capteur CCD 5760 × 2160 (sous-)pixels Enregistr. RGB, 4:4:4, 10 bit Log, 800 Mbit/s sur bande HDCAM SR Courbe Panalog Caméras D-Cinema & « HD+ » Caméras/Caméscopes TVHD Films cinéma Publicités Fictions Documentaires haut de gamme Production studio Documentaires Reportages Production à budget réduit Ｒ D-20 (Arri) Caméra mixte D-Cinema & HD 1 capteur CMOS 2880 × 2160 (sous-)pixels 10 bit Courbes Lin ou Log F35 (Sony) 1 capteur mono CCD équivalent 35 mm Enregistrement 1920 × 1080, RGB, 4:4:4, 10 bit Log, 800 Mbit/s sur HDCAM SR Viper (GVG) Capteur tri CCD 2/3 pouces 1920 × 4320 (sous-)pixels avec possibilité de format d’image Cinemascope 10 bit Courbe log Film Stream equiv. Kodak Cineon Red One Capteur 4096 × 2048 pixels + filtre Bayer Pauvre en 2k Enregistrement en RAW AJ-HPX3700 (Panasonic) Capteur tri CCD 1920 × 1080 AVC Intra 100 4:2:2 sur cartes P2 Possibilité de sortie Dual Link RGB 4:4:4, 10 bit Log HDW F 900R (Sony) 1920 × 1080 pixels Sous-échantillonnage 3:1:1 12 bit Hypergammas Pour téléfilms, documentaires et même cinéma AVC Intra 100 AJ-HPX2700 (Panasonic) Cf. tableau 2 Infinity (GVG) Cf. tableau 2 HDCAM HDW 790 (Sony) Cf. tableau 2 Pour documentaires XDCAM HD 422 PDW-700 (Sony) Cf. tableau 2 Pour documentaires XDCAM EX (Sony) Cf. tableau 2 AVC HD (Panasonic) Cf. tableau 2 HDV Cf. tableau 2 Flip Mini-caméra HD (qui équipe les reporters de Reuters) HXR-MC1/AAC (Sony) « Paluche » HD Caméscopes vidéo « Grand public » Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＳＷ TE 5 682 – 3 ｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＲ TÉLÉVISION HAUTE DÉFINITION (TVHD) _________________________________________________________________________________________________ Tableau 2 – Caméscopes et formats d’enregistrement HD [6] Ｒ Format d’enregistrement HDCAM SR HDCAM DVCPRO HD INFINITY AVC Intra XDCAM HD 422 XDCAM HD XDCAM EX AVCHD (AVCCAM) Constructeur Sony Sony Panasonic GV Panasonic Sony Sony Sony Canon, JVC Panasonic, Samsung Sanyo, Sony Toshiba Tri CCD 2/3′′ CMOS 1/3′′ (1920 × 1080) (1280 × 720) Tri CCD 2/3′′ 1920 × 1080 Tri CCD 1/2′′ 1440 × 1080 Tri CMOS 1/2 SP/HQ 2 à 7 Mpix Carte P2 Pro-disc Blu ray Pro-disc Blu ray Carte S×S DVD 8 cm Carte SDHC Disque dur Cassette Mini DV 1/4′′ 63 min CCD 1/3′′ – CCD 2/3′′ – CMOS 1/3′′ Tri CMOS Tri CCD 2/3′′ 2/3′′ 1920 × 1080 (1920 × 1080) ou 1920 × 1080 (1280 × 720) ou (960 × 540) HDV Canon JVC Sony Taille et définition du capteur Tri CCD 2/3′′ 1920 × 1080 Support de stockage Cassette 1/2′′ ou 1 To RAID 5 Cassette 1/2′′ ou solid state memory 1 To Carte P2 Cartouche lomega RevPro + Co mpact Flash Capacité de stockage durée max d’enregistrement 155 min 40/149 min 5 cartesP2 *64 Go = 320 min 35 Go 45 min (75 Mbit/s) 60 min (50 Mbit/s) 5 cartes P2 *64 Go = 320 min 5 cartes P2 *64 Go = 640 min 50 Go (DLA) 100 min 50 Go (DLA) 145 min (35 Mbit/s) 16 Go 70 min 16 Go 50 min 10 min par Go à 13 Mbit/s LUMINANCE enregistrée 1920 × 1080 1440 × 1080 1440 × 1080 960 × 720 1920 × 1080 1920 × 1080 1440 × 1080 1920 × 1080 1280 × 720 1440 × 1080 1440 × 1080 1920 × 1080 1280 × 720 jusqu’à 1920 × 1080 1280 × 720 1280 × 720 1440 × 1080 960 × 1080 480 × 1080 720 × 1080 480 × 720 960 × 1080 960 × 1080 720 × 1080 960 × 1080 640 × 720 720 × 1080 720 × 1080 960 × 1080 640 × 720 jusqu’au 960 × 1080 640 × 720 640 × 720 720 × 1080 4:2:2/4:4:4 3:1:1 3:1,5:1,5 ou 2:1:1 4:2:2 4:2:2 3:1,5:0 4:2:2 3:1,5:0 3:1,5:0 4:2:0 4:2:0 2,6:1,3:0 2,6:1,3:0 3:1,5:0 Format de compression MPEG-4 Studio Profile DCT Intra DV JPEG 2000 DWT (ondelettes) MPEG-4 AVCIntra MPEG-4 AVCIntra MPEG-2 422P@HL Long GOP MPEG-2 MP@HL Long GOP MPEG-2 MP@H14 Long GOP MPEG-2 MP@HL Long GOP MPEG-4 AVC Long GOP MPEG-2 MP@H14 GOP = 12 MPEG-2 MP@H14 GOP = 6 MPEG-2 MP@H14 GOP = 12 Débit vidéo 440 Mbit/s 800 Mbit/s 141 Mbit/s 100 Mbit/s 50, 75, 100 Mbit/s 100 Mbit/s 50 Mbit/s 50 Mbit/s 18/25 /35 Mbit/s Mode SP 25 Mbit/s Mode HQ 35 Mbit/s 6/9/13/15 et jusqu’à 24 Mbit/s Rapport de compression 4 4,4 6,7 20/14/10 10 11 17/15 26/18/13 18 18/16 Dépend du débit 24 19 24 Autres formats HD supportés ... ... AVC-Intra MPEG-2 (50 Mbit/s) DVCPRO HD ... ... Compatible HDV ... ... ... ... ... Sortie Vidéo 1080i ou p 1080i ou p/25 1080i/720p 1080i/720p 1080i/720p 1080i/720p 1080i, 1080p/25 1080i 720p/1080i 1080i 720p/1080i 720p 1080i Fréquences image 24 PsF, 25 PsF, 50i, 50p 24p, 25p, 25 PsF, 50i 24p, 25p, 50i, 50p 25p, 50i, 50p 25p 50i 24p, 25p 50i 24p, 25p 50i 50i 24p, 25p 50i, 50p 24p, 25p 50i 24p, 25p 50i 24p, 25p 30p 50i Quantification 10 bits 8 bits 8 bits 10 bits 8 bits 8 bits 8 bits 8 bits 8 bits 8 bits Nbre de canaux Audio 12 4 4 4 4/caméscope (8/enreg. studio) 4/caméscope (8/enreg. studio) 2 ou 4 2 1 à 5.1 2 Fréquence échantillonnage 48 KHz 48 KHz 48 KHz 48 KHz 48 KHz 48 KHz 48 KHz 48 KHz 48 KHz 48 KHz Quantification audio 24 bits 20 bits 16 bits 24 bits 16 bits 16 bits 16 bits 16 bits 16 bits 16 bits Compression audio ... ... ... ... ... ... ... ... Dolby Digital (AC3) MPEG Layer II Débit Audio 13,824 Mbit/s 3,840 Mbit/s 3,072 Mbit/s 4,608 Mbit/s 3,072 Mbit/s (6,144 Mbit/s) 1,536 Mbit/s 64 à 640 kbit/s 384 kbit/s MPEG-2 (2550 Mbit/s) DVCPRO DVCAM DVCPRO 100/50 MPEG-4 AVC Long GOP DVCAM/DV ... DVCAM/DV Structure s/s-échantillonnage Formats d’enregistrement supportés ... ... DVCPRO 50 DVCPRO DV Compatibilité en lecture HDCAM Digital Betacam, MPEG IMX, Beta SX, Beta SP DVCPRO 50 DVCPRO DV © F. Mahieu, Ina SUP TE 5 682 – 4 10 bits 10 bits DVCPRO 50 3,072 Mbit/s (6,144 Mbit/s) 3,072 Mbit/s DVCAM ... Novembre 2009 HDV ... Tri CCD 1/3′′ Tri CCD 1/3′′ 1440 × 1080 1280 × 720 25 Mbit/s 19 Mbit/s Tri CCD 1/3′′ HAD 960 × 1080 25 Mbit/s Paramètres relatifs uniquement aux formats 24, 25, 50 images/seconde. Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＳＸｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＳ Télévision haute définition (TVHD) Diffusion. Distribution par Jean-Noël GOUYET Ingénieur-formateur en techniques et systèmes numériques télévision et multimédia Ancien chargé d’études à la Direction de la recherche de l’Ina (Institut national de l’audiovisuel) et Jean-José WANEGUE Consultant en supports optiques DVD, BD 1. 1.1 1.2 Diffusion/distribution TVHD sur réseaux .......................................... Caractéristiques des programmes de TVHD diffusés/distribués ............. Vecteurs de distribution .............................................................................. 2. 2.1 2.2 2.3 2.4 2.5 Distribution HD sur supports optiques .............................................. Développement du BD (Blu-ray Disc ) ........................................................ Paramètres techniques du BD..................................................................... Formats de média et format-conteneur ..................................................... Fonctionnalités ............................................................................................. Au-delà du BD : la course vers le Téraoctet ............................................... 3. Conclusion.................................................................................................. Pour en savoir plus ........................................................................................... TE 5 683 - 2 — 3 — 4 — — — — — — 5 5 7 12 14 15 — 17 Doc. TE 5 683 es images haute définition (HD) sont maintenant proposées par la télévision, c’est la TVHD (télévision haute définition). Initiée en analogique au milieu des années 1980 par les Japonais puis par les Européens, provisoirement abandonnée, la TVHD ne redémarrera vraiment qu’avec le projet de télévision numérique aux États-Unis. Ce processus aboutira à des normes internationales au milieu des années 1990. Ce dossier constitue non seulement une mise à jour du dossier [TE 5 674] paru en février 2004 « Images haute définition : entre cinéma numérique et télévision HD », mais le complète par une présentation fonctionnelle et technique détaillée de toute la chaîne de télévision HD. Il est composé de trois parties : – une première partie concerne les formats. Dans le premier document [TE 5 680] sont décrits les paramètres natifs des images produites par la TVHD et les normes correspondantes. Le document suivant [TE 5 681] détaille les formats de compression, permettant de réduire le débit de la vidéo numérique HD, rendant ainsi possible la captation, le transport, le stockage, l’émission et la réception des images HD dans le monde de la télévision. Il présente aussi le problème de l’encapsulation des images HD en format-conteneur de fichier de données ou en format de transport ; – cette deuxième partie, composée des trois documents, exposera les principales fonctions, depuis le verre de l’objectif de la caméra jusqu’au verre de l’écran plat (from glass to glass), de captation/enregistrement, de montage [TE 5 682], de diffusion et de distribution [TE 5 683], d’affichage et d’évaluation de la qualité des images HD [TE 5 684] ; ｐ｡ｲｵｴｩｯｮ＠Ｚ＠ｦ￩ｶｲｩ･ｲ＠ＲＰＱＱ L Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＳＹ TE 5 683 – 1 Ｒｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＳ TÉLÉVISION HAUTE DÉFINITION (TVHD) _________________________________________________________________________________________________ Ｒ – la troisième partie mettra en relief une composante importante de la TVHD, le son multicanal [TE 5 685]. De nombreux termes et le texte de certaines figures ont été conservés en anglais, de manière à faciliter la lecture et l’utilisation de documents techniques. Pour permettre une lecture autonome de chaque document du dossier, une liste des sigles et abréviations est incluse à la fin de chacun (cf. tableau 7). De nombreuses références [indexées entre crochets dans le corps du texte], ainsi que des listes de normes, standards et recommandations [également indiqués entre crochets dans le corps du texte], ainsi que des organismes correspondants, sont jointes dans le document « Pour en savoir plus » [Doc. TE 5 683]. Une version électronique en couleurs des figures proposées est disponible sur le site Techniques de l’Ingénieur. 1. Diffusion/distribution TVHD sur réseaux bution, et d’autre part, les caractéristiques de la demande de quelques programmes de TVHD début 2011. Il y apparaît que leur distribution via ces réseaux a été rendu possible grâce à de nouveaux outils de compression tels que MPEG-AVC/H.264, et qu’elle sera fortement « boostée » en ce qui concerne les réseaux de diffusion par le développement de nouvelles techniques (DVB-S2, puis DVB-T2...) et en ce qui concerne les réseaux télécoms par le réseau d’accès client en fibre optique. La diffusion sur réseaux broadcast ou la transmission via les réseaux télécoms sont les principaux vecteurs de distribution des programmes de télévision HD. Le tableau 1 compare d’une part, l’offre, les caractéristiques de l’offre en réseaux de diffusion/distri- Tableau 1 – Comparaison entre l’offre en réseaux et les programmes HD et débits Réseaux de diffusion/distribution Vecteur Satellite (canal transpondeur 36 MHz) Normes DVB-S DVB-S2 Câble (canal 8 MHz) Terrestre (TNT) (canal 8 MHz) Débit canal (Mbit/s) 38 Programmes HD Support Progr. Définition GOP moyen Débit min. (Mbit/s) Débit moyen (Mbit/s) Débit max. (Mbit/s) CBR/VBR Canalsat/TNTSAT Astra 28,2 oE TF1, FR2, M6 1440 × 1080 11 3,7 6,9 15,6 VBR ITV1 HD 1440 × 1080 57 – 10,4 – CBR TF1 HD 1920 × 1080 18 11,3 11,6 FR 2 HD 1920 × 1080 36 8 11,7 11,9 1920 × 1080 17 9,5 10,0 10,1 4 7,5 14,5 + 30 % Numéricâble DVB-C DVB-T DVB-T2 ADSL 38 TE 5 683 − 2 TF1, FR2, M6 HD 1440 × 1080 35 à 60 Mpx R4 Arte HD 1440 × 1080 58 Orange TV TF1, FR2, M6 HD 1440 × 1088 Free Arte/FR2 HD 1440 × 1080 VBR 7,7 CBR 9 CBR (SPTS) + 45 % 0,5-16 Télécoms FTTH Mpx R5 24 547/25 3,8 < 100 Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. − © Editions T.I. ＴＰ 5,2/6,2 ｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＳ _________________________________________________________________________________________________ TÉLÉVISION HAUTE DÉFINITION (TVHD) 1.1 Caractéristiques des programmes de TVHD diffusés/distribués Exemple Soit n services vidéo HD dans un canal TNT de 24,13 Mbit/s. Associés à ces services, on trouve des canaux audio dont le débit total est de 1,3 Mbit/s. On considère également autour de 700 kbit/s de données annexes (tables d’information MPEG, DVB, EPG...) transmises dans le multiplex. Sans oublier les paquets de bourrage (stuffing ) pour assurer un débit constant du multiplex. Il reste donc pour la vidéo des n chaînes : 24,1 – 1,3 – 0,7 = 22 Mbit/s environ. Le multiplexage statistique permet alors, à qualité égale, de mettre plus de chaînes qu’avec un multiplexage à débit constant. En effet, statistiquement, c’est le débit moyen de la chaîne qui est pris en compte. Si la chaîne a besoin de débit, elle pourra l’obtenir car il y a une forte probabilité qu’une autre chaîne n’ait pas besoin elle aussi d’un maximum de débit à ce moment là. La définition spatiale des images HD transmises • Définition horizontale Comme l’image HD est transmise en 16/9, pour avoir les mêmes détails en horizontal qu’en vertical, il faudrait avoir 1080 × 16/9 = 1920 pixels. Ce n’est malheureusement pas le cas, on retrouve des définitions horizontales de 1440 et 1280 pixels, ce qui oblige le téléviseur à ré-échantillonner (upscale ) l’image, d’où dégradation par rapport à une reprise du format natif sans traitement. On peut aussi retrouver à l’affichage des bandes noires issues du choix du 14/9 comme format intermédiaire d’image [TE 5 680, § 4.1.1 – figure 35]. En débit constant CBR, celui-ci doit être dimensionné pour permettre de transmettre un programme demandeur de débit. C’est pourquoi, un débit constant de 10 à 12 Mbit/s en MPEG-4 AVC, suivant le type de programme et le type de réseau, permet une bonne qualité de transmission. Ce débit est nettement réduit via un réseau d’accès ADSL (jusqu’à moins de 5 Mbit/s !) afin de pouvoir offrir la HD au plus grand nombre de clients. Les opérateurs utilisent le multiplexage statistique dans la plupart des multiplex des réseaux de diffusion. Quand le débit constant est utilisé, c’est souvent dû au fait que les chaînes ne sont pas encodées au même endroit que l’assemblage du multiplex, ce qui empêche la compression à deux niveaux. La longueur des GOP (Group Of Pictures ) Le flux vidéo codé en MPEG transmet plusieurs types d’images, entre autres les I, B, P (cf. [TE 5 681, § 1.3 – figure 5]). L’image I (Intra) est celle de référence. Elle comprend le maximum d’informations sur l’image et se suffit à elle-même. Elle doit être la première d’un GOP. Le décodeur MPEG attend cette image avant d’afficher quoi que ce soit. Les images P (Prédite) et B (Bidirectionnelle) sont des images de différence, elles prennent comme référence les images I, et/ou P, et sont donc moins demandeuses d’informations et de débit. Un GOP est une succession de ces images commençant par une image I. Par exemple : IBBPBBPBBPBB. La longueur « M » d’un GOP est le nombre d’images B et P entre deux images I. Dans l’exemple cité M = 12. Pour un diffuseur, l’intérêt est d’avoir un flux MPEG le moins gourmand en débit possible. Il peut donc être tenté de mettre un maximum d’images de différence (B,P) et peu d’images I. Le défaut est le temps d’apparition de l’image quand on zappe sur une chaîne. Un GOP de 25 fera apparaître l’image au maximum 1 seconde après réception du flux MPEG. À cela, lors d’un zapping, il faut ajouter également le temps pris par le récepteur pour changer de fréquence de réception et pour déchiffrer le flux si celui-ci est crypté. • Définition verticale L’encodage MPEG-4 est fait par des blocs de pixels au minimum de 16 × 16 pixels. La définition d’image transmise est donc un multiple de 16 pour la définition horizontale et verticale. On obtient pour la définition HD 1920 × 1088 (avec 1088 multiple de 16 en progressif ou 32 en entrelacé). Le multiplexage statistique (VBR, Variable Bit Rate ) ou non (CBR, Constant Bit Rate ) Un transpondeur satellite comme un canal de la TNT peut contenir plusieurs programmes TV dans un multiplex. Ces différents programmes doivent se partager la ressource de ce multiplex qui a un débit constant. Les opérateurs ont le choix de découper la ressource d’une manière fixe et de donner un débit fixe CBR (Constant Bit Rate ) à chaque chaîne ou bien de laisser une liberté à chaque chaîne en lui donnant un débit variable VBR (Variable Bit Rate ), dans les limites d’un débit minimum et d’un débit maximum. Dans ce dernier cas, la somme des débits de toutes les chaînes ne doit pas dépasser le débit total possible du multiplex (figure 1). Pour permettre le multiplexage statistique, la compression vidéo se fait à deux niveaux : un premier étage analyse le débit qu’il faudra à chaque chaîne pour encoder correctement les images à un instant donné, les résultats de chaque chaîne sont repris pour que la somme ne dépasse pas la valeur constante du débit du multiplex. En fonction de ce débit total et de la priorité donné à une chaîne par rapport à l’autre, l’ordre est donné au deuxième étage d’encoder la vidéo de chaque chaîne avec le débit voulu. Il reste ensuite à assembler l’ensemble des chaînes pour former le multiplex, c’est le multiplexage statistique. DEBIT (Mb/s) Copyright digitalbitrate.com 24 Mesures avant le 0 20 15 10 5 PID Null (8191) M6HD France 2 HD TF1 HD 0 MESURES Figure 1 – Multiplexage statistique de chaînes HD sur la TNT Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＴＱ TE 5 683 – 3 Ｒｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＳ TÉLÉVISION HAUTE DÉFINITION (TVHD) _________________________________________________________________________________________________ Ｒ MPEG-4 AVC permet la diffusion de cinq à six programmes HD dans un canal de transpondeur. Réseau câblé Dans les réseaux câblés, c’est le standard DVB-C (1994) qui est utilisé. Le débit est identique au DVB-S (pour faciliter la reprise des programmes reçus par satellite au niveau de la tête de réseau), soit 38 Mbit/s pour un canal de largeur de bande 8 MHz (la modulation numérique QAM à 64 états utilisée étant plus efficace que la modulation QPSK à 4 états utilisée pour l’émission via satellite). TNT (Télévision numérique terrestre) La propagation terrestre des ondes étant multiple (multipath ) et générant des interférences, le débit permis avec le standard DVB-T est seulement d’environ 24 Mbit/s pour un canal de largeur de bande 8 MHz. Comment alors diffuser trois programmes HD dans un canal de 24 Mbit/s comme cela est le cas sur le multiplex R5 de la TNT en France ? D’une part en codant chaque programme en MPEG-4 AVC/H.264 avec des GOP (Group Of Pictures ) très longs, 50 images en moyenne (à comparer aux 12-15 des bouquets numériques SD et du DVD) et d’autre part en appliquant un multiplexage statistique variant environ de 4 à 14,5 Mbit/s, soit 7,5 Mbit/s de moyenne. Le futur de la HD sur la TNT réside donc dans la deuxième génération, le DVB-T2, qui amènera un gain en débit d’environ 45 %. Les premiers tests ont été effectués par la BBC à l’été 2008. En DVD, le GOP couramment utilisé est entre 12 et 15. En diffusion terrestre TNT MPEG-2, le GOP moyen est entre 22 et 25. En diffusion MPEG-4, les GOP sont beaucoup plus variables, car ce ne sont plus des images transmises mais des tranches d’images (slices ). Le GOP peut varier de 20 à plus de 40 (tableau 1). Dans le tableau 1, on peut noter les différences de débit sur un même support suivant le programme et suivant l’opérateur, induisant des différences de qualité. Ces débits sont à comparer aux résultats de tests de l’UER [Shaefer] avec des codecs H.264 (un codec MPEG-2 à 24 Mbit/s servant de référence) et aux débits recommandés pour les séquences (modérément) « critiques » en CBR : – 10,5 Mbit/s minimum pour 1280 × 720p/50 ; – 12,1 Mbit/s minimum pour 1440 × 1080i/25 ; – 12,8 Mbit/s minimum pour 1920 × 1080i/25. 1.2 Vecteurs de distribution 1.2.1 Réseaux de diffusion La transmission des programmes HD sur les réseaux de diffusion satellite, câble et terrestre est basée sur les standards définis par le projet DVB (Digital Video Broadcasting ) et publiés par l’ETSI (European Telecommunications Standards Institute ). La chaîne DVB comprend essentiellement (figure 2) : – un étage de multiplexage pour constituer le train de données Transport Stream et y encapsuler les composantes audio, vidéo et données de plusieurs programmes [TE 5 681, § 2.1.2] ; – un étage d’insertion de codes pour réaliser la détection et la correction d’erreurs en aval (Forward Error Correction ) au niveau du décodeur du client ; – un étage de modulation numérique adapté au milieu de propagation. Satellite Via satellite, c’est le standard DVB-S (publié en 1993) qui est utilisé, ou sa deuxième génération DBV-S2 (2005). Chaque génération définit ses codes détecteurs-correcteurs d’erreurs et ses modulations numériques spécifiques. Le débit normalisé en DVB-S est de 38 Mbit/s dans un canal de transpondeur de bande passante de 36 MHz. Il permet la diffusion de trois à quatre programmes HD sur un transpondeur. Le DVB-S2 y introduit en débit un gain de 30 %. C’est donc un nouveau standard de diffusion qui, couplé avec le format de compression vidéo Codage de source Formats natifs prod. 1.2.2 Réseau Télécom-ADSL/Fibre optique La distribution des programmes HD s’appuie alors sur les réseaux au niveau national puis régional puis d’accès client d’un opérateur (figure 3a). Les composantes de chaque programme HD sont encapsulées dans un SPTS (Single Program Transport Stream ), lui-même encapsulé (comme avec des « poupées russes ») dans des paquets RTP – UDP – IP, puis finalement des trames Gigabit Ethernet ou des trames ATM (voir figure 3b). Comme l’indique le tableau 1, les paramètres de la vidéo HD et donc les débits adoptés sur une ligne client en ADSL peuvent être très différents selon les opérateurs, l’intérêt de ceux-ci étant d’offrir la « HD » (ou ce qu’il en reste...) au plus grand nombre de clients. Mais le débit en ADSL décroissant en fonction de la longueur et de la qualité de la ligne téléphonique entre le domicile du client et le centre local de raccordement, la solution du futur est le raccordement du client en fibre optique assurant des débits réels entre 30 et 80 Mbit/s. Cela permettra une distribution de bien meilleure qualité de programmes HD. Codage de canal MPEG-2 Systems SDI HD-SDI AES/UER Formatage (Embrouillage) Multiplexage Autres programmes Codage vidéo Codage audio Format Conteneur 1 Formats MPEG-2 Compr. MPEG-4 AVC VC-1 MPEG Audio Dolby AC-3 DTS Multiple Program Transport Stream DVB Forward Error correction Format Conteneur 2 Modulation numérique QPSK/8-PSK 16-/32-APSK (DVB-S) (DVB-S2) (DVB-DSNG) DVB 16-/32-/64-QAM (DVB-C) OFDM 2k/8k + QPSK/16-/64-QAM (DVB-T) (DVB-H) Figure 2 – Chaîne d’émission DVB TE 5 683 – 4 Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＴＲ Signal ｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＳ _________________________________________________________________________________________________ TÉLÉVISION HAUTE DÉFINITION (TVHD) Tête de réseau Réseau fédérateur national Réseau d'accès client Réseau régional Nœud de Raccordement Abonnés Point of Presence Serveur de diffusion Réseau domestique client Asymmetric Digital Subscriber Line (ou fibre optique) Modem ADSL Digital Subscriber Line Access Multiplexer Programme de flux de télévision numérique H Gigabit Ethernet Train de données MPEG-2 SPTS A1 H V1 H D H V2 H T H V3 H V1 Téléviseur Livebox STB Dé Ｒ UDP RTP H A2 MPEG-2 TS H A1 H V1 H D H V2 H T H V3 H V1 H A2 IP Figure 3 – Réseau télécom – ADSL/Fibre optique [Orange] cain et japonais en juin 2006 grâce aux efforts de Samsung. Pendant ce temps, Sony fourbissait ses armes en vue de la sortie en novembre de la même année au Japon et aux USA de sa nouvelle console de jeu Playstation-3, intégrant un lecteur de BD. C’est en octobre 2006 qu’un premier lecteur de salon Blu-ray fut proposé aux « early-adopters » par Samsung sur le marché européen. Au niveau du réseau domestique, la distribution sur des téléviseurs ou des écrans d’ordinateur peut se faire via : – un réseau local Ethernet 100 Mbit/s ou plus, ce qui implique un câblage du domicile du client ; – un réseau Wi-Fi, avec la dernière version de la norme, 802.11n publiée en septembre 2009, plus adaptée à l’audiovisuel et permettant un débit réel d’environ 100 Mbit/s ; – une liaison en CPL, courant porteur en ligne, sur le réseau électrique, avec des débits théoriques également au-delà de 100 Mbit/s (mais à diviser par quatre en pratique, ce qui est suffisant pour deux flux HD). Nota : le premier lecteur Blu-ray de Samsung, le BD-P1000 fut introduit à un prix d’environ 900 euros alors que le premier lecteur de HD DVD de Toshiba, le HD E1 lancé en décembre était proposé à un prix voisin de 600 euros. Mais si finalement, le Blu-ray n’a que quatre ans d’existence sur notre territoire, son histoire commence dès la fin des années 1990 alors que le DVD vivait ses premières années de succès. À cette époque, il devenait évident pour les fabricants d’électronique grand public qu’au regard de l’évolution des performances des outils informatiques et des appareils multimédia, il était indispensable d’envisager la mise au point d’un nouveau support optique. Celui-ci devrait avoir plus de capacité, un débit plus important, des temps d’accès plus courts, un système de protection des contenus plus robuste et disposer de nouvelles fonctionnalités pour une interactivité de haut niveau. Cette préoccupation était légitimée par le fait que l’on pressentait sérieusement l’arrivée de la TV HD bien sûr, mais aussi par le fait qu’au milieu des années 1990, la capacité des disques durs équipant les PC était devenue supérieure à celle des DVD alors que 10 ans auparavant on ne disposait que de quelques dizaines de Mégaoctets quand le CD-ROM contenait 650 Mo. L’architecture télécom, permet de distribuer les programmes de TVHD non seulement en flux de « télévision linéaire » mais comme vidéo à la demande (VOD, Video On Demand ). Au niveau des POPs (Point Of Presence ) régionaux (voir figure 3a ), on dispose alors de serveurs de fichiers vidéo ou de streaming. 2. Distribution HD sur supports optiques Dans un contexte de développement de la diffusion HD, le Blu-ray Disc (BD) est devenu le seul support autonome de distribution d’œuvres audiovisuelles produites en haute définition, présent non seulement dans les lecteurs de salon et les ordinateurs personnels, mais aussi dans certaines consoles de jeux et set-top bones, sans oublier qu’il est le support d’enregistrement de certains caméscopes professionnels [TE 5 682, § 1.4.3]. Nota : dès le milieu des années 1980, les principaux fabricants japonais de vidéodisque commencèrent à développer des prototypes de vidéodisque haute définition analogique basés sur le procédé MUSE – projets auxquels l’arrivée de la TV numérique et de la compression vidéo au début des années 1990 allaient mettre un terme. Parallèlement à cela, les écrans plats faisaient leur apparition. Rapidement, ils deviennent de plus en plus grands, de plus en plus accessibles, et sont enfin capables d’afficher de la HD. L’environnement semble donc propice à la mise sur le marché d’un disque optique de troisième génération capable d’offrir des programmes en HD. 2.1 Développement du BD (Blu-ray Disc ) Un environnement propice à un DVD haute-définition Lancé trois mois après le premier lecteur HD DVD de Toshiba, le premier lecteur de Blu-ray fit son apparition sur le marché améri- Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＴＳ TE 5 683 – 5 ＲＴＴｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＴ Télévision haute définition (TVHD) Affichage. Qualité par Francis MAHIEU Formateur en techniques de vidéo numérique à l’Ina (Institut national de l’audiovisuel) 1. 1.1 1.2 1.3 Affichage HD ............................................................................................. Labels ............................................................................................................ Écrans plats HD ............................................................................................ 1.2.1 LCD (Liquid Cristal Display) ............................................................... 1.2.2 Écrans à plasma .................................................................................. 1.2.3 Comparaison des caractéristiques des écrans LCD et à plasma..... 1.2.4 OLED (Organic Light Emitting Device) .............................................. 1.2.5 Autres technologies d’écrans............................................................. Vidéoprojecteurs HD .................................................................................... 1.3.1 Caractéristiques................................................................................... 1.3.2 Technologies des vidéoprojecteurs HD ............................................ 1.3.3 Technologies des lampes de vidéoprojecteurs ................................ 1.3.4 Électronique de conversion des formats d’entrée et de traitement des images........................................................................ Connectique.................................................................................................. 1.4.1 DVI ........................................................................................................ 1.4.2 HDMI .................................................................................................... Moniteur de référence TE 5 684 - 2 — 2 — 3 — 3 — 4 — 5 — 8 — 9 — 9 — 9 — 10 — 12 — — — — — 12 14 14 15 17 2.4 2.5 Qualité HD et mesures ............................................................................ Origine et types des défauts des images HD ............................................. Conditions de contrôle des images HD ...................................................... Vérifications objectives de la qualité des images haute définition.......... 2.3.1 Contrôles à effectuer en YCBCR et RVB ............................................. 2.3.2 Contrôles des couleurs illégales en RVB........................................... 2.3.3 Contrôle du signal HD-SDI ................................................................. 2.3.4 Contrôle des alarmes.......................................................................... 2.3.5 Contrôle de la conformité de fichier .................................................. Vérifications subjectives ............................................................................. Spécifications du PAD (Prêt à diffuser) ..................................................... — — — — — — — — — — — 17 17 17 17 19 19 21 21 21 21 21 3. Conclusion.................................................................................................. — 23 1.4 1.5 2. 2.1 2.2 2.3 Pour en savoir plus ........................................................................................... Doc. TE 5 684 es images haute définition (HD) sont maintenant proposées par la télévision, c’est la TVHD (télévision haute définition). Initiée en analogique au milieu des années 1980 par les Japonais, puis par les Européens, provisoirement abandonnée, la TVHD ne redémarrera vraiment qu’avec le projet de télévision numérique aux États-Unis. Ce processus aboutira à des normes internationales au milieu des années 1990. Ce dossier constitue non seulement une mise à jour du dossier [TE 5 674] paru en février 2004 « Images haute définition : entre cinéma numérique et télévision HD », mais le complète par une présentation fonctionnelle et tech- ｐ｡ｲｵｴｩｯｮ＠Ｚ＠ｦ￩ｶｲｩ･ｲ＠ＲＰＱＱ L Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＴＵ TE 5 684 – 1 Ｒｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＴ TÉLÉVISION HAUTE DÉFINITION (TVHD) _________________________________________________________________________________________________ Ｒ nique détaillée de toute la chaîne de télévision HD. Il est composé de trois parties : – une première partie concerne les formats. Dans le premier document [TE 5 680] sont décrits les paramètres natifs des images produites par la TVHD et les normes correspondantes. Le document suivant [TE 5 681] détaille les formats de compression, permettant de réduire le débit de la vidéo numérique HD, rendant ainsi possible la captation, le transport, le stockage, l’émission et la réception des images HD, dans le monde de la télévision. Il présente aussi le problème de l’encapsulation des images HD en format-conteneur de fichier de données ou en format de transport ; – cette deuxième partie, composée des trois documents, expose les principales fonctions, depuis le verre de l’objectif de la caméra jusqu’au verre de l’écran plat (from glass to glass), de captation/enregistrement, de montage [TE 5 682], de diffusion et de distribution [TE 5 683], d’affichage et d’évaluation de la qualité des images HD [TE 5 684] ; – la troisième partie mettra en relief une composante importante de la TVHD, le son multicanal [TE 5 685]. De nombreux termes et le texte de certaines figures ont été conservés en anglais, de manière à faciliter la lecture et l’utilisation de documents techniques. Pour permettre une lecture autonome de chaque document du dossier, une liste de sigles et abréviations (voir tableau 8) est incluse à la fin de chacun. De nombreuses références, des listes de normes, standards et recommandations [indiqués entre crochets dans le corps du texte] ainsi que des organismes correspondants, sont jointes dans le document « Pour en savoir plus » [Doc. TE 5 684]. Les figures incluses dans ce document sont consultables en couleurs dans la version électronique du site Techniques de l’Ingénieur. 1. Affichage HD HD ready 1080p (publié avec le suivant le 30 août 2007) : Conçu pour les appareils vidéo, notamment les téléviseurs numériques intégrés, les écrans et projecteurs pouvant accepter, traiter et afficher des signaux 720p et 1080i, mais aussi des signaux 1080p Haute Définition. Les appareils vidéo portant le logo « HD ready 1080p » se distinguent par une résolution d’écran de 1920 × 1080. Pour profiter des programmes en Haute Définition, ces appareils devront eux aussi être utilisés avec un appareil HD TV′ ou HD TV 1080p capable de recevoir et décoder les signaux. 1.1 Labels L’EICTA (European Information, Communication and Consumer devenue Electronics Technology Industry Association), DIGITALEUROPE, est une organisation professionnelle représentant l’industrie européenne des technologies numériques et rassemblant plus de 2 000 entreprises au travers de 42 associations de 29 pays européens. Elle a créé une gamme unique de logos afin de faciliter l’identification des équipements audiovisuels de nouvelle génération disponibles sur le marché et garantir aux consommateurs leur totale compatibilité avec les normes techniques couramment acceptées pour une diffusion en Haute Définition (HD). HD ready (publié le 19 janvier 2005) : HD TV 1080p : Conçu pour les appareils vidéo capables de recevoir et décoder des signaux 720p et 1080i, mais aussi des signaux 1080p Haute Définition transmis par satellite, câble ou diffusion terrestre. Les écrans et appareils de projection portant le logo HD TV 1080p se distinguent par une capacité d’affichage de 1920 × 1080. S’il existe de nombreux autres logos (en particulier Full HD, label commercial non validé) utilisés sur des écrans et téléviseurs, seuls les logos HD ready/HD ready 1080p et HD TV/HD TV 1080p d’EICTA se basent sur des critères techniques objectifs explicites et garantissent une totale interopérabilité. En France, les labels HD ready, Full HD et HD ready 1080p sont abandonnés depuis le 1er décembre 2008, date à partir de laquelle la vente de téléviseurs HD non équipés de tuner TNT-HD est interdite. Conçu pour les appareils vidéo, notamment les téléviseurs numériques, les écrans et projecteurs pouvant accepter, traiter et afficher des signaux 720p et 1080i Haute Définition. Pour profiter des programmes en Haute Définition, ces appareils devront être utilisés avec un appareil « HD TV » pouvant recevoir et décoder les signaux. HD TV (publié le 26 mars 2006) : Conçu pour les récepteurs TV, notamment les terminaux numériques et les téléviseurs numériques à décodeur intégré pouvant directement recevoir et décoder les signaux transmis en Haute Définition (720p, 1080i) par satellite, câble ou diffusion terrestre. TE 5 684 − 2 Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. − © Editions T.I. ＴＶｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＴ _________________________________________________________________________________________________ TÉLÉVISION HAUTE DÉFINITION (TVHD) 1.2 Écrans plats HD Filtres polarisants parallèles Les écrans plats ont désormais les avantages des écrans à tube à rayons cathodiques CRT (Cathode Ray Tube) : forts contraste, luminosité et résolution, faible coût, grand angle de vision, uniformité des blancs et des noirs et grande durée de vie. De plus, ils apportent un encombrement réduit, une image stable et sans papillotement, une grande sécurité d’utilisation, des images de grandes tailles et des économies d’énergie. Aujourd’hui, nous trouvons sur le marché deux types d’écrans plats : les écrans LCD (les plus répandus) et les écrans à plasma [8] [12] [13]. Lumière transmise Lumière non polarisée Ｒ 1.2.1 LCD (Liquid Cristal Display) Lumière polarisée horizontalement Les écrans LCD représentent 90 à 95 % du marché car ils sont présents dans le domaine de l’audiovisuel mais surtout dans le domaine de l’informatique. Cela justifie les améliorations permanentes de cette technologie. La lumière émise par une source naturelle, telle qu’une lampe à incandescence, une étoile ou le soleil, est une lumière non polarisée, c’est-à-dire que le vecteur qui la caractérise ne vibre pas dans une direction fixe. La direction de vibration tourne aléatoirement en fonction du temps, donnant à la lumière naturelle des propriétés de symétrie autour de sa direction de propagation. Certaines substances transparentes n’ont pas les mêmes propriétés dans toutes les directions : ce sont les milieux anisotropes (par opposition aux milieux isotropes, aux propriétés identiques dans toutes les directions). La lumière qui les traverse dans certaines conditions perd sa symétrie autour de la direction de propagation et présente une direction de vibration privilégiée (figure 1a). La lumière est alors dite polarisée linéairement. C’est le principe des filtres polarisants. Si l’on intercale sur le trajet de la lumière deux filtres polarisants à axes croisés (orientés à 90o), on peut provoquer l’extinction du faisceau (figure 1b). Les écrans LCD sont basés sur l’utilisation de cristaux liquides. Ce sont des substances organiques amorphes, constituées de longues molécules ayant la forme de bâtonnets organisés en une structure proche de celle des cristaux. Ils se situent à température ambiante entre un état liquide et un état solide et pourront prendre plusieurs états en fonction de la température (figure 2). À l’état naturel, les molécules de ces matériaux ont tendance à s’aligner parallèlement. Plusieurs arrangements de molécules se rencontrent, parmi lesquels la structure nématique est utilisée pour fabriquer des imageurs. Dans l’état nématique, entre 5 et 80 oC, les molécules peuvent se déplacer entre elles et l’action d’un champ électrique peut modifier leur orientation. Cela leur confère des propriétés optiques analogues à celles des cristaux, notamment la possibilité de polariser la lumière. Un film de cristaux liquides à structure nématique est emprisonné en « sandwich » entre deux plaques de verre finement striées par gravure et orientées à 90o. Dans cette configuration, les molécules prennent naturellement un arrangement en hélice (Twisted Nematic LCD ou TN LCD) qui a la propriété de faire tourner de 90o le plan de polarisation d’une lumière polarisée incidente CRISTAL SOLIDE a Filtres polarisants croisés Lumière non polarisée Extinction Lumière polarisée horizontalement b Figure 1 – Principe des filtres polarisants (figure 3a). Si l’on applique un champ électrique entre les plaques de verre, les molécules s’orientent perpendiculairement à ces plaques et ne devient plus la lumière incidente (figure 3b). La cellule élémentaire d’un imageur à cristaux liquides, interposée sur un trajet lumineux, est constituée : – d’un premier filtre polarisant ; – d’un film de cristaux liquides emprisonné entre deux plaques striées, positionnées à 90o, et servant également d’électrodes ; – d’un second filtre polarisant, orienté à 90o par rapport au premier. CRISTAL LIQUIDE smectique LIQUIDE ISOTROPE nématique TEMPÉRATURE Figure 2 – États des cristaux liquides Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＴＷ TE 5 684 – 3 ｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＴ TÉLÉVISION HAUTE DÉFINITION (TVHD) _________________________________________________________________________________________________ Lumière incidente Lumière incidente a a 1 2 Ｒ Volts 2 1 b b 1 : Filtres polarisants 2 : Plaques striées a et b : Plans de polarisation de la lumière a b Figure 3 – Cellule élémentaire d’un imageur à cristaux liquides En l’absence de polarisation électrique, la cellule transmet la lumière – position ON (figure 3a). commander la commutation des pixels. Cela permet d’améliorer la résolution par la séparation des pixels et aussi d’améliorer le temps de réponse, point faible des premiers imageurs, permettant ainsi des applications en télévision. En présence d’une polarisation électrique, la cellule ne transmet pas la lumière – position OFF (figure 3b). En faisant varier la polarisation électrique, il est possible de moduler la lumière transmise. Quand on s’écarte de l’axe perpendiculaire d’un écran LCD, on perd en luminosité, la colorimétrie peut varier également considérablement avec l’angle de vue et surtout le contraste diminue. Plusieurs technologies comme IPS (In Plane Switching), MVA (Multi-domain Vertical Alignment) de Fujitsu et PVA (Patterned Vertical Alignment) de Samsung atténuent ce problème. Il s’agit d’une technologie transmissive qui nécessite une source externe de lumière. En télévision, le pixel (picture element) est le point coloré élémentaire de la matrice d’un afficheur. Chaque pixel est constitué de trois luminophores, un rouge, un vert et un bleu. Lorsque les trois luminophores sont éclairés, cela donne de la lumière blanche. Le rouge et le vert donnent du jaune, le vert et le bleu donnent du cyan, le rouge et le bleu donnent du magenta. Un dosage approprié de chacun des luminophores rouge vert et bleu permet de reproduire toutes les couleurs. Les matrices actives (figure 4) utilisent des transistors à effet de champ FET (Field Effect Transistor) en technologie TFT (Thin Film Transistor) pour 1.2.2 Écrans à plasma Le plasma est un gaz ionisé, comme dans les tubes fluorescents. Le mélange de gaz à basse pression est ionisé par une décharge électrique, créant un rayonnement ultra-violet, converti en couleurs visibles par les phosphores R, V, B. noir Filtre polarisant Électrode pixel commune à 0 V Substrat de verre Filtre optique SEP SEP SEP Cristaux liquides Filtre optique Film de fixation Substrat de Verre FET Électrode pixel R FET Électrode pixel V FET Électrode pixel B Filtre polarisant Source arrière de lumière blanche (néons) SEP Filtre optique Film de fixation Électrode d’adressage 0 ou – 5 V + 20 V 0 v (pour le jaune 0 v par exemple) Électrodes de commande des FET Figure 4 – Matrice active LCD – TFT TE 5 684 – 4 Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＴＸｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＴ _________________________________________________________________________________________________ TÉLÉVISION HAUTE DÉFINITION (TVHD) Filtres colorés optiques e ag orç 3à6 mm n tie tre en Substrat de verre avant am Bande noire Électrodes horizontales coplanaires d'entretien 35 ␮m Gaz : néon + xénon 100 ␮m U V U V Séparateur Scellement Phosphore Blanc Diélectrique d'isolation 25 ␮m 3à6 mm Ｒ Substrat de verre arrière Électrodes verticales R V B (amorçage et extinction) Figure 5 – Cellule ACC d’écran à plasma Luminosité et uniformité Il s’agit d’une technologie émissive. Comme pour les tubes fluorescents, la décharge est assez difficile à contrôler, il a fallu de nombreuses années pour développer des circuits de commande permettant une large gamme de gris : 256 niveaux (codés avec 8 bit) sont nécessaires pour une qualité acceptable. Le principe des cellules ACC (Alternative Current Coplanar) consiste en un amorçage et un entretien de la décharge électrique, assurés par des électrodes coplanaires séparées (figure 5). Les phosphores rayonnent dans le blanc, la colorimétrie est assurée par des filtres colorés. Cette technologie est simple de fabrication mais donne des teintes moins saturées. Les constructeurs annoncent des luminosités moyennes de 400 à 600 cd/m2 et plus pour les LCD et de 250 à 500 cd/m2 pour les écrans à plasma. Encore faut-il être sûr des conditions de la mesure, et que la luminosité n’a pas été « poussée » pour la circonstance. Une autre caractéristique importante est l’uniformité de luminance. Elle est limitée dans les écrans à plasma par la difficulté à réaliser des cellules homogènes sur de grandes surfaces. Elle est limitée dans les LCD par la qualité du rétro-éclairage (backlight) par tubes néon. La figure 6 représente la mesure par les laboratoires d’essais Fnac de la luminance en 35 points de l’écran : plus c’est rouge, et plus il y a de lumière ; plus c’est vert moins il y en a. Du plus vert au plus rouge, il peut y avoir un écart supérieur à 50 % de lumière. 1.2.3 Comparaison des caractéristiques des écrans LCD et à plasma Dans les deux cas, les images sont affichées à partir de tous les pixels (trame paire et trame impaire), ce qui peut être comparé à un affichage « progressif » d’où la nécessité d’un désentrelacement du signal dans le téléviseur [TE 5 680, § 2.2.6]. Taille d’écran Les constructeurs savent aujourd’hui fabriquer des écrans LCD de 50 pouces de diagonale et plus (> 125 cm). La taille des écrans à plasma commence à 37 pouces (> 90 cm) et s’étend jusqu’à 50 pouces (125 cm) et même au-delà. La raison en est qu’il est difficile de fabriquer des cellules plasma de petite taille. Le LCD est en train de l’emporter sur le plasma sur le marché des téléviseurs grand public car il bénéficie d’améliorations constantes, tiré par l’énorme marché de l’informatique. Définition native La définition native est le nombre de pixels sur la dalle. Les dalles LCD au format 4:3 ont des résolutions natives aux standards informatiques : 800 × 600, 1024 × 768, 1280 × 960. Les dalles LCD au format 16/9 ont majoritairement une résolution native de full HD 1920 × 1080. Les dalles plasma sont également de résolution native 1920 × 1080. La résolution native est un critère important pour un écran plat utilisé en vidéo. En effet, quel que soit le standard de télévision du signal reçu, à l’exception du 1920 × 1080 sur un écran full HD, l’image devra être recadrée pour s’adapter à la définition native de l’écran plat. Il s’agit d’une conversion de standard réalisée en interne à l’appareil, dont le soin qui y est apporté influe grandement sur la qualité finale de l’image. Figure 6 – Uniformité de luminance [labofnac] Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＴＹ TE 5 684 – 5 ｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＴ TÉLÉVISION HAUTE DÉFINITION (TVHD) _________________________________________________________________________________________________ La courbe de gamma d’un LCD est en forme de S (figure 8). Il faut donc dans le téléviseur un circuit de « correction de correction » de gamma. À présent, les constructeurs développent un rétro-éclairage d’un panneau LCD par diodes électroluminescentes LED : 1/ Technologie LED directe (les LED sont placées derrière le panneau LCD). Il est alors possible de contrôler l’uniformité de l’éclairage diode par diode, à l’aide d’un processeur : Quant au plasma, la courbe de gamma est pratiquement linéaire. Là aussi, il faut donc dans le téléviseur un circuit de « correction de correction » de gamma. • rétro-éclairage par LED blanches (environ 500 LED) dans le but principal de réduire la consommation, Colorimétrie • rétro-éclairage par LED blanches (de 500 à plus de 1 000 LED) couplées à un pilotage local (local dimming) afin de réduire la consommation et d’améliorer le contraste, en éclairant uniquement les zones lumineuses de l’image, • rétro-éclairage par LED RVB (Rouge, Vert, Bleu) afin d’améliorer la plage colorimétrique ; 2/ Technologie LED Edge : les LED sont placées en bordure de l’écran, la lumière est diffusée sur tout l’écran à l’aide de tunnels optiques, l’écran est alors très fin (environ 25 mm), le rétro-éclairage ne peut pas être adapté localement. Les constructeurs sont très laxistes avec la température de couleur normalisée de 6 500 oK. Ils ont tendance à élever cette température de couleur pour augmenter la luminosité du blanc et satisfaire les goûts du public. Contraste Les espaces colorimétriques de la SD et de la HD étant différents [TE 5 680, § 2.1], une correction de colorimétrie est intégrée dans le téléviseur. Le taux de contraste est le rapport de luminosité d’un blanc à la luminosité d’un noir. Les valeurs moyennes du taux de contraste pour les LCD annoncées par les constructeurs s’étagent de 3 000 à 5 000. Ce contraste est faible, car : – même à l’état OFF, une cellule laisse passer de la lumière, rendant ainsi les noirs pas très profonds ; – à l’état ON, elle ne laisse passer que 60 % de la lumière, limitant ainsi la luminosité maximum. Relative luminance Ｒ La colorimétrie des LCD comme des écrans à plasma est déterminée par les filtres colorés, ce qui laisse une certaine latitude dans la réalisation et permet d’avoir une colorimétrie comparable à celle des CRT [TE 5 680, § 2.1.3]. Le triangle blanc de la figure 9 représente la palette des couleurs (gamut) que l’écran sait restituer, parmi l’ensemble des couleurs visibles représenté par la forme de voile (de planche à voile). Pour les écrans à plasma, les valeurs moyennes du taux de contraste annoncées par les constructeurs s’étagent de 30 000 à 50 000, voire au-delà. À l’inverse des écrans LCD, les écrans à plasma sont basés sur une technologie émissive générant des blancs plus intenses et des noirs profonds. 100 % 90 % Sample factory setting 80 % 70 % 60 % 50 % Comme pour la luminosité, encore faut-il vérifier les méthodes de mesure du taux de contraste. Ideal gamma 40 % Le taux de contraste est détérioré par la réflectance de la dalle, c’est-à-dire sa capacité à réfléchir la lumière, sa capacité miroir en quelque sorte (figure 7). On y remédie en apposant un filtre mat sur la dalle, ce qui donne d’excellents résultats sur les écrans LCD, bien supérieurs à ceux des plasmas. 30 % 20 % 10 % IRE 0 Progressivité des gris – Gamma 0V Relative voltage On sait qu’un circuit de pré-correction en gamma est implémenté dans toute caméra pour compenser la réponse lumière/tension d’un tube cathodique [TE 5 680, § 2.1.2]. Figure 8 – Courbe de gamma d’un moniteur LCD [BEW] Figure 7 – Réflectance [labofnac] Figure 9 – Palette des couleurs (gamut) [labofnac] TE 5 684 – 6 Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＵＰｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＵ Télévision haute définition (TVHD) Son multicanal par Bernard FOUQUET Ingénieur du son Formateur en techniques d’audio numérique à l’institut national de l’audiovisuel (Ina SUP) 1. Formats d’écoute...................................................................................... 2. Écoute multicanal .................................................................................... — 5 3. Identification des canaux....................................................................... — 6 4. Indication de niveau et de phase ......................................................... — 8 5. Formats de compression pour la réduction de débit audio multicanal ...................................................................... — 9 Transport et stockage du signal en environnement production .............................................................. — 10 7. Diffusion/distribution du son multicanal .......................................... — 13 8. Distribution dans un environnement domestique .......................... — 14 9. Évolutions futures de la restitution sonore spatiale...................... — 15 10. Conclusion.................................................................................................. — 15 6. Pour en savoir plus ........................................................................................... TE 5 685 - 2 Doc. TE 5 685 es images haute définition (HD) sont maintenant proposées par la télévision, c’est la TVHD (télévision haute définition). Initiée en analogique au milieu des années 1980 par les Japonais puis par les Européens, provisoirement abandonnée, la TVHD ne redémarrera vraiment qu’avec le projet de télévision numérique aux États-Unis. Ce processus aboutira à des normes internationales au milieu des années 1990. Ce dossier constitue non seulement une mise à jour du dossier [TE 5 674] paru en février 2004 « Images haute définition : entre cinéma numérique et télévision HD », mais le complète par une présentation fonctionnelle et technique détaillée de toute la chaîne de télévision HD. Il est composé de trois parties : – une première partie concerne les formats. Dans le premier document [TE 5 680], sont décrits les paramètres natifs des images produites par la TVHD et les normes correspondantes. Le document suivant [TE 5 681] détaille les formats de compression, permettant de réduire le débit de la vidéo numérique HD, rendant ainsi possible la captation, le transport, le stockage, l’émission et la réception des images HD, dans le monde de la télévision. Il présente aussi le problème de l’encapsulation des images HD en format-conteneur de fichier de données ou en format de transport ; – une deuxième partie, composée des trois documents, exposera les principales fonctions, depuis le verre de l’objectif de la caméra jusqu’au verre de ｐ｡ｲｵｴｩｯｮ＠Ｚ＠ｦ￩ｶｲｩ･ｲ＠ＲＰＱＱ L Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＵＱ TE 5 685 – 1 Ｒｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＵ TÉLÉVISION HAUTE DÉFINITION (TVHD) _________________________________________________________________________________________________ Ｒ l’écran plat (from glass to glass), de captation/enregistrement, de montage [TE 5 682], de diffusion et de distribution [TE 5 683], d’affichage et d’évaluation de la qualité des images HD [TE 5 684] ; – cette troisième partie met en relief une composante importante de la TVHD, le son multicanal [TE 5 685]. De nombreux termes et le texte de certaines figures ont été conservés en anglais, de manière à faciliter la lecture et l’utilisation de documents techniques. Pour permettre une lecture autonome de chaque document du dossier, une liste de sigles et abréviations (tableau 2) est incluse à la fin de chacun. De nombreuses références [indexées entre crochets dans le corps du texte], ainsi que des listes de normes, standards et recommandations [également indiqués entre crochets dans le corps du texte] ainsi que des organismes correspondants, sont jointes dans le document « Pour en savoir plus » [Doc. TE 5 685]. Les figures incluses dans ce document sont consultables en couleurs dans la version électronique du site Techniques de l’Ingénieur. Deux objectifs sont assignés à la restitution du son multicanal, la localisation et l’enveloppement. La localisation suppose une position précise de l’auditeur, ce qui est réalisable pour un seul spectateur. L’enveloppement est plus facilement réalisable pour un groupe. Comment peut-on percevoir une continuité sonore avec un nombre fini de haut-parleurs. N’y a-t-il pas un risque de percevoir des sources ponctuelles séparées par des espaces acoustiques vides ? Dès la fin des années 1940, il a été montré que deux haut-parleurs judicieusement placés restituent des sources sonores virtuelles ou fantômes situées entre les sources réelles [1]. Le multicanal pouvant être considéré comme une extension de la stéréophonie, chaque couple d’enceintes peut permettre la restitution d’un espace sonore continu entre elles. Cependant, il y a une restriction, l’auditeur doit être placé à un endroit précis, le « sweet spot ». L’image HD accroît la définition et permet au téléspectateur de sélectionner dans l’image ses centres d’intérêt. Le son multicanal permet l’immersion dans l’espace sonore, c’est donc un complément assez naturel. D’autre part, avec le multicanal, la restitution sonore domestique se rapproche du standard cinéma comme l’image (« produce high-quality audio for high-quality video ! »). 1. Formats d’écoute 1.1 Historique Le format multicanal est issu de la projection grand écran du cinéma [33] [34]. Il s’est ensuite développé avec l’essor du DVD vidéo dans le cadre domestique. Il est donc assez logique que la TVHD soit associée au format multicanal, d’autant que s’appuyant sur le parc installé chez les particuliers. Les sources de programmes HD existantes étant majoritairement des films 35 mm, le format de son associé à ces films est le multicanal (figure 1). 1.1.1 Du cinéma muet au multicanal SDDS Dolby Digital À l’origine, le cinéma était muet. En 1927, « The Jazz Singer » d’Alan Crosland, le premier film parlant, chantant et musical, sort aux États-Unis. L’acteur vedette, Al Jolson, d’origine russe, y apparaît maquillé en noir. La partie son ne comporte que 354 mots, mais le succès est immédiat pour les producteurs, les frères Warner. La bande passante du signal audio était de l’ordre de 7 kHz. TE 5 685 − 2 Pistes optiques Piste analogiques Time Code DTS Figure 1 – Formats de son multicanal sur pellicule film 35 mm [Rotareneg – Wikimedia Commons] Par la suite, le nombre de pistes a évolué, mais l’enceinte centrale, dédiée aux dialogues, est restée. Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. − © Editions T.I. ＵＲｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＵ _________________________________________________________________________________________________ TÉLÉVISION HAUTE DÉFINITION (TVHD) canal central C (Center) aux canaux gauche et droit L (Left) et R (Right) après leur atténuation de quelques décibels (typiquement 3 dB). Le canal d’ambiance S (Surround) est censé être déphasé de 90o, additionné à L et soustrait à R. Dolby est très avare de détails sur ce codage. Des tentatives de stéréo ont eu lieu mais la localisation des dialogues posait problème en particuliers pour les spectateurs placés hors de l’axe central de la salle. Le système trois canaux s’est alors imposé. Deux problèmes se posaient à l’époque. Le résultat forme deux canaux dits Lt et Rt pour Left total et Right total. C’est ce signal Lt-Rt qui est enregistré sur les pistes analogiques optiques de la pellicule film 35 mm (figure 4). Ce codage issu du cinéma peut être appliqué à un système d’enregistrement ou de transmission stéréo comme le DVD ou la radio en modulation de fréquence. Le son de la télévision analogique française étant mono ne peut l’utiliser sauf depuis l’apparition du NICAM 728 qui permet la stéréo. • Premièrement, le personnage à l’écran peut se déplacer mais la source sonore est fixe. Il a été montré [25] [31] qu’en l’absence d’habituation si l’écart du point de vue du spectateur entre l’image et le son est inférieur à 11-12o, le cerveau fusionne les deux images. Avec habituation (plusieurs jours minimum), cet écart peut atteindre 60-70o. La meilleure place de l’enceinte dialogue est donc au centre de l’écran. • Deuxièmement, l’écran est un masque pour le son. La solution trouvée est l’écran « trans-sonore », toile est percée de petits trous (1 à 1,2 mm tous le 5 mm). • Codage et décodage analogique Dolby Prologic Il y a quatre canaux en production (figure 3) : L, C, R, S (Left, Center, Right, Surround). Par la suite, on a ajouté deux enceintes derrière l’écran pour la musique et les effets, la localisation dépendait de la place du spectateur (seuls ceux placés sur l’axe de la salle percevant un effet stéréo). Grâce à l’enceinte centrale, le dialogue est malgré tout perçu en accord avec l’image par tous les spectateurs. Le centre est dédié aux dialogues. Les enceintes L, C, et R sont derrière l’écran trans-sonore (§ 1.1.1). Le canal Surround (ambiance en français) alimente plusieurs enceintes disposées sur les cotés de la salle voire à l’arrière. L’objectif est de créer une ambiance, comme une réverbération, plutôt que des sons localisés. La bande passante du canal S est de 7 kHz. Des enceintes sont aussi ajoutées dans la salle pour un effet d’ambiance (surround). Elles sont alimentées par une puis deux voies, voire plus. Le cinéma n’est pas un monde normalisé. Les formats cinéma sont propriétaires, ils sont le fait de sociétés de production et de distribution, le plus souvent américaines. L’histoire du cinéma est jalonnée de formats de l’image et du son très variés. Aujourd’hui encore, il subsiste plusieurs formats de diffusion sonore. LEFT RIGHT 1.1.2 Son à la télévision L’introduction du son multicanal dans les programmes de télévision et son arrivée dans l’environnement du téléspectateur a été très progressive [14] [15]. La télévision est née sonore et monophonique. Il n’a pas été possible de mettre le haut-parleur derrière l’écran comme au cinéma car les deux canaux (image et son) utilisant des champs magnétiques pour la restitution, il y aurait eu interférence. L’enceinte est disposée à côté de l’écran et blindée. La fusion de l’image et du son est possible car l’écran est petit et le téléspectateur doit regarder l’écran à six fois la hauteur de celui-ci pour ne pas distinguer les lignes. L’angle entre la source du son et l’image est donc réduit. Par la suite, le son est passé de 1 à 2 canaux (stéréo), il n’y a pas d’enceinte centrale comme au cinéma. Pour percevoir l’effet stéréo, le téléspectateur doit être en face de l’écran. Le cinéma et la télévision divergent en matière de format audio. L’évolution ultérieure est dûe au DVD vidéo. La source naturelle de ses contenus étant le cinéma, certains lecteurs DVD ont des sorties multicanaux et certains spectateurs s’équipent en amplificateurs multimédia et en enceintes au format multicanal. De son côté, la télévision est encore stéréo ou mono. L’arrivée de la TVHD va profiter du développement rapide du DVD. Il est impératif de proposer un format multicanal pour diffuser les films, mais aussi les séries, le sport, les publicités et les habillages d’antenne. Les téléspectateurs équipés en multicanal ne comprendraient pas que ce format ne leur soit pas alors proposé. Toutefois, il est impératif de prévoir la compatibilité avec l’écoute stéréo et mono équipant la majorité des téléspectateurs. Figure 2 – Format d’écoute stéréo 2/0 ou Lo-Ro LEFT CENTRE RIGHT MONO SURROUND Figure 3 – Format d’écoute 3/1 1.1.3 Évolution des formats du son multicanal au cinéma L C R S 1.1.3.1 Dolby Prologic (analogique) Le but est d’encoder quatre canaux (figure 3), voire plus, pour les enregistrer sur les deux pistes optiques analogiques d’une pellicule film 35 mm. Le multiplexage est basé sur une addition du LT Matriçage SEU4 Dématriçage SDU4 RT L C R S Figure 4 – Format d’enregistrement/transport Lt-Rt Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＵＳ TE 5 685 – 3 Ｒｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＸＵ TÉLÉVISION HAUTE DÉFINITION (TVHD) _________________________________________________________________________________________________ Tableau 1 – Terminologie multicanal Nom Diffusion Nombre de pistes Ｒ Nom et ordre des pistes (EBU R91) Écoute Nombre de canaux Format Type MPEG Nom des canaux Stereo 2 Lo Ro 2 2.0 2/0 LR Pro Logic 2 Lt Rt 4 4.0 3/1 LCRS Dolby Digital 6 L R C LFE Ls Rs 6 5.1 3/2 L Pro Logic II 2 Lt Rt 5 5.0 3/2 Dolby Digital EX 6 L R C LFE Ls Rs 7 6.1 3/3 L L C R Ls Bs Rs LFE Pro Logic IIx 2 Lt Rt 7 7.0 3/4 L C R Ls Lb Rb Rs L C R Ls Rs 1.1.3.3 Son numérique sur serveurs de fichiers • Codage et décodage numérique Dolby Prologic II [9] Le codage numérique, plus précis, permet de passer de un à deux canaux Surround et d’ajouter des effets d’élargissement du centre et de la stéréo. La bande passante peut être limitée à 7 kHz, ou atténuée au-dessus de 7 kHz (Baxendall ou Shelf) ou non limitée. Le DCI (Digital Cinema Initiative) ou cinéma numérique est le format de distribution des films sur support informatique. Le format audio natif permet un enregistrement linéaire de 16 canaux avec des fréquences d’échantillonnage de 48 ou 96 kHz et 24 bit de codage. Ce format ne subit pas de compression avant d’être distribué. • Il existe un Dolby Prologic IIx qui rajoute des canaux Surround. Les pistes optiques sur la pellicule film restent analogiques. 1.1.4 Formats de son multicanal utilisés en télévision 1.1.3.2 Son numérique sur pellicule film 35 mm Trois formats se partagent la place libre sur la pellicule. Les pistes analogiques sont conservées. La lecture est optique. Le son ne peut être lu à la même place que l’image car le défilement de l’image est saccadé (24 images par secondes) et le son demande une lecture régulière. Le son est enregistré avec un décalage (24 images) qui permet une stabilisation du défilement. Les capteurs pour les systèmes numériques ne peuvent pas être installés au même endroit. Chacun est affecté d’un décalage propre qui permet de placer tous les capteurs sur le projecteur. • Dolby D (Dolby Digital) La composition des systèmes multicanaux peut être décrite en utilisant deux types de notation : – avec une barre de fraction : « nombre de voies avant/nombre de voies arrière ou ambiances » (notation utilisée avec les formats de compression MPEG) ; – avec un point : « nombre de voies pleine bande, nombre de voies LFE ». Le son en télévision peut être : – Mono : c’est le format historique initial. Il peut être noté 1/0 ou 1.0 ; – Stéréo : existe depuis les années 1980 en télévision. Noté 2/0 ou 2.0 avec les voies Lo Ro, pour Left only et Right only (figure 2) ; – Prologic et Prologic II : 3/1 ou 4.0 (figure 3), 3/2 ou 5.0, avec les voies Lt Rt pour Left total et Right total (figure 4) ; – Multicanal numérique (film, télévision, disques) : 3/2, 3/3 ; 5.1 (figure 5) (figure 6), 6.1 (figure 7), 7.1, 13.1, 22.2 pour la Super Hi-Vision, la TVHD du futur (figure 9)... Il y a six canaux (figure 5) : L, C, R, Ls, Rs, LFE (Left, Center, Right, Left surround, Right surround, Low Frequency Effect). Le signal est enregistré sous la forme de points noirs et blancs entre les perforations d’un seul côté de la pellicule. Chaque matrice de points fait 76 par 76. Le format du son numérique est 48 kHz de fréquence d’échantillonnage avec réduction de débit AC3 (format de compression propriétaire Dolby). Le débit net est de 320 kbit/s. • DTS (Digital Theatre System) C’est un concurrent de Dolby lancé à l’origine par Steven Spielberg. Il offre six canaux. Le signal sonore est enregistré sur un support séparé, synchronisé avec le film grâce à une piste de code temporel située entre l’image et les pistes analogiques. Le débit est de 1,5 Mbit/s. LEFT • SDDS (Sony Dynamic Digital Sound) Le système SDDS, conçu pour les grands cinémas, a huit canaux (7.1). En plus des canaux 5.1, sont ajoutés le centre gauche (Center Left) et le centre droit (Center Right) derrière l’écran (figure 8). Le signal est enregistré sous forme de points cyan et blanc entre le bord de la pellicule et les perforations des deux côtés. Le débit est de 2,2 Mbit/s. CENTRE RIGHT SUBWOOFER Le SDDS a créé une émulation qui a poussé Dolby à sortir un 6.1 (Dolby Digital EX), suivi bientôt par DTS ES. Dans le 6.1, il y a toujours trois enceintes derrière l’écran mais un canal ambiance arrière Bs (Back surround) est ajouté à Ls et Rs (figure 7). La multiplicité des formats ne manque pas de poser des problèmes de distribution des copies car l’équipement de toutes les salles n’est pas forcément compatible avec tous les formats. TE 5 685 – 4 L C R Ls Rs LFE LEFT SURROUND Figure 5 – Format d’écoute 3/2 ou 5.1 Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite. – © Editions T.I. ＵＴ RIGHT SURROUND ｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＷＶ Télévision en relief stéréoscopique Principe, production et formats par Ｒ Marc LEGER Diplômé de l’École nationale supérieure Louis-Lumière Opérateur de prise de vues – Ingénieur vision Formateur à INA EXPERT et Francis MAHIEU Formateur en techniques de Vidéo numérique à INA EXPERT 1. 1.1 1.2 1.3 Introduction aux images stéréoscopiques ..................................... Concepts de base ...................................................................................... Vision du relief – Indices monoculaires de profondeur ......................... Principes généraux de stéréoscopie........................................................ 2. 2.1 2.2 Techniques et outils de captation .................................................... Modules caméras ...................................................................................... Réglages .................................................................................................... — — — 10 10 11 3. 3.1 3.2 Techniques et outils de postproduction ......................................... Étapes et procédures (workflows ) Conversion 2D en 3D-s ............................................................................. — — — 12 12 15 4. 4.1 4.2 4.3 Stockage et distribution des images stéréoscopiques .............. Formats « frame compatible » Formats « frame compatible » amélioré Formats « service compatible » — — — — 16 16 19 20 5. Conclusion............................................................................................... — 23 Pour en savoir plus ........................................................................................ TE 5 676 - 2 — 2 — 5 — 6 Doc. TE 5 676 a stéréoscopie, ou technique de création d’une impression de relief à l’aide d’une vision binoculaire, est apparue avec des images fixes dès la moitié du XIXe siècle. Ce n’est que dans la période 1952-1954 qu’une production cinématographique en relief conséquente a eu lieu, puis a diminué, pour de nouveau connaître un regain, des années 2003 à nos jours, grâce à l’utilisation des techniques numériques. Dans le domaine de la télévision, il a fallu attendre 2010 pour voir apparaître une offre de téléviseurs 3D-s pour l’affichage d’images stéréoscopiques, mais sans que l’offre de programmes ne suive. L’objectif de cette série de deux articles, est de présenter la spécificité de la stéréoscopie pour : – créer une impression de relief ; – juger de la difficulté et de la complexité à produire, et à distribuer, ces images stéréoscopiques à la télévision ; – comprendre l’évolution de la TV 3D-s, et de son éclipse (temporaire ?) au profit de la télévision Ultra-High Definition (TV UHD). Ce premier article détaille : – les principes de base et les paramètres pour créer une impression de relief à partir de deux images correspondant aux deux vues de l’œil gauche et de l’œil droit ; ｐ｡ｲｵｴｩｯｮ＠Ｚ＠ｦ￩ｶｲｩ･ｲ＠ＲＰＱＴ L Copyright © – Techniques de l’Ingénieur – Tous droits réservés ＵＵ TE 5 676 – 1 ｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＷＶ TÉLÉVISION EN RELIEF STÉRÉOSCOPIQUE _______________________________________________________________________________________________ Ｒ – les méthodes et outils utilisés en production et postproduction télévision en relief : équipements de tournage, de montage, de conversion 2D en 3D-s ; – les formats d’image utilisés pour le stockage et la distribution des images stéréoscopiques. Le 2e article [TE 5 678] présente : – les normes utilisées pour la diffusion télévision des images stéréoscopiques, ou leur distribution sur Blu-ray Disc ; – les technologies d’affichage et de visualisation sur écran de télévision ; – le contrôle de la qualité des images en relief. Le document annexe « Pour en savoir plus » fournit des références et liste quelques outils. Abréviations et acronymes Sigle ADSL AVC Cb, Cr RVB Rouge-vert-bleu Advanced Video Coding (= MPEG-4 Part 10 = ITU-T H.264) s-3D Stereoscopic 3D SbS Side-by-side ; côte-à-côte Informations de chrominance (Cb = B – Y, Cr = R – Y) SIP Stereo Image Processor TV Télévision ; téléviseur UHD Ultra-High Definition D Depth ; profondeur DCT Discrete Cosine Transform ; transformée mathématique utilisée en compression JPEG et MPEG DVB Digital Video Broadcasting ; normes de diffusion de télévision numérique FCF Frame-Compatible Format Norme ITU-T de compression vidéo identique à la norme ISO/IEC MPEG-4 AVC (Part 10) H.265 Norme ITU-T de compression vidéo identique à la norme ISO/IEC HEVC Axes horizontal/vertical/de profondeur Y Luminance, luma = information de luminance (représentant les niveaux de gris) en TV couleur, résultant du calcul d’une somme pondérée des valeurs des primaires RVB Z Axe et paramètre de profondeur (depth ) 1. Introduction aux images stéréoscopiques High Definition (Television ) HEVC High Efficiency Audio Video Coding, norme ISO/IEC de compression vidéo JPEG Joint Photographic Experts Group L Left L Level (compression vidéo) 1.1 Concepts de base Avant de décrire les principes et les techniques de l’image 3D stéréoscopique, il est important de bien définir d’abord le vocabulaire utilisé. Car ce dernier est un peu ambigu. ■ 3D Ce terme a été utilisé d’abord pour parler d’image de synthèse : c’est-à-dire d’image résultant d’un calcul et non pas d’une prise de vue réelle. Les anglo-saxons parlent alors de CGI pour Computer Generated Image. Moving Picture Experts Group Mux Multiplexeur MVC Multiview Video Coding (Amendement 4 à la norme ISO/IEC MPEG-4 AVC) MVD Multiview Video + Depth NAL Network Abstraction Layer P Profile (compression vidéo) R Right TE 5 676 − 2 xyz Gauche H.264 MPEG Désignation Asymmetrical Digital Subscriber Line Droit HD (TV) Sigle Désignation D G Abréviations et acronymes (suite) En image de synthèse, on a modélisé des objets virtuels en trois dimensions xyz. On peut calculer une image de ces objets en définissant les caractéristiques et le placement d’une caméra et de sources lumineuses virtuelles. L’image qui en résulte n’est pas « en relief » mais en « 3D » (figure 1). L’ambiguïté est due au fait que le même terme désigne maintenant une image stéréoscopique. Pour plus de précision, on utilisera l’acronyme 3D-s pour 3D stéréoscopique (s-3D pour stereoscopic 3D ). Copyright © – Techniques de l’Ingénieur – Tous droits réservés ＵＶｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＷＶ ________________________________________________________________________________________________ TÉLÉVISION EN RELIEF STÉRÉOSCOPIQUE Ｒ Y Z X Y X Z Y Figure 1 – Modélisation d’un objet en 3D pour le calcul d’images de synthèse (logiciel Blender) ■ Relief – la fabrication de deux images différentes, « œil gauche » « œil droit » ; – l’utilisation d’un écran, avec ou sans lunettes, qui permet à chaque image d’être vue uniquement par l’œil auquel elle est destinée [TE 5 678]. On utilise souvent le terme « image en relief », mais si on regarde une image plate, on voit déjà du relief !!! Lorsque nous regardons un tableau, nous sommes capables de comprendre quels éléments le peintre a représenté en avant-plan, quels éléments sont en profondeur ; pourtant, nous regardons une image plane (figure 2). Cela signifie que l’artiste a disposé sur sa toile un certain nombre d’indices de profondeur qui aident notre cerveau à reconstituer la scène dans sa profondeur (§ 1.2 et 1.3). La stéréoscopie est une technique ancienne, qui a commencé à être employée pour l’image fixe dès l’invention de la photographie, et pour le cinéma dès le début du XXe siècle. ■ Stéréoscopie On remarquera que l’on peut faire de la stéréoscopie en prise de vues réelles avec deux caméras ou en image de synthèse. On utilise alors deux caméras virtuelles dont le point de vue sera légèrement décalé. C’est le terme le plus précis pour parler de cette technique. Nous avons deux oreilles : pour se rapprocher au maximum de notre façon d’entendre le monde, on a inventé la stéréophonie. Nous avons deux yeux : pour se rapprocher de notre façon de voir le monde, on a inventé la stéréoscopie. Même si la stéréoscopie se rapproche au mieux du mécanisme de la vision humaine, même si l’image en relief apporte un surcroît de réalisme, une image stéréoscopique a des différences fondamentales avec notre vision du monde réel. Dans le monde réel, la La stéréoscopie, c’est : – la prise de vues à deux caméras qui sont positionnées comme deux yeux, écartées d’un certain entraxe ; Copyright © – Techniques de l’Ingénieur – Tous droits réservés ＵＷ TE 5 676 – 3 ｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＷＶ TÉLÉVISION EN RELIEF STÉRÉOSCOPIQUE _______________________________________________________________________________________________ Ｒ Figure 2 – Indices de profondeur sur un tableau forme des objets observés change quand on se déplace. Des facettes des objets, ainsi que des parties de l’arrière-plan, apparaissent ou disparaissent avec nos déplacements. Seule notre vision du monde réel est en trois dimensions. de vue légèrement décalés, ce qui génère des effets de parallaxe entre les deux images (§ 1.3.2, figure 7). ■ Convergence La convergence est l’angle entre les axes optiques de nos deux yeux ou des deux caméras en stéréoscopie (figure 6). On appelle plan de convergence la zone de l’espace pour laquelle il n’y a pas de parallaxe. Si on regarde une image stéréoscopique, le point de vue a été fixé par la prise de vues. Si nous nous déplaçons en regardant une image stéréoscopique, la forme des objets ne change pas, c’est toujours les mêmes parties de la scène observée qui restent visibles ou cachées (sauf dans le cas des écrans autostéréoscopiques [TE 5 678]). C’est la raison pour laquelle certains théoriciens refusent le terme de 3D pour la stéréoscopie et préfèrent parler de 2D1/2. Dans la pratique, c’est le plan passant par le point de croisement des axes optiques et perpendiculaire à la médiane de l’angle formé par ceux-ci (même si le plan de convergence est en réalité recourbé sur les bords). Quand on regarde une image stéréoscopique, on épouse le point de vue d’un couple de caméras, et donc, le point de vue d’un réalisateur. On reste dans un système de représentation du monde par des images, avec ce que cela sous-entend de conventions, de codes, de grammaire de l’image, même si tout cet ensemble de règles est profondément bouleversé par la stéréoscopie. ■ Distance interoculaire C’est la distance entre les deux pupilles d’un individu. Cette distance est, en moyenne, de 65 mm pour un homme adulte, elle est plus faible chez la femme, et d’environ 48 mm (selon l’âge) chez l’enfant. Il est à noter que chaque individu a sa propre distance interoculaire, l’origine géographique jouant aussi un rôle (les asiatiques ayant, par exemple, les yeux plus rapprochés). Cela implique que chaque individu a sa propre vision stéréoscopique, et qu’une prise de vue en 3D-s devra être réglée de façon à satisfaire le plus grand nombre. ■ Entraxe On appelle entraxe la distance entre les objectifs des deux caméras d’un dispositif de captation stéréoscopique, et plus précisément, la distance entre les points nodaux-objet des objectifs. ■ Parallaxe Une attention particulière doit être notamment portée aux enfants qui, du fait de leur faible distance interoculaire, risquent d’être les premiers à ressentir la fatigue visuelle. La parallaxe se définit comme l’influence de la position de l’observateur sur la position apparente de l’objet observé. Lorsque nous regardons un objet, nos deux yeux offrent sur lui des points TE 5 676 – 4 Copyright © – Techniques de l’Ingénieur – Tous droits réservés ＵＸｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＷＶ ________________________________________________________________________________________________ TÉLÉVISION EN RELIEF STÉRÉOSCOPIQUE 1.2 Vision du relief. Indices monoculaires de profondeur Éclateur Laser Miroir La perception de l’espace et du relief fait appel à de multiples facteurs, qui n’ont pas tous à voir avec la vision binoculaire. On dénombre plusieurs dizaines d’indices de profondeur, monoculaires et binoculaires, statiques et dynamiques. C’est l’interprétation, par notre cerveau, de tous les indices perçus qui nous permet d’estimer la distance des objets, et de nous représenter l’espace dans lequel nous évoluons. Il est à noter que ces indices sont en général, du domaine de l’acquis et du culturel, donc susceptibles de fonctionner différemment d’un individu à l’autre. Faisceau incident Faisceau de référence Faisceau réfléchi Champ d’interférences Hologramme Un point très important à respecter dans la fabrication d’images en relief est de ne pas générer de conflit entre différents indices de perception de la profondeur. Ces conflits amèneraient une charge cérébrale supplémentaire au spectateur qui serait une des causes d’inconfort visuel. Plaque photo-sensible Figure 3 – Principe de la prise de vues holographiques ■ Holographie On se limitera, ici, aux indices principaux les plus souvent pris en compte par les stéréographes (figure 4). L’holographie est une technique très différente de la stéréoscopie. L’holographie consiste à enregistrer sur une plaque photographique les interférences lumineuses entre un laser de référence et des rayons de ce même laser, réfléchis par l’objet que l’on souhaite holographier (figure 3). ■ Occultation/révélation Si un objet masque un autre, alors cela signifie qu’il se trouve plus près de l’observateur que l’objet masqué (figure 4 – indice 1). Cet indice est toujours prioritaire dans l’interprétation par le cerveau en cas de conflit avec d’autres indices : il s’agit pour l’observateur d’une réalité géométrique incontestable. L’hologramme ainsi obtenu, éclairé dans les mêmes conditions géométriques qu’à la prise de vues, donnera une image en trois dimensions de l’objet. Il n’y a pas, en holographie, de point de vue unique comme en stéréoscopie. Si vous bougez la tête en regardant un hologramme, l’objet peut révéler ou occulter certaines de ses facettes. ■ Taille des objets et perspective linéaire Les objets de même taille seront perçus plus ou moins grands selon leur éloignement (figure 4 – indice 2). Nous avons tous construit un référentiel d’objets connus dont nous connaissons la dimension : la taille de leur image sur notre rétine nous permet d’estimer leur distance. L’holographie est donc une vraie représentation « 3D ». La télévision holographique, qui n’en est qu’à un stade de recherche aujourd’hui, pourrait avoir à long terme des débouchés extrêmement importants. Le cinéma et la télévision stéréoscopiques ne seront peut-être qu’une transition vers l’holographie animée. La perspective linéaire qui découle de la taille relative des objets est un puissant indice de profondeur. 3 1 4 2 1 Le palmier situé au centre masque les bateaux : il est donc plus proche que ceux-ci. 2 Les transats au centre sont plus grands que ceux situés à gauche : ils sont plus près. 3 Le gradient de texture des feuilles de palmier (à gauche) nous indique qu’elles sont très proches. 4 Les collines à l’horizon sont dans la brume atmosphérique : elles sont les plus lointaines. Figure 4 – Indices de profondeur sur une image Copyright © – Techniques de l’Ingénieur – Tous droits réservés ＵＹ TE 5 676 – 5 Ｒｒ￩ｦ￩ｲ･ｮ｣･＠ｉｮｴ･ｲｮ･ｴｔｅＵＶＷＶ TÉLÉVISION EN RELIEF STÉRÉOSCOPIQUE _______________________________________________________________________________________________ Exemples Il a été montré que les hommes de certaines tribus vivant dans la forêt et ne voyant donc jamais d’objets très lointains, placés face à un panorama, n’étaient pas capables d’interpréter l’effet d’atmosphère sur les lointains. À l’opposé, les astronautes américains sur la lune se sont trouvés très gênés pour apprécier la distance des rochers lointains, précisément à cause du manque d’atmosphère. Un autre ordre d’idée : dans certaines peintures indiennes, la taille des personnages n’est pas liée à leur éloignement, mais à leur caste. Ｒ 1.3 Principes généraux de stéréoscopie Figure 5 – Ombres 1.3.1 Mécanisme de la vision stéréoscopique ■ Gradient de texture Lorsqu’un motif se répète dans une image, la taille du motif change avec l’éloignement (figure 4 – indice 3). Encadré 1 – Indice binoculaire de convergence ■ Ombres Lorsque nous regardons un objet proche de nous, par exemple, un doigt tenu près de notre visage (figure 6), nous louchons afin d’amener l’image de l’objet sur la fovéa, au centre de notre champ de vision. Les muscles qui dirigent les yeux renvoient alors à notre cerveau l’information de l’angle de convergence. Le cerveau, connaissant la distance inter-pupillaire, peut en déduire la distance de l’objet, à la manière d’un télémètre. Les ombres propres d’un objet renseignent sur sa forme (figure 5). Exemple Un visage éclairé avec une lumière directionnelle prend du « modelé ». De même, la position de l’ombre portée d’un objet nous renseigne sur sa distance avec le fond. Grâce à ce principe, nous pouvons apprécier la distance des objets jusqu’à une distance d’environ 10 m. Au-delà de cette distance, les axes optiques des yeux deviennent quasiment parallèles. Heureusement, les autres indices de profondeur prennent alors le relais. ■ Effets d’atmosphère Les particules et la vapeur d’eau présentes dans l’atmosphère modifient l’aspect des objets lointains. Leurs détails sont gommés (effet de blur ), leur contraste est diminué, leur saturation est diminuée, et leur couleur est modifiée. Cet effet commence à partir d’une centaine de mètres et nous sert à apprécier les distances importantes (figure 4 – indice 4). 1.3.2 Décalage des points homologues ■ Accommodation On appelle points homologues les mêmes points de l’objet observé dans les images gauche et droite. Lorsque nous accommodons sur un objet pour le voir net, des muscles qui déforment le cristallin pour le bomber renvoient une information au cerveau qui lui indique la distance de mise au point. ■ Parallaxe nulle Examinons les images formées par nos deux yeux : les axes optiques de nos yeux convergent vers notre doigt levé, bras tendu, car nos yeux sont guidés par le cerveau qui cherche à fusionner les deux images (figure 7a ). La conséquence est que l’image de notre doigt se forme au même endroit sur nos deux rétines. On dira, dans ce cas, que les points homologues sont « confondus ». On dit que notre doigt est dans le « plan de convergence » de nos yeux : la parallaxe est nulle. ■ Parallaxe de mouvement Un effet de parallaxe est déclenché par le mouvement de l’observateur. Exemple Lors d’un travelling latéral, les objets les plus proches de la caméra changent plus rapidement de position dans l’image que les objets lointains. La parallaxe peut être aussi obtenue par l’observation d’objets mobiles par un observateur fixe. Plan de convergence Exemple Distance inter-oculaire Un avion loin dans le ciel semble pratiquement immobile, tandis qu’une voiture qui passe juste devant soi aura une grande vitesse apparente alors qu’elle va moins vite. Angle de convergence Distance de l’objet Il est à noter que la plupart de ces indices de profondeur sont du domaine de l’acquis et sont donc liés au bagage culturel de chaque individu. TE 5 676 – 6 Figure 6 – Angle de convergence Copyright © – Techniques de l’Ingénieur – Tous droits réservés ＶＰ GAGNEZ DU TEMPS ET SÉCURISEZ VOS PROJETS EN UTILISANT UNE SOURCE ACTUALISÉE ET FIABLE Techniques de l’Ingénieur propose la plus importante collection documentaire technique et scientifique en français ! Grâce à vos droits d’accès, retrouvez l’ensemble des articles et fiches pratiques de votre offre, leurs compléments et mises à jour, et bénéficiez des services inclus.     RÉDIGÉE ET VALIDÉE PAR DES EXPERTS MISE À JOUR PERMANENTE 100 % COMPATIBLE SUR TOUS SUPPORTS NUMÉRIQUES SERVICES INCLUS DANS CHAQUE OFFRE     + de 350 000 utilisateurs + de 10 000 articles de référence + de 80 offres 15 domaines d’expertise Automatique - Robotique Biomédical - Pharma Construction et travaux publics Électronique - Photonique Énergies Environnement - Sécurité Génie industriel Ingénierie des transports Innovation Matériaux Mécanique Mesures - Analyses Procédés chimie - Bio - Agro Sciences fondamentales Technologies de l’information Pour des offres toujours plus adaptées à votre métier, découvrez les offres dédiées à votre secteur d’activité Depuis plus de 70 ans, Techniques de l’Ingénieur est la source d’informations de référence des bureaux d’études, de la R&D et de l’innovation. www.techniques-ingenieur.fr CONTACT : Tél. : + 33 (0)1 53 35 20 20 - Fax : +33 (0)1 53 26 79 18 - E-mail : infos.clients@teching.com SERVICES ET OUTILS PRATIQUES ACCÈS LES AVANTAGES ET SERVICES compris dans les offres Techniques de l’Ingénieur    Accès illimité aux articles en HTML Téléchargement des articles au format PDF Consultation sur tous les supports numériques Enrichis et mis à jour pendant toute la durée de la souscription Pour un usage en toute liberté Des contenus optimisés pour ordinateurs, tablettes et mobiles   Questions aux experts* Articles Découverte Dictionnaire technique multilingue Les meilleurs experts techniques et scientifiques vous répondent La possibilité de consulter des articles en dehors de votre offre 45 000 termes en français, anglais, espagnol et allemand   Archives Impression à la demande Alertes actualisations Technologies anciennes et versions antérieures des articles Commandez les éditions papier de vos ressources documentaires Recevez par email toutes les nouveautés de vos ressources documentaires *Questions aux experts est un service réservé aux entreprises, non proposé dans les offres écoles, universités ou pour tout autre organisme de formation. ILS NOUS FONT CONFIANCE www.techniques-ingenieur.fr CONTACT : Tél. : + 33 (0)1 53 35 20 20 - Fax : +33 (0)1 53 26 79 18 - E-mail : infos.clients@teching.com

Télévision Haute Définition TVHD : Techniques et Formats

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib