Compresión de video
La necesidad de comprimir la señal de video se evidencia al estudiar como es el proceso de digitalización del vídeo analógico. El vídeo analógico define cuantas líneas hay por fotograma y cuantos fotogramas se difunden por segundo (téngase en cuenta que no todas las líneas contienen vídeo activo). Para digitalizar una señal de vídeo analógico es necesario muestrear todas la líneas de vídeo activo. Cada muestra de color se codifica en señal Y-U-V (Y- luminancia, U y V crominancia). Un ejemplo de conversión de señal analógica de televisión en color a una señal en vídeo digital sería:[1]
- Sistema PAL : 576 líneas activas, 25 fotogramas por segundo, para obtener 720 pixels y 8 bit por muestra a 13,5Mhz:
- Luminancia(Y): 720x576x25x8 = 82.944.000 bits por segundo
- Crominancia(U): 360x576x25x8 = 41.472.000 bits por segundo
- Crominancia(V): 360x576x25x8 = 41.472.000 bits por segundo
Por tanto, el número total de bits resultante es de : 165.888.000 bits por segundo (aprox. 166Mbits/sg). Ninguno de los sistemas comunes de transmisión de vídeo proporcionan transferencias suficientes para este caudal de información (el Vídeo CD tiene un índice de transferencia de 1,4 Mbps y la televisión por cable 6Mbps) por tanto es preciso disminuirlo utilizando técnicas de compresión.
Diferentes Tipos de Compresión
Compresión MPEG
En los años 1988-1990 se establecieron grupos de trabajo para la creación de métodos de codificación digital de señales de audio y video. Con el paso de los años se han aprobado normas dedicados a los diferentes usos y formatos, principalmente JPEG y MPEG. Dentro de la familia MPEG, se aprobaron varias normas: MPEG-1, MPEG-2, MPEG-4 definidas específicamente para la compresión de vídeo que se utiliza para transmitir imágenes en vídeo digital. El algoritmo empleado, además de comprimir imágenes estáticas, compara los fotogramas presentes con los anteriores y los futuros para almacenar sólo las partes que cambian. La señal incluye sonido en calidad digital. El inconveniente de este sistema es que debido a su alta complejidad necesita apoyarse en hardware específico.
Existen diferentes opciones dependiendo del uso:
- JPEG. Creado por el grupo Joint Picture Experts Group de ISO, se diseño para la codificación y transmisión de fotografías e imágenes fijas, completas y en movimiento, pero estas últimas de manera limitada. La compresión en JPEG puede ser con o sin pérdida de información. Utiliza la señal de luminancia (Y), y las dos señales de color, azul (U = Cb) y roja (V = Cr)
- MPEG-1. Creado por el Moving Picture Experts Group. Para este formato se quería conseguir el almacenamiento y la reproducción en un CD-ROM, con un flujo de 1,5 Mbps para imagen y sonido. La norma MPEG-1 se compone del "MPEG sistema" que define la estructura del múltiplex MPEG-1, el "MPEG video" que define la codificación de video en MPEG-1 y el "MPEG audio" que define la codificación de audio MPEG-1. Es la norma diseñada para Vídeo-CD: calidad VHS con sonido digital. Ancho de banda medio (hasta 1,5 Mbps)
- MPEG-2: se definió para la codificación digital de la señal broadcast de radiotelevisión. MPEG-2 está relacionada con las normas europeas DVB sobre teledifusión digital. Al igual que el MPEG-1 el MPEG-2 se compone de cuatro partes básicas:[2] Parte 1.- "MPEG sistema" que define la estructura de MPEG-2, Parte 2.- "MPEG video" que define la codificación de video MPEG-2, Parte 3.- "MPEG audio" que define la codificación de audiovisual MPEG-2, y Parte 4 "Pruebas de conformidad". Se usa en los DVD (Digital Vídeo Disk). Calidad superior al MPEG-1. Ancho de banda Alto (Hasta 40 Mbps.) Puede tener video entrelazado y gran variedad de resoluciones de pantalla.
- MPEG-3 Gran calidad de vídeo: 1920x1080x30 Hz con transferencias entre 20 y 40 Mbps.[3] En la actualidad forma parte del MPEG-2 Nivel Alto-1440
- MPEG-4 Optmizado para videoteléfonos y PDA, bajo ancho de banda.
Compresión MJPEG
Básicamente consiste en tratar al vídeo como una secuencia de imágenes estáticas independientes y su compresión y descompresión mediante el algoritmo JPEG, para luego, recomponer la imagen de vídeo. Esto se puede realizar en tiempo real e incluso con poca inversión en hardware. El inconveniente de este sistema es que no se puede considerar como un estándar de vídeo pues ni siquiera incluye la señal de audio. Otro problema es que la dependencia que tiende de las transferencias del sistema de almacenamiento, pues el índice de compresión no es muy grande. En la práctica es factible conseguir la calidad SVHS con lo que se pueden realizar trabajos semiprofesionales.
Compresión MPEG-2
Fue desarrollado inicialmente para aplicaciones que excluían las producciones de difusión de televisión aunque se realizaron avances posteriores para completar las posibilidades del estándar en cuanto a difusión: que fuese escalable y capaz de resolver diferentes resoluciones de imagen. Sin embargo, los últimos desarrollos posteriores que iban a estar agrupados dentro un nuevo estándar (MPEG-3) coincidieron con la finalización del desarrollo de MPEG-2 y ambos trabajos se consolidaron en único estándar MPEG-2.
MPEG-2 se desarrollo por ISO/IEC/JTC/SC29/WG11 como la norma ISO/IEC 13818 o UIT-T H.262. Esta norma sirve para codificar video CCIRR-601 o superior con alta calidad y tasas de transmisión de 4 a 9Mbps. Sirve para transmitir videos de calidad CCIR/ITU-R en NTSC, PAL, y SECAM, así como calidades HDTV, para lo que precisa tasas superiores a 10 Mbps, con fuentes progresivas y entrelazadas.
Niveles y perfiles en MPEG-2
MPEG-2 es una recomendación muy compleja que soporta una amplia gama de aplicaciones y servicios de diferente ancho de banda, resolución y calidad de imagen. En principio, puede tener una amplia variedad de combinaciones (sobre 106), pero para que los sistemas y aplicaciones sean interoperables las normas lo limitan a 4 perfiles y 4 niveles, tal como se muestra en la figura.
- Niveles: proporcionan el rango de cualidades potenciales, definen los máximos y mínimos de la resolución de la imagen, muestras Y por segundo (luminancia), el número de capas de audio y vídeo soportados por los perfiles escalables, y la máxima velocidad binaria por perfil. A continuaciónse presenta una explicación resumida de cada uno de ellos:
- Nivel Bajo: tiene un formato de entrada el cual es un cuarto de la imagen definida en la norma ITU-R 601.
- Nivel Principal: tiene una trama de entrada completa definida en la norma ITU-R 601.
- Nivel Alto 1440: tiene un formato de alta definición con 1440 muestras por línea.
- Nivel Alto: tiene un formato de alta definición con 1920 muestras por línea (para aplicaciones sin limitación de velocidades de datos).
- Perfiles: definen la resolución del espacio de color y la escalabilidad. La norma tiene cinco diferentes perfiles, cada uno es progresivamente más complejo y añade funciones adicionales (y por supuesto más costoso para el cliente) con la característica de ser compatible con el anterior. Esto significa que un decodificador equipado con un alto perfil descodificará perfiles simples. A continuación se presenta una pequeña explicación de los perfiles:
- Perfil Simple: es el que ofrece poca funcionalidad.
- Perfil Principal: tiene una funcionalidad extendida o mejorada con respecto al perfil simple y predicción bidireccional. Tendrá mejor calidad para la misma velocidad binaria que el perfil simple.
- Perfil Escalable SNR y Perfil Escalable Espacial. Estos dos niveles son llamados escalables porque permiten codificar vídeo que sean particionados dentro de una capa base y una o más señales "Top-up". La señal Top-up puede tratar tanto la proporción S/N (SNR escalable) como la resolución (escalable espacial).
- Perfil Alto: este incluye todas las funcionalidaes de las versiones anteriores y mejoradas. Tiene la característica de codificar simultáneamente las diferencias de color entre líneas. Es un super sistema diseñado para aplicaciones donde no haya limitaciones al ancho de banda (velocidades de los bits).
Para muchas de las aplicaciones típicas (incluyendo la transmisión por satélite) el Perfil Principal, Nivel Principal (MP@ML, siglas en ingles) proporciona una buena relación entre calidad de imagen y la complejidad VLSI, por tanto, el MP@ML es el punto óptimo de los actuales sistemas DCTV.
Los modos escalables de MPEG 2
El video escalable solo hay en los perfiles Principal y Escalable. Hay cuatro modos escalables en MPEG 2. Estos modos transforman el vídeo MPEG 2 en diferentes capas (base, media, y alta) para priorizar los datos que forman la imagen de vídeo. Otro objetivo de la escalabilidad es para divisiones complejas. Por ejemplo, en HDTV, el flujo digital de alta prioridad (720x480) puede ser descodificado bajo condiciones de ruido donde no pueda decodificarse el de baja prioridad (1440x960).
Presentamos a continuación una breve explicación de los modos escalables:
- Escalabilidad espacial: Este método en el dominio del espacio codifica la capa base con un muestreo más bajo (por ejemplo: resolución) que las capas superiores. Las capas bajas (base) reconstruidas del muestro son usadas como predicción de las capas superiores. Se emplea en simulcasting
- Particionamiento de datos: es un método en el dominio de la frecuencia que divide los bloques de 64 coeficientes cuantizados de la transformada, en dos flujos binarios. El primero, el flujo de alta prioridad, contiene los coeficientes más críticos de las frecuencias bajas e información complementaria (tales como valores DC, vectores de movimiento, etc.), el segundo, el flujo binario de baja prioridad, lleva los datos AC de las frecuencias más altas.
- Escalabilidad SNR: es un método en el dominio del espacio donde los canales son codificados a velocidades de muestreo idénticas, pero con diferentes calidades de imágenes. El flujo binario de alta prioridad tiene datos de la capa base que se añaden a la capa de refinamiento de menor prioridad, para construir una imagen de alta calidad.
- Escalabilidad temporal: Un método en el dominio temporal, que se emplea por ejemplo en vídeo estereoscopico. El primero, el flujo digital de alta prioridad codifica el vídeo con una velocidad de tramas , y los flujos intermedios se codifican en un segundo flujo digital, que efectúa una reconstrucción de la primera cadena binaria como predicción. Por ejemplo en una visión estereoscopica, el canal de vídeo izquierdo puede ser predecido del canal derecho.
Compresión MPEG-4
Representa el siguiente paso en tecnología de compresión. Fue consecuencia de la necesidad de mantener una calidad de imagen aceptable con mayores relaciones de compresión, posibilitando transmisiones de vídeo sobre canales estrechos como Internet o redes inalámbricas. En 2001, el grupo MPEG y el grupo Video Coding Experts Group (VCEG) de la ITU-T, juntaron esfuerzos en el desarrollo de la norma H.264 formando el JVT (Joint Video Team). El desarrollo obtenido recibió, en consecuencia, diferentes nombres: AVC (Advanced Video Coding), H.264, ó MPEG-4 Parte 10.
Tipo de imágenes MPEG
Para explorar la capacidad de compresión y de compensación de movimiento y para incorporar funciones de avance rápido y retroceso rápido (fast forward y fast reverse, FF/FR), propias de los servicios de almacenamiento digital, MPEG 2, incorpora algunos esquemas de codificación intertrama. El concepto está basado en Intra-trama (I), tramas predecibles (P), tramas interpoladas o bidireccionales (B) y tramas D (Imágenes DC).
- Una trama I es codificada sin referencia con respecto a otras imágenes o tramas contenidas en la secuencia del vídeo. Cualquier trama I trabaja como un punto de referencia para la función FF/FR. Tiene muy baja compresión.
- Las tramas P son codificadas con referencia a las tramas previamente codificadas, tanto I y P. Ellas incorporan compensación de movimiento, la compresión es más alta que las tramas I.
- Las tramas B requieren como referencia tanto las tramas futuras como pasadas, las tramas B usan compensación e interpolación de movimientos y logra alta compresión.
- Tramas D (imágenes DC) son imágenes que contienen solamente la DC (bloques de 8x8) para cada bloque. El soporte de éste tipo de trama es opcional, y las secuencias pueden no contener tramas D mezcladas con los otros tipos de tramas.
La proporción entre las tramas I, P y B es conocida como N/M, donde N representa el número de tramas entre imágenes o tramas I y M es el número de tramas entre imágenes o tramas P. Valores típicos son de 15 y 3 para N y M respectivamente.
La incorporación de estos tres tipos de tramas, aportan alta compresión, buen acceso aleatorio y funcionalidad FF/FR. Este método de codificación también incrementa significativamente el retraso de codificación porque las tramas de las imágenes deben ser almacenadas en un buffer. Por ejemplo, el codificador considerará la primera trama como una trama I, la segunda y tercera trama serán tramas B, luego ellas son predecidas e interpoladas basadas en la trama previa I (o P) y la próxima trama P, serán puestas en el buffer y codificada la próxima trama como P, la cual sólo es referida a la trama previa I. Después de codificar la trama P, el codificador retornará a trabajar con la trama almacenada B. El descodificador revertirá el proceso. El recibirá la trama I, la trama P y la trama B y reconstruirá la trama original del vídeo (ver la siguiente figura). El proceso, requiere más memoria en el descodificador que en el codificador. Este retraso de codificación hace que MPEG 2 no sea bueno para aplicaciones interactívas.
- MPEG-3: se definió para la compresión de la televisión de alta definición HDTV, pero debido a que estas características se integraron en el MPEG-2, se abandonó el MPEG-3.
- MPEG-4: es una nueva forma de compresión para la transmisión de audio y video de baja calidad propio de teléfonos móviles y PDA's. El ancho de banda de este formato es muy reducido.
- ↑ Basado en los Apuntes de Televisión Digital, de D.Javier Mateos, Universidad de Granada.
- ↑
- ISO/IEC 13818-1: Sistema
- ISO/IEC 13818-2: Video
- ISO/IEC 13818-3: Audio
- ISO/IEC 13818-4: Pruebas de Comformidad
- ISO/IEC 13818-5: Software
- ISO/IEC 13818-6: DSM-CC
- ISO/IEC 13818-7: NBC Audio
- ISO/IEC 13818-8: 10-Bit Video (¡abandonada!)
- ISO/IEC 13818-9: Real-Time Interface
- ISO/IEC 13818-10: Conformidad DSM-CC
- ↑ No confundirlo con la compresión de audio MP3
Normativa técnica
Artículos de interés
- Video Communication Networks Dan Schonfeld. University of Illinois.
- Televisión Digital Javier Mateos, Universidad de Granada.
- Television Standards - formats and techniques Paradiso
- Primary distribution of TV signals using MPEG-2 technologies EBU TECH 3291, 2001
- A beginners guide for MPEG-2 Standard
- MPEG-2 Profiles and Levels
Artículos relacionados
| Universidad | Universitat d'Alacant |
| Facult/Asign | Sistemas y Servicios de Telecomunicación |
| Profesor | |
| Autores | Jose Fco Muñoz Espinosa Antonio Cano López |
| Tipo de trabajo | |
| Fecha de evaluación | |
| Editable por terceros | SI |
| Categorías propuestas | |
Vea la página Colaboraciones universitarias
| Media |
|---|
| Elaborando |
| Global |
