Compresión de Vídeo

por Foncu

He tendido la suerte de poder asistir a 9 horas de clase con el profesor Francesc Tarrés sobre Codificación Audiovisual. Su capacidad docente es impresionante y fácilmente habría podido escucharlo durante un par de días más. Tarrés nos estuvo hablando de todo un poco, desde la televisión analógica a la digital, de la compresión de vídeo a la de audio, explicando detalles de los procesos de estandarización.

La parte más interesante para mí fue la relativa a MPEG4 Visual y MPEG4 Aadvanced Video Coding (esto es, H.264).

MPEG-4 Visual

Esta parte del megaestándar MPEG 4, tiene unas implicaciones casi de ciencia ficción. En lugar de codificar el vídeo con las técnicas habituales (redundancia espacial, redundancia temporal, codificación estadística), en Visual van un paso más allá y se describen Objetos Visuales con los que el usuario puede interactuar. Las aplicaciones de esto en Televisión O Cine como hoy los conocemos son realmente pocas, pero lo más interesante es lo que pueden hacer en nuevos escenarios donde la interactividad es importante, por ejemplo en los videojuegos.

En uno de los ejemplos que nos mostró, vimos cómo a partir de una foto de Tom Hanks o de La Gioconda, y a través de la extracción de los parámetros adecuados por parte del estándar MPEG-4 Visual, estos personajes hablaban y actuaban de una forma bastante natural. Sencillamente impresionante. Imaginad lo que pueden lograrse con estas técnicas implementadas en teléfonos móviles, en lo que a accesibilidad por parte de sordos se refiere.

H.264 / MPEG-4 AVC

La parte 10 del estándar MPEG 4, desarrollada por un grupo de expertos de la ISO y de la ITU, da lugar al mejor sistema de codificación de vídeo hasta el momento. De los tres perfiles que tiene, sólo uno es gratuito, pero no por ello menos potente. Es más, el estándar es tan potente y flexible… que las implementaciones actuales aún no han exprimido todo su potencial. Además, el estándar está desarrollado de tal forma que se establecen claramente cómo comunicar las cosas, pero no cómo hacerlas, por lo que dejan margen de mejora de los algoritmos a las implementaciones comerciales.

El perfil baseline tiene unas ideas fabulosas, como:

  • Intra predicción. Se divide la imagen en bloques, y para cada bloque siguiente, en lugar de enviarlo, lo que se hace es copiar información de alguno de los anteriores en la misma imagen. Esto hace que los fotogramas más pesados, los I, a los que no se les había eliminado ningún tipo de redundancia, sean ahora muchísimo más ligeros.
  • Nueva compensación de movimiento y pesos. Los estándares anteriores MPEG1 y 2 fallaban estrepitosamente al intentar predecir un fundido a negro o una rotación, ya que los vectores de compensación de movimiento sólo podían aplicarse a traslaciones. H.264 proporciona mecanismos para explicar cómo se comportan las 4 esquinas de cada bloque, haciéndose una interpolación para el resto de píxeles en el bloque. Esto resulta útil para Zooms y Rotaciones. Pero además, al aplicar pesos relativos a la hora de establecer referencias, los fundidos son fáciles de predecir, puesto que son una referencia anterior multiplicada por una constante.
  • Nuevos Fotogramas P. En los estándares anteriores, las referencias usadas para eliminar la redundancia temporal podían ser de un fotograma anterior (P) y/o de un fotograma posterior (B). En H.264, perfil baseline,  se establece una lista de imágenes de referencia anteriores y posteriores, de forma que se tiene un buffer de donde elegir distintas imágenes. Esto comprime mucho cuando hay movimientos repetitivos, como por ejemplo un niño en un columpio.

El estándar tiene otras muchas opciones, que pueden provocar un coste computacional relativamente alto, por lo que no se espera que se desarrollen codificadores comerciales completos hasta 2013.

Si os apetece echarle un ojo a las implementaciones de H.264, podéis mirar x264 que es GPL, así que podéis descargarla, compilarla y modificarla a vuestro antojo. Quien sabe, quizá consigáis un codificador potente y eficiente.

Nuevas formas de ver televisión

por Foncu

Sogecable acaba de publicar una nota de prensa en la que informa de que Canal+ emitirá en Alta Definición a partir de 2008, tras un periodo de pruebas que comenzará en enero. Lo hará usando el nuevo decodificador iPlus, que cuesta al abonado unos 300 euros. Este anuncio me ha hecho pensar en las características de las nuevas formas de ver televisión: iPlus, imagenio, y otros...

Vídeo bajo demanda

El modelo de televisión en el que el espectador elige en el momento de ver la televisión entre un abanico (más o menos amplio) de ofertas está desfasado. Si yo me siento a ver la televisión, ha de ser porque yo lo decida, y no porque lo decida otra persona. La elaboración de las parrillas es una labor compleja, pero que no puede satisfacer a todos, ya que cada uno tiene un momento al día para dedicar a la televisión en el que le gusta ver un determinado tipo de programas. Hasta ahora, la solución de las 'nuevas formas de televisión' no cambiaba el modelo de televisión: en un sitio se decide qué se emite, y en otro sitio sólo se puede recibir. La apuesta de las plataformas de cable y satélite ha sido ofrecer un abanico tan amplio que todo el mundo encuentre lo que le gusta en cada momento: canales temáticos, multidifusiones, etc.

El nuevo paradigma se basa en sustituir ese abanico tan amplio por algún mecanismo que permita al usuario decidir qué quiere ver en cada momento. Y la tecnología debe hacer posible ese nuevo estilo de transmitir televisión. En esto juegan los mismos protagonistas de siempre, pero ahora apuestan de verdad por un cambio de modelo en algún sentido.

iPlus

El hecho de que Digital+ sea una plataforma vía satélite le dio ventajas en un principio: mucha oferta de canales, alta calidad de imagen. Pero esto se ha convertido en su propio talón de aquiles: la comunicación con un satélite es en un solo sentido, ya que intentar afrontar la comunicación en ambos sentidos sería costosísimo. Los equipos de los usuarios son sólo receptores, y reciben la información de todos los canales durante todo el tiempo. Con eso hay que apañarse, y no se puede establecer de forma fácil un verdadero sistema de vídeo bajo demanda. La solución del iPlus es la única posible: en lugar de almacenar la información "en el satélite" para cuando el usuario la pida, el receptor almacenará toda la información que pueda del satélite, por si éste la pide. Es decir, los contenidos que sean susceptibles de ser solicitados bajo demanda deberán almacenarse en el reproductor. De ahí que el iPlus sea un decodificador con disco duro (aunque a mí 160 GB me parecen pocos). El iPlus no es nada más que un decodificador de televisión digital (de alta y baja definición) capaz de almacenar. No tiene más miga que esa. El gran problema para Digital+ es que este sistema sigue siendo caro: si regala el decodificador a los abonados, puede salirle por un pico; pero es que si no lo regala o sólo subvenciona una parte, y hace que los usuarios paguen 300 euros por el iPlus está desincentivando la adopción del sistema. ¿Cómo combatir esto? Ya que son los únicos con derechos para emitir Canal+, prometen Canal+ en Alta Definición

Imagenio

La apuesta de Telefónica con Imagenio parece ser la contraria. Aprovechando que tiene una infraestructura envidiable, quiere sacarle el máximo jugo posible. Empezó por ofrecer un servicio básico de televisión, pero en Octubre hizo pública una nota de prensa en la que se intuyen sus próximas actuaciones en este campo. En ella se explican los nuevos servicios Past TV, Shift TV y Rewind Tv. Lo que hace Telefónica es aprovechar que ellos sí tienen un canal de retorno para comunicarse fácilmente con el espectador: la línea telefónica. Y además, hace de su defecto virtud. Como transmitir continuamente toda la información de vídeo por si acaso el espectador quisiera verla saturaría sobremanera sus líneas, lo que hace es almacenar la información en las propias instalaciones de Telefónica. ¡Incluso la de las cadenas generalistas! Así, el usuario puede acceder a la programación ya emitida de las cadenas sin tener que usar un disco duro. Pero es que además, ofrece a los usuarios la posibilidad de grabar hasta 100 horas de programación para visionarlas en otro momento. No me queda claro si lo hará con un sistema de almacenamiento en el reproductor, o con una cuota de espacio en instalaciones de telefónica. Esta última opción, aunque podría ser más compleja de gestionar, permitiría unas características de escalabilidad realmente impresionantes: si decidieran ampliar la cuota de los usuarios, podrían ampliar la capacidad de sus instalaciones sin que cada abonado tenga que cambiar su receptor o afrontar el coste económico del mismo. Además de aprovechar que varios usuarios decidan 'grabar' el mismo programa, y ahorrarse unos cuantos Megabytes almacenando la información una sola vez.

Internet

Internet se perfila como la forma de unir ambas tendencias: almacenar en casa del usuario y almacenar en remoto. Pero con una ventaja añadida: almacenaje distribuido y redundante. El gran problema de la red deriva de su carácter más anárquico y no controlado: se precisan mayores conocimientos por parte de los usuarios, a falta de un buen servicio o interfaz que consiga simplificar esta tarea.

Artículos A Fondo

por Foncu

Las Buenas Cosas también incorporará artículos a fondo sobre distintos temas. No puedo dejar pasar la ocasión de darle las gracias a Carlos, que me ha inspirado el proyecto y me ha ayudado muchísimo en la parte técnica.

Sácale partido a tu cámara bolsillera

por Foncu

Las cámaras digitales se pueden clasificar en dos grandísimos tipos: las de fácil manejo y las que son un poco más difíciles de manejar. Las de fácil manejo suelen ser pequeñas, con muchas funciones automáticas pero con pocas funciones manuales. Las difíciles son las que deberías usar cuando ya hayas aprendido los principios básicos de la fotografía digital.

Si estás pensando en iniciarte en esto, deberías procurar hacer una inversión no muy grande en una cámara ultracompacta o bolsillera y aprender a usarla y sacarle el máximo partido. Una vez que hayas superado esta etapa y sepas qué tipos de fotos te gusta hacer y qué buscas en una cámara, será más fácil escoger una cámara avanzada sin tener que dejarte convencer por un dependiente avispado.

En este primer capítulo del manual de fotografía digital nos ocuparemos de las cámaras más pequeñas, las que en lugar de dejarte elegir parámetros como el número f o el tiempo de exposición, te proponen modos de funcionamiento optimizados para determinados tipos de fotos.

El primer consejo es que hagáis muchas fotos. Muchas muchas muchas. Y que veáis muchas fotos, las vuestras y las de otros. Muchas muchas muchas. Hacer muchas fotos os permitirá conocer vuestra cámara, conocer los resultados que obtenéis con determinada iluminación y determinado modo. Ver fotos os podrá guiar por el buen camino, ver qué hacen otros. Es muy importante que intentéis extraer el máximo de información de las fotos de los demás, para poder repetir los experimentos vosotros. En Internet hay muchos sitios donde podéis ver fotos realmente impresionantes, donde podéis poner las vuestras y además consultar la información EXIF de las demás. Esta información os será de gran utilidad para poder saber qué parámetros cambian en la cámara según qué modos.

Hoy hablaremos de los 3 modos principales:
- Modo Retrato. Este modo se caracteriza por tener un número f bajo. Las consecuencias de esto es que podréis tener el sujeto de la foto (la parte que estaba en el centro en el momento de enfocar) muy bien enfocado, mientras que el resto de la foto estará menos enfocada. Personalmente es un efecto que me gusta mucho, ya que te ayuda a hacer sobresalir lo que te interesa de la foto respecto a lo demás. Como un numero f bajo implica que sea más luminoso, este modo tendrá un tiempo de exposición bajo, por lo que a menos que las condiciones de iluminación sean malas, las personas no saldrán movidas.

Esperando un cliente

- Modo Paisaje. Este podría ser el caso contrario, para poder enfocar más lejos y en un rango de distancias más amplio, la cámara elige un tiempo de exposición más alto (para que entre luz suficiente) y un número f más alto. Así consigue que en todo el paisaje haya elementos enfocados, estén más lejos o más cerca. El tiempo de exposición (medio) hará que los movimientos rápidos aparezcan borrosos.

BAR_CO

- Modo Noche. Este modo te permite priorizar sobre todo el tiempo de exposición. Una foto hecha en este modo, puede tener un tiempo de exposición del orden de segundos (según la cámara, de 2 a 10). En este caso, hay que asegurarse de usar trípode y de no moverse durante la foto, para que las cosas no salgan movidas. Si alguien se mueve durante la foto lo bastante rápido, aparecerá como un fantasma: transparente. Es un modo que da mucho juego.

Like a Virgin

La gracia de estas cámaras es usar los modos no para lo que te dicen que los debes usar, sino cuando tú quieras obtener un determinado resultado. Así, si quieres hacerle una foto a un grupo de personas, en el que no todos están a la misma distancia, será mejor usar el modo paisaje que el modo retrato. Sin embargo si quieres hacerle una foto a un paisaje en donde te gustaría destacar un objeto en primer plano respecto al fondo, podrías usar el modo retrato. Si combinas una habitación con poca iluminación, junto con una fuente de intensa pero puntual, puedes obtener resultados muy divertidos en el modo noche. Si disparas el flash con este modo, conseguirás fijar una parte de la imagen aportando a la vez sensación de movimiento.

Y ahora, es vuestro turno: experimentad.