La calidad subjetiva de vídeo lleva décadas siendo objeto de estudio tanto dentro del mundo académico como en la industria. Actores fundamentales como proveedores de vídeo bajo demanda o radiodifusores de televisión destinan numerosos esfuerzos a investigar cómo proporcionar la mejor experiencia posible a sus usuarios al mismo tiempo que optimizan el uso de los recursos físicos. En este sentido, se han creado foros internacionales de expertos dedicados a la creación y análisis de métricas objetivas precisas, versátiles y sencillas que permitan estimar la percepción del usuario ante determinadas degradaciones en el vídeo (tal y como Video Quality Experts Group). Sin embargo, el problema está lejos de quedar resuelto.

Los datos destinados al transporte de vídeo sobre Internet se estimaron en un total de 120 ExaBytes en el año 2019, lo que representó más del 75 % del tráfico IP total. Se espera que este porcentaje aumente en los próximos años. Se observa también un aumento en la calidad de la imagen (entre otras causas, debido a la aparición de televisores con características muy avanzadas), lo que supone un incremento en el coste del transporte sobre la red. La aparición de algunos codificadores de alta capacidad de compresión, como H.264/AVC ó H.265/HEVC, pueden ayudar a rebajar el coste de transportar este tipo de señales. Esta rebaja no debe disminuir la calidad de experiencia (QoE) de los usuarios al visualizar un vídeo.
El coste de distribución de vídeo es asumido por tres entes: el proveedor de Internet asume el coste directo del transporte de los datos por la red, lo que redunda en un aumento del gasto para el proveedor de servicio, que en definitiva termina por repercutir en los usuarios finales. Además, cuanto mayor sea la calidad demandada, más costoso será el envío. Sin embargo, no siempre es necesario aumentar la calidad objetiva puesto que puede llegar a un punto de saturación. Es decir, por mucho que se aumente la velocidad binaria o la resolución del vídeo, el ojo humano habrá llegado al límite de sus posibilidades visuales. El punto en el que se alcanza este límite es dependiente de múltiples factores, desde la propia fisionomía particular del usuario y la distancia de visualización de la pantalla, hasta la dificultad de la imagen o el movimiento de la misma. Puesto que algunos de estos parámetros son controlables (como por ejemplo la cantidad de bits utilizados en la codificación del vídeo), resulta interesante analizar estas características a fin de proporcionar una calidad óptima de vídeo en cualquier contexto. Aplicar la solución propuesta que se investigó en el Trabajo de Fin de Máster (TFM) de Mateo Cámara como paso preliminar, permite optimizar los parámetros objetivos de vídeo hasta el punto de transmitir únicamente la calidad precisa. El ahorro de costes se reduce de forma inmediata, aportando un granito de arena más hacia la sociedad interconectada responsable y reduciendo la huella de carbono debido al consumo eléctrico de su transmisión.
Pongamos un ejemplo. Un usuario tiene una fibra óptica de 100 Mbps y quiere ver vídeos a máxima calidad. Nosotros, como proveedores de servicio, debemos determinar cuál es la velocidad binaria que satisface sus estándares de máxima calidad. Sin hacer ningún esfuerzo podríamos enviar el vídeo codificado al máximo posible de su red, 100 Mbps, y con total seguridad habremos sobreestimado el flujo binario. ¿A qué velocidad transcodificamos entonces? Observemos el contenido que está solicitando. Si es una imagen muy sencilla, como unos dibujos animados, muy probablemente requiera de muchos menos bits que si solicita un documental con mucho detalle. Alguien podría argumentar que los codificadores ya se encargan de esto, y tendría razón, pero existe todavía capacidad para ahorrar flujo binario atendiendo a la percepción subjetiva de los usuarios (tal y como se demostró en una investigación relacionada). Habríamos exprimido al máximo las capacidades del vídeo y se habría logrado una reducción inteligente de los costes.
En el TFM se utilizaron redes neuronales entrenadas con bases de datos de usuarios que determinaron la calidad subjetiva de vídeo en diferentes pruebas presenciales. En particular, se desarrollaron arquitecturas basadas en redes convolucionales bidimensionales y tridimensionales, en las que se realizaba un filtrado a nivel de vídeo o imagen, en redes recurrentes que incluían la variable temporal, y en redes secuenciales fundamentadas en la extracción previa de parámetros característicos del vídeo.

El TFM de Mateo Cámara fue merecedor del Premio ERICSSON al Mejor Trabajo Fin de Máster en Innovación para la Sociedad Conectada Responsable del Colegio Oficial de Ingenieros de Telecomunicación (COIT) y Asociación Española de Ingenieros de Telecomunicación (AEIT).