Medida de la Calidad de Experiencia de usuario

Motivación

La Calidad de Experiencia (QoE) es una medida subjetiva para estimar la calidad general del servicio prestado desde el punto de vista del usuario. La importancia de esta medida ha crecido en los últimos años debido a la creciente necesidad de proporcionar una buena experiencia de usuario en muchos servicios, especialmente en la transmisión de vídeo.

Existen dos grandes familias de pruebas para la evaluación de la calidad del vídeo: pruebas subjetivas, en las que se utilizan sujetos de prueba para obtener la evaluación de QoE de secuencias de vídeo; y pruebas objetivas, donde se emplean algoritmos que estiman la calidad de reproducción del vídeo.

Con respecto a las pruebas subjetivas, la Unión Internacional de Telecomunicaciones (ITU) ha publicado diferentes recomendaciones que proporcionan una metodología para realizar evaluaciones subjetivas formalmente (como [1]-[4]). Una de las técnicas más utilizadas para medir la QoE es el MOS (Mean Opinion Score), en el que diferentes usuarios valoran su experiencia con respecto a una reproducción de vídeo, analizando parámetros específicos, mediante el uso de una escala entre 1 (satisfacción más baja) y 5 (satisfacción más alta). El MOS se genera como el promedio sobre el conjunto de evaluaciones subjetivas proporcionadas por los usuarios.

En general, el principal inconveniente de las pruebas subjetivas es el tiempo y los recursos (en términos de número de personas) necesarios para llevar a cabo las medidas. Esto motiva la existencia de pruebas objetivas, las cuales se llevan a cabo a través de algoritmos que estiman la opinión de los usuarios.

Resumen

Con respecto a la estimación objetiva de la QoE en la transmisión adaptativa HTTP (como la tecnología DASH), los estimadores clave de QoE para evaluar la calidad de este tipo de servicios son [5]: el proceso de codificación, el retardo de carga inicial del vídeo, la capacidad para cambiar de calidad para cada segmento, y la posibilidad inevitable de quedarse sin búfer durante la reproducción.

En las soluciones existentes en la literatura se usan repetidamente estos factores para formular diferentes modelos QoE (por ejemplo, [6]), aunque hay otros trabajos que consideran otros parámetros, como [7], que estudia cómo afecta tanto el número como duración de las interrupciones durante la reproducción. Estos trabajos coinciden en estimar la QoE como una fórmula en la que las deficiencias producidas por el retraso inicial, las paradas en la reproducción y los cambios de calidad penalizan la QoE.

Vale la pena destacar las propuestas de la ITU para estimar la QoE, concretamente la ITU-T P.1203 [8] y su evolución ITU-T P.1204 [9], las cuales describen un conjunto de módulos objetivos de evaluación de calidad que ayudan a predecir la calidad experimentada por los usuarios finales en aplicaciones de streaming.

En este sentido, el Grupo de Comunicaciones Multimedia tiene una gran experiencia con respecto al uso de las recomendaciones de la ITU. Así, el COMM ha desarrollado una solución para la evaluación de QoE en escenarios de transmisión de video adaptativo, que permite analizar el impacto en la QoE del usuario utilizando diferentes patrones de variación de ancho de banda (frecuencia de cambios de ancho de banda, rango y tipo de variación), entre otros aspectos [12].

Figura 1. Arquitectura de la solución para medir la QoE

La solución propuesta permite que las medidas se realicen de manera automatizada y sistemática para la evaluación de los sistemas DASH en el servicio de transmisión de vídeo 2D y 3D. Se emplea Puppeteer, la librería Node.js desarrollada por Google, que proporciona una API de alto nivel para automatizar accciones en Chrome Devtools Protocol, como arrancar la reproducción, provocar cambios de anchos de banda y guardar los resultados de los procesos de cambios de calidad, timestamps, interrupciones, etc. Con esta información se lleva a cabo un procesamiento para permitir la reconstrucción del vídeo reproducido, así como la extracción de las métricas de calidad y de la evaluación de la QoE del usuario, utilizando la recomendación ITU-T P.1203.

Además, uno de nuestros objetivos es estudiar cómo la codificación asimétrica pretende explotar la supresión binocular del SVH (Sistema Visual Humano) obteniendo una compresión de vídeo más eficiente al representar una de las dos vistas con una calidad inferior. Con respecto a la evaluación subjetiva del vídeo 3D, los estudios previos realizados dentro de nuestro grupo [12] y algunos otros existentes en la literatura (por ejemplo, [10] y [11]) sugieren que promediar la calidad de las vistas 2D izquierda y derecha predice bien la calidad de videos estereoscópicos distorsionados simétricamente, pero generan un sesgo de predicción sustancial cuando se aplican a vídeos estereoscópicos distorsionados asimétricamente. Según esto, actualmente nos centramos en cómo, a partir de los valores MOS para la secuencia 2D (vista izquierda, vista derecha) proporcionados por la implementación de la recomendación ITU-T P.1203 y los resultados de la evaluación objetiva, se puede obtener una muy buena prediccción del MOS de una secuencia estereoscópica simétrica y asimétrica.

Por otro lado, muchos modelos objetivos de QoE se basan en el bitrate. Sin embargo, se ha comprobado que el PSNR (Peak Signal-to-Noise Ratio) o el VMAF (Video Multimethod Assessment Fusion) son métricas con una relación más cercana con la QoE que el bitrate. En este sentido, el COMM ha propuesto tres nuevos modelos para medir de forma analítica la QoE en servicios de vídeo DASH. El primero está basado en el bitrate de los segmentos de vídeo reproducidos, mientras que el segundo y el tercero están basados en el PSNR y VMAF de cada segmento de vídeo, respectivamente. Los tres son modelos simples de QoE que tienen en cuenta los principales parámetros que afectan a la QoE (calidad de codificación, rebufferings, cambios de calidad y retardo inicial de reproducción).

De forma conceptual, en los modelos propuestos, la QoE mejora conforme el bitrate/PSNR/VMAF aumenta, mientras que la QoE empeora cuando la duración de las interrupciones, el número de cambios de representación y el retardo inicial incrementan. Un análisis completo de los tres modelos QoE propuestos se puede encontrar en [15], donde los numerosos estudios realizados demuestran que, aunque los tres modelos propuestos ofrecen resultados más coherentes que otros modelos existentes en la literatura, el modelo QoE más similar al comportamiento humano es el basado en VMAF.

Referencias

[1] International Telecommunication Union, Recommendation ITU-R BT.500-13: Methodology for the subjective assessment of the quality of television pictures. BT Series, Broadcasting service, 2012.
[2] International Telecommunication Union, Recommendation ITU-T P.913: Methods for the subjective assessment of video quality, audio quality and audiovisual quality of Internet video and distribution quality television in any environment, 2016.
[3] International Telecommunication Union, Recommendation ITU-T P.910: Subjective Video Quality Assessment methods for multimedia applications, 2008.
[4] International Telecommunication Union, Recommendation ITU-T P.911: Subjective audiovisual quality assessment methods for multimedia applications, 1998.
[5] L. Skorin-Kapov, M. Varela, T. Hoßfeld, and K.-T. Chen, “A survey of emerging concepts and challenges for QoE management of multimedia services,” ACM Transactions on Multimedia, Computing, Communications, and Applications (TOMM), vol. 14, no. 29, article no. 29, 2018.
[6] X. Yin, V. Sekar, and B. Sinopoli, “Toward a principled framework to design dynamic adaptive streaming algorithms over HTTP,” in Proc. of the 13th ACM Workshop on Hot Topics in Networks (HotNets), Los Angeles, CA, USA, pp. 1-7, Oct. 2014.
[7] Y. Liu, S. Dey, F. Ulupinar, M. Luby, and Y. Mao, “Deriving and validating user experience model for DASH video streaming,” IEEE Transactions on Broadcasting, vol. 61, no. 4, pp. 651-665, 2015.
[8] International Telecommunication Union (ITU-T), Parametric bitstream-based quality assessment of progressive download and adaptive audiovisual streaming services over reliable transport- Recommendation ITU-T P.1203, 2017.
[9] International Telecommunication Union (ITU-T), Video quality assessment of streaming services over reliable transport for resolutions up to 4K with access to full bitstream information- Recommendation ITU-T P.1204.3, 2020.
[10] J. Wang , S. Wang , Z. Wang, “Asymmetrically Compressed Stereoscopic 3D Videos: Quality Assessment and Rate-Distortion Performance Evaluation,” IEEE Transactions on  Image Processing, vol. 26, no. 3, pp. 1330–1343, 2017.
[11] F. Battisti , M. Carli , P. Le Callet , and P. Paudyal, “Toward the assessment of quality of experience for asymmetric encoding in immersive media,” IEEE Transactions on Broadcasting, vol. 64, no. 2, pp. 392–406, 2018.

Publicaciones

[12] P. Guzmán, P. Arce, and J. C. Guerri, “Automatic QoE evaluation for asymmetric encoding of 3D videos for DASH streaming service,” Ad Hoc Networks, vol. 106, article 102184, 2020.
[13] P. GuzmánP. Arce, and J. C. Guerri, “Automatic QoE Evaluation of DASH Streaming using ITU-T Standard P.1203 and Google Puppeteer,” in Proc. of Int. Symposium on Performance Evaluation of Wireless Ad Hoc, Sensor, & Ubiquitous Networks (PE-WASUN), Miami Beach, FL (USA), Nov. 2019, pp. 79-86.
[14] P. GuzmánP. Arce, and J. C. Guerri, “Evaluación automática de la QoE del streaming DASH utilizando el estándar ITU-T P.1203 y Google Puppeteer,” in Proc. of Jornadas de Ingeniería Telemática (JITEL), Zaragoza (Spain), Oct. 2019.
[15] I. de Fez, R. Belda, and J. C. Guerri, “New objective QoE models for evaluating ABR algorithms in DASH,” Computer Communications, vol. 158, pp. 126-140, 2020.