Calidad de la voz en Internet o VOIP

Tradicionalmente, uno de los temas más críticos cuando se transmite voz por Internet ha sido la calidad de la voz. Los primeros sistemas de voz sobre IP ofrecían una calidad de sonido claramente mejorable y, lo que era peor, esta calidad no era constante en el tiempo. La razón es simple, la tecnología IP no fue diseñada para soportar el intercambio de voz o de cualquier otro tipo de señal interactiva en tiempo real (por ejemplo, vídeo o música). IP fue diseñado para la transmisión de datos alfanuméricos, donde resulta importante que no se pierda ni un solo bit, aunque es extremadamente tolerante con el retardo. La voz, sin embargo, es muy sensible al retardo, aunque no importa que algún bit no llegue al destino (se admite una pérdida de hasta el 5%). Por tanto, es claro que la transmisión de la voz tiene unos requisitos diferentes a la de los datos.

Los principales inconvenientes de Internet para transmitir voz, sonido o imagen son los siguientes:

Retardo de ida y vuelta
Fluctuación del retardo
Pérdida de paquetes

Retardo de ida y vuelta

Empecemos por un ejemplo: en las comunicaciones de voz por satélite, la señal necesita 120 milisegundos para viajar de la tierra al satélite y otros tantos para realizar el camino de vuelta. A este tiempo hay que sumarle el tiempo necesario para que la señal se transmita por la red terrestre. El resultado es que una comunicación de voz que utilice un tramo satelital necesita entre 250 y 300 milisegundos en llegar de un extremo a otro.

Se llama retardo de ida y vuelta al tiempo necesario para que la señal de la voz haga el camino de ida y de vuelta entre los dos extremos de una comunicación. Dicho de otra forma, es el tiempo necesario para que un interlocutor que hace una pregunta, escuche la respuesta. Al retardo de ida y vuelta también se le conoce como RTD, o round trip delay. En el caso del ejemplo del satélite, este retardo de ida y vuelta puede ser superior a 500 ó 600 milisegundos. Cualquiera que haya mantenido una conversación por este medio conoce lo molesto que esto resulta.

La UIT establece que el retardo de ida y vuelta no debe superar los 300 milisegundos en las llamadas telefónicas (recomendación G.114). Aunque cada vez es menos común, dependiendo de las circunstancias, en una comunicación telefónica por Internet se podría superar estas cifras. Cuando hablamos de datos, generalmente, no suele importar si un mensaje de correo tarda 3 segundos o 3 minutos en llegar al destino.

Efectos de Internet sobre la calidad de la voz

Fluctuación de retardo

Tan importante como el retardo en sí, es que dicho retardo permanezca constante. Cuando se tiene un retardo constante, las partes que intervienen en la comunicación se acaban adaptando a él (esto es lo que ocurre en las comunicaciones de voz por satélite). No obstante, si el tiempo de retardo varía constantemente, la conversación se vuelve mucho más incómoda, ya que genera en las partes una sensación de completo descontrol. Por cierto, a la fluctuación de retardo se le conoce habitualmente por el término anglosajón jitter.

La forma de evitar las fluctuaciones de retardo es utilizando memorias intermedias (búferes) que vayan añadiendo retardo cuando la comunicación es más rápida y quitándolo cuando es más lenta. El resultado es un retardo elevado, pero constante.

Como se puede suponer, las fluctuaciones de retardo no tienen ninguna consecuencia en la comunicación de datos. Cuando se recibe una página Web o un mensaje de correo, no influye que la velocidad de formación de la página o de recepción del correo no sea constante. Por tanto, la fluctuación de retardo es un inconveniente que afecta exclusivamente a las comunicaciones en tiempo real (voz y vídeo).

Los motivos de las fluctuaciones de retardo son dos:

Enrutamiento variable. Los paquetes IP de una misma comunicación pueden tomar caminos distintos para llegar al destino, por tanto, pueden experimentar retardos distintos.
Ocupación variable. Aunque todos los paquetes viajaran por la misma ruta, el nivel de ocupación de los equipos intermedios (routers) no es constante, por lo que el tiempo necesario para resolver los enrutamientos puede variar de unos paquetes a otros.

En el caso de la conmutación de circuito utilizada por las redes telefónicas tradicionales no existen fluctuaciones de retardo, ya que, una vez que se ha establecido el circuito que comunica ambos extremos, toda la información viaja por el mismo camino y utiliza los mismos recursos; que, además, están dedicados en exclusiva, se utilicen o no.

Pérdida de paquetes

Otro de los inconvenientes de las redes IP que pueden afectar a la calidad de la voz es la pérdida de paquetes. Esto significa que, de vez en cuando, algún paquete que forma parte de una comunicación se pierde en el camino.

En las comunicaciones de datos, el equipo destinatario detecta la falta de este paquete y le pide al origen que se lo retransmita. El tiempo adicional necesario para esta retransmisión no suele afectar al resultado general de la comunicación.

En el caso de la voz, si se pierde un paquete resulta más conveniente darlo por perdido que esperar a la retransmisión del mismo. La espera genera un retardo indeseado, mientras que la falta esporádica de un paquete prácticamente no influye en el entendimiento de la comunicación, sea esta de voz o de vídeo.

Medición de la calidad de la voz

Como la red Internet es la misma en todo caso, lo que determina la calidad de una comunicación de voz es el sistema empleado en la codificación de la voz. Si se desea ver qué es esto, se puede consultar el artículo sobre cómo funciona la comunicación de voz sobre Internet.

Una de las características más importantes de los distintos sistemas de codificación y decodificación de la voz es la calidad de sonido inteligible conseguido en destino. La finalidad de la tecnología de comunicación de la voz sobre Internet (IP) es conseguir una comunicación mediante el empleo del habla, por tanto, más que la fidelidad del sonido importa la inteligibilidad del mismo. Esto es lo que se conoce como calidad de la voz. La pregunta es ¿Cómo se puede medir un concepto que parece tan subjetivo?.

Comparativa de distintas codificaciones de voz y su calidad

En general, cuando se mide la calidad de la voz en comunicaciones telefónicas, no se habla de fidelidad del sonido, sino de estos tres parámetros básicos:

Calidad de audición. Cómo se escucha, si se entiende bien.
Calidad de conversación. Cómo se interactúa.
Calidad de transmisión. Calidad de la red.

Hay que tener en cuenta que el objetivo de las mediciones es poder medir las mejoras realizadas en un sistema concreto o realizar comparaciones entre dos sistemas distintos. En estos casos, suele ser suficiente con medir uno o dos de los parámetros anteriores. Aunque parece una tarea complicada, el hecho es que existen diversos métodos normalizados para realizar mediciones de la calidad de la voz. Los más conocidos son: MOS, PSQM y PAMS

Método subjetivo. MOS

MOS (Mean Opinion Score, ‘Valoración media de opinión’) fue uno de los primeros métodos de medición de la calidad de la voz. Se trata de un sistema de valoración subjetiva que consiste en evaluar la calidad de distintas muestras y ponderar los resultados para obtener una puntuación media. El sistema MOS dispone de una escala de cinco puntos con el siguiente significado:

Mala. Distorsión muy molesta
Pobre. Distorsión molesta
Regular. Distorsión perceptible y ligeramente molesta
Buena. Nivel de distorsión perceptible pero no molesta
Excelente. Sin distorsión

Para realizar una valoración se elige un grupo de personas (un mínimo de 30) que participan en una conversación empleando el sistema que se pretende evaluar o escuchan una selección de muestras de voces sometidas a dicho sistema. Cada participante valora la conversación o cada una de las muestras de acuerdo a la escala anterior. El resultado final asignado es el valor medio de las distintas valoraciones. Para la realización de las pruebas suelen utilizarse una selección de frases hechas (por ejemplo, las conocidas como frases de Harvard, Harvard sentences) que están pensadas para contener todos los sonidos que, típicamente, nos podemos encontrar en una conversación.

El sistema MOS está recogido en la recomendación P.800 de la UIT-T. Para asegurar en lo posible la objetividad de la medición, esta recomendación incluye una serie de indicaciones relativas a la selección de participantes, el entorno donde se deben realizar las pruebas, explicación de la valoración, análisis de resultado, etc. Idealmente, si se realizasen dos evaluaciones distintas a un mismo sistema debieran obtenerse puntuaciones similares.

Desde el punto de vista práctico, una puntuación MOS de 4 o superior supone una alta calidad de voz.

El gran inconveniente del sistema MOS es que su realización tiene un alto coste debido a los recursos y personas que deben involucrarse.

Métodos objetivos. PSQM y PAMS

En la idea de reducir los costes de evaluación de la calidad de la voz, la UIT-T sacó en 1998 una nueva recomendación, la P.861. Esta recomendación recoge las características del sistema conocido como PSQM (Perceptual Speech Quality Measurement, ‘Medición perceptiva de la calidad del habla’), desarrollado por el Instituto KPN de Holanda.

La gran ventaja de este nuevo sistema es que se trata de un método objetivo que se lleva a cabo mediante el empleo de un dispositivo electrónico.

El sistema PSQM se basa en una comparación entre la señal a evaluar y la señal de origen. La prueba incluye una serie de algoritmos que determinan los efectos de un conjunto de variables como: la persona que habla (hombre, mujer o niño), el volumen de la voz original, el retardo, el porcentaje de silencio o el ruido ambiental. La puntuación final se obtiene después de realizar distintas mediciones. La escala de valores varía entre el 0, equivalente al valor MOS 5, y el 6,5, equivalente al valor MOS 1.

Recientemente, la UIT-T ha reemplazado la recomendación P.861 por la P.862, más conocida como PESQ (Perceptual Evaluation or Speech Quality, ‘Evaluación perceptiva de la calidad del habla’). La escala PESQ se mueve en el rango de -1 a 4,5.

Otro de los sistemas objetivos de evaluación de la calidad de la voz es el conocido como PAMS (Perceptual Analysis/Measurement System, ‘Sistema perceptivo de medida y análisis’). Este sistema pretende medir el nivel de esfuerzo necesario para comprender el habla. Para realizarlo se llevan a cabo distintas comparaciones entre el sonido original y resultante. El resultado es un valor en la escala de 1 a 5.

A pesar de las grandes ventajas de las mediciones objetivas, el método MOS ofrece una mayor fiabilidad. Frecuentemente son utilizados los métodos objetivos en las prácticas de laboratorio y MOS como medición definitiva de calidad.

Más información

Si te interesa el tema de la transmisión de la voz por IP, puedes consultar las siguientes publicaciones:

Artículo Cómo funciona la telefonía IP o VoIP.
Libro ‘VoIP. La telefonía de Internet’ de la editorial Thomson, autor José A. Carballar, ISBN 84-283-2952-4.

REF: VOIP PG40