Cómo funciona la telefonía IP o VoIP

Cómo funciona la telefonía IP o VoIP

Telefonía IP, telefonía sobre Internet, voz sobre IP o VoIP (voice over IP) vienen a significar una misma cosa: un servicio que permite la transmisión de la voz utilizando Internet. El término IP (Internet Protocol o protocolo de Internet) es el nombre de la tecnología principal que utiliza Internet y que, por añadidura, es utilizada en todos los tipos de redes, ya sean empresariales o del hogar, cableadas o inalámbricas (Wi-Fi). Internet se creó para transmitir datos alfanuméricos o archivos independientes, pero no para ocuparse de flujos de información en tiempo real (audio o video), por lo que para hacer posible la transmisión de la voz ha sido necesario realizar algunas modificaciones en la red. Veamos cómo funciona la telefonía IP o VoIP.

Empecemos por el principio.

Señal analógica de la voz

El sonido son movimientos ondulatorios del aire que son captados por el oído y transmitidos al cerebro, que los interpreta. El sonido, y por tanto la voz, por naturaleza, es analógico. Se le llama señal analógica o información analógica a aquella que va variando de forma continua con el tiempo.

Segmentos típicos de voz
Segmentos típicos de voz

Los primeros teléfonos utilizaban un micrófono formado con gránulos de carbón para convertir las variaciones de la presión de las ondas sonoras en variaciones del flujo de la corriente eléctrica. Una unidad similar en el otro extremo convierte las variaciones de corriente en una vibración de la membrana que produce ondas de presión acústica fieles a las originales. Aunque la voz humana emite frecuencias que pueden llegar a los 10 KHz, las limitaciones técnicas de las redes telefónicas tradicionales eliminaban todas las frecuencias superiores a 3400 Hz, haciendo que la voz por teléfono en estas redes tuviera ese sonido tan característico. En cualquier caso, lo que parece evidente es que no hace falta transmitir las frecuencias más altas para mantener una conversación similar a una presencial.

Aunque el oído puede percibir sonidos con frecuencias entre 20 y 20.000 Hz, la voz humana sólo es capaz de generar frecuencias entre 40 y 10.000 Hz

Ventajas de la señal digital

Se llama señal digital a aquella que varía de forma discreta con el tiempo, va dando saltos. Quiere esto decir que las señales digitales disponen de un número reducido de estados posibles y van cambiando de uno a otro estado dependiendo de la información que transmiten. Una señal o información es digital binaria cuando el número de estados posibles es dos, representados como 0 y 1 y conocidos como bits. La red Internet maneja señales digitales binarias.

Las señales digitales tienen la gran ventaja de ser mucho más inmunes al ruido que las señales analógicas. Los ruidos y las interferencias del entorno son de naturaleza analógica. Con los sistemas analógicos, el ruido se mezcla con la voz, ambos analógicos, produciendo una nueva señal de la que es muy difícil volver a separar ambas señales, llegando conjuntamente al destino. En cambio, las señales digitales son muy resistentes al ruido ya que en el extremo distante se pueden identificar muy bien los ceros y los unos originales y separarlos de la señal analógica del ruido.

Ventajas de las señales digitales
Ventajas de las señales digitales

Las ventajas de lo digital son tan evidentes que las redes telefónicas fueron evolucionando durante los años 80 y principios de los 90 hasta convertirse en redes digitales. Las redes telefónicas digitales se desarrollaron pensando en transmitir la señal de la voz. Esto quiere decir que la señal llega al destino prácticamente sin retardo y en el mismo orden como sale del origen. Veremos más adelante la relevancia de esta afirmación.

Digitalizar la voz

El primer reto de la telefonía digital es convertir la señal analógica que produce la voz en digital, de forma que pueda ser tratada por la red digital. A este proceso se le conoce como digitalización de la voz. El proceso de digitalización consiste en tomar una muestra de la voz, cuantificarla y convertir este valor en un número binario. Si, por ejemplo, cada muestra se representa con 8 bits, y se toman 8.000 muestras por segundo (una cada 0,125 milisegundos), la señal de la voz se podría convertir en un flujo de datos de 64.000 bits por segundo (8 x 8.000).

En realidad, las tecnologías modernas de digitalización de la señal analógica de la voz incluyen ciertas técnicas de codificación que hacen que el ancho de banda necesario (la velocidad de transmisión) para la voz sea mucho menor que estos 64 Kbps. Esta disminución del ancho de banda necesario es importante para conseguir altos niveles de calidad incluso cuando el acceso o las condiciones de la red no son idóneos.

Digitalización de la voz
Digitalización de la voz

En resumidas cuentas, la digitalización de la voz consiste en los siguientes pasos:

  1. Registrar las ondas sonoras de la voz con un micrófono.
  2. Digitalización y codificación de la señal para convertirla en un flujo de bits.
  3. Transmitir la información en tiempo real.
  4. Decodificación de la información y conversión de digital a analógico.
  5. Producir las ondas sonoras con un altavoz.

Codec. Codificar y decodificar

Aunque las primeras conversiones de analógico a digital suponían simplemente tomar muestras periódicamente e ir convirtiendo el valor de la amplitud de cada muestra en información binaria, en la actualidad, dicho proceso se ha complementado con técnicas de codificación que permiten mantener unos buenos niveles de calidad de sonido utilizando un ancho de banda (velocidad de transmisión) mucho menores. El proceso de codificación y decodificación de la información se conoce como codec.

El proceso de codificación y decodificación viene emparejado. Quiere esto decir que cada técnica de codificación tiene su correspondiente técnica de decodificación. Para que el sistema funcione, ambos extremos de la comunicación deben contar con el mismo tipo de codec. Ahí es donde interviene los organismos reguladores como la UIT (Unión Internacional de Telecomunicaciones). Los codecs más utilizados para transmitir Voz sobre IP son los de la UIT: G.711 (codifica la voz a 64 Kbps utilizando PCM), G.729 (codifica la voz a 8 Kbps utilizando CS-ACELP) y G.723 (es el de menor ancho de banda, 6.4 Kbps).

Ejemplo de técnicas de codificación de la voz de la UIT (G.xxx) y ETSI (GSM)
Ejemplo de técnicas de codificación de la voz de la UIT (G.xxx) y ETSI (GSM)

No obstante, a pesar de las regulaciones existentes, muchos desarrolladores de soluciones de telefonía IP y videoconferencias quieren ir más allá y desarrollan sus propias soluciones. El resultado es que en el mercado existen distintos sistemas de digitalización, lo que hace que no todas las aplicaciones o dispositivos de telefonía IP sean compatibles entre sí.

El reto de transmitir la voz por Internet

La transmisión de información de voz (y video) en tiempo real ha supuesto un gran reto para Internet. Hay que tener en cuenta que Internet es una red pensada para transmitir datos que no necesitaban llegar al destino de una forma ordenada y en tiempo real. Si el orden de la información se altera durante la transmisión, siempre se puede recomponer en destino sin problemas antes de ser entregada. Lo importante para las redes de datos es que llegue al destino absolutamente toda la información, sin que se pierda nada. Para un servicio de correo electrónico, de páginas Web o de mensajería no tiene importancia que haya posibles pequeños retardos esporádicos (del orden de milisegundos). El usuario destinatario no percibe dicho desorden en absoluto.

Transmisión de la voz en tiempo real
Transmisión de la voz en tiempo real

El caso de la voz es distinto, las muestras de voz se codifican y decodifican de forma continua y en tiempo real, por lo que no hay tiempo para estar ordenando nada. Si algo no llega a tiempo es mejor darlo por perdido. La pérdida de una muestra puede afectar levemente a la calidad de reproducción, pero no entorpecerá su entendimiento. Para la voz, lo importante es que llegue la información de forma fluida, en tiempo real, no importando que se pierdan pequeños fragmentos mientras que el resultado siga siendo comprensible (se admiten pérdidas de hasta el 5%).

Pues bien, en Internet ha habido que crear nuevos protocolos que puedan manejar esta forma distinta de transmitir la información. Se trata de los protocolos de transmisión en tiempo real. Estos protocolos permiten, básicamente, controlar la calidad de la conexión entre el origen y el destino. Para ello es necesario el siguiente conjunto de protocolos:

  • Protocolo de transporte en tiempo real (RTP, Real-time Transport Protocol, RFC 3350). Protocolos que hacen posible que la información llegue al destino con la misma cadencia de tiempo con la que se introduce en el origen y con un retardo mínimo.
  • Protocolo de control de RTP (RTCP, RTP Control Protocol, RFC 3350). Realiza un seguimiento de la calidad de la conexión RTP.
  • Protocolo de reserva de recursos (RSVP, Resource Reservation Protocol, RFC 2205). Realiza una asignación de recursos para asegurar el ancho de banda necesario entre origen y destino.
  • Protocolo de retransmisión en tiempo real (RTSP, Real-Time Streaming Protocol, RFC 2326). Asegura el envío de flujos de datos en tiempo real.
  • Protocolo multicast (RFC 1112 y 2236). Este protocolo permite que la información generada en un punto se puede transmitir a múltiples destinos sin tener que reenviarla a cada uno de ellos. Este sistema es útil para el servicio de conferencias.
  • Protocolo de descripción de la sesión (SDP, Session Description Protocol, RFC 2327). Facilita el intercambio de las características de la emisión.
  • Protocolo de anuncio de sesión (SAP, Session Announcement Protocol, RFC 2974). Son paquetes que se envían periódicamente para identificar las sesiones que están abiertas y que pueden ser de interés para el usuario final.

Los protocolos de transmisión de la voz están sujetos a los organismos de normalización. El estándar más conocido de la UIT (Unión Internacional de Telecomunicaciones) relacionado con la VoIP es el H323, cuyo título oficial es Sistemas de comunicaciones multimedia basado en paquetes. Por su parte, el estándar más conocido de ISOC (Sociedad Internet) relacionado con la VoIP es el RFC 3261, también conocido como Protocolo de inicio de sesión o SIP (Session Initiation Protocol). Por tanto, tenemos dos estándares principales que definen cómo debe Internet manejar los paquetes que transportan voz: H323 y SIP.

Resumen

El sonido son movimientos ondulatorios del aire que que van variando de forma continua, esto es, son señales analógicas. Internet y la mayoría de las tecnologías de las que disponemos hoy en día son de naturaleza digital. Por tanto, lo primero de lo que se ocupa la telefonía IP o VoIP es de transformar la señal analógica de la voz en señales digitales (digitalizar). Adicionalmente se utilizan técnicas de codificación para mantener unos buenos niveles de calidad de sonido utilizando unas velocidades de transmisión bajas (codec).

Por último, cuando se creó Internet se pensaba en transmitir datos alfanuméricos o archivos independientes, pero no para ocuparse de flujos de información en tiempo real (audio o video), por lo que ha sido necesario crear un conjunto de protocolos adicionales que le permita a Internet gestionar este tipo de tráfico de datos (H323 y SIP).

Más información

Aquí se ha expuesto de forma resumida los distintos conceptos que nos ayudan a comprender cómo funciona la telefonía IP. Con suerte, habré sido capaz de generar dudas y crear curiosidad sobre aspectos relacionados con este tema. En este blog se dispone de muchos otros contenidos relacionados. Por favor, utilice el buscador de contenidos que tenemos en la cabecera de este blog.

Estos son algunos otros artículos que pueden ser de interés:

REF: VOIP PG03-25

2 comentario en “Cómo funciona la telefonía IP o VoIP

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *