Buscar

2007/08/22

La culpa es de Microsoft (como siempre :-)

Fuente: Blog de Enrique Dans.

Skype ha proporcionado finalmente datos en uno de sus blogs internos acerca de las razones de la caída de servicio que mantuvo durante dos días a sus usuarios sin servicio. Y el culpable, según fuentes de la empresa, ha resultado ser… el ya famoso Patch Tuesday de Microsoft (la empresa libera sus parches y actualizaciones los segundos martes de cada mes), y la congestión provocada por miles de usuarios reiniciando sus ordenadores y volviéndose a registrar en el servicio de manera aproximadamente concurrente. Lo comentan The Register y TechCrunch, mientras que el WSJ ($) se limita a señalar que el causante fue “una actualización rutinaria”, evitando apuntar a la empresa de Redmond.

Según Skype, la instalación simultánea de los parches en muchos miles de usuarios a través de Windows Update tuvo como resultado que muchos de ellos reiniciasen sus ordenadores en un corto espacio de tiempo, desencadenando una oleada de peticiones que reveló un bug en los algoritmos de auto-arreglo de la red:

"The disruption was triggered by a massive restart of our users’ computers across the globe within a very short timeframe as they re-booted after receiving a routine set of patches through Windows Update (…) this event revealed a previously unseen software bug within the network resource allocation algorithm which prevented the self-healing function from working quickly."

Independientemente del caso específico y de las explicaciones proporcionadas por Skype (que obviamente tiene más responsabilidad en el outage por la existencia del citado bug que Microsoft por hacer lo que hace de manera habitual todos los segundos martes de cada mes), lo interesante es estudiar las consecuencias de vivir en un mundo en la que una sola empresa, con una política de actualizaciones determinada, puede poner a una gran mayoría de los usuarios de la red a reiniciar sus ordenadores de manera casi simultánea. Como es ampliamente conocido en Ecología, los ecosistemas en monocultivo son mucho más vulnerables a perturbaciones del ambiente: una alteración que afecta a un número suficientemente elevado de usuarios con unas características comunes puede producir efectos difíciles de prever o dimensionar.

La tendencia a que los productos no sean cerrados, sino que se vayan modificando a lo largo del tiempo con correcciones, actualizaciones o nuevas características no es en absoluto exclusiva de Microsoft: tanto Apple como muchos sistemas basados en Linux llevan a cabo actualizaciones de este tipo de manera habitual, aunque sin ajustarse a una política de calendario específica. Pero en el caso de Microsoft, el enorme volumen de usuarios afectados da lugar a verdaderos “fenómenos extraños”: colapso de determinadas zonas de la red debido al tráfico desencadenado por la descarga simultánea de parches de gran tamaño, o el ya clásico Exploit Wednesday que se dice sigue al Patch Tuesday intentando aprovecharse de las vulnerabilidades recién reveladas antes de que todos los usuarios hayan instalado los parches (cuya existencia, en cualquier caso, ha sido puesta en duda por algunos estudios recientes). Es lo que tiene vivir en una red con un predominio aplastante de sistemas basados en Microsoft: cualquier movimiento que afecta a dichos usuarios es susceptible de perturbar notablemente el funcionamiento de la misma. Cuando el gigante se mueve, tiembla todo lo que hay alrededor.

No hay comentarios: