Panne de HLR, la hantise des opérateurs

En France, c’est Bouygues en 2004, SFR en 2008 et 2014, et Orange en 2012 qui en ont fait les frais: la panne du HLR qui isole de facto tous les abonnés mobiles qui y sont enregistrés et les rend dans l’incapacité d’émettre ou de recevoir des appels, SMS ou même de surfer sur Internet. Explications sur ces incidents majeurs que tous les opérateurs redoutent.

Si on doit commencer par une analogie, le HLR (ou Home Location Register) c’est un peu le cerveau du réseau mobile qui retient toutes les informations liées à ses abonnés: sa carte SIM (son numéro de série appelé IMSI et le numéro de téléphone associé appelé MSISDN), le profil qui est associé à l’abonné (abonnement mensuel ou rechargement par carte prépayée), et les services auxquels il peut accéder (roaming, accès internet, qualité de service, etc.).

network-diagram.png

Schéma logique d’un réseau mobile (data)

Les dernières versions des HLR contiennent aussi une fonctionnalité HSS (Home Subscriber Server) qui supporte la 4G, comme indiqué dans le schéma ci-dessus.

Quand un HLR tombe, ça fait de suite très mal, puisque c’est la base entière des abonnés qui se retrouve isolée de son réseau hôte. Et l’opérateur sait dès l’annonce de l’incident qu’il n’a pas vraiment d’alternatives temporaires (on ne peut pas by-passer le HLR contrairement à d’autres composants du réseau) et que la restauration du service prendra du temps car une base de données corrompue est complexe à restaurer, puisqu’il faudra vérifier l’intégrité de son contenu.

C’est pour cela que des mécanismes de haute disponibilité sont toujours mis en place au niveau du HLR, même si ceux-ci peuvent défaillir en même temps ou être impactés par un effet de congestion en boule de neige qui se répand sur un réseau IP qui ne serait pas correctement cloisonné (network storm).

Les incidents majeurs causes par une défaillance du HLR

Voici un récapitulatif des différentes pannes HLR identifiées ces dernières années chez les opérateurs mobile en Europe:

Date Opérateur Fournisseur Impact abonnés Durée
2004 Bouygues Telecom (FR) Tekelec 7 millions 18h
2008 SFR (FR) ? 2.9 millions 8h
2009 T-Mobile (DE) Nokia-Siemens Networks 40 millions 4h
2011 Telenor (NO) ? 3 millions 18h
2012 O2 (UK) Ericsson 7 millions 18h
2012 Orange (FR) Alcatel-Lucent 26 millions 12h
2014 SFR (FR) Alcatel-Lucent 3.8 millions 9h

Des causes principalement liées au logiciel du HLR

Que ce soit chez SFR; Orange, O2 ou T-Mobile, les pannes HLR trouvent le plus souvent leur cause originelle dans leur mise à jour logicielle. En particulier avec le développement des réseaux 4G en Europe, ce composant a eu besoin d’évoluer pour prendre en compte les nouveaux protocoles plus complexes et subir des mises à jour lourdes et risquées.

Le HLR, point de défaillance central des réseaux

Si en 2004 SFR disait avoir déployé environ 40 HLR (!!!) pour gérer l’ensemble de ses abonnés et en avait perdu 3 lors de l’incident, impactant 15% de ses clients, en 2012, grâce à la miniaturisation et l’augmentation des performances des équipements électroniques, Orange n’en avait plus que 2 HLR/HSS et a perdu 100% de ses abonnés durant l’incident (la redondance entre les 2 nodes n’ayant pas fonctionné).

Sources:

You may also like...

Leave a Reply

%d bloggers like this: