Corriger un défaut sur Port SAN (Fibre Optique)

L’objectif de ce post est de vous permettre d’identifier rapidement l’élément perturbateur d’un port SAN : fibre ou connecteur ? 

Malgré la démocratisation du Cloud et les progrès des débits du réseau gigabit, beaucoup d’entreprises disposent encore, pour leurs applications les plus gourmandes, d’équipements reliés au réseau SAN par la fibre optique, sur leur réseau corporate ou dans leur datacenter on-premise (sur lequel ils ont encore intégralement la main).

Administrer le réseau SAN requiert des compétences spécifiques et particulières, notamment en termes de performances et d’analyses d’erreurs telles les goulots d’étranglements (bottlenecks) ou les incidents de routages des trames réseau…

Port SAN - Fibre Optique

Je vais vous relater ici un cas de figure qui peut sournoisement affecter votre réseau SAN : un serveur doté de cartes fibres connaît soudainement une baisse de performances sur les volumes qu’il exploite d’une baie de disques reliée au SAN par la fibre optique.

L’incident est généralement mis en évidence :

  • soit par des baisses de performances ressenties côté applicatif ou mises en lumière par la supervision,
  • soit par des messages d’erreurs remontées par l’OS quant à l’accès aux disques SAN : latences détectées ou pertes intempestives de l’accès au(x) disque(s)…

Dans le but d’analyser l’origine SAN (ou pas), l’ingénieur du stockage procède en général de la manière suivante :

  • il relève les WWN des cartes sollicitées (via la machine directement ou la baie de disques),
  • il identifie les ports SAN connectés sur le(s) fabric(s) du réseau SAN,
  • il relève l’état et analyse les erreurs et les statistiques des ports SAN.

En l’absence d’erreur flagrante côté baie de disques, telle la saturation de l’espace sur le(s) volume(s) monté(s) par la machine bénéficiaire ou l’état d’un port SAN clairement éteint (panne franche), il convient de vérifier les statistiques : particulièrement le nombre d’erreurs…

Une fois connecté en SSH sur le switch SAN, l’exemple typique ci-dessous montre un cas plus sournois, avec des soucis de routages des trames réseau, mis en évidence par l’apparition de Discard

La commande “porterrshow [port] “ permet d’obtenir une vue d’ensemble des erreurs survenues sur les ports du switch SAN.

Exemple :

frames enc crc too too bad enc disc link loss loss frjt fbsy tx rx in err short long eof
out c3
fail sync sig  ---------------------------------------------------------------------  0: 3.8g 78m 0 0 0 0 0 1 0 0 1 1 0 0  1: 3.7g 581m 0 0 0 0 0 1 0 0 1 1 0 0  2: 0 0 0 0 0 0 0 0 0 0 0 0 0 0  3: 0 0 0 0 0 0 0 0 0 0 0 0 0 0  4: 0 0 0 0 0 0 0 0 0 0 0 0 0 0  5: 0 0 0 0 0 0 0 0 0 0 0 0 0 0  6: 0 0 0 0 0 0 0 0 0 0 0 0 0 0  7: 0 0 0 0 0 0 0 0 0 0 0 0 0 0  8: 0 0 0 0 0 0 0 0 0 0 0 0 0 0  9: 0 0 0 0 0 0 0 0 0 0 0 0 0 0  10: 660m 3.3g 0 0 0 0 0 9 0 3 7 2 0 0  11: 0 0 0 0 0 0 0 0 0 0 0 0 0 0  12: 0 0 0 0 0 0 0 0 0 0 0 0 0 0  13: 0 0 0 0 0 0 0 0 0 0 0 0 0 0  14: 176m 1.4g 0 0 0 0 0 0 0 0 1 1 0 0  15: 1.4g 176m 1 1 1 0 1 4 0 2 2 0 0 0 

Comment corriger le souci ? 

 Un port SAN au sein d’un switch SAN (type Brocade) est doté d’un connecteur appelé SFP ou GBIC, sur lequel on vient connecter la fibre. La difficulté est donc de déterminer si l’origine de l’incident concerne plutôt la fibre optique elle-même ou le connecteur ?

  Afin de gagner en temps de résolution et éviter d’avoir à changer une longue fibre traversant salles et plafonds, voici un moyen rapide pour déterminer si le connecteur, plus facile et rapide à remplacer, est en cause…

  En utilisant la commandesfpshow [port], on peut observer notamment le voltage en fonction sur le connecteur… 

L’illustration ci-dessous montre le retour textuel de la commande :

Retour textuel commande
  • Une puissance de signal détectée sur le laser trop faible en réception (“RX Power”), de l’ordre de 10 µWatts par exemple, indique un problème de transmission du signal au travers de la fibre (signal trop faible). On pourra comparer le voltage du port incriminé avec celui des ports adjacents. Si le problème persiste, même en changeant de port et GBIC, c’est la fibre qu’il faut changer.
  • Une puissance de signal détectée sur le laser trop faible en émission (“TX Power”), indique un problème de SFP. Procédez à son changement, en utilisant un connecteur adjacent potentiellement disponible.

Voilà, vous connaissez désormais l’astuce pour identifier, simplement et rapidement, quel est l’élément perturbateur sur votre port SAN ! 

En espérant que ce retour d’expérience puisse vous aider, n’hésitez pas à faire vos retours dans les commentaires afin d’échanger sur le sujet. 

Fabrice Boyaval

Ingénieur Stockage et Sauvegardes