Panne Majeur 8 Novembre 2023

Depuis mercredi 8 novembre 2023 aux alentour de 13h35, les services de Nebulae ne sont plus accessibles. Nous rencontrons une difficulté majeur avec l’une des machines qui héberge les services.

L’équipe technique travail sur le problème depuis mercredi 8 novembre 17h. Merci de votre patience et de votre compréhension dans cet incident.

Nous allons essayer de tenir cette page à jour au fur et à mesure de la résolution du problème. N’hésitez pas à venir régulièrement voir si vous voulez être tenu informé.

Merci de ne pas soliciter directement les personnes de l’équipe technique qui est déjà sous tension par la résolution de l’incident.

Nous tenions à rappeler que l’intégralité du travail technique sur Nebulae est effectué par des bénévoles qui ont également d’autres obligations. Que nous adaptons notre emploi du temps pour pouvoir résoudre cet incident mais que nous ne sommes ni professionnel, ni disponible à plein temps sur le sujet. Merci de votre compréhension.

Statut actuel des serveurs (mis à jour manuellement)

16/11/2023 8h

Le cloud devrait fonctionner à l’heure qu’il est, nous avons toujours un ensemble de chose à régler et à remettre en place. Par exemple la machine qui s’est planté la semaine dernière est toujours HS. Nous devons prendre une décision la concernant (est ce qu’on veut reinstaller des choses dessus, et avant est ce qu’il ne nous manque aucune donnée).

Il nous faut aussi remettre en place certain service de backup pour les services qui ont été réinstallé ailleurs. Et selon la décision prise ci-dessus il nous faudra redéplacer des services vers la machine qui a eu un soucis ( on ne le fera que si le soucis est réglé ).

En tout cas pour nous c’est une petite pause dans ce marathon, merci à tout.e.s celleux qui ont fait des choses pour que ça puisse se régler.

C’est la première fois en 6 ans que Nebulae est touché par un incident aussi majeur (l’indisponnibilité ayant durée 8 jours pour le cloud, 2 jours pour les mails). On espère que ça ne se reproduira pas de si tôt ;)

On vous tient au courant pour la suite, en attendant n’hésitez pas à venir sur le chat pour nous parler en cas de besoin (en cliquant sur Nebulae connect ou Gitlab connect (selon ce qui affiche) pour vous connecter).

14/11/2023 16h

Nous avons corrigé quelques erreurs dans la mise en place de certains services, remis le webmail complètement en place. Nous avons rétablis des services annexes qu’il fallait qu’on restore avant de pouvoir relancer le cloud. La connexion au chat est à nouveau disponible (n’oubliez pas de cliquer sur “Nebulae connect”), n’hésitez pas à nous contacter par ce biais.

Le premier transfert des données du cloud a été effectué, il nous faut a présent ré-installer la machine, le cloud et retransférer les données. Ça devrait arriver dans les jours à venir.

13/11/2023 14h

Nous avons lancé le taff de restauration du cloud, il y a quasi 1To de données à transférer (deux fois), ça va prendre beaucoup de temps de faire ces transferts. On peut s’attendre à un retour du service d’ici 48h (ceci n’est pas un engagement)

13/11/2023 01h

Les listes de diffusions sont de retour, youpiii !

Il nous reste quasi que le cloud à relancer et on sera bon. On tient le bon bout !

12/11/2023 15h

Quelques services ont été remis en route (le portail membre, la compta, les RSS, le webmail) car c’était facile. On travaille sur la remise en route des mailing lists.

11/11/2023 14h

Nous avons beaucoup moins de dispo ce weekend, ça sera donc un peu plus long.

Nous continuons d’investiguer les soucis sur Helix en même temps que nous rétablissons doucement des services.

Nous travaillons actuellement sur les listes de diffusions.

Le cloud sera malheureusement plus long à relancer car c’est le plus gros (en terme de volume de fichier) service que l’on a. Nous n’avons pas de possibilité de vous donner de date pour l’instant. Si vous avez besoin d’accéder à un document de manière critique et urgente, vous pouvez nous envoyer un mail à contact at nebulae.co nous avons accès aux fichiers mais juste pas à l’interface Nextcloud.

10/11/2023 16h

Nous avons eu des accès à des nouvelles informations sur les erreurs sur le serveur Helix, nous avons pu en corriger une a priori.

L’autre erreur que nous avons est identifiée, nous essayons de la corriger.

10/11/2023 12h

Les pads sont à nouveau en place.

Nous avons tenté une nouvelle manipulation pour remettre en place le serveur Helix, sans succès.

10/11/2023 10h

Nous venons de remettre en place le service Bitwarden (gestionnaire de mot de passe)

Nous avons fait des vérifications sur les mails, a priori tout tourne pour l’instant.

10/11/2023 6h

Après une nuit de taff, un nouveau serveur mail est mis en place. Nous y avons remis les archives des mails présents sur l’ancien serveur: il n’y a pas de perte à ce niveau a priori. On a eu un ou deux petit soucis lors de l’installation, peut être qu’un ou deux mails en attente de reception ont disparu. Si vous attendiez un mail important et que vous ne le voyez pas apparaitre dans la journée, il peut être sage de demander à l’expéditeur de vous le renvoyer.

Comme nous sommes maintenant sur une nouvelle machine, nous repartons à zéro en terme de réputation email. Il risque donc d’y avoir dans les semaines à venir des défauts de déliverabilité (c’est à dire qu’une partie des mails envoyés depuis des adresses @nebulae.co seront possiblement considérés comme des spams par les serveurs de vos destinataires). N’hésitez pas à rappeler aux gens a qui vous écrivez de regarder dans leur boite de spam (et d’indiquer vos mails comme légitime), ça nous aidera a reconstruire une bonne réputation.

A ce niveau également si vous pouvez éviter de faire des envoie massifs dans les jours qui viennent (+ de 10 messages quasi identique par heure) ça serait aidant !

10/11/2023 1h

C’est toujours l’incompréhension sur ce qui se passe sur le serveur.

On a décidé de remettre en place au plus vite les mails (on espère qu’ils seront en ligne vendredi en fin de matinée), et ensuite de voir progressivement ce qu’on peut remettre en place et a quel rythme.

En parallèle on tente une autre méthode d’investigation sur le serveur (qui va nous coûter un peu d’argent), peut être que ça résoudra plusieurs problèmes à la fois (et peut être qu’on va juste perdre 30€).

On va avoir moins de disponibilités dans les jours qui viennent, ça commence à être dur. On fait ce qu’on peut: merci de votre compréhension.

09/11/2023 17h

Après analyse des techniciens OVH, la carte mère (une pièce centrale du serveur) est HS, ils viennent de la remplacer.

09/11/2023 16h

Suite à une nouvel échange avec le service client, il semblerait qu’il y ait un soucis dans la partie du système qui gère la séquence de demarrage du serveur (on est pas bien avancé avec ça).

On a demandé une intervention de vérification materielle plus avancée. C’est notre dernière carte à jouer “facile”, si cela ne donne rien nous allons devoir lancer une opération de réinstallation globale du toute l’infrastructure (et franchement on aimerait bien éviter). Si tel est le cas nous remettrons rapidement le service mail qui nous semble le plus critique en place, et ensuite nous prendrons le temps de plannifier proprement la réinstallation du reste.

09/11/2023 14h

Retour du technicien, toujours la même rengaine: “on a redémarré le serveur en mode rescue, débrouillez vous le problème vient de votre côté”.

On rappel le service client, ils sont aussi blasé que nous et demande l’intervention d’un administrateur en interne (un technicien plus haut placé).

09/11/2023 12h

Nouvel appel avec le service client, qui nous dit qu’il vont demander une intervention plus poussée à un technicien sur site pour vérifier l’intégrité physique de la machine (ce qui pourrait expliquer les soucis de démarrage en mode normal et rescue). Super, on est content on pense toucher le bon bout.

09/11/2023 10h

Le service client nous rappelle, cette fois on tombe sur une personne sympathique qui prends le problème au serieux (jusqu’ici on se faisait un peu ballader et on nous disait “si vous ne savez pas gérer votre serveur, payez des pros pour le faire”: sympa).

Il redemande une intervention technicien pour voir ce qui se passe.

Le retour des techniciens est toujours le même “on a redémarré le serveur en mode rescue, débrouillez vous le problème vient de votre côté” (on vous a pas détaillé toutes les fois ou c’est arrivé mais ça commence à être la 5° fois la).

Le service client nous rappel et nous donne une piste à explorer d’un soucis similaire d’un autre client: il faudrait qu’on ré-installe le système de démarrage du système, ce que l’on fait. Sans que ça ne change rien.

09/11/2023 1h

Nous avons récupéré le serveur en mode rescue et commençons donc à extraire une partie des données du serveur pour pouvoir relancer une partie des services demain: a minima les mails et dans un second temps le cloud.

Nous lançons les transfert avant d’aller nous coucher à 2h30.

08/11/2023 22h

Nous avons accès au serveur en mode rescue complet et pouvons donc vérifier l’intégrité des données sur le serveur. Nous pouvons vérifier qu’aucune modification n’avait été faite recemment et ne comprenons donc pas ce qui se passe.

On tente un redémarrage manuel pour voir si le serveur refonctionne (le technicien étant intervenu sur le système de démarrage du serveur, peut être cela a changé quelque chose).

Sans succès, nous reperdons donc l’accès au serveur. Et ne pouvons pas redémarrer par nous même en mode rescue. Nous rappelons donc le service client (1h20 d’attente)

08/11/2023 18h

Dans l’absence de réponse, nous contactons par téléphone le service client, qui nous confirme que l’accès au serveur n’est pas disponible et que c’est anormal. Ils programment une intervention de technicien pour redémarrer proprement le serveur.

Cette intervention à lieu 20min plus tard et laisse le serveur dans un mode “rescue” dégradé: nous pouvons faire quelques premiers tests (de l’état des disques dur notamment: notre première hypothèse) sans que cela ne nous donne de certitude sur ce qui s’est passé.

Nous avons besoin d’un mode rescue plus complet et faisons donc une autre demande au support.

08/11/2023 17h

L’équipe technique prends connaissance de l’alerte du monitoring et commence à investiguer sur la situation: le serveur principal (qu’on appelle Helix) ne réponds plus.

Nous tentons de redémarrer la machine pour y regagner accès, relancer les services et comprendre ce qui s’est passé.

Lors du redémarrage nous ne regagnons pas l’accès distant.

Nous tentons de redémarrer la machine en mode “rescue” (un mode de débug proposé par notre hébergeur: OVH), mais ce mode “rescue” ne démarre pas non plus.

Nous envoyons donc un ticket au support et commençons à patienter.

08/11/2023 13h35

Le système de monitoring alerte que les services ne sont plus accessibles.