Incident Slogan: ConnectMe verbinding onderbroken; geen verbinding mogelijk met server
Impact: ConnectMe
Priority: Critical
Start time: omstreeks 06-03-2025 07:35
End time: omstreeks 06-03-2025 10:16
Op 6 maart 2025, tussen 07:35 en 10:16, ondervond ConnectMe een groot incident. Gedurende deze periode konden gebruikers zich niet registreren via de ConnectMe-clientapp, waardoor ze geen oproepen konden maken of ontvangen. Bovendien kon de oproepgeschiedenispagina niet worden geladen voor getroffen gebruikers. Deze verstoring werd veroorzaakt door een overbelasting in de WebRTC-component van ConnectMe, als gevolg van een onverwachte toename van DNS-verkeer door een nieuw architecturaal component. Dit probleem leidde uiteindelijk tot een serviceonderbreking voor veel gebruikers tijdens de incidentperiode.
Het probleem ontstond door een overbelasting in de WebRTC-component door een toename van DNS-verkeer. Dit was gekoppeld aan een nieuw architecturaal component dat was ontworpen om functionaliteit te verbeteren en legacy-systemen te vervangen. Echter, het nieuwe component genereerde domeinnamen die de verwerkingscapaciteit van WebRTC overschreden, wat leidde tot herhaalde verzoekfouten. Bovendien verergerde een korte Time-to-Live (TTL)-instelling op DNS-verzoeken het probleem, waardoor tijdige oplossing werd verhinderd en de beschikbaarheid van de service aanzienlijk werd beïnvloed.
Het incident werd opgelost door de productuitgave terug te draaien naar de vorige versie. Deze rollback herstelde met succes de functionaliteit van ConnectMe, waardoor gebruikers weer oproepen konden maken en. De rollback werd geïnitieerd nadat pogingen om WebRTC-instanties op te schalen niet succesvol waren. Er werd gekozen voor een rollback doordat werd beoordeeld dat dit de snelste optie was om de dienst te herstellen.
Na het incident zijn belangrijke maatregelen genomen om herhaling te voorkomen. Belastingsproeven zullen nu worden afgestemd op piekuren voor een nauwkeurigere prestatie-evaluatie, en interne documentatie is bijgewerkt. Deze maatregelen zijn bedoeld om de systeemweerstand en servicebetrouwbaarheid te verbeteren.