Verstoring ConnectMe

Incident Report for Dstny

Postmortem

Incident Information

Incident Slogan: ConnectMe verbinding onderbroken; geen verbinding mogelijk met server
Impact: ConnectMe
Priority: Critical
Start time: omstreeks 06-03-2025 07:35
End time: omstreeks 06-03-2025 10:16

Incident Summary

Op 6 maart 2025, tussen 07:35 en 10:16, ondervond ConnectMe een groot incident. Gedurende deze periode konden gebruikers zich niet registreren via de ConnectMe-clientapp, waardoor ze geen oproepen konden maken of ontvangen. Bovendien kon de oproepgeschiedenispagina niet worden geladen voor getroffen gebruikers. Deze verstoring werd veroorzaakt door een overbelasting in de WebRTC-component van ConnectMe, als gevolg van een onverwachte toename van DNS-verkeer door een nieuw architecturaal component. Dit probleem leidde uiteindelijk tot een serviceonderbreking voor veel gebruikers tijdens de incidentperiode.

Root Cause

Het probleem ontstond door een overbelasting in de WebRTC-component door een toename van DNS-verkeer. Dit was gekoppeld aan een nieuw architecturaal component dat was ontworpen om functionaliteit te verbeteren en legacy-systemen te vervangen. Echter, het nieuwe component genereerde domeinnamen die de verwerkingscapaciteit van WebRTC overschreden, wat leidde tot herhaalde verzoekfouten. Bovendien verergerde een korte Time-to-Live (TTL)-instelling op DNS-verzoeken het probleem, waardoor tijdige oplossing werd verhinderd en de beschikbaarheid van de service aanzienlijk werd beïnvloed.

Incident Resolution

Het incident werd opgelost door de productuitgave terug te draaien naar de vorige versie. Deze rollback herstelde met succes de functionaliteit van ConnectMe, waardoor gebruikers weer oproepen konden maken en. De rollback werd geïnitieerd nadat pogingen om WebRTC-instanties op te schalen niet succesvol waren. Er werd gekozen voor een rollback doordat werd beoordeeld dat dit de snelste optie was om de dienst te herstellen.

Mitigerende acties

Na het incident zijn belangrijke maatregelen genomen om herhaling te voorkomen. Belastingsproeven zullen nu worden afgestemd op piekuren voor een nauwkeurigere prestatie-evaluatie, en interne documentatie is bijgewerkt. Deze maatregelen zijn bedoeld om de systeemweerstand en servicebetrouwbaarheid te verbeteren.

Posted Mar 13, 2025 - 12:56 CET

Resolved

Na een monitoringsperiode hebben we vastgesteld dat er geen onderbrekingen meer zijn geweest. We zullen z.s.m. een Reason For Outage (RFO) opmaken nadat alle onderzoeken naar de oorzaak van de verstoring zijn afgerond.

Onze excuses voor het ongemak.
Posted Mar 06, 2025 - 13:23 CET

Update

Onze engineers hebben zojuist bevestigd dat de verstoring verholpen is. We blijven de diensten nauwlettend monitoren. Het kan zijn dat een herstart van ConnectMe noodzakelijk is om verbinding te kunnen maken. Mochten er na een herstart nog problemen zijn neem contact op met onze supportafdeling via 0882042204 of per mail via support@dstny.nl.
Posted Mar 06, 2025 - 10:13 CET

Update

Na controle blijkt dat het nog niet volledig is opgelost. De aanpassingen worden nog doorgevoerd waardoor het voor kan komen dat het nog niet volledig operationeel is voor iedereen.
Posted Mar 06, 2025 - 09:40 CET

Monitoring

De verstoring lijkt door onze engineers verholpen te zijn. We hebben weer succesvol in kunnen loggen en gesprekken kunnen voeren via ConnectMe. Het kan zijn dat het nodig is om ConnectMe te herstarten.
Posted Mar 06, 2025 - 09:33 CET

Identified

De oorzaak van de verstoring is geïdentificeerd. Er wordt momenteel gewerkt aan een noodoplossing om de verstoring op te lossen.
Posted Mar 06, 2025 - 09:19 CET

Update

Helaas is er nog geen oplossing voor de verstoring. Er wordt gewerkt om de impact zo snel mogelijk af te laten nemen.
Posted Mar 06, 2025 - 09:07 CET

Investigating

Op dit moment zijn er problemen met ConnectMe. Hierdoor is is het mogelijk dat na het inloggen de interface niet laadt, als je wel in kunt loggen dan komen er geen inkomende oproepen binnen.

Onze engineers zijn er met de hoogste urgentie mee bezig maar hebben helaas nog niet kunnen vaststellen wat de oorzaak is.
Posted Mar 06, 2025 - 08:35 CET
This incident affected: Dstny UCaaS (ConnectMe).