De eerste melding van problemen die verband hielden met ticket zijn van maandag 1 april ca 17:00 uur. Packetloss en ipv6 issues. Een eerste analyse zag geen problemen in ons domein en leken klant specifiek.
De volgende dag werden echter meer problemen gemeld gerelateerd aan SSL/TLS certificaten. Hierdoor werkte bijvoorbeeld push notificaties niet of het laden van websites (https) werkte slecht.
Binnen het DSTNY domein hadden we geen Alarmen en het was slecht te reproduceren, dit leidde er toe dat we op zoek gingen naar peering issues. Als eerste werd de peering met de AMS-IX gestopt. De klanten die problemen hadden gemeld konden al snel bevestigen dat het daarmee verholpen was. (soms moesten services herstart worden waarna het stabiel bleef werken)
Op dat moment hebben we bij de AMS-IX een ticket geopend. Wij waren echter de enige met problemen, die avond zijn we op een backup switch geconnecteerd en zijn de bgp sessies weer opgezet. De problemen bleven weg.
3 april kwam een soortgelijke melding van een andere ISP bij de AMS-IX binnen en werd het mogelijk om een correlatie te maken met het ticket van DSTNY. Dit leidde uiteindelijk tot een poort van een Backbone link die problemen gaf op TCP verkeer. Dit was opgelost met een reboot van de Module van de backbonen link.
Met het terugschakelen naar de primaire omgeving van de AMS-IX was daarmee het probleem verholpen. Echter hadden we nog wel services die niet goed functioneerde doordat we geen goede SSL handshake hadden. Dat was pas opgelost na herstart van zo’n service.