Incidente em Provedor Cloud Azure Front Door
Incident Report for Tech4Humans
Postmortem

Revisão preliminar pós-incidente (PIR) - Azure Front Door - Problemas de conectividade (ID de rastreamento YV8C-DT0)

Este é o nosso PIR "Preliminar" que nos esforçamos para publicar dentro de 3 dias após a mitigação do incidente, para compartilhar o que sabemos até agora.

Após a conclusão de nossa retrospectiva interna (geralmente em 14 dias), publicaremos um PIR "Final" com detalhes/aprendizados adicionais.

O que aconteceu?

Entre 16:10 e 19:55 UTC de 07 de setembro de 2022, o subconjunto de clientes que usam o Azure Front Door (AFD) pode ter problemas de conectividade. Isso também pode ter afetado a capacidade dos clientes de acessar outros serviços do Azure que aproveitam o Azure Front Door, incluindo o Portal de Gerenciamento do Azure e a Rede de Entrega de Conteúdo do Azure (CDN).

O que deu errado, e por quê?

A plataforma AFD equilibra automaticamente o tráfego em nossa rede global de sites de borda. Quando há uma falha em qualquer um dos nossos sites de borda ou um site de borda fica sobrecarregado, o tráfego é movido para outros sites de borda saudáveis ​​em outras regiões. Dessa forma, clientes e usuários finais não enfrentam problemas em caso de impactos regionais.

Entre 16:10 e 16:45 UTC, observamos um pico incomum no tráfego, onde o serviço AFD tentou balancear a carga do tráfego para uso ideal e latência mínima para os clientes. Nesse caso, o balanceamento de carga que ocorreu durante a janela do pico de tráfego fez com que vários ambientes que gerenciavam esse tráfego ficassem offline. Temos auto-mitigações que farão com que nossos ambientes se recuperem em tal evento. Por design, esses ambientes serão recuperados e, quando estiverem em um estado íntegro, poderão começar a retomar o gerenciamento de tráfego. Durante essa instância, como os usuários e nossos sistemas tentaram novamente as solicitações, isso exacerbou a situação em que tivemos um acúmulo de solicitações e esse acúmulo não deu tempo para que o ambiente se recuperasse totalmente.

Como a Microsoft respondeu?

Intervimos manualmente no processo de balanceamento de carga do AFD, agilizando o sistema de recuperação automática e realizando distribuições de carga mais eficientes em regiões onde havia um grande acúmulo de tráfego. Depois que o ambiente se recuperou, começamos a colocá-los novamente on-line gradualmente para retomar o gerenciamento de tráfego de maneira normal.

Como estamos tornando incidentes como esse menos prováveis ​​ou menos impactantes?

Continuaremos nossa investigação interna e publicaremos nossos aprendizados e descobertas nos próximos 14 dias.

Como podemos tornar nossas comunicações de incidentes mais úteis?

A Microsoft está testando este modelo “PIR” como um substituto potencial para nosso modelo “RCA” (Análise de Causa Raiz).

Você pode avaliar este PIR e fornecer qualquer feedback usando nossa pesquisa rápida de 3 perguntas,  https://www.aka.ms/AzPIR/YV8C-DT0

Posted Sep 13, 2022 - 15:18 GMT-03:00

Resolved
Entre 16:10 e 19:55 UTC de 07 de setembro de 2022, o subconjunto de clientes que usam o Azure Front Door (AFD) pode ter problemas de conectividade. Isso também pode ter afetado a capacidade dos clientes de acessar outros serviços do Azure que aproveitam o Azure Front Door, incluindo o Portal de Gerenciamento do Azure e a Rede de Entrega de Conteúdo do Azure (CDN)
Posted Sep 07, 2022 - 13:00 GMT-03:00