Наташа, вставай!

Я смотрю в темноту, я вижу огни
Это где-то в US полыхает EAST-1
Я не вижу CloudWatch, КлаудФрейм и AppSync
Это значит, что спать не придется идти
Я настраивал их столько лет, столько зим
Я застал сей бардак, в этой ночи
Слышу вой через зум, вижу слёзы в глазах
Это значит, cloud team почувствовал страх
Я смотрю в темноту, я вижу огни
Это значит, где-то там разгребают завал
Там админ он не спит – слишком сильная боль
Всё горит, всё кипит, пылает огонь
Я даже знаю, как болит у админа в груди
Он идет, он хрипит, мне знаком этот крик (С) @Gunslinger86 at @AWS_RU

Да…. давно такого не было.

Как говорится, никогда такого не было и вот опять.

Вчера рухнул один из регионов AWS. И все бы ничего, но рухнул US-EAST-1, который находится в том самом Эшберне.

Как все начиналось:

aws_notes [Nov 25, 2020 8:09:02 PM]  518Increased Error Rates

8:05 AM PST: Kinesis is experiencing increased API errors in the US-EAST-1 Region.

The Kinesis Data Streams API is currently impaired in the US-EAST-1 Region. As a result customers are not able to write or read data published to Kinesis streams.

CloudWatch metrics and events are also affected, with elevated PutMetricData API error rates and some delayed metrics.

While EC2 instances and connectivity remain healthy, some instances are experiencing delayed instance health metrics, but remain in a healthy state.

AutoScaling is also experiencing delays in scaling times due to CloudWatch metric delays.

This is also causing issues with ACM, Amplify Console, API Gateway, AppMesh, AppStream2, AppSync, Athena, AutoScaling, Batch, CloudFormation, CloudTrail, CloudWatch, Cognito, Connect, DynamoDB, EventBridge, IoT Services, Lambda, LEX, Managed Blockchain, Resource Groups, SageMaker, Support Console, and Workspaces.

Other services, like S3, remain unaffected by this event.

This issue has also affected our ability to post updates to the Service Health Dashboard.

We are continuing to work towards resolution.
https://status.aws.amazon.com/

Update.

+ CloudFront:
We are investigating longer than usual reporting update delays for change propagation of invalidations and CloudFront configurations. Customer changes are propagating fine across our edge locations but the associated reporting is not getting updated. Also, end-user requests for content from our edge locations are not affected by this issue and are being served normally.

+ Fargate:
We are investigating increased API error rates and delays delivering task events and metrics in the US-EAST-1 region. We are also investigating increased task launch error rates for the Fargate launch type. Running tasks are not impacted.

+ EKS:
We are investigating increased API error rates for cluster and node group operations in the US-EAST-1 region. We are also investigating increased Fargate pod launch failures. Existing EKS clusters and managed node groups are operating normally

+ ECS:
Currently running ECS tasks are not impacted for either the EC2 or Fargate launch types. We are continuing to experience API error rates and delays delivering task events and metrics in the US-EAST-1 region. ECS clusters are also not able to scale up or down due to task launch errors. Customers are missing metrics and events from their running tasks as ECS Insights is not able to propagate information. Task Set and Capacity Providers are also impacted. Customers using ECS on Fargate are not able to launch new tasks, running Fargate tasks are not impacted.

Я карта, я карта, я карта…

Давайте посмотрим на карту

Заключение

Кто там говорил, что админы не нужны. Именно админы разруливают текущую ситуацию. И я крайне уважаю их.

Ждем постмортем, узнаем, что же случилось.

А пока PRESS “F”TO PAY RESPECT TO ADMINS!

P.S. Факапы неизбежны, это аксиома. Но решение факапов – это реально круто, в этом и состоит наше предназначение.

P.P.S. Последний раз помню подобную(хоть и менее критичную ситуацию) 3 года назад, в принципе AWS ломается так же, как и мой форик. Что является показателем офигенной надежности.

Leave a Reply