AWS OS Windows

【7/21更新】【Windowsブルスク祭り】2024年7月19日のCrowdStrike障害対策まとめ(公式発表・AWS・Azure)

2024年7月20日

2024年7月19日(金)の昼頃からWindows PCにて、ブルースクリーンが表示され、PCが操作できなくなるという障害が日本だけでなく世界中で発生している。航空機の欠航やTVが放送できなくなる、飲食店のレジが使用できなくなるというようにPCを使用しない人たちにも大きな影響を与えている。

自分も業務中に突然PCが再起動して編集中のファイルが保存できなかったり、対外的なMTG中に再起動が発生するなど影響を受けた。

「サボチン」です。AWSパートナー企業でエンジニアとして働いています。
お問い合わせ自己紹介

X(旧Twitter)でも話題に

X(旧Twitter)においてもトレンド入りするほど騒がれており、かなり多くの人たちに影響があったことが伺える。

こんなジョークをつぶやいたり、諦めてキーボードではなく猫の尻を叩いている人も。。

影響の大きさ

Crowdstrikeのサービスは、29,000社を超える会社で使用されているとのこと。信頼されているサービスだけあって今回の影響はかなり大きいと考えられる。影響を受けた業界は世界中の空港、銀行、医療サービス、その他企業などかなり多い。

(7/21追記)影響を受けたPCは世界で850万台

Microsoft によると、CrowdStrikeのサービスが原因でブルースクリーンの影響を受けたPCが世界で850万台と推定した。全てのWindowsマシンの1%未満とのことだが、広い範囲で経済的・社会的影響を与えている。

また、Microsoft は24時間体制で作業し、継続的なアップデートとサポートを提供しているとのこと。

While software updates may occasionally cause disturbances, significant incidents like the CrowdStrike event are infrequent. We currently estimate that CrowdStrike’s update affected 8.5 million Windows devices, or less than one percent of all Windows machines. While the percentage was small, the broad economic and societal impacts reflect the use of CrowdStrike by enterprises that run many critical services.

Helping our customers through the CrowdStrike outage - The Official Microsoft Blog

(7/21追記)【公式ブログ】ブルースクリーン問題の発生原因と対策

2024年7月20日(UTC)にCroudStrike公式ブログにて、ブルースクリーン問題の発生原因と対策について説明があった。簡単にブログ記載内容をまとめる

概要

2024年7月19日 04:09(UTC)にWindowsシステムに対するFalcon Sensor構成の更新をリリース。この更新によってエラーが発生し、システムクラッシュとブルースクリーン(BSOD)が発生。

システムクラッシュの原因となったFalcon Sensor構成の更新は、2024年7月19日 05:27 (UTC)に修正済み。また、この問題はサイバー攻撃ではないとのこと。

影響

2024年7月19日 04:09 (UTC) から 2024年7月19日 05:27 (UTC)までの間にオンラインだった、Windows 用 Falcon センサー バージョン 7.11 以降を実行している場合、影響を受ける可能性があるとのこと。

原因

チャネルファイル291と呼ばれるファイルが更新されたことによってエラーが発生し、OSがクラッシュした。

チャネルファイルはC:\Windows\System32\drivers\CrowdStrike\ディレクトリにあり、ファイル名は「C-00000291-」で始まり、拡張子は.sysで終わる。

チャネルファイル291はLinux、MacOSでは使用しないため影響がなかったらしい。

現状

既に原因となったチャネルファイル291を更新してエラーを修正したとのこと。2024年7月19日23時(日本時間)に公式が発表していた記事に記載のとおり。

最新の修復方法

最新の推奨事項や情報については、公式ブログまたはサポートポータルで確認できるとのこと

ブログ:Falcon Content Update Remediation and Guidance Hub | CrowdStrike

サポートポータル:Login Template Title

原因は?(2024/07/19)

原因はCrowdstrike社の「Falcon Sensor」というセキュリティソリューションの一部とのこと。

本記事執筆時(2024年7月19日23時30分)には、問題が特定され修正プログラムが展開されたとの公式発表があった。

問題は特定され、隔離され、修正プログラムが展開されました。最新のアップデートについてはサポート ポータルをお客様にご案内しており、今後も当社の Web サイトで完全かつ継続的なアップデートを提供していきます。

Statement on Falcon Content Update for Windows Hosts - crowdstrike.com

何をすれば良い?対応方法を紹介

ブルースクリーンの影響がなかった場合

Crowdstrike社によると「特に何もする必要はない」とのこと。

影響を受けていない Windows ホストでは、問題のあるチャネル ファイルが元に戻されているため、アクションは必要ありません。

Statement on Falcon Content Update for Windows Hosts - crowdstrike.com

日本時間(JST)2024年7月19日午後2時27分以降にPCを起動したりしたユーザーやWindows 7/2008 R2のような古いOSを利用しているユーザーは影響を受けないらしい。

UTC 0527以降にオンラインになったWindowsホストも影響を受けません。 Windows 7/2008 R2を実行しているホストは影響を受けません。

Statement on Falcon Content Update for Windows Hosts - crowdstrike.com

また、この問題はWindowsのみで、MacやLinux を使用しているホストには影響はない。

この問題はMacまたはLinuxベースのホストには影響しません

Statement on Falcon Content Update for Windows Hosts - crowdstrike.com

ブルースクリーンの影響を受けた場合

修正プログラムが展開されているため、影響を受けたPCに修正プログラムを適用する必要がある。導入している企業のシステム担当者はサポートポータルを確認してみると良い。(以下再掲)

問題は特定され、隔離され、修正プログラムが展開されました。最新のアップデートについてはサポート ポータルをお客様にご案内しており、今後も当社の Web サイトで完全かつ継続的なアップデートを提供していきます。

Statement on Falcon Content Update for Windows Hosts - crowdstrike.com

Statement on Falcon Content Update for Windows Hosts - crowdstrike.com

確認ポイント

「C-00000291*.sys」ファイルのタイムスタンプを確認する

  1. %WINDIR%\\System32\\drivers\\CrowdStrikeディレクトリに移動
  2. 「C-00000291*.sys」に一致するファイルのタイムスタンプを確認
    1. 日本時間(JST)2024年7月19日午後2時27分以降であれば修正された正常なバージョン
    2. 日本時間(JST)2024年7月19日午後1時09分である場合は正常なバージョンではないため、修正プログラムを適用する必要がある

・タイムスタンプが 0527 UTC 以降のチャネル ファイル「C-00000291*.sys」が、元に戻された (正常な) バージョンです。
・タイムスタンプが 0409 UTC のチャネル ファイル「C-00000291*.sys」が問題のあるバージョンです。

Statement on Falcon Content Update for Windows Hosts - crowdstrike.com

パブリッククラウド(AWS・Azure等)を利用している場合の対処方法

以下のいずれかの方法で対処可能とのこと

対処法1.影響を受けたサーバのボリュームからCrowdStrike Falcon エージェントファイル(C-00000291*.sys)を削除

  • 影響を受ける仮想サーバーからオペレーティングシステムのディスクボリュームを切り離します
  • 意図しない変更に対する予防策として、先に進む前にディスクボリュームのスナップショットまたはバックアップを作成してください。
  • ボリュームを新しい仮想サーバーに接続/マウントする
  • %WINDIR%\System32\drivers\CrowdStrikeディレクトリに移動します
  • 「C-00000291*.sys」に一致するファイルを見つけて削除します。
  • 新しい仮想サーバーからボリュームを切り離す
  • 影響を受けた仮想サーバーに固定ボリュームを再接続します

引用元:Statement on Falcon Content Update for Windows Hosts - crowdstrike.com

対処法2.日本時間(JST)2024年7月19日午後1時09分以前のスナップショットにロールバック

この方法は、影響を受けたサーバのスナップショットを取得している場合のみ対応可能

業務システムや重要なシステムである場合は、AWS DLMやBackupなどでスナップショットを取得していると思うため、スナップショットからサーバを起動する必要がある。

この場合、スナップショット取得時~復元時までの作業分は削除されてしまうため注意が必要。

AWS Health Dashboardに記載の対処法

AWS Health Dashboardに今回の障害内容について説明と対処法が記載されていた。

記載されている対処法はCrowdStrikeが発表している内容とそこまで差はないが記載しておく。以下対処法はAWS Health Dashboardから引用。

1.インスタンスの再起動

まずはインスタンスを再起動してみると良いとのこと。この方法で解決することもあるが、全てのユーザーに有効な方法ではないらしい。

インスタンスを再起動することで、CrowdStrike Falcon エージェントが以前の正常なバージョンに更新され、問題が解決する場合があります。しかし、これは全てのケースで成功するわけではなく、その場合は別の復旧戦略が必要になります。

health.aws.amazon.com

2.CrowdStrike Falcon エージェントファイルを削除

公式が発表したとおりの内容で、EBSルートボリュームを別のインスタンスにアタッチし、「C-00000291*.sys」を削除。その後、EBSを元のインスタンスにアタッチする。AWSに特化した説明がされている。以下復旧手順。

  1. 影響を受けるインスタンスのEBSルートボリュームのスナップショットを作成する。
  2. スナップショットから新しい EBS ボリュームを同じアベイラビリティゾーンに作成する。
  3. 異なるバージョンのWindowsを使用して、そのアベイラビリティ・ゾーンで新しいインスタンスを起動する。
  4. ステップ(2)のEBSボリュームをデータ・ボリュームとして新しいインスタンスにアタッチします。
  5. アタッチしたボリューム上の「C-00000291*.sys」フォルダを削除します。
  6. 新しいインスタンスからEBSボリュームをデタッチする。
  7. デタッチしたEBSボリュームのスナップショットを作成します。
  8. 影響を受けるインスタンスと同じボリュームタイプを選択して、スナップショットからAMIを作成します。
  9. 作成したAMIを指定して、元のEC2インスタンスのルートボリュームを置き換える。

引用元:health.aws.amazon.com

3.2024年7月19日午後1時30分までに取得したスナップショット or AMIからEC2インスタンスを起動

CrowdStrikeの公式発表には「2024年7月19日午後1時09分まで(0409 UTC)」のスナップショットから復元したサーバを起動とあるが、AWS Health Dashboardに記載の時間は異なる。どちらを信用するかは少し悩む。。

最後に、顧客は午後9時30分(PDT)までに取得したスナップショットまたはイメージからEC2インスタンスを再起動できる。CrowdStrike Falconエージェントの問題の原因となったアップデートが自動更新されなくなったことを確認できたため、再起動したインスタンスは問題の影響を受けなくなります。

health.aws.amazon.com

AWS Health Dashboardの記載内容

日本語訳

CrowdStrike Falcon エージェントの問題

2024年7月18日午後9時30分(PDT)より、CrowdStrike Falcon エージェント(csagent.sys)の最近のアップデートにより、一部のWindowsインスタンス、Windowsワークスペース、およびAppstream 2.0アプリケーションで接続性の問題と再起動が発生しました。このアップデートは、Windowsオペレーティングシステム内で停止エラー(BSOD)を引き起こしました。CrowdStrikeを使用していないWindowsインスタンスとワークスペースは、この問題の影響を受けませんでした。AWSのサービスおよびネットワーク接続もこの事象の影響を受けず、正常に動作していました。

この問題はWindowsゲストオペレーティングシステム内のCrowdStrike Falconエージェントのアップデートによって引き起こされましたが、AWSは可能な限り多くのWindowsインスタンス、Windowsワークスペース、Appstream 2.0アプリケーションに対してこの問題を軽減するための措置を講じました。この問題の影響を受けている残りのWindowsインスタンスとWindowsワークスペースについては、お客様は接続性を回復するための措置を講じる必要があります。Amazon Appstream 2.0アプリケーションを使用しているお客様は、この影響を受けなくなります。

EC2インスタンスについては、現在3つの復旧方法があります。

まず、インスタンスを再起動することで、CrowdStrike Falcon エージェントが以前の正常なバージョンに更新され、問題が解決する場合があります。しかし、これは全てのケースで成功するわけではなく、その場合は別の復旧戦略が必要になります。

次に、以下の手順に従って、影響を受けたインスタンス上の CrowdStrike Falcon エージェントファイルを削除することができます:

(最新リビジョン: July 19, 7:01 AM PDT)
1. 影響を受けるインスタンスのEBSルートボリュームのスナップショットを作成する。
2. スナップショットから新しい EBS ボリュームを同じアベイラビリティゾーンに作成する。
3. 異なるバージョンのWindowsを使用して、そのアベイラビリティ・ゾーンで新しいインスタンスを起動する。
4. ステップ(2)のEBSボリュームをデータ・ボリュームとして新しいインスタンスにアタッチします。
5. アタッチしたボリューム上の「C-00000291*.sys」フォルダを削除します。
6. 新しいインスタンスからEBSボリュームをデタッチする。
7. デタッチしたEBSボリュームのスナップショットを作成します。
8. 影響を受けるインスタンスと同じボリュームタイプを選択して、スナップショットからAMIを作成します。
9. 作成したAMIを指定して、元のEC2インスタンスのルートボリュームを置き換える。

最後に、顧客は午後9時30分(PDT)までに取得したスナップショットまたはイメージからEC2インスタンスを再起動できる。CrowdStrike Falconエージェントの問題の原因となったアップデートが自動更新されなくなったことを確認できたため、再起動したインスタンスは問題の影響を受けなくなります。

Amazon Workspacesについては、影響を受けるWorkspacesの再起動を推奨します。EC2と同様に、これによってインスタンスが回復する可能性があるが、すべてのケースでうまくいくわけではない。または、ワークスペースの最近のバックアップに復元することをお勧めします。

これらのアクションでサポートが必要な場合は、AWSサポートセンター経由でAWSサポートに連絡してください。

原文(英語)

CrowdStrike Falcon Agent Issue

Starting at 9:30 PM PDT on July 18th 2024 some Windows Instances, Windows Workspaces and Appstream 2.0 Applications experienced connectivity issues and reboots due to a recent update of the CrowdStrike Falcon agent (csagent.sys). This update caused a stop error (BSOD) within the Windows operating system. Windows instances and Workspaces that do not use CrowdStrike, were not affected by this issue. AWS services and network connectivity were also not affected by this event and continued to operate normally.

While the issue was triggered by the CrowdStrike Falcon agent update within the Windows guest operating system, AWS has taken steps to mitigate the issue for as many Windows instances, Windows Workspaces and Appstream 2.0 Applications as possible. For the remaining Windows instances and Windows Workspaces that are still affected by this issue, customers need to take action to restore connectivity. Customers using Amazon Appstream 2.0 Applications will no longer see the impact.

For EC2 instances, there are currently three paths to recovery.

First, in some cases, a reboot of the instance may allow for the CrowdStrike Falcon agent to be updated to a previously healthy version, resolving the issue. However, this is not successful in all cases, in which case an alternative recovery strategy will be needed.

Second, the following steps can be followed to delete the CrowdStrike Falcon agent file on the affected instance:

(Latest revision: July 19, 7:01 AM PDT)

  1. Create a snapshot of the EBS root volume of the affected instance
  2. Create a new EBS volume from the snapshot in the same Availability Zone
  3. Launch a new instance in that Availability Zone using a different version of Windows
  4. Attach the EBS volume from step (2) to the new instance as a data volume
  5. Navigate to the \windows\system32\drivers\CrowdStrike\ folder on the attached volume and delete "C-00000291*.sys"
  6. Detach the EBS volume from the new instance
  7. Create a snapshot of the detached EBS volume
  8. Create an AMI from the snapshot by selecting the same volume type as the affected instance
  9. Call replace root volume on the original EC2 Instance specifying the AMI just created

Finally, customers can relaunch the EC2 instance from a snapshot or image taken before 9:30 PM PDT. We have been able to confirm that the update that caused the CrowdStrike Falcon agent issue is no longer being automatically updated, so the relaunched instance will no longer be affected by the issue.

For Amazon Workspaces, we recommend a reboot of the affected Workspaces. As with EC2, this may recover the instance but it does not work in all cases. Alternatively, we would recommend restoring to a recent backup of the workspace.

If you need assistance with any of these actions please contact AWS Support via the AWS Support Center.

Crowdstrikeの今後

Crowdstrikeが原因で引き起こされた大規模障害は航空、飲食、医療など幅広い業界へ影響を与えた。

その影響で株価が急落しているがここまでの事象が発生すると仕方がない。

「お客様のビジネスをダウンさせるには62分あれば十分です」とCrowdstrike公式HPに記載があることについても皮肉の投稿がXでも散見される。株価やCrowdstrike社の対応を含め注目したい。

-AWS, OS, Windows
-