2024年6月5日(日本時間)に発表されたWhat's Newの記事についてまとめた。公式リリース内容を見て記事内容が正しいか確認することをおすすめする。
Introducing Amazon EMR Serverless Streaming jobs for continuous processing on streaming data - AWS
結論
Amazon EMR Serverlessにストリーミングジョブモードが追加され、ストリーミングデータの継続的な分析が可能になった。高可用性とレジリエンスを備え、Kinesis Data Streamsとの統合も実現したことで、エンドツーエンドのストリーミングパイプラインの構築が容易になった。
内容
対象サービスの概要
Amazon EMR Serverlessは、オープンソースのビッグデータ分析フレームワークを実行するためのサーバーレスオプションだ。クラスターやサーバーの構成、管理、スケーリングを行う必要がなく、データエンジニアやデータサイエンティストが簡単に利用できる。
主な変更点
今回の変更点は、Amazon EMR Serverlessにストリーミングジョブモードが追加されたことだ。これにより、センサーやIoTデバイス、Webログなどからのストリーミングデータを継続的に分析できるようになった。
今回の変更で嬉しいこと
ストリーミングジョブモードには以下のような特徴がある:
- 高可用性:マルチAZレジリエンシーによる自動フェイルオーバー
- 高耐障害性:障害時の自動リトライ、ログ管理機能による安定性の向上
- Kinesis Data Streamsとの統合:エンドツーエンドのストリーミングパイプラインの構築が容易
これらの機能によって、ストリーミングデータの継続的な分析が簡単に実現できるようになった。
まとめ
Amazon EMR Serverlessにストリーミングジョブモードが追加されたことで、ビジネスにとって重要なストリーミングデータの分析が容易になった。高可用性とレジリエンスを備え、Kinesis Data Streamsとの統合も実現したことで、エンドツーエンドのストリーミングパイプラインの構築が可能となった。
ネタ(会話でWhat's Newを理解しよう)
へぇ、Amazon EMR Serverlessってサーバーレスのオプションなんやな。データエンジニアやデータサイエンティストが、クラスターやサーバーの設定や管理、スケーリングなしに、オープンソースのビッグデータ分析フレームワークを使えるようになるんやって。
そうやな。で、最近新しく追加されたのが、ストリーミングジョブモードや。センサーやIoTデバイス、Webログなどのデータソースから、リアルタイムにデータを分析できるようになったんや。
ストリーミングデータの分析って大事やけど、高可用性やフェイルオーバー、ストリーミングサービスとの連携など、課題もあるよな。
その点、Amazon EMR Serverless Streamingジョブは、その課題を解決してくれとるんや。マルチAZでの高可用性、自動リトライ、ログ管理機能など、ストリーミングデータ処理に必要な機能が標準で備わっとるわ。しかも、Kafkaやkinesis Data Streamsなどのストリーミングサービスとも連携できるようになったから、エンドツーエンドのストリーミングパイプラインが簡単に作れるようになったんや。
ほぉ、めちゃくちゃ便利やん。これ使えば、ストリーミングデータの分析とかも楽に始められそうやね。
そうやな。EMR Serverlessのストリーミングジョブ機能は、データ分析の幅を広げてくれるんじゃないかな。これからの時代、リアルタイムデータの活用が重要やから、めっちゃ期待できるで。
ほな、早速試してみるわ。ありがとな!