amazon-emr-icon

AWS最新情報

Amazon EMR 用の Amazon Kinesis データストリーム Apache Spark 構造化ストリーミングコネクタのご紹介

2024年5月24日に発表されたWhat`s Newの記事についてまとめた。公式リリース内容を見て記事内容が正しいか確認することをおすすめする。

Introducing the Amazon Kinesis Data Streams Apache Spark Structured Streaming Connector for Amazon EMR - AWS

「サボチン」です。AWSパートナー企業でエンジニアとして働いています。
お問い合わせ自己紹介

結論

Amazon EMRでApache Spark Structured Streamingを使ってAmazon Kinesis Data Streamsからリアルタイムデータを処理するのが簡単になった

内容

サービスの概要

  • Amazon Kinesis Data Streamsはサーバーレスのストリーミングデータサービス
  • Amazon EMRはApache Sparkなどのオープンソースフレームワークを使ってペタバイトスケールのデータ処理やインタラクティブな分析、機械学習を行うクラウドサービス
  • Amazon Kinesis Data Streams Connector for Apache Sparkは、Kinesis Data Streamsからデータを取り込むためのコネクタ

今回の変更で嬉しいこと

  • Amazon EMR 7.1から、Kinesis Data Streams Connectorがプリインストールされるようになった
  • これまでは自分でコネクタを作成する必要があったが、これからは手間なく使えるようになった
  • コネクタは高速で、スケーラブルで、フォールトトレラントである
  • 専用の読み取り帯域幅を持つEnhanced Fan-out消費をサポートしている

まとめ

Amazon EMRでApache Spark Structured Streamingを使ってKinesis Data Streamsからデータを処理するのが簡単になった。コネクタが高性能で使いやすいため、リアルタイムのデータ処理アプリケーションの構築が容易になった。

ネタ(会話でWhat`s Newを理解しよう)

ワオ、AWSがKinesis Data StreamsのコネクターをSparkに対応させたんやって。これって何か凄いことなんか?

ほんまや、これはめっちゃ便利な機能やで。Kinesis Data Streamsってリアルタイムでデータを取り扱えるサービスやけど、それをSparkのStructured Streamingで簡単に使えるようになったんや。

へぇ~、そうなんか。Sparkのお馴染みのAPIを使ってデータ処理できるようになったんやね。それで、どういった効果があるんや?

そうそう、これまでは自前でパッケージを作る必要があったけど、これからはAmazon EMRに標準で入ってるから、すぐに使い始められるようになったんや。しかも、より高速で、スケーラブルで、障害に強いって書いてあるから、本番環境でも安心して使えるようになったみたいやね。

なるほど、めっちゃ便利やん。Kinesis Data Streamsとの連携がすっと簡単になったんやね。これで、リアルタイムのデータ処理アプリケーションを作りやすくなったわけや。

そうそう、まさにその通りや。これからはSparkでKinesis Data Streamsのデータを簡単に扱えるようになるから、新しいサービスを開発するのにめっちゃ役立つと思うわ。

ほんまや、これは嬉しいアップデートやな。Sparkとの連携がスムーズになって、開発がはかどりそうやわ。早速使ってみたいわ!

-AWS最新情報
-