2024年5月24日に発表されたWhat`s Newの以下記事についてまとめた。公式リリース内容を見て記事内容が正しいか確認することをおすすめする。
Connect your Jupyter notebooks to Amazon EMR Serverless using Apache Livy endpoints - AWS
結論
Amazon EMR Serverlessにおいて、Apache Livyのサポートが追加された。これにより、Jupyter notebookからSparkワークロードを簡単に管理できるようになった。
内容
サービスの概要
Amazon EMR Serverlessは、ペタバイトスケールのデータ分析を簡単かつコスト効率的に行えるサーバレスオプションのAmazon EMRサービスである。クラスターやサーバの管理を行う必要がなく、データエンジニアや分析者が手軽にデータ分析を実行できる。
今回の変更で嬉しいこと
今回の変更により、Amazon EMR Serverlessでは、Apache Livyのエンドポイントがサポートされるようになった。これによって、Jupyter notebookからSparkワークロードを簡単に管理できるようになった。オンプレミスのノートブックからLivyクライアントを使ってEMR Serverlessのエンドポイントに接続し、対話的にデータクエリ、探索、可視化、Sparkワークロードの実行ができる。また、ノートブック以外でもLivyのREST APIを使ってインタラクティブなコード実行が可能となった。
まとめ
Amazon EMR Serverlessにおいて、Apache Livyのサポートが追加されたことで、Jupyter notebookからSparkワークロードの管理が容易になった。これにより、クラスターやサーバの管理を気にせずに、手軽にデータ分析を行えるようになった。
ネタ(会話でWhat`s Newを理解しよう)
ほぉ~、AWSのWhat's Newに新しい機能が追加されたんやね。EMR Serverlessにアパッチ Livyのサポートが入ったって書いてあるわ。
そうやな。これによって、Jupyter notebookからEMR ServerlessのサーバーレスなSparkワークロードを簡単に管理できるようになったんや。クラスターの管理とかしなくても、Livyのインターフェースから直接Sparkの処理ができるようになったみたいやで。
へぇ~、そうなんや。これまでクラスターの管理が面倒やったけど、サーバーレスでも同じようにJupyterから使えるようになったんやな。コスト面でも良さそうやし、データ分析の作業が楽になりそうやわ。
そうやな。ペタバイトスケールのデータ分析もサクッとできるようになったわけや。LivyのクライアントをJupyterのSparkmagicカーネルに向ければ、すぐに接続できるし、データの対話的な探索やビジュアライゼーションも簡単にできるようになったみたいやで。
なるほど、めっちゃ便利やん。LivyのREST APIも使えるようになったみたいやから、ノートブック以外のユースケースでも活用できそうやね。これで、データ分析の作業がさらに捗りそうや。
そうやな。EMR Serverlessのサポートが広がってきたおかげで、データ分析の現場がかなり楽になってきたわけや。これからはサーバーレスでも本格的なSparkの処理ができるようになったから、ますます使い勝手が良くなってきたと思うわ。
なるほど、めっちゃ便利な機能やな。これからはEMR Serverlessをフル活用して、効率的なデータ分析に取り組んでいきたいわ。