Apache Livyエンドポイントを使用して、JupyterノートブックをAmazon EMRサーバーレスに接続します

2024年5月25日

2024年5月24日に発表されたWhat`s Newの以下記事についてまとめた。公式リリース内容を見て記事内容が正しいか確認することをおすすめする。

Connect your Jupyter notebooks to Amazon EMR Serverless using Apache Livy endpoints - AWS

「サリー」です。AWSパートナー企業でエンジニアとして働いています。
お問い合わせ・自己紹介

結論

Amazon EMR Serverlessにおいて、Apache Livyのサポートが追加された。これにより、Jupyter notebookからSparkワークロードを簡単に管理できるようになった。

内容

サービスの概要

Amazon EMR Serverlessは、ペタバイトスケールのデータ分析を簡単かつコスト効率的に行えるサーバレスオプションのAmazon EMRサービスである。クラスターやサーバの管理を行う必要がなく、データエンジニアや分析者が手軽にデータ分析を実行できる。

今回の変更で嬉しいこと

今回の変更により、Amazon EMR Serverlessでは、Apache Livyのエンドポイントがサポートされるようになった。これによって、Jupyter notebookからSparkワークロードを簡単に管理できるようになった。オンプレミスのノートブックからLivyクライアントを使ってEMR Serverlessのエンドポイントに接続し、対話的にデータクエリ、探索、可視化、Sparkワークロードの実行ができる。また、ノートブック以外でもLivyのREST APIを使ってインタラクティブなコード実行が可能となった。

まとめ

Amazon EMR Serverlessにおいて、Apache Livyのサポートが追加されたことで、Jupyter notebookからSparkワークロードの管理が容易になった。これにより、クラスターやサーバの管理を気にせずに、手軽にデータ分析を行えるようになった。

ネタ（会話でWhat`s Newを理解しよう）

ほぉ~、AWSのWhat's Newに新しい機能が追加されたんやね。EMR Serverlessにアパッチ Livyのサポートが入ったって書いてあるわ。

そうやな。これによって、Jupyter notebookからEMR ServerlessのサーバーレスなSparkワークロードを簡単に管理できるようになったんや。クラスターの管理とかしなくても、Livyのインターフェースから直接Sparkの処理ができるようになったみたいやで。

へぇ~、そうなんや。これまでクラスターの管理が面倒やったけど、サーバーレスでも同じようにJupyterから使えるようになったんやな。コスト面でも良さそうやし、データ分析の作業が楽になりそうやわ。

そうやな。ペタバイトスケールのデータ分析もサクッとできるようになったわけや。LivyのクライアントをJupyterのSparkmagicカーネルに向ければ、すぐに接続できるし、データの対話的な探索やビジュアライゼーションも簡単にできるようになったみたいやで。

なるほど、めっちゃ便利やん。LivyのREST APIも使えるようになったみたいやから、ノートブック以外のユースケースでも活用できそうやね。これで、データ分析の作業がさらに捗りそうや。

そうやな。EMR Serverlessのサポートが広がってきたおかげで、データ分析の現場がかなり楽になってきたわけや。これからはサーバーレスでも本格的なSparkの処理ができるようになったから、ますます使い勝手が良くなってきたと思うわ。

なるほど、めっちゃ便利な機能やな。これからはEMR Serverlessをフル活用して、効率的なデータ分析に取り組んでいきたいわ。