2024年6月20日(日本時間)に発表されたWhat's Newの記事についてまとめた。公式リリース内容を見て記事内容が正しいか確認することをおすすめする。
AWS Glue adds additional 13 new transforms including flag duplicates - AWS
結論
AWS Glueに13種類の新しい組み込みトランスフォームが追加された。これにより、ETL開発者がデータパイプラインを効率的に構築できるようになった。
内容
対象サービスの概要
AWS Glueはサーバーレスのデータ統合サービスで、分析ユーザーがデータソースを発見、準備、移動、統合するのを簡単にする。
主な変更点
新しく追加された13種類のトランスフォームは以下の通り:
- 列内の重複フラグ付け
- 電話番号フォーマット
- 大文字小文字変換
- モードによる埋め込み
- 重複行フラグ付け
- 重複行削除
- 月名
- 偶数判定
- 暗号化ハッシュ
- 復号
- 暗号化
- 整数からIPアドレス
- IPアドレスから整数
今回の変更で嬉しいこと
これらのトランスフォームにより、ETL開発者はデータパイプラインを迅速に構築できるようになった。重複データの特定や除去、データの暗号化/復号化など、一般的な変換処理をコードを書くことなく実行できるようになった。
まとめ
AWS Glueの新機能によって、ETL開発者の生産性が大幅に向上した。データ変換に必要な一般的な処理をプリビルトのトランスフォームで実行できるため、カスタムコードを書く必要がなくなった。これにより、より高度なデータパイプラインを効率的に構築できるようになった。
ネタ(会話でWhat's Newを理解しよう)
ワオ、AWSのGlueに新しい機能が追加されたみたいですね。どんなことができるようになったんですか?
ほんまや、Glueに13個もの新しい組み込みの変換機能が追加されたみたいやで。例えば、重複データの検出や削除、電話番号の書式変換、暗号化や復号化なんかができるようになったみたいやな。
へぇ~、そうなんや。これまでは自分でコードを書かなアカンかったけど、これからは組み込み機能で簡単にデータ処理ができるようになるんですね。
そうそう、これまでは手作業で複雑な処理をせなあかんかったけど、これからはGlueの組み込み機能を使って、ずっと簡単にデータパイプラインを構築できるようになるわ。しかも、コード書かなくてもいいから、めっちゃ時間短縮できるやろ。
なるほど、めっちゃ便利になったんですね。これからデータ処理の仕事が楽になりそうですわ。
ほんまや、これからはGlueの組み込み機能を活用して、効率的にデータ処理ができるようになるで。新しい機能を上手く使いこなせるように、しっかり勉強しとかな。
はい、わかりました!早速、Glueの新機能について詳しく調べてみますわ。これからの仕事に活かせるように頑張ります!