aws-glue-icon

AWS最新情報

AWS Glue データ品質のためのデータ品質定義言語(DQDL)の強化を発表

2024年6月29日(日本時間)に発表されたWhat's Newの記事についてまとめた。公式リリース内容を見て記事内容が正しいか確認することをおすすめする。

Announcing Data Quality Definition Language (DQDL) enhancements for AWS Glue Data Quality - AWS

「サボチン」です。AWSパートナー企業でエンジニアとして働いています。
お問い合わせ自己紹介

結論

AWS Glue Data Qualityの新機能によって、データエンジニアがより複雑なデータ品質ルールを簡単に作成できるようになった

内容

対象サービスの概要

AWS Glueは、データの抽出、変換、ロードを自動化するサービス。AWS Glue Data Qualityは、Glueの機能の1つで、データの品質を測定・監視できる

主な変更点

  • NOT演算子を使ってデータを除外できるようになった
  • NULL、EMPTY、WHITESPACES_ONLYなどのキーワードを使ってルールを作成できるようになった
  • 複合ルールを作成でき、ルールの評価順序を指定できるようになった
  • データをフィルタリングしてからルールを適用できるようになった

今回の変更で嬉しいこと

  • これまでは複雑なビジネスロジックを実現するためにSQLを書く必要があったが、新しい機能によってそれが不要になった
  • データエンジニアがより高度なデータ品質ルールを簡単に作成できるようになった

まとめ

AWS Glue Data Qualityの新機能によって、データエンジニアがより複雑なデータ品質ルールを簡単に作成できるようになった。これにより、データの品質管理がより容易になり、ビジネスにとって重要な高品質なデータを提供できるようになる

ネタ(会話でWhat's Newを理解しよう)

へぇ~、AWS Glueのデータクオリティ機能に新しい機能が追加されたんやね。詳しく教えてくれへん?

ほな、ええ感じに説明したろか。まず、DQDL(Data Quality Definition Language)っていう独自の言語で、データの品質ルールを書けるようになったんやで。

へぇ~、そうなんや。それで、どんな機能が追加されたんや?

まず、NOT演算子が使えるようになって、特定の値を除外するルールが書けるようになったんや。それから、NULL、EMPTY、WHITESPACES_ONLYっていうキーワードを使って、欠損値のチェックが簡単にできるようになったんや。

なるほど、めっちゃ便利やん。他にはどんな機能が追加されたん?

あと、複雑なビジネスルールを書けるようになった「コンポジットルール」っていうのが追加されたんや。それと、ルールを適用する前にデータをフィルタリングできる「WHERE句」も使えるようになったんや。

ほーん、めっちゃ機能が充実してきたな。データの品質管理がしやすくなったみたいやな。これからはDQDLを使って、しっかりとデータの品質チェックをしていかんとな!

-AWS最新情報
-