2024年6月29日(日本時間)に発表されたWhat's Newの記事についてまとめた。公式リリース内容を見て記事内容が正しいか確認することをおすすめする。
Announcing Data Quality Definition Language (DQDL) enhancements for AWS Glue Data Quality - AWS
結論
AWS Glue Data Qualityの新機能によって、データエンジニアがより複雑なデータ品質ルールを簡単に作成できるようになった
内容
対象サービスの概要
AWS Glueは、データの抽出、変換、ロードを自動化するサービス。AWS Glue Data Qualityは、Glueの機能の1つで、データの品質を測定・監視できる
主な変更点
- NOT演算子を使ってデータを除外できるようになった
- NULL、EMPTY、WHITESPACES_ONLYなどのキーワードを使ってルールを作成できるようになった
- 複合ルールを作成でき、ルールの評価順序を指定できるようになった
- データをフィルタリングしてからルールを適用できるようになった
今回の変更で嬉しいこと
- これまでは複雑なビジネスロジックを実現するためにSQLを書く必要があったが、新しい機能によってそれが不要になった
- データエンジニアがより高度なデータ品質ルールを簡単に作成できるようになった
まとめ
AWS Glue Data Qualityの新機能によって、データエンジニアがより複雑なデータ品質ルールを簡単に作成できるようになった。これにより、データの品質管理がより容易になり、ビジネスにとって重要な高品質なデータを提供できるようになる
ネタ(会話でWhat's Newを理解しよう)
へぇ~、AWS Glueのデータクオリティ機能に新しい機能が追加されたんやね。詳しく教えてくれへん?
ほな、ええ感じに説明したろか。まず、DQDL(Data Quality Definition Language)っていう独自の言語で、データの品質ルールを書けるようになったんやで。
へぇ~、そうなんや。それで、どんな機能が追加されたんや?
まず、NOT演算子が使えるようになって、特定の値を除外するルールが書けるようになったんや。それから、NULL、EMPTY、WHITESPACES_ONLYっていうキーワードを使って、欠損値のチェックが簡単にできるようになったんや。
なるほど、めっちゃ便利やん。他にはどんな機能が追加されたん?
あと、複雑なビジネスルールを書けるようになった「コンポジットルール」っていうのが追加されたんや。それと、ルールを適用する前にデータをフィルタリングできる「WHERE句」も使えるようになったんや。
ほーん、めっちゃ機能が充実してきたな。データの品質管理がしやすくなったみたいやな。これからはDQDLを使って、しっかりとデータの品質チェックをしていかんとな!