遙かなるマチョジニア

マッチョXエンジニアを目指すブログ

【GCP】Cloud DataprepのTransformerはデータ分析向けに心地良すぎた

スポンサードリンク

Qwiqlabsの下記講義でgcpのサービスであるCloud Dataprepの使い方を学んだのだが、 その中にあるTransofrmerと言うのがすごく良かった。

Dataprep: Qwik Start

次世代版エクセルというか、これをjupyterと組み合わせてインタラクティブにできたら最高だなあと思う。

デーブルデータをロードすると、各カラムに統計やtypeが表示される。 f:id:shuheilocale:20200516100917p:plain

これだけでデータ分析コンペはかなり嬉しいんじゃないか、pandas-profilingみたいなもんだ。

ヒストグラムはただの画像ではなく、グラフとして機能している。 f:id:shuheilocale:20200516101102p:plain

カーソルを合わせると、対象binの数値が表示さるのだ。すげえ。

カラムのヘッダから簡易的なフィルタリングも可能。 f:id:shuheilocale:20200516101205p:plain

対話型のGUIでぽちぽち条件を設定すると、自動的にクエリに変換される。 f:id:shuheilocale:20200516101239p:plain

こう言うの本当に嬉い。直感的に操作した後で微調整や繰り返しはコードでっていうことができる。 wangle言語というDSL(なのかな?)を用いれば、このようなクエリをコードで表現することも可能だ。

cloud.google.com

さらにそれらをデータ処理フローとして登録できる。他のテーブルデータとの結合も簡単。 f:id:shuheilocale:20200516101349p:plain

ネットをクソ適当に探したけど、まだそんなに知られてないのか日本語の文献が全然出てこない。 見つけた資料としてはcourseraの動画があったので、見て欲しい。

www.coursera.org