https://takuros.booth.pm/items/3059020
技術書典11をきっかけに本書を知り購入。
説明欄にもあるように、AWSについての知識はほとんどなくても大丈夫で、S3だったり、Redshiftってこういうプロダクトだよね、
というのをざっくりでいいので、知っておくと読みやすいくらいだった。
「データレイク」の必要性について、自分も会社で分析データをBigQueryに集めて...みたいなことを日々の業務の一部としてやっていたりするので、共感を持って知ることができた。
ちなみに弊社はBigQueryと行動ログだったり、アプリケーションデータベース、アクセスログについては、Fluentdを経由してBigQueryに入れてる。
データレイク層を導入すると、今はDWHにFluentdで送ってしまってるのでDWHへのロードが今の規模感だと面倒だなぁと感じたりの課題も。(サービスの性質上、構造化、半構造化データが多い気もする)
確かにスキーマを決めるのが面倒なログ、もうすこしカジュアルに集めたログもあったりするので、それは「適当にログを投げておけるテーブル」を作って、JSONを入れて「データレイク」っぽく対応している。
3.3である、「データレイクの3層構造」については今のフェーズでできるか微妙なところだけど、
今後の規模の拡大によってこういったこともしないといけないなぁと思ったりするなど。
また分析において泣き所である、
個人情報についてもどのように加工すると良いとか、一定の解が提示されていて、参考になりました。
これからデータ分析基盤作りたいひとだったり、
PVくらいはみてるよーみたいな規模感の分析基盤はあるけど、もう少し良くしたいなぁみたいなことでお悩みの人は目を通すといいかも。
技術書典11をきっかけに本書を知り購入。
説明欄にもあるように、AWSについての知識はほとんどなくても大丈夫で、S3だったり、Redshiftってこういうプロダクトだよね、
というのをざっくりでいいので、知っておくと読みやすいくらいだった。
「データレイク」の必要性について、自分も会社で分析データをBigQueryに集めて...みたいなことを日々の業務の一部としてやっていたりするので、共感を持って知ることができた。
ちなみに弊社はBigQueryと行動ログだったり、アプリケーションデータベース、アクセスログについては、Fluentdを経由してBigQueryに入れてる。
データレイク層を導入すると、今はDWHにFluentdで送ってしまってるのでDWHへのロードが今の規模感だと面倒だなぁと感じたりの課題も。(サービスの性質上、構造化、半構造化データが多い気もする)
確かにスキーマを決めるのが面倒なログ、もうすこしカジュアルに集めたログもあったりするので、それは「適当にログを投げておけるテーブル」を作って、JSONを入れて「データレイク」っぽく対応している。
3.3である、「データレイクの3層構造」については今のフェーズでできるか微妙なところだけど、
今後の規模の拡大によってこういったこともしないといけないなぁと思ったりするなど。
また分析において泣き所である、
個人情報についてもどのように加工すると良いとか、一定の解が提示されていて、参考になりました。
これからデータ分析基盤作りたいひとだったり、
PVくらいはみてるよーみたいな規模感の分析基盤はあるけど、もう少し良くしたいなぁみたいなことでお悩みの人は目を通すといいかも。