未定の部屋

主にデータサイエンス関係の記事を書きます

新卒1年目の学習記録

こんにちは。
昨年4月に新卒でマーケティング系の会社に入社し、データサイエンティストとして働いています。

入社してから最初の1年間での、学習記録を書き起こしてみます。

元々データサイエンス専攻ではなかったり入社したばかりだったりということもあって、分野を絞らず広く浅く色々と学習しました。学生時代は数理統計の勉強を独学でしていたくらいで実践的な勉強はあまりしていなかったので、とにかくまずはデータサイエンティストとしての土台を作ろうというモチベーションが強かったです。
最初は実務で役立つ内容を優先的に学ぼうという姿勢でしたが、特にデータ分析系の知識は用意できるデータの都合などで実案件でしっかりと適用できることが少なく、徐々に役立つかどうかよりも純粋な好奇心で勉強することも増えてきました。また、自分の意思というよりは会社からのプッシュで学んだ内容もいくつかあります。 以下、だいたい時系列順に並べています。このほかに細々とした自学もありましたが、書籍or講座にしぼって書き出しました。



【書籍】ベーシックマーケティング

新卒研修の中で指定があり、読みました。
タイトルの通りマーケティングに関する基礎的な内容を教科書的に学べる本です。 今の業務に直結する内容ではありませんでしたが、STPや4Pといったマーケティングの考え方はビジネスでは当たり前のように使われているので、顧客相手にデータ分析をする身としては知っておくべき内容だと思いました。

【書籍】マーケティング検定3級試験 公式問題集

[asin:B097BGB8X1:detail]

こちらも新卒研修の中で購入した本です。タイトル通り、マーケティング検定3級を受けるために買いましたが、問題を解くことでベーシックマーケティングの内容を整理できてよかったです。

【書籍】つくりながら学ぶ!Pythonによる因果分析

Pythonでの実践例が豊富な本でした。因果推論は岩波DS本で触れた程度で、実践的なコードは学んでいなかったので役立ちました。この分野の書籍はRでの実装が多い中でPythonでの実践例は貴重だと思います。いわゆる因果推論の他にも機械学習を用いた因果推論やLiNGAM、ベイジアンネットワークやディープラーニングでの因果探索などのトピックもあり、かなり幅広く扱っている印象がありました。後半(特にディープラーニング)は基礎知識が不足していて理解が及びませんでしたが、因果探索の応用の広さを実感できる内容でした。

【書籍】Kaggleで勝つデータ分析の技術

Kaggleをやるためではなく自分のコーディング力を補強したいと思い購入しました。なるべく手を動かしながら読みました。前処理からモデリング、バリデーションでの評価とボリュームたっぷりの内容でしたがとても分かりやすく、実践的でためになりました。実務にモロ流用できることはあまりないですが、前処理やモデリングの引き出しが増えたりコードの書き方を参考にできたりしました。また、今年に入ってからGBDTを実装する案件に携わったのですが、この本で1度触れていたことで全体像をスムーズに理解できて良かったです。

【書籍】実践Data Scienceシリーズ RとStanではじめる ベイズ統計モデリングによるデータ分析入門

ベイズモデリングの勉強の第一歩として購入しましたが、まさにうってつけの本だと思います。ベイズモデリングの理論について分かりやすく触れた後にGLM、GLMM、状態空間モデルについて様々なパターンのものをRとStanで実装しています。説明が本当に丁寧で、一歩一歩着実に理解しながら読めるので本当に良かったです。Rの基礎的な部分やStanのインストールから丁寧に説明があるので、あまりRになじみのなかった自分でもスムーズに読み進められました。かなり実用的な内容だったので、これを1冊読んでおけば簡単なベイズモデリングであれば実装できるようになると思います。

【書籍】イシューからはじめよ

社会人だしビジネス書も読んでおくか、、、ということで有名な本を読みました。内容は納得感ありますが、個人的には「まあ、そうだよな」と思うことが多く新発見という感じではなかったです。ですが、イシュードリブンで物事を考えることをしっかり意識しようと思うきっかけにはなったので読んでよかったかなと思っています。仕事をしていて徐々に実感してきましたが、目的が最初からガチっと決まっている案件は少ないのでしっかり目的を決める意識で動けるとスムーズになるような気がしています。

【書籍】なぜ、DXは失敗するのか?-「破壊的な変革」を成功に導く5段階モデル

最近流行りの「DX」について最低限知っておこうと思い読みました。著者のP&Gでの事例を踏まえつつDXを5段階に分解し、各段階でのポイントが解説されていました。内容は分かりやすく面白かったです。ただ、この事例は海外での事例ということもあり日本と状況が違うので、この本の考え方をそのまま日本で適用できるかというと違う気がします。DXという概念は(特に日本では)曖昧なので、一つの事例として覚えておくくらいがちょうどいいかもしれません。

【書籍】StanとRでベイズ統計モデリング

ベイズモデリングで有名な「アヒル本」です。学生のころからいつか読もうと思っていたのですが、気づいたら社会人になっていました...
評判通りの内容で、ベイズモデリングについてじっくりと学ぶことができました。類似テーマの『実践Data Scienceシリーズ RとStanではじめる ベイズ統計モデリングによるデータ分析入門』と比較すると、あちらは様々な例を浅く広く取り扱い、コーディングもRのパッケージをうまく組み合わせて簡単に実装するようなコンセプトでしたが、アヒル本はRとStanの実践方法を数式も絡めつつしっかりと深めていくような内容で、どちらも甲乙付けがたいと思います。個人的には『実践Data Science~』を読んでからアヒル本を読むと理解がスムーズになって良いと感じました。ベイズモデリングの長所としてカスタマイズ性の高さがあると思いますが、そのカスタマイズ力を鍛えられるのはアヒル本のいいところだと思います。

【書籍】効果検証入門

部署内で推薦されていたので読みました。因果推論の考え方をより実務向けに応用させたような内容を取り扱っており、実務で因果推論を活用するために必要な知識を効率的に学べる本だと感じました。傾向スコアの他にもDIDやCausal Impactといった手法も扱っており、実務に適用するうえでのポイントを踏まえつつ紹介されているので非常にためになります。この本に限らず、因果推論についていくつかの書籍を通して学んでいく中で、いかにデータを深く理解できているかが実務で因果推論を適用する際の鍵だと感じるようになりました。

【Udemy】米国AI開発者がやさしく教えるGit入門講座

www.udemy.com

部署内でGitを浸透させるプロジェクトに携わっていて、まずは自分がGitについてしっかりと知る必要を感じたのでこの講座を購入しました。それまではググって基本的な操作や考え方を何となく理解する程度だったので、講座を通して体系的に学習できて本当に良かったです。動画なのでハンズオン形式のように自分の手元で操作をすることができ、かなり実践力が鍛えられたと思います。Gitに限らず、ツールやWebサービスなどのとにかく使えることが大事なものは書籍よりもハンズオン形式で使い方を学ぶ方が断然効率的だと感じました。

【Udemy】米国AI開発者がやさしく教えるDocker入門講座

www.udemy.com

Git学ぶならついでにDockerも学ぼうということで購入しました。Dockerは分析環境の再現性を簡単に担保できるという点で勉強したいトピックだったのと、AWSとDockerを用いて環境構築をする業務があり、そのためにも学習しました。こちらもハンズオンで学ぶのに適したトピックで、実際に手を動かしてDockerfileを書いたりコンテナを立てたりして効率的に理解できたと思います。Dockerは複雑な環境を必要とする分析であればあるほど有用性が高まると感じる一方で、簡単な前処理や単純集計などの基本的な分析であればわざわざ環境をDockerで管理しない方が楽だと思うので、使いどころを考えながら業務に取り入れていきたいです。

【書籍】統計学への確率論,その先へ

測度論的確率論の書籍の中で初学者向けで評判が良かったので買いました。業務への実用性は全く加味していません()
現在半分弱ほど読んでいますが、数学書なのでしっかり理解しようとするといくら時間があっても足りないような気配がします...とりあえずは考え方をふわっとさらえたかなとは思うので、あまり深みにはまりすぎないように今後も読み進めたいと思います。実用性ガン無視ですが、せっかくなら学ぶメリットを見出せればいいなと思ってます。パッと思いつくのは、新しい技術をキャッチアップするスピードが上がるとかでしょうか。

【書籍】AWS認定資格試験テキスト AWS認定 クラウドラクティショナー

部署内でAWSクラウドラクティショナーの資格を取りましょうという流れができたのでその対策用に購入しました。クラウド周りについてほぼ初心者だったので、AWSのサービスへの理解する過程でクラウドの概念についての理解も深まり、思った以上に収穫のある1冊でした。ただしクラウドラクティショナーの試験範囲はこの1冊だけだと網羅しきれてない節があるので、+で勉強する必要があると思います。AWSについて学ぶと「AWSすごすぎ、、クラウドってマジで革命じゃん...」という気持ちになれて楽しいです。GUIベースの操作で簡単にインフラを構築できるのが本当にすごく、クラウドやインフラへの理解があればそれを実装するためのスキルがほとんど要らないのは多大なメリットだと感じました。

【Udemy】【2022年版】この問題だけで合格可能!AWS 認定クラウドラクティショナー 模擬試験問題集(7回分455問)

www.udemy.com

前述のとおり、クラウドラクティショナーの試験範囲を網羅するために購入しました。タイトルの通りこの問題集をしっかり解けるようになればクラウドラクティショナーに合格できる内容だと思います。実際、7回中5回を解いて試験に臨みましたが無事合格できました。5回しか解いてないのは思ったよりボリュームが多く時間がなかったからです()


おわりに

こうして勉強内容を書き出してみると、1年間で思ったよりも色々なトピックを学べたんだなと思いました。
データサイエンティストとしての土台作りという目標はある程度達成できたのかなと思います。ただ、この1年はデータ分析周りの知識のインプットに偏っていてデータ分析プロジェクトにおけるビジネススキルはそれほど学べていないという自覚があるので、今後はビジネススキルも吸収していければと思います(あまりモチベは湧かないのですが...)。
また、今年度は広く色々学びましたが2年目以降は自分の強みを見つけて伸ばしていけたらなとも思っています。専門性をしっかり持っている人材は貴重だと思うので、特定の分野を深める意識を持ちたいですね。といっても現状あまり思い浮かんでいませんが...
自分の場合大学でデータサイエンスを専門的に学んでいないので、これから武器探しをしないといけないです。といってもデータサイエンス領域は日進月歩で新しい技術が登場するので、あまり狭めすぎずに吸収する姿勢も大事だと思います。この辺のバランスも難しいですね。

こうやって書いて頭の中を整理してみると、まだまだ学ぶことは山ほどありそうな感じがします。2年目以降もモチベの続く限り貪欲に摂取できたらと思います。

ではでは。