R(dplyr)初学者の感想

R言語の勉強に手を出すことになった。Pythonと二足のわらじを履けば共倒れになることは分かりきっていて、Pythonを勉強し始めた際には「もうRにはしばらく縁がないんだろうな」と考えていた、矢先のことである。いきさつは省くが、要するに時間が空いていたのでということだった。PythonやTableauで作っていたサンキーダイアグラムが、Rなら(少なくともPythonよりは)手軽にきれいに作れるということを知ったということもある。

立場としてはアナリストにあたるので、まずは集計用のモジュールであるdplyr(でぃぷらいあー)から手を出している。SQLと比べて大きいと感じるのは三つで、

・パイプ( %>% ←これ)のおかげで処理の流れがわかりやすい

・選択関数( starts_with() とかそういうやつ)が非常に便利(たぶん)

・「集計対象一覧テーブルでのフィルタリング」が semi_join で明示的に行われている

のあたり。総じて「ぱっと見でわかりやすい」「操作をまとめて行える」というところ。

SQLをいじっているとどうしてもサブクエリやらビューやらが増えて、どの処理が最初に行われているのか見失いがちになってしまうのだけれども、Rはとにかく上から下へ流していくので、ここでグループ化したんだな、とか、ここでジョインしているんだな、といったことが見てわかるのがありがたい(本番環境といえるようなところでR集計を行っていないということを抜きにしても)。

あとkmeansとかライブラリ抜きで関数になってるのがすごいと思いました(小並感)。さすが分析用言語って感じ。機械学習は明日あたりからちょこちょこ始めていきたい。