Rでk-meansクラスタリング

をした。 Pythonに比べると「ライブラリを引っ張ってくる必要がない」「クラスタリングしたあと、特に集計しなくても、クラスタ内包レコード数と各変数のクラスタ平均を出してくれる」あたりが便利だった。ただし上司の言によれば、データをPCのメモリに乗せ…

window関数が苦手だという話

「累計ならEXCELでやればいいでしょ」「GROUP BYでどうにかなるよね? ならない? なれよ」が口癖だった(わけではない)ので正直window関数にはなるべく触りたくなかった。わからないことはないけどいちいち調べないとダメな程度の知識量で、その「調べる」…

R(dplyr)初学者の感想

R言語の勉強に手を出すことになった。Pythonと二足のわらじを履けば共倒れになることは分かりきっていて、Pythonを勉強し始めた際には「もうRにはしばらく縁がないんだろうな」と考えていた、矢先のことである。いきさつは省くが、要するに時間が空いていた…

Tableauでサンキーダイアグラムを作っていた日

気が付くと日記を書き忘れている。一昨日は体調不良だったが昨日はただのど忘れ。ちゃんとしたい。 といって今日はこれといったコードを書いていないので与太話になる。一応Tableauでサンキーダイアグラムを作ってみようとあくせくしていたのであるが、こち…

目的意識

昔から、目的意識を持ったことがなかった。どちらかというと「やりたくないこと」に出会わないように出会わないように技術を身に付けたり、方向性を決めたり、という形で生きてきた。学生時代ごろからは折に触れそういった目的意識のなさを実感してきたのだ…

Tableauについて調べていた日

Tableau(タブロー)はBI(Business Intelligience)ツールの一つ。データを可視化する作業に長けていて、データセットからグラフを作ったり、地図上に分布を示したり、グルーピングして集計したり、といったことがドラッグ&ドロップを中心とした簡単な操作…

PostgreSQLの日付指定の話

会社に新人さんが入ってきたので研修の様子を横目に眺めていた。データ分析主体の会社なので当然SQLから始めるのだけれども、初めてSQLに触れる人はまず確実にDATE()関数で躓いている。自分も躓いた。正しくは、BETWEEN句に日付だけをそのまま入れるおかげで…

名義特徴量と順序特徴量の話

毎日学ぶことがあるので昨日の宿題を日記に残しておく暇がなかった。相関と回帰の違い、分散と共分散の違いはなんとなく理解できたぞということだけメモしておいて、今日は「sklearnでロジスティック回帰分析をする際にカテゴリ型を数値型データに置き換える…

機械学習のためのPythonのための統計学の勉強をした

統計学の勉強経歴 なし。 平均はわかるけど偏差ってなんなんですレベル。 勉強をした理由 研修担当の先輩が「(分析について)調べた時に「分散」とかわからなかったらちょっと困ると思いますね〜」といった旨のことをつぶやいていたので。統計学歴/zeroな自…

jupyterでmatplotlibのグラフ化に躓いた

scikit-learn(サイキットラーン)とは Pythonで機械学習をするために必要なライブラリ。配列型(データフレーム型?)を使用することが可能になるPandas(パンダス)、計算に強いNumpy(ナンパイ)と組み合わせて使用する。後者二つはimport Pandas, import…

匿名であるということ

諸々の理由から技術ブログを始めるにあたって、先達に倣うべくはてブロをあれこれ眺めてみたときに、まず感じたことが匿名性の高さだった。 匿名性、というと変に分かりにくいけれども、要するに名前を明かして、あるいはなんらかの名前を表に出して、一個人…