機械学習のためのPythonのための統計学の勉強をした

統計学の勉強経歴

なし。 平均はわかるけど偏差ってなんなんですレベル。

勉強をした理由

研修担当の先輩が「(分析について)調べた時に「分散」とかわからなかったらちょっと困ると思いますね〜」といった旨のことをつぶやいていたので。統計学歴/zeroな自分は当然わからないままで一年近くおしごとしていたわけだけれど、困ったことがなかった(ことが困ったことなのでは……と思った)ため。

今日の学習内容

勉強といっても適当に用語を調べただけです(予防線)。

分散

データのばらつき度合い。「各データの、平均からの距離」の二乗の合計を「データ数」で割ったもの。二乗をするのは平均にプラスで離れている場合とマイナスで離れている場合とがあるため。この平方根を取ったものが「標準偏差」。つまり標準偏差の二乗が分散。これをさらにあれこれいじって、どれだけ変数の軸が増えても対応可能にした(最大を1にした)「相関の強さ」が相関係数とのこと。

正規分布

山形(つりがね型?)を描くグラフ。自然に発生する事象であればすべて、発生確率はこれに従う(らしい)。x軸のとある一点が起こりうる確率=中心からその一点までの距離を底辺、正規分布グラフを天井とした面積である。この分布を見れば、「その物事がどれぐらいの確率で起こるのか」を計算できる。

余談。「ある囚人が自分に与えられるパンの大きさのばらつきを記録し、それが正規分布に従っていないことに気づいた。それをもとに、見張りが料理人に賄賂を渡して、大きいパンの場合は自分で受け取って(小さなパンとすり替えて)いたことを突き止めた」という寓話を先輩に聞いた。

ダミー変数

統計学というより機械学習の際に分からなかった単語。「成人:未成年」「曜日」のような、数値で表せない要因(変数)を数値に置き換えたもの。基本的に1か0かの値をとる。文字列型をカテゴリ型に置き換えているということ?

標準化

機械学習の際に分からなかった単語②。「(その状況での)普通」がどこにあるかを設定するために行なっている。例えば10,15,20,18…のような数値の中における50は大きな値だけれども、98,79,100,99…のような数値の中における50は小さな値である。50,50,45,50…の中の50は珍しくないけれども、20,99,12,78…の中の50は珍しい値といえる。そのため標準化して、どこが平均かつ頻繁に登場する値なのかを揃える必要がある。

回帰係数

機械学習の際に分からなかった単語③。そもそも回帰とは「ある説明変数(従属変数)が目的変数(被従属変数)に比例している」という状態を示しているものであり、回帰係数とはその影響度合いを示すものである。線形回帰であれば y = b1x1 + b2x2 + b3x3 + … bkxk の形の式で表せるが、このときxkをそれぞれ説明変数とすると、bkが回帰係数にあたる。これが「絶対値において」大きい数値であるほど、目的変数yに大きく影響を与えている、ということ(逆にマイナスの値を取っても、その絶対値が大きければ大きな負の影響を与えているといえる)。影響が最も小さいのは0=全く影響を与えていない場合。

今回稼働時間の学びはここまで。「相関と回帰って何が違うのよ!」「分散と共分散の違いもわからないわよ! 説明しなさいよ!」という話になって、これも先輩とぎゃーぎゃーやったけど、稼働時間外なので(あと明日のネタがなくなりそうなので)また今度。