「専門知識ゼロでも使いこなせるビジネス統計入門」を読んだのでメモ
Table of Contents
監修:内田学
著:兼子良久
発行:アスキー・メディアワークス
記述統計 #
- データの特性をつかむ
- 集計表(度数分布表)、棒グラフを作成する
- 最大値、最小値を見つける、データの区分(階級)を決める、区分ごとにデータの件数を数える、データの件数をパーセントに直す(相対度数)
- 集計表(度数分布表)、棒グラフを作成する
- 変化の特徴をつかむ
- 平均
- 偏差(各データの平均からの離れ具合、平均との差)
- 分散(偏差の2乗の平均、偏差の合計は0になるため2乗する)
- 標準偏差(分散の平方根)
- データに偏りがあるとき
- 中央値、最頻値
- より実態に近い特徴を示すことができる
- 中央値、最頻値
- 確率95%で推定
- 正規分布、正規分布曲線
- 「平均-1.96×標準偏差〜平均+1.96×標準偏差」の中にデータの95%が存在する
- 統計学では「95%」を、ほぼ間違いのない基準として採用
- 正規分布、正規分布曲線
- 特定の値になる確率
- 標準正規分布、標準正規分布表
- 標準正規分布(平均0、標準偏差1の正規分布)
- 標準正規分布表(平均から特定の値までに何%のデータが存在するかを示す表)
- 標準化
- 標準正規分布上の値に変換する
- 単位に関係なくデータを比較できる
- (データの値 – 平均)÷標準偏差
- 標準正規分布、標準正規分布表
推測統計 #
- 母平均の区間推定
- 標本から得た結果がどの程度信頼できるかを確認する
- 母平均が95%の確率で取りうる区間の推定
- 母平均-1.96×(不偏分散の平方根÷標本数)〜母平均+1.96×(不偏分散の平方根÷標本数)
- 標本分散 = 偏差の2乗の合計÷標本数
- 標本標準偏差 = 標本分散の平方根
- 不偏分散 = 偏差の2乗の合計÷(標本数-1)
- 母平均-1.96×(不偏分散の平方根÷標本数)〜母平均+1.96×(不偏分散の平方根÷標本数)
- 標本数が少ないときの推測方法
- 「t分布表」を使って「1.96」の値を調整する
- 自由度 = 標本数 – 1
- 母平均の差の検定
- t統計量を使う
- -t <= (標本平均の差 – 母平均の差) ÷ (差の不偏分散の平方根 / 標本数の平方根) <= t
- 母平均を0(= 平均に差はない)とした時、上の不等式が成立したら、平均に差はないといえる
- t統計量を使う
- 異常値の検出
- 標準化して1.96の範囲か調べる
- グラブス・スミルノフ検定
- 出現確率が2.5%以下か
- グラブス・スミルノフの棄却検定表を使う
- (データの値-標本平均)÷不偏分散の平方根
- 棄却したら、再度、最大値・最小値を検定する
多変量解析 #
- 2つのデータの関係を視覚的に表す
- 散布図
- 正の相関:右上がり
- 負の相関:右下がり
- 相関係数
- 0.0〜0.2:ほとんど関係性なし
- 0.2〜0.4:やや関係性あり
- 0.4〜0.7:かなり関係性あり
- 0.7〜1.0:強い関係性あり
- 相関係数の求め方
- すべての値(x, y)に対して、標準化したx × 標準化したy の平均
- 散布図
- 回帰分析
- 独立変数:予測に使うデータ
- 従属変数:予測したいデータ
- 単回帰分析
- 予測に使うデータは1つ
- 回帰直線:y=a+bx
- 重決定R2(決定係数)
- 0.4以上なら問題ない
- P値
- 予測したいデータと予測に使うデータとの間に、関係性がない確率(係数が0になる確率)
- 0.05(5%)を超えると、係数が0になる可能性が高いと判断する
- 重回帰分析
- 複数のデータを利用して予測
- 回帰直線:y=a+bx+cx’+…
- 補正R2(調整済み決定係数)
- 重決定R2の増加分の調整
- 0.4以上あれば問題ない
- 重回帰分析の不具合
- 多重共線性(multicolinearity)
- 予測に使うデータ(独立変数)間の相関が強いこと
- マルチコ現象
- 多重共線性が有るにも関わらず重回帰分析をしたときに結果がおかしくなること
- 予測に使うデータ同士の相関係数を調べてから重回帰分析をすること
- 多重共線性(multicolinearity)
- 質的データの分析
- 量的データに変換すればOK
- 質的データを0と1の値に変換する
- n種類ある質的データの場合、n-1種類のデータで回帰分析をすればOK
- 量的データに変換すればOK
感想 #
統計的な分析手法がわかりやすくまとまっていた。
今のところ活用する機会はまだないが、今後使えるようにメモ。