標準偏差計算ガイド — 偏差値・分散・データのばらつきを徹底解説
標準偏差・分散計算ツール
標準偏差とは何か — データのばらつきを測る指標
標準偏差(ひょうじゅんへんさ、英:Standard Deviation、略称SD)はデータの散らばり具合(分散・ばらつき)を数値化した統計指標です。平均値だけでは「データがどれだけ平均から離れているか」がわかりませんが、標準偏差を加えることで「データの広がり」を定量的に表現できます。例えば平均点70点のテストで標準偏差が5点ならほとんどの生徒が65〜75点に集中し、標準偏差が15点なら55〜85点に広く分布していることを意味します。
標準偏差の直感的な意味:正規分布(釣り鐘型の分布)に従うデータでは、「平均±1σ(シグマ)の範囲」に約68.3%のデータが入ります。「平均±2σ」には約95.4%、「平均±3σ」には約99.7%が含まれます。この「68-95-99.7ルール(経験則)」は品質管理・医療検査・金融リスク評価など多くの実務で活用されます。標準偏差が小さいほどデータが平均の近くに集まっており、大きいほどデータが広く分散しています。
平均だけでなく標準偏差も重要な理由:「平均年収500万円の会社A」と「平均年収500万円の会社B」でも、Aの標準偏差が50万円・Bが200万円なら実態は大きく異なります。Aは社員のほとんどが450〜550万円に集中し、Bは300万円から700万円以上まで大きな格差があることを示します。平均と標準偏差をセットで確認することで、データの真の分布を把握できます。
標準偏差の計算手順 — ステップバイステップ
手計算の手順(例:データ60,70,80,90,100):STEP1: 平均 = (60+70+80+90+100)÷5 = 400÷5 = 80。STEP2: 各データと平均の差(偏差)を計算:60-80=-20、70-80=-10、80-80=0、90-80=10、100-80=20。STEP3: 偏差を二乗(負の値がなくなる):400,100,0,100,400。STEP4: 二乗偏差の平均=分散 = (400+100+0+100+400)÷5 = 200。STEP5: 分散の平方根=標準偏差 = √200 ≈ 14.14。
母標準偏差(σ)と標本標準偏差(s)の違い:STEP4でデータ数nで割るのが「母標準偏差(σ:シグマ)」、(n-1)で割るのが「標本標準偏差(s)」です。上の例で標本標準偏差 = √(1000÷4) = √250 ≈ 15.81。母標準偏差は「手元のデータそのものの分散」を表し、標本標準偏差は「母集団(全体)の標準偏差の推定値」です。エクセルでは=STDEV()が標本(n-1)、=STDEVP()が母集団(n)での計算です。
標準偏差の計算でよくあるミス:①偏差の符号を間違える(負の偏差があってもよい)→二乗することで解決②二乗偏差の合計をnではなくn-1で割るかどうかの混乱→目的に応じて使い分ける③電卓で√(平方根)を最後に忘れる→分散のままにしないこと。関数電卓(CASIO fx-JP500等)では統計モードにしてデータを入力後、σxn(母標準偏差)またはσxn-1(標本標準偏差)ボタンで計算できます。
分散とは何か — 標準偏差との関係
分散(ぶんさん)は標準偏差の二乗です(分散 = 標準偏差²)。逆に標準偏差は分散の平方根です(標準偏差 = √分散)。分散は「偏差の二乗平均」なので単位が元データの2乗になります(例:cm²・円²)。標準偏差は元のデータと同じ単位で表現されるため、実際のデータとの比較・解釈に優れています。そのため実務では分散より標準偏差が多く使われます。
共分散(きょうぶんさん):二変数間の連動関係を示す指標で、「(X-Xの平均)×(Y-Yの平均)の平均」として計算されます。共分散が正ならXとYは同じ方向に動く傾向(正の相関)、負なら逆方向(負の相関)、0なら無相関です。共分散を各変数の標準偏差の積で割ったものが「相関係数」(-1〜+1の範囲)で、相関の強さを単位に依存せず比較できます。
偏差平方和(SS):分析の中間値として「偏差の二乗の合計(Σ(xi-x̄)²)」を偏差平方和と呼びます。分散 = SS÷n(または SS÷(n-1))、標準偏差 = √(SS÷n)。統計解析ソフト(R・SPSS・Excel等)の分散分析(ANOVA)ではSSが各効果の大きさを表す重要な値として使われます。
正規分布と標準偏差 — 68-95-99.7ルール
正規分布(せいきぶんぷ)は「平均を中心に対称な釣り鐘型(ベル型)の連続確率分布」で、自然現象・社会現象のデータに非常によく近似します(身長・体重・テスト点数・測定誤差等)。正規分布の特性として、分布の形は「平均μと標準偏差σ」の2つのパラメータで完全に決まります。
68-95-99.7ルールの詳細:正規分布では①平均±1σ(μ±σ)の範囲:全データの約68.27%②平均±2σ:約95.45%③平均±3σ:約99.73%が含まれます。逆に平均から3σ以上離れたデータ(外れ値候補)の確率はわずか0.27%(約370回に1回)。これが製品の品質管理「シックスシグマ(6σ管理)」や医療検査の「正常値範囲(平均±2SD)」の根拠になっています。
正規分布への変換(標準化):データを「標準正規分布(平均0・標準偏差1)」に変換することを「標準化」といいます。Zスコア = (x - 平均) ÷ 標準偏差。例:平均70点・標準偏差10点のテストで85点のZスコア = (85-70)÷10 = 1.5。Zスコア1.5は「平均より1.5標準偏差高い位置」で、正規分布表から上位約6.7%に相当します。
偏差値の計算 — 入試・模試での活用
偏差値の計算式:偏差値 = (得点 - 平均点) ÷ 標準偏差 × 10 + 50。これはZスコアを「平均50・標準偏差10」のスケールに変換したものです。例:平均60点・標準偏差15点のテストで75点を取った場合。偏差値 = (75-60)÷15×10+50 = 10+50 = 60。
偏差値の解釈:偏差値50 = ちょうど平均。偏差値60 = 平均より1σ上(上位約16%)。偏差値70 = 平均より2σ上(上位約2.3%)。偏差値40 = 平均より1σ下(下位約16%)。偏差値30 = 平均より2σ下(下位約2.3%)。偏差値は「自分が集団の中でどの位置にいるか」を数値化した指標で、絶対的な点数でなく相対的な位置を示します。
偏差値の使い方と注意点:受験校選びに使われる偏差値は「受験者集団の中での相対的な位置」を示すもので、受験者の質(模試の難易度・受験者層)によって同じ偏差値でも意味が変わります。また偏差値はデータが正規分布に近いことを前提としており、極端に偏ったデータでは意味を正確に解釈できません。最難関大学の偏差値80以上は「その模試での上位0.1%」を示します。
ビジネス・品質管理での標準偏差活用
製造業の品質管理(QC):製品の寸法・重量・強度などの品質特性にはばらつきがあります。標準偏差を用いた「管理図(コントロールチャート)」は「平均±3σ」を管理限界として、工程が安定しているかをリアルタイム監視します。3σを超えたデータ点は「異常」として工程の原因調査のトリガーになります。日本のQCサークル・トヨタ生産方式の品質管理では統計的品質管理(SQC)が基盤となっています。
シックスシグマ(6σ)経営:モトローラが1980年代に開発し、GE等の大企業で広まった経営品質改善手法です。工程の欠陥率を「100万個に3.4個以下(6σレベル)」まで下げることを目標とします。医療・航空・半導体など命に関わる精密製造業で特に重要な品質基準です。
投資・ファイナンスでのリスク(ボラティリティ):株式・為替の価格変動リスクは「日次リターンの標準偏差(ボラティリティ)」で測定されます。ボラティリティが高い(標準偏差が大きい)銘柄はリスクが高く、低い(標準偏差が小さい)銘柄はリスクが低い傾向があります。年率ボラティリティ = 日次標準偏差 × √252(年間取引日数)。
医療・健康診断での標準偏差 — 基準値の設定
臨床検査の基準範囲:血液検査・尿検査の「基準値(reference interval)」は通常「健常者の中央95%が含まれる範囲(平均±1.96σ)」として設定されています。例:血糖値の空腹時基準値70〜99mg/dLは、健常者の空腹時血糖の分布から上下2.5%ずつを除いた範囲です。検査値が「基準値外」でも必ずしも病気とは限らず、健常者でも統計的に5%は基準値外になります。
身長・体重の成長基準:小児科では「身長・体重の成長曲線」が標準偏差(SD)で表示されます。-2SD〜+2SDの範囲(中央95%)が「正常範囲」とされ、−2SDを下回る低身長・低体重は小児内分泌の評価対象になります。日本の母子手帳の成長曲線も3パーセンタイルと97パーセンタイル(±約2SD相当)のラインが引かれています。
臨床試験と標準偏差:新薬・治療法の臨床試験(ランダム化比較試験)では、「治療効果(エフェクトサイズ)」の評価に標準偏差を使います。コーエンのd = (治療群平均 - 対照群平均) ÷ プールされた標準偏差。d=0.2は小さな効果・d=0.5は中程度・d=0.8以上は大きな効果と解釈されます(コーエンの経験則)。
ExcelとGoogleスプレッドシートでの標準偏差計算
Excelでの標準偏差関数:=STDEV(範囲) — 標本標準偏差(n-1で割る)。=STDEVP(範囲) または=STDEV.P(範囲) — 母集団標準偏差(nで割る)。=VAR(範囲) — 標本分散。=AVERAGE(範囲) — 平均。テストの点数A1:A30範囲の標準偏差:=STDEV(A1:A30)。
Excelでの偏差値計算:偏差値 = =((対象セル-AVERAGE(範囲))/STDEV(範囲))*10+50。例:A1が個人の得点・A1:A30が全員の得点なら偏差値 = =((A1-AVERAGE(A1:A30))/STDEV(A1:A30))*10+50。これをB列に数式として入れることで全員分の偏差値を自動計算できます。
Googleスプレッドシートでの統計分析:GスプレッドシートもExcelと同じ関数(STDEV、AVERAGE等)が使えます。複数クラスのテスト結果を比較する際に、各クラスの平均と標準偏差を並べて「どのクラスが均一で(SD小)どのクラスがばらついているか(SD大)」が一目でわかるダッシュボードが作れます。
変動係数(CV)— 異なる単位のばらつきを比較する
変動係数(CV: Coefficient of Variation)= 標準偏差 ÷ 平均 × 100(%)。標準偏差は単位によって比較できませんが、CVは単位に依存しない相対的なばらつき指標です。例:A商品の重量(平均100g・SD5g)とB商品の価格(平均500円・SD50円)のばらつき比較。CV(A) = 5/100×100 = 5%。CV(B) = 50/500×100 = 10%。CVが大きいB商品の方が相対的にばらつきが大きいといえます。
CVの活用場面:分析化学(測定精度の評価)・農業(収量のばらつき評価)・医療(検査値の再現性評価)・製造業(ロット間ばらつき管理)など、絶対値が異なる複数のグループを比較する場面で使われます。CVが5%以下は「精度が高い」、10〜20%は「普通」、20%超は「ばらつきが大きい」と評価されることが多いです(分野によって基準は異なります)。
CVの限界:平均が0または0に近い場合、CVは極端に大きくなるか意味をなさなくなります。また負の値を取る可能性があるデータ(利益率・温度℃等)にはCVが適用できない場合があります。このような場合は「範囲(最大値-最小値)」「四分位範囲(IQR)」など他のばらつき指標の使用を検討します。
外れ値の検出 — 標準偏差を使った異常値判定
標準偏差による外れ値判定:「平均±2SD」を超えるデータを外れ値候補とする方法が広く使われます(データの約5%が該当する可能性)。より厳格な基準として「平均±3SD」を用いる場合もあります(データの約0.3%が該当)。例:10人のテスト点数の平均70点・SD10点の場合、50点未満または90点超を外れ値候補として精査します。
グラブス検定(外れ値の統計的検定):グラブス統計量 G = |疑わしいデータ点 - 平均| ÷ 標準偏差。Gが臨界値(データ数とα水準に依存)を超えた場合、統計的に有意な外れ値と判断します。外れ値の取り扱いは分析の目的・外れ値の原因(測定誤差か真の異常値か)によって異なり、安易な削除は分析結果を歪める可能性があります。
外れ値と頑健な統計量:外れ値が含まれるデータでは平均や標準偏差が影響を受けやすいです。頑健な統計量として「中央値(median)」と「四分位範囲(IQR = Q3-Q1)」があります。IQRを使った外れ値判定:Q1-1.5×IQR未満またはQ3+1.5×IQR超を外れ値とする「箱ひげ図の方法」は外れ値の影響を受けにくい頑健な基準です。
標準偏差の練習問題と実践的な理解を深める方法
練習問題①:データ5,10,15,20,25の標準偏差を求めよ。解答:平均=75/5=15。偏差²:(5-15)²=100,(10-15)²=25,(15-15)²=0,(20-15)²=25,(25-15)²=100。分散=250/5=50。標準偏差=√50≈7.07(母)。標本SD=√(250/4)=√62.5≈7.91。
練習問題②:平均50点・標準偏差12点のテストで72点を取った人の偏差値は?解答:偏差値=(72-50)÷12×10+50=18.33+50≈68.3。Zスコア=22÷12≈1.83。正規分布表より上位約3.3%の位置。
理解を深めるための視覚化:Excelで正規分布のグラフを描いてみましょう。A列に「平均-4σ」から「平均+4σ」までの値をステップ0.1σで並べ、B列に=NORM.DIST(A1,平均,標準偏差,0)を入力してグラフ化すると釣り鐘型の正規分布曲線が描かれます。標準偏差を変えてグラフがどう変化するか視覚的に確認することで、理解が深まります。
❓ よくある質問(FAQ)
標準偏差の計算式を教えてください
①平均を求める②各データと平均の差(偏差)を計算③偏差を二乗④二乗の平均を計算(分散)⑤分散の平方根。Excelでは=STDEV(範囲)で標本標準偏差が求まります。
母標準偏差と標本標準偏差の違いは?
母標準偏差(σ)は偏差二乗和をnで割り、標本標準偏差(s)は(n-1)で割ります。データが全集団のサンプルの場合は標本標準偏差を使います。Excelで=STDEV()は標本(n-1)です。
偏差値の計算式を教えてください
偏差値 = (自分の得点 - 平均点) ÷ 標準偏差 × 10 + 50。例:平均60点・SD15点で75点なら偏差値 = (75-60)÷15×10+50 = 60。
標準偏差が0に近い場合はどういう意味ですか?
データがすべて同じ値または非常に近い値で、ばらつきがほとんどない状態です。例:全員が100点のテストでは標準偏差=0。
標準偏差と分散はどう使い分けますか?
分散は計算の中間値として使われ、標準偏差は元データと同じ単位で表現されるため解釈しやすいです。実務では標準偏差を使うことが多いです。
Excelで標準偏差を計算するには?
=STDEV(範囲)で標本標準偏差(n-1)、=STDEVP(範囲)で母集団標準偏差(n)が計算できます。データがA1:A20なら=STDEV(A1:A20)と入力。
偏差値70以上は上位何%ですか?
正規分布を仮定すると偏差値70以上(Zスコア2以上)は上位約2.3%です。偏差値60以上は上位約16%、偏差値50はちょうど平均(50%)です。
標準偏差を使った外れ値の判断基準は?
平均±2σを超えるデータを外れ値候補とする方法が一般的(全データの約5%が該当)。±3σを基準にするより厳格な方法もあります。
変動係数(CV)とは何ですか?
CV = 標準偏差÷平均×100(%)で、単位の異なるデータのばらつきを相対的に比較する指標です。CVが小さいほどばらつきが少ない。
正規分布での±1σ・±2σ・±3σの割合は?
±1σ内に約68.3%、±2σ内に約95.4%、±3σ内に約99.7%のデータが含まれます(68-95-99.7ルール)。
医療の血液検査の基準値はどのように決まりますか?
健常者の測定値の中央95%が含まれる範囲(平均±1.96σ)として設定されます。基準値外でも健常者の5%が当てはまることがあります。
標準偏差ツールで母標準偏差と標本標準偏差のどちらを使えばいいですか?
手元のデータが調べたいグループ全体(例:クラス全員)なら母標準偏差(σ)。より大きな集団のサンプルなら標本標準偏差(s)を使います。