【平均値て何】
【前画面に戻る】
1. 平均値はなぜ必要でしょうか?
  平均値は、デ−タをひとまとめにして表現したいために求めます。 即ち、生データのままでは繁雑すぎて全体像を把握しにくいからです。 だから、判断しやすいような形にデータを圧縮する必要があります。 その1つの方法として、平均値があります。
  
2. 平均値のいろいろ
  ・算術平均 ΣXi/n
年収300万円の人が4人、年収800万円の人がいます。
5人の平均年収は、(300+300+300+300+800)/5=400万円

・幾何平均 n√(ΠXi)
10年後に元金の2倍になる定期預金を100万円預けておいた人が、 5年後に解約を申し入れたら、150万円を要求できません。 つまり金の増え方は幾何級数的なので、√(100*200)=141万円しか要求できません。

・調和平均 1/Σ(n/(1/Xi))
行きが時速60km、帰りが時速40kmで往復したときの平均時速は 50kmではありません。出発地から目的地までを仮に120kmとします。往復の所用時間は、120/60+120/40=5(h)であり、走行距離は120*2=240(km)であるから、 平均速度は240/5=48(km)。これはちょうど60と40との調和平均になってます。
  
3. 平均値とデータのちらばり(散布度)について考えてみましょう。
 
A { 1  2  3  4  5 } 平均 A=3
B { 2  3  4  5  6 } 平均 B=4
C { 2.8  2.9  3.0  3.1  3.2 }  平均 C=3
D { 3.8  3.9  4.0  4.1  4.2 }  平均 D=4
E { 1  3  3  3  5 } 平均 E=3  
  今、AとCグループのデータの比較を行なうことを考えてみます。 平均値はA、Cグループとも3で同じであるので平均値では、2つのグループを判別することはできません。 ここで、各グループの最大値から最小値を引いた値(範囲)を考えてみます。
R(範囲)=最大値−最小値RA=5-1= 4 RC=3.2-2.8=0.4 これで平均値が等しいA,Cをうまく判別することができました。 しかし、AとEを判別することはできません。これは、平均値からのずれを考えていないからです。 Aの平均値からのずれ=(|1-3|+|2-3|+|3-3|+|4-3|+|5-3|)/5=1.2 Eの平均値からのずれ=(|1-3|+|3-3|+|3-3|+|3-3|+|5-3|)/5=0.8 上記の平均値からのずれを考えてみると、AとEグループの違いが明らかになります。 即ち、Eグループの方がAグループよりもちらばりが少ない。 このように平均値がらずれの絶対値の平均を平均偏差といいます。
d(平均偏差)=煤bデータと算術平均との差|/(データ数)
  
4. 積極的に平均値からのずれを考えてみましょう。
  平均値に近いデータにはより少ない値を、また遠いデータにはより大きな値を与えることを考えてみます。 その方法として(データー平均値)^2を利用します。例えばAグループの場合について考えてみると、平均値が3であるのでデータ1については(1-3)^2=4、またデータ2については(2-3)^2=1となります。
(注;^記号は2乗を意味します。)
そこで、グループ全体のばらつきの尺度として、 SS(偏差平方和)=煤iデータ平均値)^2を用いることを考えてみましょう。 SSはデータ数の増加と共に値が大きくなるので、データ数の同じグループのみ比較できない欠点があります。 そこでV(分散)=SS/(データ数)とすると、上述の欠点は削除されます。
次に分散の単位を考えてみましょう。 身長を例にとれば、データの単位は(p)で平均値の単位も当然(p)ですね。 しかし分散の単位は、(p^2)となります。 データの単位とばらつきの単位を揃えるために分散の平方根を計算すると単位は、(p)となります。 また、分散の平方根のことを標準偏差といいsdで表します。
sd(標準偏差)=√分散

ここで算術平均から標準偏差までの式の整理をしてみましょう。   

記号

項目

単位

データ

={X1,X2,,,,,,,,,Xn }

cm

平均値

=煤iデータ)/(データ数)
=狽wi
=(X1+X2+,,,,,,,,,+Xn)/n

cm

SS

偏差平方和

=煤iデータ−平均値)^2
=煤iXi-m)^2
=(X1-m)^2+(X2-m)^2+,,,,,,,+(Xn-m)^2
=狽wi^2-(狽wi)^2/n

cm^2

分散

=煤iデータ−平均値)^2/(データ数)
=煤iXi-m)^2/n={(X1-m)^2+(X2-m)^2,,,+(Xn-m)^2}/n
={狽wi2-(狽wi)2/n}/n

cm^2

sd

標準偏差

=√煤o(データ−平均値)2/(データ数)}
 =√V

cm

  
5. 測定値、平均値と誤差の関係について少し考えてみましょう。
  いま、あなたはソフトボール投げのテストを受けているとします。 またテストの目的は、あなたの本当のソフトボール投げの能力に近い値を求めることだとします。
テストの方法は、
1)1日に1回しか投げることができません。
2)テストは連続して5日間受けるとします。
3)あなたのソフトボール投げの結果は{51,54,53,52,55m}だったとします。
さて、あなたの本当のソフトボール投げの能力に近い値を求めるには、どうすればいいでしょうか。
まず、あなたの本当の能力を…μ (ミューと呼びます。)
次に、測定値による変動(誤差)を…ε (イプシロンと呼びます。)
そして、ソフトボール投げの測定値を…xさらに、ソフトボール投げの平均値を…mとします。
そこで、測定値(xi)と本当の能力(μ)及び誤差(ε)の関係を次のように定義してみます。
測定値=本当の能力+誤差 xi= μ+εi ……………式5
即ち、測定値は本当の能力に誤差がついた値であるとします。

 それでは、あなたのソフトボール投げの能力を上述の式5にあてはめてみましょう。
1回目 x1=51=μ+ε1
2回目 x2=54=μ+ε2
3回目 x3=53=μ+ε3
4回目 x4=52=μ+ε4
5回目 x5=55=μ+ε5
またこのことから狽i=(51+54+53+52+55)=265
=(μ+ε1)+(μ+ε2)+(μ+ε3)+(μ+ε4)+(μ+ε5)…式6
= 5μ+買テi ………………式 7が導き出されます。

 誤差(ε)には、面白い性質があります。即ち誤差(ε)は、無作為な値を示し、誤差(ε)の合計は、 0に近くづく性質を持っています。これを式で表すと 買テi≒0となります。そこで式7は 狽i≒5μと考えられます。従って、本当の能力(μ)に近い値を見つけるには、 測定した回数で割ればいいことになります。この場合は 265÷5=53mで平均値(m)を求めることと同じになります。 この事を一般的に記述すればm=狽i/n≒μ…式8(nは測定値の個数)となります。 ここで式2、式5と式8を見比べてみて下さい。面白いことに気付きませんか。
SS=煤ixi−m)^2…式2
xi=μ+εi…式5
m≒μ…式8
もしm=μとすれば、SS=買テi^2の関係が成立ちます。
したがって、SSより計算される式4の標準偏差(Sd)は測定誤差の変動を表すひとつの指標となっています。 また、Se=Sd/√nを標準誤差といい、平均値の誤差範囲の指標に用いられます。

統計処理の基本的考えは、前述の 
1.測定値=本当の能力+誤差=μ+ε
2.誤差(ε)の合計は、0に近ずく Σε≒ 0 の考えを利用して能力の差を明らかにしようとする1つの方法です。
  
6. 統計処理と仮説
  統計処理では、帰無仮説と対立仮説とがあります。 帰無仮説とは「無に帰す」仮説です。対立仮説とは帰無仮説と「対立する」仮説です。 例えば、スポーツ科学部と一般学部の平均握力の違いを統計処理で明らかにしようとした場合、 帰無仮説は「スポーツ科学部と一般学部の平均握力は同じである」と設定します。 対立仮説は帰無仮説と対立するものですから「スポーツ科学部と一般学部の平均握力は同じではない」となります。 以上の仮説の上で統計処理は行なわれますが、そこから出てくる回答は、帰無仮説が成立する、 もしくは起こりうる確率を計算することに他なりません。 またこの時に計算もしくは、求められた確率を有意水準といい、Pで表します。 (このPは、英語の確率Probabilityの略です。)
 さて、スポーツ科学部と一般学部の握力の比較を統計処理したら、スポーツ科学部の平均握力が40s、 一般学部の平均握力が35s、その差が 5sであり、P<0.001という結果を得たとします。 このことは、もしも「スポーツ科学部と一般学部の平均握力は同じである」とし、 「平均値の差5sが測定誤差によるもの」としたときに起こる確率が0.001であるということを意味します。 この結果からは、平均握力等しいグループを1000回同じ様な測定を行ったときに、5sの差が起きる可能性は、 1回未満であるということが分かります。このことから、帰無仮説は棄却され、対立仮説を受け入れることになり、 「スポーツ科学部と一般学部の平均握力は同じではない」という結論に達します。 一般的には帰無仮説を棄却するか受け入れるかどうかの判断基準として、 P<.05(5%水準)とP<.01(1%水準)が用いられます。
【前画面に戻る】