統計資料の整理(分散・標準偏差・共分散・相関係数)



度数分布表・ヒストグラム・「メジアン」・「モード」





練習問題

  1. 次のような「度数分布表」でデータが与えられた場合について、「定義式」、「実用式」でそれぞれ「分散」を計算し、双方のメリット、デメリットを考えてみる。
    点数人数
    14
    211
    316
    49
    55



    どちらで計算しても大して変わらないように見えるが、それは、たまたま、平均値が「3」というきりのいい数字になるように、作られている「作り物」のデータだからだ。センターテストの出題などは、このように設計されているものが多いから、「定義式」のほうが簡単であることも多い。しかし、一般のデータでは、平均値に間違いなく端数が出るのだから、「実用式」の出番のほうがはるかに多い。



  2. 5人の生徒の2科目の小テストの点数データがある。それぞれの科目の点数を変量x,yとする。
    xの分散、yの分散、x,yの相関係数を求めよ。


















  3. (後半部分について)「定義式」による分散・標準偏差・共分散・相関係数の計算







  4. 次のデータについて、「仮平均」を用いて平均値を計算せよ。


         


  5. 4人の身長のデータがある。これを変量xとする。
    変量yを y = x-172.0 と定義し、
    変量yについての「平均」、「分散」を求め、これから、変量xについての「平均」、「分散」を推定せよ。































  6. 20名の生徒についての、100点満点のテストの得点データがある。これを用いて、「度数分布表」、「ヒストグラム」を作り、「平均値」、「メジアン(中央値)」、「モード(最頻値)」を算出せよ。










1変量の分布のひろがり(平均・偏差・分散・標準偏差の計算方法)

【詳しい説明ですから、省略可】







2変量の解析(共分散・相関係数の計算方法)

【詳しい説明ですから、省略可】



変数変換

【詳しい説明ですから、省略可】




まとめ
xのデータを、一律、定数d1で割り、yのデータを、一律、定数d2で割り、るという、変数変換を行うと、
  • xの平均値は、d1分の1、yの平均値は、d2分の1、になる。

  • xの「分散」は、d12分の1、「標準偏差」は、d1分の1になる。

  • yの「分散」は、d22分の1、「標準偏差」は、d2分の1になる。

  • 「共分散」は、d1d2分の1になる。

  • 「相関係数」は、変わらない。

































「統計資料の整理」・センター過去問と解説

[解答上の注意]  小数点以下の表記については、次のような、注意書きが付きます。






  1. 問題ではすべて問われているわけではないが、練習として、与えられたデータx,yについて、「平均」、「分散」、「相関係数」を求めてみよう。「分散」、「相関係数」については、平均値が整数なので「定義式」でも容易に計算できる。
    「定義式」・「実用式」両方のフォームを用意した。結果は次のとおり。




    1. xの分散は0.4(アイ)

    2. 全データからmという値を引いて新しい変量を作ったら、その平均値が0になったというのなら、mがもとの変量の平均値だったことになる。 y =8(ウ)

      全データから、一律、定数mを引くという、変数変換を行うと、
      • 平均値も、mだけ、小さくなる。

      • しかし、「分散」、「標準偏差」は、何も変わらない。

    3. 変量yの分散を変量xの分散と同じにしたい、らしい。下のルールからするとyの全データを、
      • まず、y自身の分散の平方根(すなわち、「標準偏差」)で割り、
      • 次に、xの分散の平方根(すなわち、「標準偏差」)をかければよい
      ことになる。
        (エオ)

      全データを、一律、定数dで割るという、変数変換を行うと、
      • 平均値は、d分の1になる。

      • 「分散」は、d2分の1、「標準偏差」は、d分の1になる。



    4. 相関係数は、「共分散」を、2変量の「標準偏差」の積で割ればよかった。「標準偏差」は「分散」の平方根である。電卓がないと計算できないことが多いから、ここでも、わざわざ「相関係数の2乗」を求めさせている。

      共分散定義式実用式
      偏差」の「」の「平均平均」-「平均
      相関係数共分散」÷「標準偏差

      つまり、
      (相関係数)2=「(共分散)2」÷「分散

      しかも、下のルールから、xyの相関係数、xuの相関係数は、かならず同じ、(カキク)と(ケコサ)の答えは同じであるから、まじめに√5で割ってみるなどの計算をする必要は、まったくない
          (カキク)(ケコサ)

      xのデータを、一律、定数d1で割り、yのデータを、一律、定数d2で割り、るという、変数変換を行うと、
      • xの平均値は、d1分の1、yの平均値は、d2分の1、になる。

      • xの「分散」は、d12分の1、「標準偏差」は、d1分の1になる。

      • yの「分散」は、d22分の1、「標準偏差」は、d2分の1になる。

      • 「共分散」は、d1d2分の1になる。

      • 「相関係数」は、変わらない。

      念のために、コンピュータでuを用いて相関係数を計算してみた結果を示す。















    1. 「相関」には、『正』と『負』、「強さ」、という2つの概念が伴う。
      • 「散布図(相関図)」の点のかたまりが、右上がりなら『』の相関(r>0)
        「散布図(相関図)」の点のかたまりが、右下がりなら『』の相関(r<0)
      • 「散布図(相関図)」の点が、密集していて、傾向がはっきりしていたら
        強い」相関(rの絶対値が1に近い)
        「散布図(相関図)」の点が、ばらばらで、傾向がはっきりしていなかったら
        弱い」相関(rの絶対値が0に近い)

      強い『負』の相関
      r=-0.82
      弱い『負』の相関
      r=-0.43
      弱い『正』の相関
      r=0.41
      強い『正』の相関
      r=0.81

      相関係数は、かならず1と-1との間の数である。相関図の点は右下がりで、しかしそれほど密集しているとは言えない。 だから、r=0.6(シ)

    2. 与えられたデータについて、pについての集計を表の一番下の欄に、qについての集計を表の一番右の欄に作り、これからヒストグラムを作れ。




    解答










    1. 数学の得点 x , 国語の得点 y 、  数学の平均点 x , 国語の平均点 y 。
      偏差」は「平均とのへだたり(プラスマイナスあり)」だから、
      • x - x は、 x の「偏差
      • y - y は、 y の「偏差
      である。
      生徒番号1について、 62 - x = 3.0  だから、 x = 59.0 (アイウ)
      Aの値は、国語の合計点だから、 59.0 × 20 = 1180 (エオカキ)

    2. (x - x)2 は、 x の「偏差の2乗」だから、その「平均」、つまり 77.2 が、 x の「分散」である。
      (y - y)2 は、 y の「偏差の2乗」だから、その「平均」、つまり 25.8 が、 y の「分散」である。
      77.2 (クケコ)

    3.  z = x + y 、つまり数学の点数と国語の点数の和を z とする。「和の平均」は「平均の和」でいい。くわしく言うと、次のようなことだ。

      だから、 z = 59.0 + 61.0 = 120.0 (サシスセ)

      しかし、「分散」はそう簡単にはいかない。

      (z - z)2 = (x - x)2 + (y - y)2 +2 (x - x)(y - y

      だから、そのすべてを全生徒について足し算して、人数で割ると、つまりすべての項に「シグマ」をつけてnで割ると

      ここで、 (x - x)(y - y) は、 x , y の「偏差の積」だから、その「平均」は、 x , y の「共分散」である。
      右辺の第3項は、 x , y の「共分散」の2倍である。
      言葉で表すと、この式は、
      zの分散」 = 「xの分散」 + 「yの分散」 + 2×「x , y の共分散」

      表を見ると、(x - x)(y - y) すなわち、 x , y の「偏差の積」、その「平均」、
      つまり -37.4 が、 x , y の「共分散」である。 「x , y の共分散」が「負」なのだから、
      zの分散」 < 「xの分散」 + 「yの分散」 

      次の問の準備として、変量xと変量y、すなわち、「数学の点数」と「国語の点数」の、「相関関係」について検討しておこう。

      (x - x)2 は、 x の「偏差の2乗」だから、その「平均」、つまり 77.2 が、 x の「分散」である。
      (y - y)2 は、 y の「偏差の2乗」だから、その「平均」、つまり 25.8 が、 y の「分散」である。
      (x - x)(y - y) すなわち、 x , y の「偏差の積」、その「平均」、つまり -37.4 が、 x , y の「共分散」である。

      (x - x) と (y - y) とを掛け算したものを合計し、人数で割ったものが「共分散」なのだから、この値が「負」である、ということは、「数学が平均以上で、国語が平均以下」または、「数学が平均以下で、国語が平均以上」という人が多くいた、ということになる。
      つまり、これは、「数学ができる人は国語ができない/数学ができない人は国語ができる」という「傾向」を表している。 これを、「負の相関がある」という。
      相関図(散布図)の点のかたまりが、「左上から右下に」並ぶことになる。

      次に、「相関係数」を計算しよう。

      相関係数= x , y の「共分散
       x の「標準偏差」× y の「標準偏差

      相関係数rは必ず、-1≦r≦1の値をとる。絶対値が1に近いほど「強い相関」、0に近いほど「弱い相関」であるという。
      相関図(散布図)の点のかたまりが、ある直線(回帰直線という)のまわりに、「密集している」ならば「強い相関」、「ばらばら」ならば「弱い相関」である。

      分散」の「平方根」が、「標準偏差だから、x の「標準偏差」は、8.8くらい、y の「標準偏差」は、5.1くらい、
      したがって、「相関係数」は
      -37.4/(8.8×5.1)=-0.83
      強いの、相関がある」といってよい。

    4. 相関係数が-0.83、「負の相関」だから、選択肢は相関図(散布図)の点のかたまりが「左上から右下」に並ぶABに限られる。
      相関の強さ(点の密集の度合い)は、相関図からは明らかではないから、他の情報に頼ることになる。

      「中央値に注意すると、」というヒントを用いよう。
      中央値(メジアン)」は、全データを大きいものから小さいもの順に並べたとき、ちょうど真ん中にくる値
      データ数が奇数のときは、ちょうど「真ん中」が必ずあるけれど、偶数のときはどうするか?真ん中の直前と直後の平均値をとる。

      このデータでは、データ数が20という偶数だから、上から10番目のデータと11番目のデータの平均値が、「中央値」である。
      相関図(散布図)の中の点を数えてみてくれたまえ横軸xの10番目と11番目の平均値が57.5であり、たて軸yの10番目と11番目の平均値が62.0であるのが正解だ。
      答えは、Bでした。

    5. P高校のサンプル数は20、したがって、その「中央値」は上から10番目と11番目の平均値だが、この二人は表を見るとどちらも「55〜59」の「階級」に所属している。その「階級値」は55と60の平均値57.5。二人とも、57.5点をとったと考える。したがって、P高校の「中央値」は57.5。

      一方、Q高校のサンプル数は25、したがって、その「中央値」は上から13番目の生徒の値。この人は「60〜64」の「階級」に所属している。その「階級値」は60と65の平均値62.5。したがって、Q高校の「中央値」は62.5。
      答えは、@でした。

    6. 「度数分布表」は、ここの点数を「階級」に区切ってしまうから、本当の点数が何点だったのかがわからなくなってしまう。全員が「階級」の「下限」の点数をとった場合と、全員が「階級」の「上限」の点数を取った場合の「平均点」を計算してみて、初めてQ高校の平均点の「とりうる範囲」がわかることになる。

      Q高校の平均点の「とりうる範囲」は、52.8〜56.8(ツテトナニヌ)。P高校の平均点は、59.0とわかっているから、「P高校の方が大きい」


    7. P高校Q高校
      40点未満0/20=0.05/25=0.2
      54点以下7/20=0.3510/25=0.4
      65点以上4/20=0.255/25=0.2
      70点以上3/20=0.153/25=0.12

    解答








    1. まず、4人のデータについて、下の表を用いて、
      • 仮平均を用いた平均値の計算」
      • 分散の計算」
      を行う。「分散」については、「定義式」、「実用式」両方でやってみる。



      • X=172.0
        とおくと、
        yi=xi-X

        もっと簡単に言うと、

        であるから、ずっと小さな数になって計算しやすいyiについて平均を求め、これに「仮平均」172.0を加えれば、xの平均を求めたことになる。

      • 次に「分散」、まず、「定義式」で。

        「偏差」の「2乗」の「平均」

        だから、「yの偏差」欄には、各yの値から「yの平均値」を引き算して記入、そのとなり「(yの偏差)2」欄には、これの各2乗を計算して記入する。問題では「分散」の値として小数第3位まで要求しているが、これは最後に人数で割り算することを考慮したのであって、この段階では、小数第2位までしかでてこないのが当然だ。
        その和を「合計」欄に記入してこれを人数4で割ると、「yの分散」が得られる。

        ここでの「変数変換」では、「仮平均値172.0をすべてのデータから引く」、という操作しかしていないから、「分布の広がり」を示す分散」には何の影響もない。つまり、「y分散」と「x分散」は等しい





      • 念のために「実用式」による「分散」も計算してみる。

        「2乗」の「平均」-「平均」の「2乗」

        だから、いきなりyの2乗をすべて計算し、その合計を求め、人数4で割る。そこから、すでに計算済みのyの平均0.2の2乗、0.4を引く。当然同じ値になる。この例の場合では、どちらも数が小さいので、たいした違いはなかった。

      以上の結果が、下の表。



    2. 4個のデータについて、

      なのだから、平均値を4倍すれば4個のデータの和になる。したがって、5個のデータの平均値は、

      「5人の平均値が、4人の平均値より0.6cm大きかった」というのだから、

      yの平均」は0.2だったから、これを代入して、

      したがって、
      x5=y'5+172.0
      で、
      x5=172.0+3.2=175.2
      となる。この新しいデータを加えて5個のデータについて、改めて下の表で「分散」を求めてみよう。上と同様に、「定義式」、「実用式」の両方でやってみる。



      計算結果はこちら。


      • ◎  ○     であることを思い出してください。「上手に仮平均を選んだら、たまたま当たっていた」という場合です。
                       

      • @  ○     左辺が「zi-aの合計」、右辺の第1項が「ziの合計」ですから、

        ziの合計」が正なら、aを正の値にして、
        ziの合計」が負なら、aを負の値にして、いずれも「絶対値を小さくする」ことはできそうです。

      • A  ○     任意のiに対して、zia>0となるaを探してくれば、
        0<zi-azi
        したがって、
        0<|zi-a|<|zi|=zi
      • B  ×     上の問題で全データから「仮平均172.0」を引いても、「分散」はなにも変わらなかった。データを「平行移動」しているだけだから、分布の「広がり」の度合いには影響を及ぼさないのだ。

        全データから、一律、定数mを引くという、変数変換を行うと、
        • 平均値も、mだけ、小さくなる。

        • しかし、「分散」、「標準偏差」は、何も変わらない。

        全データを、一律、定数dで割るという、変数変換を行うと、
        • 平均値は、d分の1になる。

        • 「分散」は、d2分の1、「標準偏差」は、d分の1になる。

      解答





    1. B組3人の平均値が14.0であることから、3人まとめて「B組3人計」のx欄には14.0×3=42.0を記入する。
      3人合計で平均値との差はないはずだから、y欄は0。AB全体の合計を7で割ることに注意して、平均を求める。
      yの平均は-0.57(アイウエ)
      xの平均は -0.57+14.0=13.43(オカキク)



      これを用いて、yの分散を求めてみよう。平均値に端数があるから、「定義式」は困難だろう。「実用式」で行く。

      分散  =  「2乗平均」-「平均2乗

      だから、yの分散は1.24(ケコサ)
      140.0を引くという変数変換しかしていないから、もちろんxの分散も1.24(シスセ)



    2. B組の3人の平均が14.0、その中の一人のタイムもちょうど14.0ということは、他の二人は平均値からプラスマイナス同じ量だけ隔たっているはずだ。 この「隔たり」をaとしよう。
      このaを求めるための条件式は、「分散がちょうど1.50」という情報から得られる。次の表をaを用いて埋めよ。



      こうして、下の表のようにして、a=1.5が得られる。
      つまり、B組の他の二人は、速く走った方から順に、
      14.0-1.5=12.5(ソタチ),14.0+1.5=15.5(ツテト)



      こうして得られた値と、対応する体重のデータから、下の表を用いて、
      改めて変量x「100m走のタイム」、変量y「体重」として、それらの「相関係数」を求めよう。
      平均値に端数がないので、ここでは、「定義式」を用いる。

      共分散」  =  「偏差」の「平均

      相関係数」  =  「共分散」÷「標準偏差







    解答




















    1. 月ごとのデータに昇順(低いものから順)に、順位をつけよう。
      メジアン(中央値)は、データが偶数個のときは、「中央」が2つあるのでその平均をとるのであった。
      ここでは、12個のデータだから、6番目と7番目の平均を求めればよい。

          

      平均値  60÷12=5.0(アイ)     中央値  (3+7)÷2=5.0(ウエ)

    2. Aグループの変量xについて、「定義式」で分散を計算する。

          

      平均値  -8.0(オカキ)     分散  10.5(クケコ)

      また、Aグループのyの平均、Bグループのyの平均

      から、全体のyの平均を求めるには、
         16.3(サシス)

    3. yの合計が30-18=12だけ減少するので、平均は12÷12=1.0(セソ)減少する

      相関図(散布図)から明らかなように、(x,y)=(7,30)は、飛びぬけた異常値である。
      これが、(x,y)=(7,18)に変われば、y広がりの幅は明らかに小さくなる。
      だから、yの分散は修正前より減少(タ)する。

    4. 修正前のyの値を、相関図を読み取って以下の表に記入する。
      x=7のデータは10月のものであるから、ここのyの値を修正して記入する。
      それぞれについて、yの順位を記入する。



      修正前のメジアン(中央値)  16.5(チ)     修正後のメジアン(中央値)  15.0(ツ)

    5. 上の表に、変量 z = y-x を計算して記入し、xzの相関図をつくる。
      zの平均  10.3(テトナ)、相関図は@(ニ)



    6. 相関図からわかるように、「負の相関があり、変量xが高いほど、変量zは小さい」B(ヌ)

    解答