去年私が作った統計の要約を見た人から,感謝の辞を述べられました。 ただ,実際に去年の本試験で第5問を選んだ人の感想を見ると,
644 名前: 大学への名無しさん [sage] 投稿日: 2006/01/22(日) 14:46:24 ID:yJhIBXOJO
予言通り統計救世主だったな
おかげで少しはましだった
645 名前: 大学への名無しさん [sage] 投稿日: 2006/01/22(日) 14:51:32 ID:pSFXEroAO
そりゃまあベクトルとくよりかマシだけどさ……なんだよあれ('A`)
問題作った奴死ね
とまあ,大きく二つに分かれたのです。 去年の問題は問題編その1で解説する予定ですが,1つ悪問があったのを除けばそれほど難しいものでもありませんでした。 ただ,それでも解けなかったと言うことは,基礎知識を本番に応用することができなかったのだと思います。 しかし,その応用法をあまり書かなかった私にも問題があります。 私がなまじ数学ができるために,省略したところが分からなかったとも考えられるからです。
そこで今年の記事は,どのような問題が出題されても対応できるような応用力を身につけることを目標にしたいと思います (実際は,数列とかが簡単だったら第3問を選べばいいのですが,確実に解けると言う自信がないと逃げ道として不安)。 今年の記事は「要約」「問題その1(過去問題)」「問題その2(予想問題)」の3つの予定です。 この3つで試験に対応できる応用力が身に付くと思います。 統計を無視するような受験産業には負けたくありませんので。
統計の勉強法ですが,とりあえず立ち読みでいいので色々な会社の教科書や教科書ガイドに目を通すことです。 それが基礎です。 教科書によって載っているものが違うため,一つの教科書を読むだけでは不十分なのです。 その後この要約を読んでくれればいいでしょう。
某乙会から「解決!」と言うのが出てるのですが,統計だけが目的なら買わなくていいです。 センター数IIB全体で見れば良書なので,買ってもいいですが,統計の最良の参考書は教科書だと言うのを頭に入れておいたほうがいいでしょう。
まず細かい専門用語は説明しだすときりがないので,ある程度想像力で補いましょう。 センター試験ならそれほどきわどい出題はしない,と言うかできないでしょう。 これは去年から何も変わりません。 ただ,きわどい出題をしない代わりに悪問を出しやがりましたが。
度数…ある値のデータの個数。とだけ覚えておけば十分。問題を何回か解けばわかります。
相対度数…その値のデータの個数が,全体の何パーセントを占めているかを示す割合。
また,無作為にデータを選んだとき,そのデータを選ぶ確率。
教科書にはいきなり公式として,「各値の度数を度数の和で割った値」と書いてあるんですが,それじゃイメージがわかなくて覚えにくいと思います。
ちなみに,相対度数は確率と同じように扱えます。
確率に詳しい人は確率と同じような公式がいくつも出てくるのでやりやすいと思います。
以下説明上,あるデータx1,x2,…,xn,y1,y2,…,ynがあるとします。
平均値…代表値の一つです。代表値と言う用語が出題されるか不明ですが。
_ n x1+x2+…+xn
x=(1/n)Σ xk=―――――――――
k=1 n
また,相対度数が確率として扱えることを考えると,平均値は期待値として扱えるため,「{(各変量の値)×(相対度数)}の総和」は,平均値に等しくなります。
平均値には線形性があるため,
___ _ _
x+y=x+y (和の平均値は平均値の和)
____ _
ax+b=a×x+b
と言う性質が成り立ちます。
考えてみれば当たり前の話で,たとえば「100,101,104,107」の平均を求めるときに,皆さんは「0,1,4,7」の平均3を求めたあと,100+3=103という答えを出すでしょう?
だから,ここで仰々しく書くまでもないんですが,線形性の怖いところは,普通に計算しても答えが出てしまうと言う点なのです。
そのため,「新しい変量tをt=x+yで定める。tの平均値を求めよ。」とか言われるとどちらで計算すればいいのか判別が付かないわけです。
結果的にどちらでやっても変わらないことも多いのですが,一応の目安もあります。
○ tの分散,標準偏差など,平均値以外の情報が必要なときはtから直接求める(どうせ表を作ることになるため)。
○ x,yのそれぞれの平均値がすでに求まっている場合には線形性の公式を使う(表を作る手間が省けるため)。
どちらも当てはまったり,あるいはどちらも当てはまらなかったりする場合もありますが,その場合はどちらでもいいことが多いです。
ただ,そのような場合でも場合によっては片方に確定してしまう場合もあります。
そういうのはもはや「慣れ」としか言い様がないので,それを判別するには演習量を積むしか道はありません。
| <参考:線形性> 一般に関数f(x)に対して,a,bをxやyに関係ない定数とすると,「f(x+y)=f(x)+f(y), f(ax+b)=af(x)+b」などが成り立つ性質を線形性と言います。 由来はf(x)=ax(直線の方程式の右辺)がその性質をみたすからだと思います。 |
メジアン(中央値)…データを小さい順に並べたとき,真ん中に来る値。
人によっては大きい順という人もいますが,真ん中なので大きい順でも小さい順でも変わりません。
データが奇数個の場合は問題がないのですが,データが偶数個だと,真ん中の数が2つ出てきます。
そのときはその2つの平均値をメジアンにしてください。
例を挙げます。「2,5,6,3,4,2,6」のメジアンは,「2,2,3,4,5,6,6」と並び替えたときに真ん中に来る4です。
「2,4,3,1,5,2,5,7」のメジアンは,「1,2,2,3,4,5,5,7」と並び替えたとき真ん中に来る3と4の平均値3.5です。
メジアンはこれだけしかないので,いろいろ工夫して難しくしてあっても,ちょっと考えればわかります。
モード(最頻値)…そのデータの中で,最も多く現れる変量。以上。これ以上の説明はない。
「1,1,1,1,1,1,1,2,2,2,3,4,5,5,6,7」というデータがあったら,モードは一番多く現れている1です。
レンジ(範囲)…そのデータの中の最大値と最小値との差。
「1,2,3,4,5,6,7,8,9」というデータがあったら,レンジは9−1=8です。
偏差…あるデータに対して,「(ある変量の値)−(その変量の平均値)」を偏差といいます。
「1,2,3,4,5,6,7」というデータがあったら,平均値が4なので,偏差はそれぞれ「−3,−2,−1,0,1,2,3」となります。
分散…変量xの分散をVxと表すことにします。
学術的にはsx2なのですが,これだと最終的に求めるものが標準偏差であるかのような感じがします。
受験生としては,最終的に標準偏差を求めるときにはsx2もしくはσx2,
最終的に分散を求めるときにはVxとおいたほうが,見間違いによるミスを防げると思います。
特にセンター試験はかなり急いでやってるので,ミスの発生率が通常より高いのです。
このような気配りがないと本番で絶対にミスします。
もっとも,気配りがあってもごく普通にミスできますが。
で,肝心の分散の求め方ですが,
n _ n _
Vx=(1/n)Σ(xk−x )2=(1/n)Σ xk2−(x )2
k=1 k=1
つまり分散とは,「(xの偏差)2の平均値」…(*)であり,
「(x2の平均値)−(xの平均値)2」…(#)に等しいわけです。
さすがに統計で虚数を扱うことはないと思いますので,分散は常に正の値をとります。
分散を求めよといわれたら,機械的に計算するだけです。
で,ここで問題になるのが,やはり(*)と(#)のどちらを使うかでしょう。
世間では無条件に(#)を使う人がいるのですが,それは絶対にやめてください。
片手間でやるからあまり多くの公式をおぼえたくないと言う人は例外ですが,それでも次の原則くらいは頭に入れておいたほうが身のためです。
これも最終的には経験をもとに決めると言うことになるのでしょうが,経験をつむまではおおむね次の原則で考えてください。
○ 変量が整数の場合,
・ 平均値が整数値だったら(*)を使う。
・ 平均値が小数値だったら(#)を使う。
○ 変量が小数の場合,(#)を使う。
例外もありますが,この原則を頭に入れて置いたらそこまで失敗することはないはずです。
変量・平均値がともに整数の場合に(*)を使うのは,偏差の表に0が現れ,その前後が±の符号の違いだけで絶対値が同じ数が現れるからです。
やってみるとわかります。
そういうときは(*)のほうが楽ですから。
分散には線形性はありませんが,似たような性質はあります。
Vx=Vx±a …(♪)
Vax+b=a2Vx …(¥)
(¥)が去年出てしまったんですよねー……。
自分で秤猿Zして(*)と(#)が等しいことを証明したことがある人は,この性質は言われなくても分かると思うのですが,そういう人はなかなかいません。
(¥)については設問で問われない限りまず使いませんが,(♪)については使い道があります。
この式の主張は,たとえば「100,101,104,107」の分散と「0,1,4,7」の分散は等しいということです。
ためしに計算してみると,
(前者の分散)=(10000+10201+10816+11449)÷4−10609=10616.5−10609=7.5
(後者の分散)=(0+1+16+49)÷4−9=16.5−9=7.5
となり確かに一致してます。
標準偏差…σx,sxなどで表します。
標準偏差とは,簡単に言うと分散の正の平方根です。
難しく言うと「σx=Vx1/2」です。
これ以上言うことないのですが…。
標準偏差を求めるのを楽にしようと考える場合,その前の段階の分散を求めることを楽にするのを考えなければならないため,
その平方根をとっただけの標準偏差では特に工夫することはありません。
共分散…xとyの共分散をcxyで表すことにします。これも公式に代入するだけで,
n _ _
cxy=(1/n)Σ(xk−x )(yk−y )
k=1
で求められます。また,xyの平均値が楽に求められる場合には,
n _ _
cxy=(1/n)Σ xkyk−x y
k=1
を用いると楽です。
相関係数…rxyで表します。
簡単に言うと,「rxy=cxy÷(σx・σy)」です。
難しく言っても「rxy=cxy÷(σx・σy)」です。
これもとにかく代入すればでます。
しかしここまで来ると結構計算が大変です。
上で挙げた楽をするための公式を使って,少しでも計算量を減らしましょう。
ちなみに,相関係数は,−1≦r≦1の範囲にあります(証明はコーシーシュワルツの不等式)。
これに含まれていない数字が出た場合は計算ミスということになります。
また,正の相関関係が強いほどrは1に近づき,負の相関関係が強いほど,rはー1に近づきます。
相関関係がなければ,rは0に近づきます。
河合塾はこの事実を用いて答えさせるのが好きみたいですが,残念ながらセンター試験ではそのような定性的な問題よりも定量的な問題が出題される可能性のほうが高いです。
とか言ってたら出ちゃったんですねー。それも悪問にグレードアップして。
共分散・相関係数の意味を座標平面で眺めてみましょう。
偏差と言うのは平均値とある変量の差なので,図の青線のように分けると,
xの偏差が正 and yの偏差が正 ⇒ Iの領域に入る
xの偏差が負 and yの偏差が正 ⇒ IIの領域に入る
xの偏差が負 and yの偏差が負 ⇒ IIIの領域に入る
xの偏差が正 and yの偏差が負 ⇒ IVの領域に入る
と言うことになり,偏差が0なら青い線上に点が来ます。
ともに偏差が0なら真ん中の大きな緑の点と言うことになります。
共分散とはそもそも「(xの偏差)×(yの偏差)の平均値」なのだから,
Iの領域にあるものとIIIの領域にあるものを足せば正
IIの領域にあるものとIVの領域にあるものを足せば負
と言うことになるのです。
ただ問題があります。
xが長さだとしましょう。
単位がナノメーターかキロメーターかによって共分散の値がまったく違うものになります。
あるいはxが温度なら摂氏温度か華氏温度かによってまったく違うものになってしまいます。
もちろん「体重と身長の相関」と「体重と座高の相関」を比べるのなら単位をあわせればすみます。
しかし「体重と身長の相関」と「体重と体温の相関」とかだと単位のあわせようがありません。
そこで標準偏差で割るのです。
相関関係を求めるのに共分散だけではなく相関係数を求める理由は,単位のとり方による差をなくすためなのです。
だから,「新しい変量t=10x+20について,rtyを求めよ。」
とか言われても,rxyと同じ値になるに決まってるのだから,
rxyが求まっているのなら計算してはいけません。
と言うより,冷静に考えると何倍しても,あるいは定数を足しても,相関の度合いなんて変わるわけはないので,
同じ値になるに決まってます。
話題の表計算ソフトについてです。 某乙会とか某K塾とかの予想問題を見てるとやっぱり出題してるんですね。 私は出ないと思うのですが,例の河合塾の的中の件もあるので,やっておいたほうが無難かもしれません。 もちろん,表計算が出たら数値計算やりますと言うならそれでもいいですが。
センター試験の表計算の問題では基本的にソフトの仕様が与えられることが多いです。 「数値計算とコンピュータ」の問題でも,INTに必ず注が付いているので, 基本的にそんなに神経質になって覚える必要はないと思います。 ただ,一応教科書に載っている以下のものくらいは覚えておいたほうが無難かな,と言う気はします。
SUM
総和。指定したセルに入ってる数字の和を示す。
SQRT
正の平方根を求める。
FREQUENCY
指定した複数のセルのうち,ある階級の区切り以下で,前の階級の区切りよりも大きいデータの個数を求める。
AVERAGE
平均値。指定したセルに入ってる数字の平均値を示す。
MEDIAN
メジアン。指定したセルに入ってる数字のメジアンを示す。
VARP
指定したセルに入ってる数字の分散を示す。
STDEVP
指定したセルに入ってる数字の標準偏差を示す。
CORREL
指定したセルに入ってる数字の相関係数を示す。
一応問題編その1にセンターの情報関係基礎に出題された表計算の問題を載せる予定なので,そこで形式に慣れれば十分かと思います。
そのほかの内容について。
グラフの読み取りなどが出題されています。
出題されたことがある図は,相関図(散布図),ヒストグラム(柱状グラフ)です。
これも一応解説するのですが,
648 名前: 大学への名無しさん [sage] 投稿日: 2006/01/22(日) 15:49:32 ID:IQpgr9gD0
u=は分からんなぁ
でもヒストグラムには笑った。数学じゃねぇ
数列が難しかったらしいからこっちとったのは正解だったな
と言う意見もあるので,そんなに神経質に考える必要もないかと思います。
相関図(散布図)……2つの変量をそれぞれ縦軸と横軸にとって,その相関の度合いを見るためのグラフです。
要するにさっきのアレです。
性質として,点の分布が直線に近いほど相関が高いです。
逆に右の図のようにある程度散らばってたら相関は低いと考えてもらってかまいません。
なお,直線に「近い」とか,「ある程度」散らばっているとか言うのは主観的で,客観的な判断材料にはならないと思う人もいるかもしれません。
確かにそうなのですが,相関係数が選択肢で与えられる場合があり,その場合はまともに計算することは困難です。
そのような場合に直感で選択肢を一つ選ぶことができます。
直感は重要です(特にマークシートだと過程書かなくていいので)。
と言うよりそもそも,大学入試センターがその主観的な判断を根拠にするしかない問題を出しているので,この直感と言うのは大学入試センター公認と考えて差し支えないと思います。
ヒストグラム(柱状グラフ)……度数分布表をグラフにしたものです。
いや,ただそれだけです。それ以上でも以下でもありません。
しかしヒストグラムには一つだけ「お約束」があるのです。
そのお約束を説明する前に,まず連続変量と離散変量について述べる必要があります。
| <重要:連続変量と離散変量> たとえば長さを考えて見ましょう。 長さなら3メーターや4メーターはもちろん,3.5メーターやπも考えることができます。 しかし,たとえばある人の人数を考えましょう。 3人とか4人とか言うのは考えられますが,3.5人とかπ人とか言うのはありません (平均値とかで計算上出てきたりするのは便宜上であり,本来実現し得ない)。 このように,連続的な値をとることができる変量を連続変量, 飛び飛びの値しかとることができない変量を離散変量といいます。 |
離散変量の場合,飛び飛びの値しかとれないため,あいだの値の度数は,あえていうなら0です。
そのため,あいだの値がないとはっきり分かるような書き方をしなければなりません。
そのため,離散変量の度数分布表をグラフに直した場合,図1のようになります。
これは棒グラフですね。
ヒストグラムじゃありません。
ただ,たまに棒グラフはヒストグラムの一種だとか,ヒストグラムは棒グラフの一種だとか行ったりする人がいるから厄介です。
それに,名前を分類することが重要だとは必ずしも思えません(問題の答えが分かればいいだけの受験生なら特に)。
だから受験生としては,グラフとグラフのあいだが空いていたら離散変量と考えてもらえれば十分だと思います。
度数分布表が連続変量なのに,あいだの空いてるグラフを選んだりしたら,それはまちがいです。
そこから類推すると,連続変量のグラフはどうなるかは分かると思います。 あいだの値も全てとっているような書き方をしないといけません。 図2のようになります。 これは文句なしにヒストグラムです。
連続変量の場合は,ヒストグラムのほかに度数分布折れ線と言うものも考えることができます。 度数分布折れ線は,ヒストグラムを書いたと仮定したときに,その一番上に1個ずつ点を取り結んだときできる折れ線です。 両端は必ず0と言う度数があると考えて軸と交わらせないといけません。 もっとも,そんな知識が出るかは分かりませんが。 あと,「度数分布折れ線と軸で囲まれた面積」と「各長方形の面積の和」が等しくなるように書くと言う規則もあります。 もっとも,そんな知識が出るかは分かりませんが。
なんか分からないことがあったら遠慮なく質問どうぞ。
もどる