[PR]テレビ番組表
今夜の番組チェック

統計とコンピュータ 解答

 統計の問題の解答。重かったので別のページとさせてもらった。 問題はこちら。 よく分からないところ,間違ってる箇所があったら遠慮なく質問されたい。


第1問 (目標時間:14分)

 解答と配点は発表されていない。 配点は予想に基づく。 設問自体は簡単なのだが,計算量が多いので,計算法を誤ると大幅な時間のロスになってしまう。

(1) ア.イ=4÷20=0.2
ウ.エ=4÷20=0.2
オ.カ=1−(0.2+0.2)=0.6
最後は1から引くのがポイントである。 もちろん今回は12÷20=0.6としても大して時間の差はないが,相対度数の和が1であることを使わないと大幅に時間をくう場合もあるので,この方法に慣れておきたい。

 平均値である。 直前でせっかく相対度数を求めたのだから,それを用いて計算する。
の平均値=0.2×1+0.2×2+0.6×3=0.2+0.4+1.8=2.4

 表を眺めればの最大値は求まるわけだが,最終的にを求めないといけないので,どのみち表をつくらなければならない。 だから先にこの時点で作っておくのである。

度数10
−(の平均値)−2−1

 表を見ると,の最大値は6であり,相対度数は0.2。
の平均値
=(2×2+3×4+4×10+6×4)÷20
=(4+12+40+24)÷20
=(2+6+20+12)÷10=4.0
である。 あるいは平均値の線形性を用いて,
の平均値=()の平均値=(の平均値)+(の平均値)
として,の平均値=1.6からの平均値=2.4+1.6=4.0とする方法もある。 (3)ではの平均値が必要なので,これもあながち悪い解法ではない。

 の分散を求めるが,その際に「の偏差の2乗の平均」を計算するか, 「(の平均)−(の平均)」を計算するかが問題である。 一般的に,平均が整数なら前者,それ以外の場合は後者の方が楽であることが多い。 今回の平均値は整数なので,−(の平均値)の表を作って前者でやる。
=(4×6+1×4)÷20=(12+2)÷10=1.4
こうやってみると,=4の部分は0だから計算に入っていない。 また,(−2)=2=4だから,ひとまとめに計算できる。 だから整数のときは前者なのである。 もちろん例外がないとはいわないが。

(3) の標準偏差σを求める。 の平均値は整数ではない。 だから後者である。
σ=(1×0.2+4×0.2+9×0.6)−2.4
=0.2+0.8+5.4−(2×1.2)=6.4−4×1.44
=4×(1.6−1.44)=4×0.16
σ=2×0.4=0.8
このように2.4などは無闇に計算しないことである。 もちろん計算しないとどうしようもない場合もあるが,筆算をするのはそのときでも遅くはない。 それよりも暗算ですませられないかと考えたほうがよい。

 の標準偏差σを求める。 同じように考えるのだが,それにはまずの平均値が必要である。 (2)での平均値を求めた場合はそれでよい。 だがの表を作ったのでの平均値は直接求めるのが本筋であろう。 その場合の平均値は,
の平均値={()−}の平均値=()の平均値
=(の平均値)−(の平均値)=4.0−2.4=1.6
とする。 このように平均値の線形性は使おうという意識を常に持っていないと見すごしてしまう。 しかも計算を楽にするために公式だから使わなくても解けてしまうのである。 センター試験は制限時間が短いことで有名だが,その打開策は決して計算力や天下り的な発想ではない。 話がそれたが,とりあえずσを求めてからσを求めよう。
σ=(1×12+4×4+9×4)÷20−1.6
=(6+8+18)÷10−1.6=3.2−1.6
=16×(0.2−0.16)=16×0.04
σ=4×0.2=0.8

 最後に相関係数であるが,σσが求まっているので, 共分散が必要である。 ところがを求めるにはxyの平均値,の平均値,の平均値が必要であるから,目標はxyの平均値である。

xy
度数

 右の表より,
xyの平均値 =(1×2+2×4+3×8+4×2+9×4)÷20
=(1+4+3×4+4+2×9)÷10=39/10=3.9
xyの平均値−(の平均値)×(の平均値)
=3.9−2.4×1.6
σσ
3.9−2.4×1.63×(130−8×16)
   0.8×0.8        64

=3×2/64=3/32=0.09375≒0.09


第2問 (目標時間:9分)

 度数分布表ではなく個々のデータが与えられた場合の問題である。 生徒番号が決まればは決定する。 数学的にいえば,はともに生徒番号の関数である。

(1) メジアンやモードなど一部例外はあるが,基本的に統計学で扱う数値は平均値を考える必要がある。 今回も,分散を求めよと言う設問であるが,分散を求めるには平均値が必要なので,まずの平均値を求める。
の平均値=(3+4+5+4+4)÷5=(15+5)÷5=3+1=4

 平均値が整数なので偏差を考えるほうが楽である。 偏差を生徒番号の昇順に並べると「−1,0,1,0,0」となる。 これは実際の試験の時には表のの欄の下に書くとよい。 よっての分散は,
=(1+0+1+0+0)÷5=2/5=0.4
説明の都合上0も書いたが,実際の試験のときは省略してよい。 また,1+1もまとめて1×2と書いてよい。 と言うより,その程度は頭のなかでできてほしい。

(2) 形式にまどわされてはいけない。 条件は「の平均値=0」である。 「−ウ」の両辺の平均値を取ると,
_ ___   _   _
−ウ⇔0=−ウ⇔=ウ

となる。 何のことはない,の平均値を求めよと言う問題である。 だから答えは,
の平均値=(7+9+10+8+6)÷5=(10+30)÷5=8

(3) ={(√エ)/オ}
であるから,{(√エ)/オ}÷である。 つまりの分散を求めればよい。 いま,の平均値は8なので,の偏差は順に「−1,1,2,0,−2」となる。
=(1×2+4×2)÷5=2×(1+4)÷5=2
    _             _  _
∴( √エ )^2=÷2= ∴√エ√5
    オ      5   5   オ   5

 ちなみに分散の性質を使わずに,(√エ)/オ=などとおいてに関する表をかいても できないわけではないが,相当時間がかかると思われるし,作問者の想定した答でもなかろう。 この手の手法は旧課程の確率分布のときもセンター試験で頻出であった。 だから旧課程のIIBの対策本の時は確率分布を選べと書いてあったのに新課程になって数列・ベクトルを選べと書いてある本は信用ならない。 そもそも本来数学においては,確率論と統計学は表裏一体のものであり,微分と積分のようにならび称されるものである。 まあ本業が数学ではなく精神科医学である人が書いた本なら仕方ないかも知れないが。

(4) 「の偏差×の偏差」を順に書くと「1,0,2,0,0」となる。
xy=(1+2)÷5=3/5
ここで,σ=√0.4,σ=√2であるから,
=(3/5)÷{(√0.4)×√2}
^2=   3^2    9  =0.45
     5^2×0.4×2 2×10

 ´について。 と言うのはを正数倍した変量なので,の相関係数はの相関係数に等しい。
∴(´)=0.45


第3問 (目標時間:3分)

 グラフや表の読み取りの問題。 解答は容易。 しかし根拠を説明せよといわれると説明できない,出版社泣かせの問題。

(1) Eは論外である。 相関係数は−1以上1以下の範囲にある。 あと(2)の相関表を見たほうが分かりやすいが,負の相関が読み取れるだろう。

 ここからが問題なのだが,おそらく受験生は,散布図中の点がある程度散らばっているので,−0.9と−0.6の 2者で比べると−0.6のほうが適切であり,よって答はAであるとするのだと思われる。 しかし冷静に考えてみてほしい。 「相関係数が−0.9または−0.6であること」は,一体誰が保証しているのであろうか。 問題文は「二つの変量の相関係数に最も近い値は[ア]である」としか書いていない。 もしpq=−0.76であったら最も近い値は@の−0.9である。 もしpq=−0.29であったら最も近い値はBの0.0である。 −0.9または0.6で比較すると言うのは,値がその2者のいずれかであることが分かっていてはじめてできることである。

 しかしそれでは具体的にpqを求めるしかないということになるが,これがかなり難しい。 と言うよりも試験時間内に求めるのは不可能に近い。 一応(2)の散布図で,がそれぞれの階級値の値をとるとして計算できる。 しかし設問の順番から考えて普通の受験生には思い付かないし,思い付いたとしてもやりたくないと思う。 しかたがないのでAの−0.6をマークして次の問題に進むのである。

 なお,センター試験でこの手の悪問もしくは愚問が出題されるのは日常茶飯事であり,以前も三角関数とかその辺で出題されたことがある。 解けなくてもあまり気にしてはいけない(この場合は結果的に正解の人が多いと思うが)。 センター試験で満点を取るためにはこの手の問題をいかに解くかを考えなければならないので大変である。 その意味で良問だけを集めた問題集は役に立たないのだから,まともな対策はない。 だから普通の人は満点なんか狙ってはいけないのである。 どうでもいい話だが,英語や国語で満点を狙う人はほとんどいないのに,数学で満点を狙う人が多いのはなぜだろうか。 誰か教えてほしいものである。

(2) の度数を階級の下限が低いほうから順に並べると「4,13,4,24,5」となる。 これを表しているヒストグラムはCである。 についても同様に「4,10,15,16,5」となるので,これを表しているヒストグラムはDである。


度数累積度数
13
20
22
23
24
1025
合計25
第4問 (目標時間:20分)
 

 こういう風に資料が整理されていない問題は,度数分布表や累積度数分布表を作るとうまくいくことが多い。 きれいに作る必要はないが,与えられたデータをながめるだけではどうにもならない。

(1) 生徒数は25人。 4点は4人。 5点は5人。 6点は7人。 相対度数はそれぞれ,
4÷25=0.16,5÷25=0.20,7÷25=0.28

(2) 累積度数分布表を見て,下から13番目が含まれている5がメジアン。

(3) の平均値=(2×1+3×3+4×4+5×5+6×7+7×2+8×1+9×1+10×1)÷25
=(2+9+16+25+42+14+8+9+10)÷25=5.4
=(4×1+9×3+16×4+25×5+36×7+49×2+64×1+81×1+100×1)÷25-5.42
=(4+27+64+125+252+98+64+81+100)÷25−29.16
=32.6−29.16=3.44

 あっさり求めているように見えるが,これは計算の過程を省略しているからであり,実際はかなり計算量がある。 こちらのほうが分かりやすいと思って去年はこちらしか書かなかったが,実は別解がある。 新しい変量−6を考える。 −6の値域は「−4,−3,−2,−1,0,1,2,3,4」である。
∴(−6)の平均値=(-4×1-3×3-2×4-1×5+1×2+2×1+3×1+4×1)÷25
={1×(2−5)+2×(1−4)+3×(1−3)+4×(1−1)}÷25
=(−3−6−6+0)÷25=−3÷5=−0.6
の平均値=6−0.6=5.4
また,
x−6=(−6)の平均値−{(−6)の平均値}
=(1×7+4×5+9×4+16×2)÷25−0.36
=95÷25−0.36=3.8−0.36=3.44

(4) 全体の得点の合計は,の合計との合計の和に等しい。 よって全体の平均値は
{(の平均値)×25+(の平均値)×25}÷50
={(の平均値)+(の平均値)}÷2
=(5.4+6.4)÷2=2.7+3.2=5.90
の平均値−(の平均値)の平均値=+(の平均値)
の平均値=3.44+5.4=32.6
σの平均値−(の平均値)の平均値=σ+(の平均値)
の平均値=1.9+6.4=44.57
よって全体の分散は,
{(の平均値)×25+(の平均値)×25}÷50−5.9
={(の平均値)+(の平均値)}÷2−34.81
=(32.6+44.57)÷2−34.81=38.585−34.81=3.775≒3.78


第5問 (目標時間:28分)
 

 別解:サシスセソタ=c90d65,チツテ=c29,トナニ=c20

 先に言っておくが,こういう問題はセンターのIIBでは出ないと思われる。 しかも長い。 と言うより教科書で習ったことを使っていない。 しかし形式としては,センター試験で表計算ソフトが出るならこのような感じになると思われる。 尤も,私は表計算ソフト自体が出題されそうにないと思っているのだが,黒本や緑本に掲載されており, また絶対出ないとも言い切れないため,毎年ソフトウェアの扱いが出題される情報関係基礎の過去問から, 数学IIBの範囲で解けるものを探してきて出題した。

問1 問題文中に与えられた式を題意のソフトウェアの表式を用いて記述する。

 表計算ソフトが出題された場合に最低限持っておくべき知識を挙げる。 各々のセルには数値や文字のほかに数式を記述できる。 数式の中には定数のほかにセルの番地を入力することができ,その場合にはセルに入力されている数値を代入して計算される。

 本問では3A001番の生徒の標準体重,肥満度A,肥満度Bを求めるのに数式で記述しなければならない。 標準体重について。 3A001番の生徒の身長はB2番地に入力されているので,D2番地には 「(B2−100)*0.9」すなわち「(0GF)*@」と入力する。 肥満度Aについて。 体重はC2番地,標準体重はD2番地に入力されているので,E2番地には「(C2/D2−1)*100」すなわち 「(DHaGA)*F」と入力する。 肥満度Bについても同様に考えて,「(C2/B2^3)*10000000」…(#)すなわち 「(DH0dE)*」と入力する。 なお,「^」は「/」より先に計算されるようである。 また,(#)は「(10000000/B2^3)*C2」すなわち「(cH0dE)*D」と入力しても 数学的には同じ値なので問題ないが,問題文を素直に解釈すれば(#)になるはずである。

問2 絶対値を用いて書かれているが,要するに「<−20のとき1,−20≦≦20のとき0, 20<のとき1」となるように出力したいのである。 選択肢を見ると等号付き不等号はないようなので,<−20と20<で場合わけする。 あとは選択肢を見ながら色々と試行錯誤をくり返すしかないと思われるが,次のように考えれば G2番地に入る式が分かるのではないかと思われる。

<−20−20≦≦2020<
出力

 <−20または20<なので,またはと相性のいい和で表すことを考える。 和で表すとなると−20≦≦20の部分は0でなくてはならないので,0+0である必要がある。 これを満たした上でG2番地に入れるべき式を考えれば,「IF(E2<-20,1,0)+IF(E2>20,1,0)」すなわち 「HAc」であると考えられるのではないだろうか。

 H2についても同じく考える。 すると答えは「0Ac」であると分かる。

 絶対値で表す場合について。 選択肢が6つしかないので全部試せば分かるのだが,ここでは別の考え方で解く。 たまに私大などで,「1と5を交互にくり返す数列1,5,1,5,…の第項は [ア]+[イ]×([ウエ])である。」のような問題が出題されることがある。 この問題を考える。 (−1)というのは−1,1,−1,1,…という風に2つの値を交互にとる。 これを用いて「3+2×(−1)」とすれば題意をみたす。 この式の意味を考えてみよう。 3から負の向きに2進むと1,正の向きに2進むと5になると言う主張である。 3というのが1からも5からも同じ距離にある点だから場合分けが必要なくなっている。

 本問でもこれと同様に考えよう。 −20と20から等距離にあるのは0である。 0からの距離が20より離れたら1,20以下なら0を表示すればよいので,G2番地には 「IF(10<ABS(E2),1,0)」すなわち「IF(A,1,0)」と入力すればよい。 また,100と160から等距離にある数は130なので,同じように考えて, 「IF(30<ABS(F2-130),1,0)」すなわち「IF(C,1,0)」と入力すればよい。

問3 集合論の問題である。 問題中の表4に書き込みながら考えれば間違いないかと思われる。 なお,説明の都合上,判定Aが,判定Bがである人数をf()で表す。

(1) f(1,0)を求める。

(2) f(0,0)=(判定Bが0の人数)−f(1,0)
=(全生徒数)−(判定Bが1の人数)−f(1,0)=H−(1)で求めた人数

(3) f(1,1)=(判定Aが1の人数)−f(1,0)=C−(1)で求めた人数
なお,Gでもいいのではないかと思った人もいるかと思うが,問題の流れではこの時点で判定Aが0の人数が 分かっていないと考えられるので,認められないだろう。

(4) f(0,1)(判定Bが1の人数)−f(1,1)=A

問4 A列が1,B列が0のものを数えればよい。
(判定A,判定B)=(0,0),(0,1),(1,0),(1,1)
なので,「判定A>判定B」なら(1,0)であり,判定AはG2,判定BはH2に入力されているので, 「IF(G2>H2),1,0)」すなわち「IF(EdF),1,0)」と入力すればよい。


 問題はこちら。