(練習問題)以下の設問に対し,単刀直入の答えだけでなく,図示などの寄り道も示すこと. もちろん,ことばによる説明がないものは,不可である.       シメキリ:11月14日(月)17時(提出先:319号室)       【提出のない場合は,授業を断念したものと見なします.】 【1】(Verzani, Example 9.1) samhda データ(package: UsingR)は,未成年就学児童の健康状態を 示すものである. samhda.bis <- samhda[samhda$amt.smoke < 98,] table(samhda.bis$amt.smoke, samhda.bis$gender) gender =1 は男性,=2 は女性,=7 は未判別であり,amt.smoke は先月の喫煙状態である(1: 毎日喫煙, 7: 喫煙なし,他は ?samhda を参照). A) 喫煙分布に男女別の違いがみられるか? B) amt.smoke の値毎の比率を,(.15, .05, .05, .05, .10, .20, .40) と予想したが,この予想を   裏付ける結果となっているか? 【2】(Verzani, Problems 9.3) M and M の袋入りキャンディー(チョコだったような気が,...) の色の比率は,それぞれの袋により,以下のように決められている(mandms in UsingR を参照). > data(mandms) > mandms blue brown green orange red yellow milk chocolate 10.0000 30.0000 10.0000 10.0000 20.0000 20.0000 Peanut 20.0000 20.0000 10.0000 10.0000 20.0000 20.0000 Peanut Butter 20.0000 20.0000 20.0000 0.0000 20.0000 20.0000 Almond 16.6667 16.6667 16.6667 16.6667 16.6667 16.6667 kid minis 16.6667 16.6667 16.6667 16.6667 16.6667 16.6667 格安セールで買った袋(パッケージ名は,上記のいずれとも異なる)は,以下のような比率であった. > bagfull <- c(15,34,7,19,29,24) > names(bagfull) <- c("blue","brown","green","orange","red","yellow") > bagfull blue brown green orange red yellow 15 34 7 19 29 24 この格安セールでの袋は,上記のパッケージのどのラインで製造されているものといえるか? 【3】(Verzani, Problems 9.5) scrabble は,文字を並べつなげていくゲームである.ある対戦 での文字の頻度を調べたものが scrabble データ(package: UsingR)である.文字の使用頻度の分 布について,典型的な文章と比較し,対戦者の言語が英語であったか,それとも他言語であったの か,検討せよ.(ヒントは,?scrabble によるヘルプファイルの Examples を見よ. なお,Examples のラスト行は微妙によくない) 【4】(Verzani, Problems 7.14) 米国の全国統一テスト SAT のスコアの一例が,stud.recs に おさめられている.sat.v は言語的能力テストのスコア,sat.m は数量的能力テストのスコアである. 両者の相関について検討せよ. 【5】(Verzani, Problems 7.28) 新生児に関するデータセット(babies in UsingR)について, コラム名 wt は新生児の体重,age は母親の年齢,dage は父親の年齢,smoke は喫煙経験である. A) 両者の比較を行え.分布の比較,代表値の比較,パラメトリック,ノンパラメトリックなど, いろいろな手法を用いて検討せよ.(なお,99 という数字が含まれるが,まさかの 99 歳を意味 するわけでない.?babies を参照せよ) B) 喫煙経験の違いによる新生児の体重に差があるのだろうか?検討せよ. 【6】(Verzani, Problems 11.4)車の事故に関するデータ carsafety(UsingR)を用いて, 車種(type)による死者率の違いはあるのだろうか?また,死者率について,運転者とそれ以外の 2つに分けて検討せよ. 【7】1340名の野球選手のデータ(hall.fame)について,殿堂入りした(Hall of Fame Membership) 選手とそうでない選手に打率の違いはあるか?また,他の観点からも自由に検討せよ. 【8】ewr(UsngR)は,Newark Liberty 空港の各航空会社毎の離陸/発着時刻の遅れを調べたものである. Newark Liberty 空港は,離陸時刻が遅れることで有名である.以下のようにして得られる離陸時刻の遅れ に,航空会社による違いがあるといえるか? ewr.out <- stack(subset(ewr, subset=inorout=="out", select=3:10)) names(ewr.out) <- c("times", "airline") boxplot(ewr.out$time ~ ewr.out$airline) Verzani, J. (2005): Using R for Introductory Statistics, Chapman & HALL/CRC, 414p. (データ取得は,http://cran.r-project.org/src/contrib/Descriptions/UsingR.html にて)