タイタニック号乗客員の決定木分析
公開日: 2019年3月11日
所属機関 | 和歌山県データ利活用推進センター |
---|---|
氏名 | 鶴田靖人 |
e0201003@pref.wakayama.lg.jp |
概要
タイタニック号に乗船していた人の船室のクラス、性別、年齢及び生存(または死亡)のデータに決定木分析という統計手法を適用してて生死を分けた要因を分析した。決定木分析の結果から男性の大人は生存率は低く、女性や子どもの生存率が高いことが分かった。
分析結果
分析結果のファイル
- 分析に使用した統計ソフトRのコード(テキストファイル)
Rのコード(テキスト形式 1キロバイト) - R上でのグラフ
Rで作成したグラフ(PDF形式 8キロバイト)
解説
決定木分析はデータを条件を与えて分割することでいくつかのクラスに分類する手法である。決定木分析の〇は分岐する条件を矢印は条件の値を表していて、例えば、上記決定木分析の一番左側のクラスは「性別が男性」かつ「年齢が大人」である人のクラスを意味し、棒グラフからこのクラスの人が生存した割合は約20%であることが読み取れる。
ちなみに、決定木分析でデータを分割する基準はいくつか存在するが今回の分析ではジニ係数を用いている。
活用したデータ
データの変数の説明
Class : 1st、2rd、3rd、Crew (1等~3等までの船室のクラス、乗組員)
Sex : Male、Female (男性、女性)
Age: Adult、Child (大人、子ども)
Survived : Yes、No (生存、死亡)
データの出所
今回使用したデータはRのオブジェクトである「Titanic」である。「Titanic」の原出所を挙げておく。
Dawson, Robert J. MacG. (1995), The ‘Unusual Episode’ Data Revisited. Journal of Statistics Education, 3.
https://www.amstat.org/publications/jse/v3n3/datasets.dawson.html(外部リンク)