タイタニック号乗客員の決定木分析

公開日: 2019年3月11日

代表研究者
所属機関 和歌山県データ利活用推進センター
氏名 鶴田靖人
e-mail e0201003@pref.wakayama.lg.jp
 

概要

タイタニック号に乗船していた人の船室のクラス、性別、年齢及び生存(または死亡)のデータに決定木分析という統計手法を適用してて生死を分けた要因を分析した。決定木分析の結果から男性の大人は生存率は低く、女性や子どもの生存率が高いことが分かった。

分析結果

タイタニック号の生存者割合


 

性別、年齢、船室の等級(クラス)が説明変数、生存の有無が被説明変数である決定木分析の結果を説明する。生存者の割合が一番低いのは男性の大人であり、生存割合は約20%である。男性の子どものうち、等級が高い船室のクラス(1stまたは2nd)に泊まっていた人の生存割合は100%近いが、等級が低い船室のクラス(3rd)の生存割合は20%を少し上回っている。つまり、男性の中でも子どもの生存割合は大人よりも高い。女性(大人とこどもを含む)のうち、等級が高い船室のクラス(1stまたは2nd)に泊まっていた人の生存割合は90%近い。女性の中で一番低い等級の船室のクラス(3rd)に泊まっていた人の生存割合は約40%である。女性や子どもの生存割合が高いので、女性と子どもから優先的に避難させた(救助した)と考えられる。

分析結果のファイル

解説

決定木分析はデータを条件を与えて分割することでいくつかのクラスに分類する手法である。決定木分析の〇は分岐する条件を矢印は条件の値を表していて、例えば、上記決定木分析の一番左側のクラスは「性別が男性」かつ「年齢が大人」である人のクラスを意味し、棒グラフからこのクラスの人が生存した割合は約20%であることが読み取れる。

ちなみに、決定木分析でデータを分割する基準はいくつか存在するが今回の分析ではジニ係数を用いている。

活用したデータ

データの変数の説明

Class : 1st、2rd、3rd、Crew (1等~3等までの船室のクラス、乗組員)

Sex : Male、Female (男性、女性)

Age: Adult、Child (大人、子ども)

Survived : Yes、No (生存、死亡)

データの出所

今回使用したデータはRのオブジェクトである「Titanic」である。「Titanic」の原出所を挙げておく。

Dawson, Robert J. MacG. (1995), The ‘Unusual Episode’ Data Revisited. Journal of Statistics Education, 3.

https://www.amstat.org/publications/jse/v3n3/datasets.dawson.html(外部リンク)

関連リンク

このページの先頭へ