タイタニック号乗客員の決定木分析

作成日時
公開日時
2019年3月11日 11時11分
最終更新
2019年3月11日 11時16分
更新回数
10回
作成者
機関名
和歌山県
所属
データ利活用推進センター
氏名
鶴田靖人
TEL
0734882430
E-Mail
e0201001@pref.wakayama.lg.jp
概要 タイタニック号に乗船していた人の船室のクラス、性別、年齢及び生存(または死亡)のデータに決定木分析という統計手法を適用してて生死を分けた要因を分析した。決定木分析の結果から男性の大人は生存率は低く、女性や子どもの生存率が高いことが分かった。
カテゴリ 分析種:社会分析
分野:防災、その他
分析結果

性別、年齢、船室の等級(クラス)が説明変数、生存の有無が被説明変数である決定木分析の結果を説明する。生存者の割合が一番低いのは男性の大人であり、生存割合は約20%である。男性の子どものうち、等級が高い船室のクラス(1stまたは2nd)に泊まっていた人の生存割合は100%近いが、等級が低い船室のクラス(3rd)の生存割合は20%を少し上回っている。つまり、男性の中でも子どもの生存割合は大人よりも高い。女性(大人とこどもを含む)のうち、等級が高い船室のクラス(1stまたは2nd)に泊まっていた人の生存割合は90%近い。女性の中で一番低い等級の船室のクラス(3rd)に泊まっていた人の生存割合は約40%である。女性や子どもの生存割合が高いので、女性と子どもから優先的に避難させた(救助した)と考えられる。

分析結果のファイル

タイタニック号の生存者割合

分析に使用した統計ソフトRのコード(テキストファイル)

Rのコード

R上でのグラフ

Rで作成したグラフ

解説

決定木分析はデータを条件を与えて分割することでいくつかのクラスに分類する手法である。決定木分析の〇は分岐する条件を矢印は条件の値を表していて、例えば、タイタニック号の生存者割合の一番左側のクラスは「性別が男性」かつ「年齢が大人」である人のクラスを意味し、棒グラフからこのクラスの人が生存した割合は約20%であることが読み取れる。

ちなみに、決定木分析でデータを分割する基準はいくつか存在するが今回の分析ではジニ係数を用いている。

 

活用したデータ

使用したデータ

タイタニック号のデータ

データの変数の説明

Class : 1st、2rd、3rd、Crew (1等~3等までの船室のクラス、乗組員)

Sex : Male、Female (男性、女性)

Age: Adult、Child (大人、子ども)

Survived : Yes、No (生存、死亡)

【データの出所】

今回使用したデータはRのオブジェクトである「Titanic」である。「Titanic」の原出所を挙げておく。

Dawson, Robert J. MacG. (1995), The ‘Unusual Episode’ Data Revisited. Journal of Statistics Education, 3. https://www.amstat.org/publications/jse/v3n3/datasets.dawson.html