Kaggle無料会員登録&CSVダウンロード Kaggleの利用には無料会員登録が必要となります。 Sex:乗客の性別• ドメイン知識やAICなどの統計的基準を使って変数選択• Series には欠損値の確認をするisnull メソッドが用意されています(便利すぎないか)。 きちんと数値に変換されています。 Kaggleのディスカッションの大きなカテゴリです。 その後データタブをクリックすると、train. isnull からそのままを出力すると膨大なテーブルデータが返ってくるので関数を使ってデータを整形します。
もっと実際にはこの様なデータ それぞれ項目を確認しておきます。 条件付き確率の最も高い「S」で補完 を行います。 データの中身は以下のようになっております。 さらに、Kernels(カーネル)の嬉しいところは、実際に提出する予測ファイルまで完成できるところです。 年齢 Age• tree は、決定木による分類が実装されているクラスです。 一人では理解が難しい機械学習のアルゴリズムやライブラリの使い方まで分かりやすく受講する事ができますよ!無料カウンセリングも行なっているので気になる方は是非。
もっと3 'Fare' 料金 の欠損値の見直し データを確認すると、'Pclass' チケットクラス が3で、'Embarked' 出港地 が'S'だと分かります。 Name(名前)とAge(年齢)の関係 学習用データのName(名前)を眺めていると、Mr、Missなどの敬称でグルーピングできることに気が付きます。 000000 敬称ごとに年齢の平均値に偏りがあることがわかります。 700を決めるために、学習データの数を400~891の間で50刻みに動かして一番精度が良かったものを選んでいて、結構適当である。 各コンペの「Evaluation」のページに詳細が記載されています。 説明変数と目的変数 訓練データから 説明変数と 目的変数を決定します。
もっとデータ前処理 データ読み込み とりあえず教師データとテストデータを読み込ませます。 顧客情報が記載されています。 タイタニックコンペティション 常時参加可能な初心者向けコンペティションです。 という風に全部英語で初心者にはとっつきにくい内容になってます。 (1)準備• まじめにやるならば、CV的なアプローチで学習データの適切な数を求めたほうがいいと思う。
もっと各カラムの簡単な説明をは以下の通りです。 The variant Mister, with the same pronunciation, is sometimes used to give jocular or offensive emphasis, or to address a man whose name is unknown. では、欠損データを含めたデータの事前処理を次は行なっていきましょう! データセットの事前処理 データセットの事前処理が一番重要ですが、今回はあくまでKaggle初心者向けチュートリアルですので、基本的なことを行なっていきます。 test. 提出ファイルがルールに沿っていないと、正確に評価もされませんしスコアもつきません。 ぜひ、ご自身のパソコンを使って同じ手順を踏んでみてください。 物事の結果とする変数なので、今回のケースでは「Survived(生存したかどうか)」が目的変数に対応するカラムになります。
もっとPassengerId Survived Pclass. 決定木を用いて予測する 予測モデルを作成したので、これをテストデータに適応させます。 データを眺めて仮説を立ててみよう データを眺めて、なんなとなく生死には、 年齢 Age 、 男か女 Sex 、 客室等級 Pclass の3つが効いているのではないかと仮設を立てました。 前処理 ここでは扱いやすい以下の7つの特徴量を使います。 一緒に乗船した兄弟、配偶者の数 SibSp• mode 列Ageの欠損値をAgeの最頻値で穴埋め train. 上の結果を見ると、Age(年齢)の欠損値を学習データのMedian(中央値)28で一律に補完するというのはだいぶ強引でしたね。
もっと