04. 機械学習講習会への接続

機械学習コードを読む前に

機械学習のコードは、だいたい次の流れで書かれます。

  1. データを読み込む
  2. データを確認する
  3. 入力 X と正解 y に分ける
  4. 学習用とテスト用に分ける
  5. モデルを作る
  6. 学習する
  7. 予測する
  8. 評価する

この基礎講習会では、特に 1 から 3 までをスムーズに読める状態を目指します。

データを見る視点

機械学習では、いきなりモデルを使う前にデータを確認します。

print(df.head())
print(df.shape)
print(df.isna().sum())
print(df.dtypes)

確認したいことは主に次の4つです。

  • 行と列はいくつあるか
  • 欠損値はあるか
  • 数値列と文字列列はどれか
  • 正解として予測したい列はどれか

入力と正解

例えば、数学と英語の点数から合格したかどうかを予測したいとします。

X = df[["math", "english"]]
y = df["passed"]
  • X: モデルに渡す材料
  • y: モデルに当ててほしい答え

今日のまとめ

Python基礎講習会で大事なのは、すべてを完璧に暗記することではありません。

まずは次を意識してください。

  • エラーが出ても、上から読めば原因の手がかりがある
  • データは「表」として見ると理解しやすい
  • 機械学習の前に、Pythonでデータを扱えることが大切
  • わからないコードは、変数の中身を print() して確認する