04. 機械学習講習会への接続¶
機械学習コードを読む前に¶
機械学習のコードは、だいたい次の流れで書かれます。
- データを読み込む
- データを確認する
- 入力
Xと正解yに分ける - 学習用とテスト用に分ける
- モデルを作る
- 学習する
- 予測する
- 評価する
この基礎講習会では、特に 1 から 3 までをスムーズに読める状態を目指します。
データを見る視点¶
機械学習では、いきなりモデルを使う前にデータを確認します。
print(df.head())
print(df.shape)
print(df.isna().sum())
print(df.dtypes)
確認したいことは主に次の4つです。
- 行と列はいくつあるか
- 欠損値はあるか
- 数値列と文字列列はどれか
- 正解として予測したい列はどれか
入力と正解¶
例えば、数学と英語の点数から合格したかどうかを予測したいとします。
X = df[["math", "english"]]
y = df["passed"]
X: モデルに渡す材料y: モデルに当ててほしい答え
今日のまとめ¶
Python基礎講習会で大事なのは、すべてを完璧に暗記することではありません。
まずは次を意識してください。
- エラーが出ても、上から読めば原因の手がかりがある
- データは「表」として見ると理解しやすい
- 機械学習の前に、Pythonでデータを扱えることが大切
- わからないコードは、変数の中身を
print()して確認する