03. NumPyとPandas¶
NumPy¶
NumPyは数値計算を効率よく行うためのライブラリです。
import numpy as np
scores = np.array([80, 65, 90])
print(scores.mean())
print(scores.max())
配列にまとめて計算できるため、機械学習の内部でもよく使われます。
scores = np.array([80, 65, 90])
adjusted = scores + 5
print(adjusted)
Pandas¶
Pandasは表形式データを扱うためのライブラリです。
import pandas as pd
df = pd.read_csv("examples/scores.csv")
print(df.head())
よく使う操作¶
print(df.info())
print(df.describe())
print(df["math"])
print(df[["math", "english"]])
条件で絞り込む¶
passed = df[df["math"] >= 60]
print(passed)
新しい列を作る¶
df["average"] = (df["math"] + df["english"]) / 2
print(df)
機械学習でよく見る形¶
機械学習では、入力データ X と正解ラベル y に分けることが多いです。
X = df[["math", "english"]]
y = df["passed"]
この X と y の考え方は、次の機械学習講習会で何度も使います。