【機械学習入門第2回】Pandasで数値データを処理してみる

機械学習の基礎を学ぶための「機械学習入門」。以下のページを参考にして、日本語解説を加えました。ソースコードも以下にあります。

https://www.kaggle.com/dansbecker/basic-data-exploration

今回は、Excelのような数値データ(テーブルデータ)を処理するために最も用いられるpandasというモジュールについて説明します。

Pandasを使用してデータを理解する
データの説明の解釈

Pandasを使用してデータを理解する

機械学習プロジェクトの最初のステップは、データに精通することです。そのためにPandasライブラリを使用します。

Pandasは、データサイエンティストがデータの探索と操作に使用する主要なツールです。ほとんどの人は、コードのなかでpandasをpdと省略しています。

import pandas as pd

Pandasライブラリの最も重要な部分はDataFrameです。 DataFrameは、Excelのシート、またはSQLデータベースのテーブルに似たテーブルデータのタイプを保持します。

例として、オーストラリアのメルボルンの住宅価格に関するデータを見てみましょう。。

サンプルデータは、ファイルパス../input/melbourne-housing-snapshot/melb_data.csvにあるとします。

次のコマンドを使用して、データをロードして調査します。

melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 

melbourne_data.describe()

データの説明の解釈

.describe()の出力には、データセットの各列に対して、以下の8つの数値が表示されます。
count：行の数(欠損していない行)
mean：平均値
std：標準偏差 (値がどの程度数値的に分散しているか)
min、25％、50％、75％、max：
リストの値を小さいほうから4分の1進んだ数値が25％の値です（「25パーセンタイル」と発音します）。 50パーセンタイルと75パーセンタイルも同様に定義されます。

meansは、欠損していない行と説明しています。欠測値は多くの理由で発生します。たとえば、寝室が1つしかない家の場合、2つ目の寝室のサイズは欠損値となります。欠損値については、後ほど学びます。

今回はPandasの基礎について学びました。次は簡単な機械学習モデルを構築してみます。

https://www.kaggle.com/dansbecker/basic-data-exploration