【機械学習入門第2回】Pandasで数値データを処理してみる

機械学習の基礎を学ぶための「機械学習入門」。以下のページを参考にして、日本語解説を加えました。ソースコードも以下にあります。

Basic Data Exploration
Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

今回は、Excelのような数値データ(テーブルデータ)を処理するために最も用いられるpandasというモジュールについて説明します。

Pandasを使用してデータを理解する

機械学習プロジェクトの最初のステップは、データに精通することです。 そのためにPandasライブラリを使用します。

Pandasは、データサイエンティストがデータの探索と操作に使用する主要なツールです。 ほとんどの人は、コードのなかでpandasをpdと省略しています。

import pandas as pd

Pandasライブラリの最も重要な部分はDataFrameです。 DataFrameは、Excelのシート、またはSQLデータベースのテーブルに似たテーブルデータのタイプを保持します。

例として、オーストラリアのメルボルンの住宅価格に関するデータを見てみましょう。 。

サンプルデータは、ファイルパス../input/melbourne-housing-snapshot/melb_data.csvにあるとします。

次のコマンドを使用して、データをロードして調査します。

melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 

melbourne_data.describe()

データの説明の解釈

.describe()の出力には、データセットの各列に対して、以下の8つの数値が表示されます。
count:行の数(欠損していない行)
mean:平均値
std:標準偏差 (値がどの程度数値的に分散しているか)
min、25%、50%、75%、max:
リストの値を小さいほうから4分の1進んだ数値が25%の値です(「25パーセンタイル」と発音します)。 50パーセンタイルと75パーセンタイルも同様に定義されます。

meansは、欠損していない行と説明しています。欠測値は多くの理由で発生します。 たとえば、寝室が1つしかない家の場合、2つ目の寝室のサイズは欠損値となります。欠損値については、後ほど学びます。

今回はPandasの基礎について学びました。次は簡単な機械学習モデルを構築してみます。

Basic Data Exploration
Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources
機械学習入門
スポンサーリンク
この記事を書いた人

某自動車メーカー勤務、主に計算系の基礎研究と設計応用に従事してます。
シミュレーションや機械学習を愉しむ方、これから始めたい方に役に立ちそうなことを書いてます。

Montenegro Hasimotoをフォローする
シェアする
mnt_hasi at work

コメント

タイトルとURLをコピーしました