15. Copyright Shiroyagi Corporation. All rights reserved.
実際にデータを見ていきましょう
データセットはここからダウンロードして使います。
https://www.kaggle.com/harlfoxem/housesalesprediction
16. Copyright Shiroyagi Corporation. All rights reserved.
まずは、iPython Notebookを起動しよう!
$ipython notebook
以下のコマンドプロンプトで以下のコマンドを打つと
Jupyter Notebookが起動します。
17. Copyright Shiroyagi Corporation. All rights reserved.
必要なライブラリをインポート
%matplotlib inline #グラフをインラインで表示させる
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
matplotlib.style.use('ggplot') # ggplot風のグラフ形式
まずは必要なライブラリをインポート & スタイルなどを指定します
ちなみに最初の”%matplotlib inline”がないとグラフがインラインで表示されません。
18. Copyright Shiroyagi Corporation. All rights reserved.
データの読み込み
#CSVの場合
dataset = pd.read_csv(“ファイル名”)
#TSVの場合
dataset = pd.read_csv(“ファイル名”, delimiter = ‘t’)
19. Copyright Shiroyagi Corporation. All rights reserved.
(参考)データベースからデータを抽出する
import pandas as pd
import pandas.io.sql as psql
import pymysql
con = pymysql.connect(host='XXX’,
port=3306,
user='user_id',
passwd='user_pass',
db='test',
charset='utf8',
use_unicode='true')
sql = “SELECT * FROM test_table”
data = psql.read_sql(con, sql)
MySQLであればpymysqlライブラリ(PostgreSQLであればpsycopg2ライブラリ)と
pandas.io.sqlを使えば、データベースからSQLを使ってデータを抽出することもできます。