RedandWhiteDays

赤、白、ときどき黒猫

DAYS

DAY5 : Pandasを使ってみた

今回はwebスクレイピングから一度離れ、次回に得点予想モデルを実装するためのデータの下準備を行おう。 PythonにはPandasというデータ分析用の有名なライブラリがあり、今回はそれを使ってみることにした。 データセットは次のサイトのプレミアリーグの14/1…

DAY4 : Python3.5のurllib.requestでユーザーエージェントを偽装してみる

今日はPython3.5のurllib.requestでユーザーエージェントを偽装する話をする。 HTTPプロトコルに従ってサーバーにリクエストを送るとき、こちらのIPアドレスをサーバーに伝えなければ情報はもちろん送られてこない。実は、その他にも色々な情報をサーバー側…

DAY3 : matplotlibの背景画像をPillowを用いて設定する

まずは前回得られたshotsデータをmatplotlibでシンプルに可視化してみよう。 今回は元サイトとの差別化のためshotの起点に時間を記載してみた。 import matplotlib.pyplot as plt fig=plt.figure() ax=fig.add_subplot(111) for i in range(len(shots)): if …

DAY2 : 初めてのWebスクレイピング②

昨日の記事のコードを詳しく見てみよう。 まずはPythonの標準ライブラリurllib.requestを利用してwebページのソースコードを取得したシーン。 response=urllib.request.urlopen('http://www.fourfourtwo.com/statszone/8-2015/matches/803352/team-stats/56/…

DAY1 : 初めてのWebスクレイピング

分析をはじめるにあたって、当然必要となるのがデータだ。 したがって本ブログの前半部はデータ収集の手法を確立する過程を記すこととなる。 今回はPython3.5を使って、必要な情報をサッカーの情報サイトからwebスクレイピングすることにした。 まず当面は特…