DAY9: 非階層的クラスタリングの3つの手法

Pythonの有名な機械学習用ライブラリであるscikit-learnには様々なアルゴリズムが実装されており、ユーザーは実際に実装しなくても簡単にアルゴリズムを呼び出せるようになっている。とはいえ、原理すら知らずに使うのは危険であり、また自分の目的に適した…

2016-03-09

Day8: Pythonでの初めてのログ出力

今日はPythonでのログ出力の話をしようと思う。やはりプログラムの自動化を目指すうえで、実行結果に異常がなかったかを一目で確認できるログ出力機能は必須であろう。 Pythonにはログ記録システムをサポートするloggingモジュールが標準ライブラリとして備…

2016-03-01

DAY7: SeleniumとBeautifulSoup4を使ったPython3でのWebスクレイピング

始動から一ヶ月半以上、想定より遥かに時間がかかってしまったが、ようやくデータ収集を行うスクリプトの目処が立ったのでここに記す。まず、今回のプログラムに使用したライブラリについて。 DAY1 : Scrape Shots - RedandWhiteDaysにおいては、urllib.req…

2016-02-03

プレミアリーグの試合データを自動返信するTwitter Bot

DAY6 : Twitter - RedandWhiteDaysでひな形を作成した、プレミアリーグ情報を自動返信するtwitter botを完成させ、本ブログのアカウントで24時間運用するようにしたので、本記事では具体的な機能を説明しようと思う。本botには以下の6つの機能が搭載されて…

2016-01-27

DAY6 : TwitterのStreaming APIを使ってリプライに自動返信するBotをPython3で作成する

ポアソン分布を用いたサッカーの得点予想モデルにより、試合結果の予測を行えるようになった。この予想結果に簡単にアクセスできるように、TwitterのStreaming APIを利用した自動返信機能を本ブログのツイッターアカウントに搭載することにした。したがって…

2016-01-23

Prediction 1 : ポアソン分布を用いたサッカーの得点予想モデル

前回得られた、ホームでの平均得点（Hs:Home scored)、ホームでの平均失点（Hg:Home gave）、アウェーでの平均得点（As:Away scored）、アウェーでの平均失点（Ag:Away gave）の4つのデータを元に得点モデルを構築し、ポアソン分布に基づいて試合結果の予測…

2016-01-21

DAY5 : Pandasを使ってみた

DAYS

今回はwebスクレイピングから一度離れ、次回に得点予想モデルを実装するためのデータの下準備を行おう。 PythonにはPandasというデータ分析用の有名なライブラリがあり、今回はそれを使ってみることにした。データセットは次のサイトのプレミアリーグの14/1…

2016-01-16

DAY4 : Python3.5のurllib.requestでユーザーエージェントを偽装してみる

DAYS

今日はPython3.5のurllib.requestでユーザーエージェントを偽装する話をする。 HTTPプロトコルに従ってサーバーにリクエストを送るとき、こちらのIPアドレスをサーバーに伝えなければ情報はもちろん送られてこない。実は、その他にも色々な情報をサーバー側…

2016-01-15

DAY3 : matplotlibの背景画像をPillowを用いて設定する

DAYS

まずは前回得られたshotsデータをmatplotlibでシンプルに可視化してみよう。今回は元サイトとの差別化のためshotの起点に時間を記載してみた。 import matplotlib.pyplot as plt fig=plt.figure() ax=fig.add_subplot(111) for i in range(len(shots)): if …

2016-01-13

DAY2 : 初めてのWebスクレイピング②

DAYS

昨日の記事のコードを詳しく見てみよう。まずはPythonの標準ライブラリurllib.requestを利用してwebページのソースコードを取得したシーン。 response=urllib.request.urlopen('http://www.fourfourtwo.com/statszone/8-2015/matches/803352/team-stats/56/…

2016-01-12

DAY1 : 初めてのWebスクレイピング

DAYS

分析をはじめるにあたって、当然必要となるのがデータだ。したがって本ブログの前半部はデータ収集の手法を確立する過程を記すこととなる。今回はPython3.5を使って、必要な情報をサッカーの情報サイトからwebスクレイピングすることにした。まず当面は特…

2016-01-12

Abstract

本ブログは、Bioinformaticsを専攻し、また同時にPremier LeagueのSunderlandのファンでもある筆者が、Bioinformaticsの講義で学んだデータサイエンスの手法をサッカーの試合データの分析に適用していこうという目標のもと、開始したものである。

2016-01-11

HelloHatena!

HelloHatena.py print('Hello Hatena!')