前回は、日刊競馬の6名の予想をもとに、もっとも精度の高い競馬予想を行う方法として、精度(ここではAR=Accuarcy Ratioを用いています)が最大になるような手法を考えました。ただ、あるレースデータをもとにARを最大化しても、それを額面どおりに受け取ることはできません。では、どうするのかというと、ARの最大化に用いたレースデータとは別のレースデータを用意し、それでARを計算して比較します。つまり、学習データとパフォーマンスを計測するデータを別にするわけです。
そこで、学習データとして2010年3月27日から4月25日までの160レース2311頭のデータを用い、パフォーマンスの計算には、2010年5月1日から9日までの64レース927頭のデータを用いることにします。用いたデータは、以下のものです。
まず、学習データで、ARを最大化するポイント(本命、対抗などにつける点)を最大化すると、1:1: 1.4:1.9:2.4:2.9となり、ARは65.6%。ちなみに、前回述べたポイントが1:2:3:4:5:6の場合のARは65.1%なので、ARが大きくなるようにポイントが選ばれていることが分かります。以下、1:2:3:4:5:6のモデルをモデル0、ARを最大化したモデルをモデル1と呼ぶことにしましょう。問題は、モデル1がモデル0より予想精度が高くなっているのかどうかです。そこで、5月1日からの64レースのデータでARを比較してみることにします。
モデル0とモデル1でパフォーマンス比較を行ったときのROCカーブが下の図です。ARは、モデル0が61.0%、モデル1が60.5%となり、64レースとレース数が少ないので、確実に劣る(ARの差が優位)とまでは断言できませんが、すくなくともパフォーマンスが良くなってはいないことが分かります。
つまり、ARを最大化するようにポイントを動かした結果は過学習であって、新たなレースでの予測には使えないことが分かります。ちなみに、オッズのARは69.3%、6名の予想のARはそれぞれ44.6%,41.1%,46.5%,44.2%,55.0%,55.7%で、6名の平均のモデル0の精度が記者予想を5%以上上回っていることが分かります。
しかし、オッズの予想精度には8%以上負けているわけで、この差を埋める、さらにはオッズに勝つにはどうすればいいのでしょう?この答えを求めるのが目標であり、そう簡単ではありません。そこで、競馬予想の精度をあげることを考える前に、すこし競馬予想の別の観点からの比較を行ってみることにしましょう。