netkeiba.com - 競馬データベース 例えばこんな例がある。 分類問題では予測ラベルではなく所属確率(1着の所属確率など)を予測値としてベストN頭を選出し、そのN頭についての各馬券種のN頭BOXの的中率、回収率、回収率の標準偏差を算出します。 mail:stockedge[at]sk2.so-net.ne.jp まずは、分析手法についてご紹介します。 ここでは回帰分析、その中でも重回帰分析と呼ばれる手法を利用して競馬予測をしています。 回帰分析は、機械学習の中でも最も一般的な手法の一つで、その中でも単回帰分析と重回帰分析の2つに分けられます。 回帰分析に関するご説明はこちらの記事でもご紹介しているので、詳しく知りたいという方がいらっしゃいましたらご参考ください。 ただこちらのページで紹介しているのは数 … 機械学習 まず、次の2ステップからrace_idの重要度が高く見積もられていることがわかります。, 'race_id'の特徴量を消した場合、7年間すべての年で、回収率が10%程、testに対するrmseが0.1程悪くなりました。 しかし本番はここからである。問題は、このモデルの予測力が他の馬券購入者達の予測力に勝てるかどうかだ。 前者の考え方は絶対評価になるので、もし出走馬のレベルが高い場合は全頭が勝ち馬であると予測するのを許すことになりますが、それは現実の競馬予想に当てはめればナンセンスなのは明らかです。 ワイド(quinella place)の上位3頭boxで的中率44.2%で回収率117%という攻守が安定した買い方もできそうです。 しかし、これでもまだ支持率を使ったモデルの予測精度74%には届かない。, 最後のひと押しに、支持率を私のモデルの素性に加えてしまうことにしよう。 次は実際の運用を考えてみましょう。競馬は毎週定期開催されていますが、毎レースの3着以内に入るであろう出走馬を予測して、あわよくばお金持ちになりたいと考えています。 では毎週、機械学習のワークフローを最初から順番に実施していきますか?1. そこで、走破タイムをそのまま予測するのではなく、コースの距離で割った走破速度を予測する回帰問題も考えられます。 ただ、私は余裕をもって馬券を買いたいので、レース直前に確定するオッズを特徴量に組み込みたくないのです。, 競馬は様々な要因が絡むので、純粋に走破タイムを予測するのは困難です。困難だからこそ、人が賭けないような期待値の高い馬を予測してくれるのではないか?(暴論)。よし、走破タイムで行こう。, 京都に住んでいるので、京都競馬のみを対象としました。データは、2009年から2019年までのほぼ全レース(データの前処理の項で説明します)とします。 競馬予測として考えられる回帰問題は以下のような例があります。, 回帰で一番自然なアプローチが走破タイムの予測でしょう。 しかし今回は、ちょっと思い立って競馬の予測をやってみることにした。 ちなみにデータ解析はデータを解析できる形に持っていくまでが全工程の九割を占めると言われている。実際私もこのスクレイピング&素性作成用スクリプトを作成するのに数週間はかけている*4。このスクリプトを無料で使える皆さんは幸運である。 データ分析, 機械学習, AI技術は検索の分野でも使われている。特にGoogle検索において利用者が必要とする情報を表示するためにAIが活用されている。このコラムではGoogle検索におけるAIの活用について説明する。, 2019/4/20 News, ディープラーニング, ニューラルネットワーク, ビッグデータ. このアイデアをRのコードに落とし込んでみよう。, OOBエラーおよびテストデータでの予測精度が約72%になっている。先ほどより2%精度が向上している。やはり相対的な能力差の情報を使うことで精度が向上するようだ。 ベースラインには確定単勝オッズ(人気)のトップN頭について同様の評価をおこないます。 「他の馬券購入者達の予測」を表すモデルとして、以下の素性だけを用いて学習したモデルを使用する。, 単勝オッズから逆算された支持率は「他の馬券購入者達の予測」そのものである。だから、もし競馬市場が効率的であるならば、この支持率を使ったモデルを超える予測精度は生み出せないはずである。なので、このモデルの予測精度を超えられるかどうかが競馬市場の効率性を測る一つの目安となる。, このモデルの予測精度は約74%である。 それならばレースにおいて予測値のベストN頭について的中率と回収率を比較するのが素直なアプローチといえるでしょう。 競馬予測として考えられる分類問題は以下のような例があります。, 問題例の上3種類はクラスラベルがTrue/Falseの2つで表される二値分類問題、下2種類は多クラス分類問題となっています。 機械学習の問題は**教師あり学習(Supervised Learning)と教師なし学習(Unsupervised Learning)**の大きく2つに分類されます1。 教師あり学習とは、特徴ベクトル xixi に対する望ましい応答 yiyi の組 (xi,yi)(xi,yi) を訓練データとして与え、それをガイドにして関係 y=f(x)y=f(x) を学習をします。そのようにして得られた予測モデル ff に未知の特徴ベクトルを与えることで未来の現象を予測します。予測モデル ffは、線形モデル、ニューラルネットワーク、決定木、サポートベクターマシンなどモ … 回収率の標準偏差は、たまたま大きな当たりを当てたのか平均的に高い回収率を安定して出しているのかを判断する材料となります。, また、評価値がどれくらいからが良い値なのかがモデル性能評価単体ではわかりにくいのでベースラインを用意します。 このことから、race_idの特徴量が必要であることがわかります。, 1.2からrace_idの重要度が、現状より大きく見積もられていることがわかります。, このようにrace_idの重要度は下がります。だたし、回収率やrmse'sがよくなることとは別次元のお話です。 まずは競馬予想AIに必要な、機械学習の部分について解説しようと思います。 手始めに、前回同様の小さなデータ(馬と騎手の名前、競馬場の名前、馬場の種類、天気、距離)のみを学習させる例について考えてみましょう。 Why not register and get more from Qiita? 競馬予測に直接使うことは難しいですが、コース適性が類似している競走馬にグループ分けをしたり、騎乗依頼関係が類似している騎手をグループ分けするなど、データの分析や教師あり学習アルゴリズムへの入力データ作りとして応用することができます。 訓練データを2014年1月~2015年12月(181レース)、評価用のテストデータを2016年1月~2016年12月(50レース)とします。, 予測モデルの入力となる特徴量は前回の記事で使用したものと同じ特徴量を使います。 株予測の勝率63.63%を達成 | By following users and tags, you can catch up information on technical fields that you are interested in as a whole, By "stocking" the articles you like, you can search right away. これでようやく予測精度が74%を超えることができた。ヤッター!(*´ω`*) ブログを報告する, 他にも走破タイムを予測する方法もあるようだが、結局は予測されたタイムを元にして何着かを予測するのだから、後者の方法に含まれる扱いにした, 私は実際に実験したわけではないので「厳密な着順の数値」を予測することによりどれだけのバイアスが入るのかは知らない。ひょっとしたら無視できるほどに小さい量かもしれない。しかし仮にそうだったとしても、まず最初はシンプルな方法を試すべきだと思うので、ここでは「一着になるかどうかの二値」を予測する方法を採用する。, 正例と負例の比率が偏っているデータ、例えば正と負の比率が1対99となっているようなデータのこと, ちなみに私は分類問題にはランダムフォレストばかり使っているランダムフォレスト信者だ。だってOOBエラーや素性の重要度が簡単に見れるし、ハイパーパラメータのチューニングが楽だし、そもそもチューニング自体をしなくてもデフォルトのパラメータで良い性能が出ることが多いし…, 160億円ボロ儲け!英投資会社が日本の競馬で荒稼ぎした驚きの手法 - NAVER まとめ, Identifying winners of competitive events: A SVM-based classification model for horserace prediction, 今回は最終支持率をそのまま素性に追加したが、実際に利用可能なデータはレース開始直前の支持率であり、最終支持率とはズレがあるかもしれない。レース開始直前の, レースが荒れるかどうかを予測するほうが簡単らしいので、後でそっちの方法も試そう…と思って今ちょっとだけやってみたけどあんまりうまくいかないぞこれ…, そもそもの目的は競馬で儲けることであり、そのためには予測力ではなく回収率を高めなければならない。なので強化学習や. LambdaRankによる学習の基本. titleのtrainとtestはそれぞれに使ったデータの期間を表しています。(09は2009年), 的中率はまあまあですが、驚いたのは、オッズの高い馬をちょくちょく当ててきていることです。, 気になるので、中身を見てみましょう アルゴリズム, データ分析, 活用事例, AI(人工知能)を使えば競馬予想なんて簡単に行えるのではないか。誰しもそう考えるが、実は競馬予想AIはすでに存在する。その実力やいかに。, AI(人工知能)は囲碁や将棋のトッププロをことごとく破ってきた。囲碁と将棋には、単純なルールに基づいて複雑な読みを展開するという共通点がある。そして競馬も、ルールは一番速く走る馬を当てるだけなので単純だが、どの馬が最も速く走るかという読みは複雑極まりない。, しかし素人と考えだと、競馬予想のほうが囲碁や将棋で勝つことより簡単そうに思える。ならば競馬予想AIを開発すれば大儲けできる。, しかしいまだにAIを使って競馬で勝ちまくっている人のニュースを聞かない。なぜだろうか。, 結論からいうと、百発百中の競馬予想AIはまだ開発されていない。また、そのようなAIが完成する気配もない。, さらに、もし百発百中の競馬予想AIが開発「されてしまったら」、競馬という事業は破綻するだろう。例えば日本最大の競馬団体のJRA(日本中央競馬会)の純利益は年間593億円しかない(2017年1月期)。万馬券(100円の馬券で10,000円の配当になる馬券)を1,000万円分買えば10億円になる。百発百中の競馬予想AIを使ってこの賭け方をわずか60回実行されただけで、JRAは赤字に陥ってしまう。, しかしJRAが破綻することは、しばらくはなさそうだ。なぜならAIをもってしても、勝ち馬を当てることは非常に難しいからだ。競馬は不確定要素が多すぎるからである。, まず馬の数が多い。JRAだけでも競走馬は7,870頭も登録されている(2018年10月現在)。馬の速さは血統や調教状況などによって変わるので、その膨大な情報を7,870頭分入手しなければならない。, また競馬はレースの数が多い。JRAは全国に10の競馬場を持ち、年始を除く毎週土日に最大3カ所の競馬場でレースを行っている。1カ所の競馬場で1日12レース行うから単純計算で、年最大3,744レース(=1年52週×2日(土日)×最大3競馬場×12レース)行われていることになる。, そして騎手のスキルや調子もレースの行方を大きく左右する。競馬コースは芝、ダート、障害の3種類あり、コースを右回りするレースと左回りするレースがある。これらはいずれも馬によって得手不得手があり、勝敗に大きく影響する。, つまり競馬は、健康(騎手と馬)と自然という、予想しづらい要素によって勝敗が決まるゲームなのだ。これに比べると将棋の手の予想は、40個の駒を81マスのなかでどう動かすかだけにすぎないといえる。その将棋ですらAIが余裕で将棋のトッププロに勝てるわけではない。, IT企業のココン株式会社は、競馬予想AIの原理をホームページ上に公開している。その実力はすでに「馬券の購入金額以上の払い戻しが期待できる」程度に達したという。, ココンのエンジニアは、競馬予想が相対的であることがAI活用を難しくしていると話している。相対的の反対は絶対的だが、絶対的な予測ならAIは難なくこなす。, 例えば、1頭の馬の情報と競馬場のコンディション情報とその日の天候情報をAIに入力し、この馬のこの競馬場でのその日の1周のラップタイムを予測することはそれほど難しくないという。これが絶対的な予測だ。, AIは大量のデータ(馬や競馬場などの情報)から結果(ラップタイム)を予測することが得意なのである。将棋AIも、大量の勝ちパターン情報と相手の一手(データ)から次の一手(結果)を導き出しているので、行っているのは絶対的な予測である。, ではなぜ相対的な予測を、AIは苦手とするのだろうか。それは「強い馬に負けた馬」と「弱い馬に勝った馬」が同じレースに出る場合、どちらを高く評価したらいいのか、AIにはわからないからだ。, 「強い馬に負けた馬」は、弱い馬と競争すれば勝てるかもしれないし、また負けるかもしれない。, 一方「弱い馬に勝った馬」は、強い馬と競争したら負けるかもしれないし、また勝てるかもしれない。, これでは「勝利数が多い馬が強い馬」とはいえないし、「勝利数が多い馬が次も勝つ」ともいえない。, 1年間に最大3,744レースが行われ、1レースに最大18頭の馬が出走し、その馬は7,870頭のなかから選ばれる。つまり出走する馬はすべて「勝てるかもしれないし、負けるかもしれない」のだ。要するに予測不可能、となる。, そこでココンは、ベテランの競馬ファンが「この馬は強い」といったり「この馬は弱い」といったりすることに着眼した。つまりすべての馬に「強さの序列」をつくれば、かなりの高確率で次のレースで勝てる馬を当てられる、というわけだ。, そして強さの序列をつくる情報源として、過去のレース結果を使うことにした。強さは「勝った馬のほうが負けた馬より強い」と判定することにした。, これに騎手、競馬場、天候、馬の成長、馬と騎手の相性などのデータを盛り込んで、競馬予想AIを開発した。, その実力は先ほど紹介したとおり「馬券の購入金額以上の払い戻しが期待できる」レベルであるが、同社のエンジニアは、このAIで「競馬で勝つことは保証しない。馬券購入は自己責任で」とコメントしている。, 競馬予想AIはまだ手探り状態といえ、各社各様の理論に基づいて開発を進めている。したがって上記で紹介した競馬予想AIの原理は、あくまでココンによるものである。, ドワンゴはユニークな方法でAIによる競馬予想を行っている。まずは一般の人から募金を集める。それを使って競馬をしてしまってはノミ行為になってしまうので、その募金は使わない。その代わりドワンゴ側が、募金と同じ額を自社で用意して、そのお金で競馬予想AIが予想した馬券を買う。, 一般の人から集めた募金も、競馬で勝ったお金も寄付する。寄付先は犬や猫の不妊手術を無償で行っている団体などとなっている。, ドワンゴの競馬予想AIの成績は、以下のとおりだった。( )はその月の馬券の購入金額である。, 興味深いのは、毎月成績が向上しているところだ。ちなみに3月は7日間競馬を行い、すべての日で収支は赤字だった。, AIは鍛えれば鍛えるほど賢くなる。ドワンゴは競馬予想AIに1万回のシミュレーションをやらせた。, そのシミュレーション結果は、勝ち(収支が黒字)が6,500回、負け(赤字)が3,500回だった。, 最も勝ったシミュレーションはプラス560万円で、最も負けたシミュレーションはマイナス250万円だった。中央値はプラス54万円だった。, ドワンゴが収集したデータの種類は、馬や騎手、厩舎などの成績や、馬の血統、オッズの変化など1,500種類に及ぶ。, 2社の競馬予想AIについて「意外に当たっている」と感心するか、「この程度の的中率では不満だ」と評価するかは、意見のわかれるところだろう。, ただ実は博打は「収支を黒字にするだけ」なら、それほど難しくはない。AIどころかITの力を借りずに黒字を続けている人は存在する。, しかし「競馬の収支を黒字にすること」と「競馬で大儲けすること」はまったく別物なのである。つまり、毎月1万円分だけ馬券を買って100円儲ける(10,000円を10,100円にする)ことを10年続けることは不可能ではないが、毎月1億円かけて100万円儲ける(100,000,000円を101,000,000円にする)ことを10年続けることは不可能だ。, それは、博打は必ず親(胴元、運営者)が勝つようにデザインされているからだ。親は賭け金が特定の対象に集中すると調整に入り、自分が負けないようにする。親は月100円しか儲けない人のことは無視するが、毎月100万円儲ける人が現れたらマークするようになる。, 調整のひとつがオッズだ。オッズとは何倍の配当がつくかという数字のことで、万馬券は100円の馬券が10,000円になるので、オッズは100倍となる。, そしてオッズ1倍というレースもある。誰もが「絶対に勝つ」と判断する馬が出走するレースで、実際にその馬に賭ける人が集中すると、レース直前にオッズが1倍に変更されることがあるのだ。, これでは100万円かけても、勝っても100万円しか戻ってこないので収支0円である。しかし誰もが「絶対に勝つ」と判断する馬が勝つ確率は100%ではないので、例えば走行中に骨折する確率は0ではないので、その馬に賭けた人全員が負けのリスクを負うことになる。, ドワンゴの4カ月の成績は「プラス42,710円、馬券購入額の総額2,146,100円」だった。約200万円を投じて約4万円の利益なので、利益率は2%である。もしAIによって利益率2%が絶対的に保証されているのであれば、理論上は10億円投じれば2,000万円の儲けになる。, しかし賭ける金額が多くなると「親の調整」が入るので、理論のとおりにはならないのである。つまり博打に夢のシステムは生まれない、というわけだ。, NISSENデジタルハブは、法人向けにA.Iの活用事例やデータ分析活用事例などの情報を提供しております。, 薬剤師の仕事は調剤、服薬指導、薬歴管理であるが、現時点ではまだ人工知能が進出はしていない。AI薬剤師が出現するとしたらどの部分なのかを紹介する。, 2019/3/8
グリーン 新曲 朝ドラ,
東洋大学女子サッカー ツイッター,
キャンペーン 応募,
韓国 野球場 広さ,
オリックス まとめ,