互聯(lián)網(wǎng)怎么在世界杯預(yù)測領(lǐng)域 完勝華爾街的
2014年07月10日 09:35
來源:虎嗅網(wǎng)
原標題:互聯(lián)網(wǎng)公司是如何在世界杯預(yù)測領(lǐng)域完勝華爾街的? 凌晨1點鐘寫這篇東西的時候,我還專門看了一眼,百度預(yù)測德國51%,巴西49%,我跟一個朋友說,巴西鐵定進決賽好么,以我對國際足聯(lián)的操行的理解絕不
原標題:互聯(lián)網(wǎng)公司是如何在世界杯預(yù)測領(lǐng)域 完勝華爾街的?
凌晨1點鐘寫這篇東西的時候,我還專門看了一眼,百度預(yù)測德國51%,巴西49%,我跟一個朋友說,巴西鐵定進決賽好么,以我對國際足聯(lián)的操行的理解絕不會有出入好么,結(jié)果今早就被各種打臉了。
本屆世界杯最大的看點,除了比賽本身,就是場外如火如荼的各種預(yù)測了。一邊是各種動物爭當(dāng)“章魚保羅第二”,紛紛對比賽評頭論足,一邊是各色民間科學(xué)家粉墨登場,為比賽預(yù)測拋出各種理論。這就好像那個“猴子炒股總是超過分析師”的例子一樣,看看也就算了。
今年世界杯預(yù)測真正的最大看點,是有一大批科技公司,利用大數(shù)據(jù)技術(shù),準確預(yù)測了截至目前的世界杯賽果。值得一提的是準確預(yù)測的不僅是16強,甚至還有八強、四強!更值得贊嘆的是,9日凌晨進行的第一場半決賽——巴德之戰(zhàn)前,當(dāng)幾乎所有的民間預(yù)測都一邊倒地傾向于巴西隊獲勝,但百度仍預(yù)測德國隊具有51% 的得勝概率,事實證明日耳曼戰(zhàn)車以7:1血洗巴桑軍團,這也使得百度在淘汰賽以來的賽果預(yù)測準確率維持在100%。而這些預(yù)測絕不是“蒙”的!
從靠譜到非常靠譜
這些公司包括互聯(lián)網(wǎng)行業(yè)的谷歌、百度、微軟、雅虎,以及看起來和科技并無關(guān)聯(lián)的投資銀行公司高盛和德意志銀行,以及新聞業(yè)的彭博社。在這里把他們一概歸入科技公司的理由是他們的預(yù)測都基于自己的(或持有股份的)云計算平臺,并利用這些平臺的計算能力提供預(yù)測的結(jié)果。
以百度為例,這家公司的資深數(shù)據(jù)科學(xué)家團隊,搜索了過去5年內(nèi)全世界987支球隊(含國家隊和俱樂部隊)的3.7萬場比賽數(shù)據(jù),同時與中國彩票網(wǎng)站樂彩網(wǎng)、 歐洲必發(fā)指數(shù)數(shù)據(jù)供應(yīng)商Spdex進行數(shù)據(jù)合作,導(dǎo)入博彩市場的預(yù)測數(shù)據(jù),建立了一個囊括199972名球員和1.12億條數(shù)據(jù)的預(yù)測模型,并在此基礎(chǔ)上進行結(jié)果預(yù)測。
其他幾家公司的預(yù)測原理,也與此類似,但在細微之處卻又有所不同,這導(dǎo)致了不同的側(cè)重,以及非常不同的預(yù)測結(jié)果。
先來說三家傳統(tǒng)的華爾街公司,高盛、德銀和彭博,他們的共同之處是靠譜的地方很靠譜,但是離譜的地方非常離譜。
今年高盛世界杯報告的出品人,是大名鼎鼎高盛經(jīng)濟學(xué)家凱文·戴利(Kevin Daly),他帶領(lǐng)高盛的量化分析師建立了自1960年以來正式國際足球比賽數(shù)據(jù)的模型,對其進行回歸分析,通過一個叫“elo”的動態(tài)模擬系統(tǒng)“擲骰子”分析賽果,同時根據(jù)泊松模型(一種概率模型,用于預(yù)測進球而非預(yù)測勝負)預(yù)測小組賽的比分。
高盛的八強預(yù)測錯了三個(哥斯達黎加、比利時和哥倫比亞),四強錯了一個(西班牙),小組賽的賽果正確率只有37.5%,盡管這已經(jīng)算是不錯的結(jié)果,但仍是差強人意。至于具體的比分,就離靠譜比較遠了,舉個例子,高盛說巴西的每場比賽都會以3個球以上的大比分戰(zhàn)勝對手,結(jié)果呢?
平心而論,高盛是華爾街里最靠譜的公司。彭博的方法與高盛類似,是在各國國家隊FIFA積分的基礎(chǔ)上,模擬了1萬次比賽結(jié)果,結(jié)果也與高盛類似,彭博認為西班牙會在和阿根廷打平后點球進入決賽,最終輸給巴西(拜托,西班牙兩個禮拜前已經(jīng)回家了)。
德銀的模型更離譜,它的模型據(jù)說綜合了FIFA排名、歷史戰(zhàn)績、球員構(gòu)成和賭球賠率等因素,算出的奪冠概率前四名是巴西、德國、西班牙、法國,但是德銀的分析師在建立模型時,綜合了一個據(jù)說是“歷史奪冠輪回”的理論,最終,他們計算出的結(jié)果是巴西無緣8強,而英格蘭將奪冠(拜托,英格蘭也在一個禮拜前就回家了好嗎)。
這一點不是偶然,回顧往屆世界杯,幾大投行的預(yù)測跟球迷瞎猜的水平差相仿佛,拿上屆來說,大摩說英格蘭會奪冠,瑞銀說意大利能進四強,結(jié)果如何,也就不必說了。有一本書叫《荒謬的經(jīng)濟學(xué)家》,講的就是經(jīng)濟學(xué)家數(shù)據(jù)分析的不靠譜,而且他們自己還不知道。這一點同樣應(yīng)驗在比賽預(yù)測上,華爾街的預(yù)測總的來說“有點用”,但真要拿來賭巴西和德國的勝負,還是算了吧。
再看互聯(lián)網(wǎng)公司這邊,基本可以說是全面大勝,除了雅虎。
先來說說傳統(tǒng)的預(yù)測大腕雅虎。雅虎的預(yù)測手段其實與華爾街類似,但專家云集且經(jīng)驗豐富,向來與專業(yè)博彩公司不相上下,經(jīng)常被作為正式的參考數(shù)據(jù)列入博彩資料,但是今年雅虎不知搭錯了哪根筋,為了推廣自己的圖片分享社區(qū)Tumblr,他們決定使用該社區(qū)的數(shù)據(jù)來預(yù)測世界杯:從831億篇Tumblr博客中篩選出1.889億篇文章,再“將注意力集中于2730萬篇與世界杯相關(guān)的博文”,此后根據(jù)“與世界杯有關(guān)的帖子里被提及的國家隊”,以及“在與足球有關(guān)的帖子里被提及的國家隊”,導(dǎo)入泊松模型來預(yù)測每場比賽的結(jié)果。預(yù)測結(jié)果是,16強和8強預(yù)測分別錯了一半。
如果拋開雅虎這個奇葩,互聯(lián)網(wǎng)公司陣營的預(yù)測結(jié)果比華爾街絕對高了不是一點半點,剩下的三家全部預(yù)測正確了全部的16強(谷歌只預(yù)測了八強),以及全部的八強,微軟、百度和高盛猜對了全部的四強,谷歌在四強的預(yù)測中惜敗,在半決賽中,百度和微軟甚至還準確預(yù)測了巴西對德國的賽果。
剩下這三家中,谷歌的預(yù)測數(shù)據(jù)主要來自O(shè)pta Sports的海量賽事數(shù)據(jù),通過球隊實力的排序模型,以及基于“各個國家球迷到巴西的數(shù)量和熱情度”的主場優(yōu)勢模型,來構(gòu)建其最終的預(yù)測模型。而微軟則與百度類似,是在歷史和球隊狀態(tài)數(shù)據(jù)基礎(chǔ)上,通過對必發(fā)博彩交易市場數(shù)據(jù)來分析構(gòu)建預(yù)測模型。總的來說,就本屆世界杯的預(yù)測而言,它們都“非
相關(guān)新聞:
網(wǎng)羅天下
頻道推薦
智能推薦
圖片新聞
視頻
-
滕醉漢醫(yī)院耍酒瘋 對醫(yī)生大打出手
播放數(shù):1133929
-
西漢海昏侯墓出土大量竹簡木牘 填史料空缺
播放數(shù):4135875
-
電話詐騙44萬 運營商被判賠償
播放數(shù):2845975
-
被擊落戰(zhàn)機殘骸畫面首度公布
播放數(shù):535774













