用Html5做网站天津天狮网络营销课程
首先,题目明确表示可以自行选择额外的玩家信息或其他数据。因此最好找一些其他选手的数据以扩大数据集,与其他选题人作出数据集上的区分。大数据集可以帮助后续的建模实验更准确。
第一问本质就是开发一个评价模型,主要针对运动员得分的时刻,需要给出在一场比赛中的某一时刻哪个运动员表现更好。如果简单思考,那么谁得分谁就表现得好吗?不一定。因为问题一说了,在网球比赛中,发球者赢得得分的可能性要高很多,那该如何评判谁表现好呢?
我这里有一个思路:表现是相对的,如果一个人平常经常靠100分,但是他考试的时候考了95分,这算表现好吗?我觉得不算,但如果一个人平常经常靠50分,考试的时候他考61及格了,这对于他自己来说,表现得肯定算超常发挥。因此,可以针对每一名球员,给出他的固有属性,即他的发球得分概率、防守发球不失分概率、体力等等。
由于一个人的体力有限,因此他很难保证全场都是一个水平,这样,我提供两种思路去做:第一种就是针对每一个球员,对他的每一大局单独分析,给出他的每一大局的攻防指数。第二种比较麻烦,就是给球员算出来个衰减系数,随着时间的流逝,他的体力下降,他得分和失分的概率随着局数增加而下降上升。
把题目中出现的球员,搜集它们的近期数据,找到相同对手的情况(要控制变量),算出它们发球防守的概率,以及体能(如果你用第二种)。
谁发挥的好,怎么评价?A和B对战,A发球得分概率60%,B防守不失分概率50%。如果A得分了,说明A发挥的好,好多少?60-50=10。等等,这种评价指标不唯一。
不考虑时刻,考虑一整局,甚至一整场比赛,都是类似采用上述的方法。尽量多选角度,某个时刻,某个局,等等,都是可以描述的。
结合第一问的最后一句话,什么叫可视化?就是你给出每一个时刻或者每一局的预测结果,谁该赢?按照你的模型分析,谁该赢?他输了就说明他发挥失常了?发挥的好如何量化?概率量化即可!
显然,第二问是对数据做分析,那么数据要足够多且丰富。势头就是所谓的连胜,势头的作用是啥?那不就是连胜吗,或者说对一局胜利的影响?这里显然就是做个相关性分析。
分析什么?你可以统计一大局中,连续得分的次数、最大连续得分、最大和对手的分差,等等,然后统计这一大局或者一整局谁赢了,分析它们之间的相关性即可。
你也可以做主成分分析,来分析,一整局的胜利到底是受连胜影响大还是受稳定得分影响大。
最终你需要给出,连胜对一场或一大局或一整场比赛的影响,有影响吗?概率多少?给出你的明确结论,并通过数据分析的结果支撑你的说法。
结合第三问,第二问的描述可以作出一些调整,势头的另一种解释是过去比赛对当场比赛的影响,选择的指标包括和这场比赛同样选手的输赢、单个选手最近的比赛记录。
第三问是个预测转折点的问题。何谓转折点,可以考虑连续得分的情况、比分反超的情况。如果以两个人得分作差,那么过零点的情况就是转折点的时刻。那么本质就是对得分情况的预测,即本回合谁更有概率得分,最相关的因素找零点出现的位置,并分析,这个位置附近的时间序列表现出什么特征。
第二小问本质就是如何扭转局势,即如何出现零点,分析零点出现附近的时间序列,其特征就是我们要追求的,比如这个附近出现了防守成功并反击连胜,那么运动员就要在比赛中作出相应的回应
第四问就是对模型的扩展验证,其实所有的比赛所谓的扭住局势,本质就是得分的反超,抓住这点,分析附近的得分情况。预测效果如何,就是预测反超点的准确率,就是预测得分的准确率。所以三四问本质还是一个预测得分模型,这又回到了第一二问的问题。本质还是对得分预测做讨论,如何预测?又回到了第一问中谁应该得分的问题,即得分概率。
所以C题整体上就是建立一个理想情况的得分估计,并让这个估计无限接近真实的情况。
最后一问的拓展很简单,因为不同的比赛不改变得分的过零点这种评价方式。