揭晓数据“难以解释的异常”之谜

在分析网站数据时,总有一些数据异常找不到合理解释的合理理由。也许我们可以从另一个角度来看待这些异常。为什么数据波动较大,我们绞尽脑汁或找不到合理的原因,这些是什么异常,是否有一些共性,或这些异常是我们通常说的异常,或者应该属于其他类别,不妨叫他们“难以解释的异常”。读了《思考,快与慢》这本书,作者卡尼曼的观点似乎给了我们一些答案。卡尼曼是心理学和决策的大师。他告诉我们如何避免大脑思维的误解,从而更理性地认识和决策。以下是与上述“难以解释的异常”问题相关的两种观点:迪马特奥和贝尼特斯对平均回归的影响(Meanreversion),卡尼曼举了一些与体育相关的例子。事实上,这种现象在体育比赛中更为常见:为什么高尔夫球手第二天不能在前一天取得好成绩,为什么球员们不能在第二个赛季复制前一个赛季的辉煌……这让我想起了切尔西最近的换教练。事实上,迪马特奥和贝尼特斯之间有一些有趣的共同点:1)他们都是冠军联赛的冠军教练,2)他们的能力还没有得到充分认可。事实上,迪马特奥和贝尼特斯之间有一些有趣的共同点:1)他们都是冠军联赛的冠军教练,2)他们的能力还没有得到充分的认可。如果迪马特奥没有足够的时间证明他的教练能力是可以理解的,那么贝尼特斯显然是他的选择,这引起了外界对他能力的怀疑。迪马特奥在上赛季中后期从助理教练接管切尔西,作为守卫教练,最终赢得冠军联赛冠军,成功回到球队历史上第一个大耳杯足以让它在赛季末纠正,但因为缺乏教练经验总是不能让挑剔的老板有足够的信任,所以当球迷和俱乐部仍然沉浸在上赛季冠军联赛的荣耀中,球队的表现不能继续“应有”的荣耀,下课后迪马特奥的命运是注定的。在这样一个竞争激烈的英超联赛中,切尔西无法摆脱回归效应。如果切尔西上赛季在许多有利因素的共同作用和一些运气因素的基础上成功加冕冠军联赛,这些有利因素将不再集中在本赛季的他们身上,他们的运气似乎已经“耗尽”,结果回到之前的平均水平是正常的,在过去的光环下,球迷和俱乐部显然认为这是一个“异常事件”,所以迪马特奥成为了回归效应的受害者。事实上,这种事件在足球界很常见。世界杯98法国、02五星巴西和06意大利都无法逃脱回归效应。赢得冠军后,他们的成绩有所下降,许多教练在赢得冠军后辞职,因为他们也明白很难继续辉煌(摆脱回归效应)。斯科拉里和里皮做出了明智的选择,这些冠军球队的替代教练往往是命运最坎坷的,毕竟像博斯克这样能让西班牙继续辉煌的教练真的不多,贝尼特斯恰到好处的替补。2010年,贝尼特斯接替穆里尼奥成为国际米兰三冠王的主教练。三冠王的光环太耀眼了,阵容老化和签约不利注定会让国际米兰走上回归效应的道路,所以贝帅在赛季不到一半的时间就被解雇了。事实上,贝尼特斯之前的教练生涯记录并不太差。他在疯狂的“伊斯坦布尔之夜”中出名,但正是因为这场传奇的第一次世界大战已经成为一座不可逾越的纪念碑。即使他帮助利物浦赢得了许多比赛的冠军和亚军,他也不能让俱乐部和球迷真正满意,贝帅的决定错误在于他没有在任何辉煌或几乎辉煌(尽管他在2007年被米兰报复雅典,但至少是欧冠亚军)选择退出,直到利物浦的战绩真的看不下去,才以失败者的身份离开。贝帅真的应该向老辣的银狐里皮或狡猾的穆里尼奥学习什么是成功的撤退。贝帅真的应该向热情的银狐里皮或狡猾的穆里尼奥学习什么是成功。这一次,贝帅再次选择了冠军联赛光环下的切尔西。虽然光环已经逐渐消退,但我们只能祝他好运。倒塌的桥梁与突如其来的安静教室产生共鸣(Resonance)宇宙爆炸的诞生,形成了星辰、日月、世间万物,共振现象是自然界最常见的现象之一。当一群士兵骑马穿过法国昂热市的一座桥时,共振现象导致了桥的倒塌。这个例子被引入了初中物理教科书,这已经成为我们理解共振原理的启蒙记忆。但共振的原因是什么,然后桥倒塌等异常事件,通常同一群士兵通过同一座桥,可能数万次桥倒塌,士兵是普通士兵,桥是正常桥,共振是一个随机事件,但正是因为这类事件的可能性太小,所以人们总是试图从士兵或桥上找到原因(但有时确实是因为桥上的问题;-)。然后是知乎上看到的一个问题:为什么大家都在讨论,嘈杂的教室突然安静下来?这可能每个人都遇到过,也是一个类似的小概率事件,教室里每个人都断断续续地说话,通常声音的大小总是保持在水平波动,但可能突然有一个时刻同时说话,声音随机波动到最低点,这次你会认为发生了什么,老师来了?这可能每个人都遇到过,也是一个类似的小概率事件,教室里每个人都断断续续地说话,通常声音的大小总是保持在水平波动,但可能突然有一个时刻同时说话,声音随机波动到最低点,这次你会认为发生了什么,老师来了?所以他们不说话,教室突然沉默了,一片寂静。每个人都感受到了教室声音的“异常”,并试图为这种异常寻找可能的原因。是什么导致了这些“异常”?首先,回归平均效应通常表现为事物在一段时间内表现良好,然后回归正常水平的过程。这是一个正常的过程,因为事物在许多因素的共同影响下总是有一些随机的波动,关键是人们总是希望良好的状态可以继续,当事物从一个良好的状态下降,因为差距很大,所以很容易回到平均状态作为一个“异常”。如下图所示:即使a段曲线上下波动,一般也不会被认为是异常,但C段曲线很容易被误认为是异常,因为我们很容易将C段与B段进行比较,而不是a段的平均水平(如绿线所示,C段与a段的平均水平差异不大)。因为这里有一个完整的曲线变化趋势,所以犯这个错误的可能性会降低,但当我们在相对较短的时间内改变数据,或者只是看数据的同一个月,很容易误认为回归平均值是一个异常。因此,分析数据应与长期趋势相结合。当事物状态没有定性变化,数据显著上升到更高的水平时,不要认为良好的数据性能总是可持续的,因为良好的数据性能只是由正常的随机波动引起的。在解释了回归平均效应后,我们还需要明确的是,虽然大多数时候事物都有轻微的随机波动,但偶尔会有较大的波动,即极好或极差的状态。就像上图中的B段状态一样,我们如何识别这种状态也是随机的,而不是异常的,我们不能因为难以解释而把过度的数据波动视为异常?这个问题仍然可以从物理学的角度来解释,首先看下波叠加的原理(SuperpositionPrinciple):叠加后,左图下方的两个波合成更大的振幅,而右图下方的两个波相互干扰,合成后振幅减小到零。在数据变化的情况下,一般指标会受到多种因素的影响,如网站访问会受到多种渠道数据波动、搜索引擎、外部链接、社交媒体、付费广告等外部渠道流量总是变化,如下图所示:当渠道流量异常时,如A线,或由于春节或节假日等外部因素,所有渠道流量可能普遍下降,如B线所示,这些都可能导致整体访问量异常,这是可以解释的。C线中每个渠道的数据没有明显异常,但由于随机波动,多个渠道的流量碰巧达到较低点。此时,整体访问量将明显低于正常水平,因此存在“难以解释的异常”。因此,可以揭示这些“难以解释的异常”之谜。当许多因素同时作用于一个指标时,即使所有的影响因素都没有明显的异常,指标数据仍然可能表现出异常。虽然概率很低,但确实会发生,这是多种因素共同作用下的叠加效应造成的,如果通过细分指标的影响因素没有发现明显的异常,所以不要试图为这个“难以解释的异常”找到看似可以解释的原因。


下一篇:没有了
相关文章:
相关推荐:


