查看: 978|回复: 0
打印 上一主题 下一主题

统计假设测试、多臂老虎机方法,揭示了多臂老虎机在实践中的优势

[复制链接]
  • TA的每日心情

    2018-11-19 00:09
  • 签到天数: 93 天

    [LV.6]常住居民II

    1870

    主题

    6686

    帖子

    1万

    积分

    论坛元老

    Rank: 8Rank: 8

    现金币
    61
    彩金币
    243
    活跃币
    954
    跳转到指定楼层
    楼主
    发表于 2018-10-26 00:41:57 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
    Cheng-Tao Chu久赢老虎机策略论坛简要概述了统计假设测试、多臂老虎机(汤普森采样)方法后,揭示了多臂老虎机在实践中的优势。



    随着精益创业和大数据的兴起,越来越多的公司开始拥抱A/B测试。尽管业界开始基于数据统计测试特性这一点很是振奋人心,但很少有公司意识到多臂老虎机这一优于传统统计假设测试的替代方案。本文将概述为何在大多数应用中,多臂老虎机优于假设测试。不熟悉为何基于数据测试特性很重要的读者,可以看看我之前写的博客文章 Bridging the gap between lean startup in theory and in practice。需要社会认同的读者,Google Analytics用的就是多臂老虎机方案。

    统计假设测试概述

    A/B测试的假设测试的目标是查明观测到的转化率差异是否有运气以外的解释。标准方法如下:

    计算零假设(null hypothesis)下的采样分布

    计算采样分布下观测到的似然,并

    将概率与预先确定的阈值比较

    尽管初看起来很直观,实际上它需要不少统计学知识来恰当地设计试验及解释结果。例如:

    如何约束第二类错误?

    如何同时测试两个以上的实验组?

    需要多少项观测?

    正确的阈值是多少?

    能不能提前查看结果并及早终止试验?

    多臂老虎机概述

    “多臂老虎机”这一名称描述了这样一个场景:一名赌徒面对着几台“单臂老虎机”,每台老虎机的期望返水不同。目标是最大化一系列拉杆操作的总回报。为了达成这一目标,多臂老虎机动态平衡通过拉动不确定的摇杆收集信息的代价(探索)和拉动已知回报丰厚的拉杆的累计回报(利用)。

    在A/B测试的语境下,每台老虎机代表试验中的一个实验组,每次拉动摇杆代表一个实验组的一次曝光,累计回报代表累计转化。多臂老虎机问题有很多不同的算法,比如UCB、Epsilon-Greedy等,本文将聚焦于一种名为“汤普森采样”的算法。

    久赢老虎机策略论坛概述

    汤普森采样的思路非常简单。该算法维护每臂的返水率的后验分布,按照在该后验分布下给定臂最优的概率,成比例地拉动拉杆,接着根据新观测更新后验。例如,对两个观测到转化率为10/150和5/100(转化数/曝光)的实验组而言,其后验转化率分布为Beta(10, 140)和(5, 95)。根据转化率,后续的测试应该在第一个实验组上进行,因为该组的转化率较高。但汤普森采样并不采用这种确定的方法,而是基于当前的后验转化率分布随机取样,决定在哪个实验组上进行,两者的概率分别为P(第一组是最佳实验组)和P(第二组是最佳实验组)。最后,根据新观测数据更新后验分布。致不熟悉贝叶斯统计的读者,贝塔分布经常用作伯努利分布(用来建模转化率)的共轭先验分布。

    比较

    现在我们已经基本了解统计假设测试和多臂老虎机(汤普森采样),让我们比较一下两者。

    汤普森采样更简单。 要恰当地解释统计假设测试,从业者需要对基本的统计学测试具有良好的理解,例如,提前查看结果需要了解功效分析、偏差修正,处理多实验组同样需要了解偏差修正,等等。另一方面,从业者只需理解基本的贝叶斯统计就可以理解汤普森采样。解释结果时,较简单的概念不容易出错。

    汤普森采样直接估计哪个臂最优的概率。统计假设测试试图回答“假定所有实验组转化率相同的极端情形下,观测到当前状况的概率”。而汤普森采样则试图回答“给定这些观测,给定的每个臂最优的概率”。尽管这两个问题都是合理的,汤普森采样要容易理解得多,并自然而然地折衷第一类错误和第二类错误。

    多臂老虎机通常更快收敛。 由于多臂老虎机方案是自适应的,识别最佳臂(如果它存在)所需的试验数通常远低于统计假设测试所需的试验数。然而,它也意味着,当所有实验组一样的时候,需要一个单独的停止标准。

    多臂老虎机可以自然地推广至多实验组。 这是多臂老虎机真正出彩之处。由于多臂老虎机是自适应的,它可以很快决定哪个臂不太可能是最优的,并以较低的概率拉动这些较差的拉杆。另一方面,在统计假设测试中,每个实验组分配到的试验数目是一样的(由试验之前的功效分析决定)。

    总结一下,在实践中,相比传统统计假设测试,多臂老虎机有许多优势。它通常更快收敛,误解的空间更小,能更好地推广至多实验组,需要调节的参数也较少。向认真对待A/B测试的创业公司强烈推荐多臂久赢老虎机策略论坛方法。

    (申请优惠时请向客服说明是在久赢策略老虎机论坛“www.jiuwin.com”看到的!)

    收藏收藏
    把本文推荐给朋友或其他网站上,每次被点击增加您在本站积分:10活跃币
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则



      久赢策略老虎机论坛
    • 久赢策略老虎机论坛成立于2016年10月1号,2017年1月28日正式上线运营,是一家专注于向菠菜爱好者提供安全、和谐探讨菠菜技术与体验的交流平台。
    • 久赢策略老虎机论坛致力于为玩家免费提供负责任且信誉的老虎机资讯信息同时也是专业为菠菜爱好者及企业提供全方位多元化的内容资讯、互动娱乐
    • 及广告增值服务的网络媒体运营商。久赢策略论坛一直秉持对玩家负责这一经营理念,获得了玩家的一致认可,是玩家公认的最佳菠菜娱乐推荐网。

    久赢论坛 www.jiuwin.com 广告合作Telegram :@biying6789

    Archiver|手机版|小黑屋|久赢老虎机策略论坛

    Powered by Discuz! X3.2 Copyright
    © 2001-2013 Comsenz Inc.    All Rights Reserved.

    Archiver|手机版|小黑屋|久赢老虎机策略论坛

    GMT+8, 2024-12-21 01:42 , Processed in 0.058741 second(s), 28 queries.

    快速回复 返回顶部 返回列表