我们考虑一个多武装的强盗设置,在每一轮的开始时,学习者接收嘈杂的独立,并且可能偏见,\ emph {评估}每个臂的真正奖励,它选择$ k $武器的目标累积尽可能多的奖励超过$ $ rounds。在假设每轮在每个臂的真正奖励从固定分发中汲取的,我们得出了不同的算法方法和理论保证,具体取决于评估的生成方式。首先,在观察功能是真正奖励的遗传化线性函数时,我们在一般情况下展示$ \ widetilde {o}(t ^ {2/3})$后悔。另一方面,当观察功能是真正奖励的嘈杂线性函数时,我们就可以派生改进的$ \ widetilde {o}(\ sqrt {t})$后悔。最后,我们报告了一个实证验证,确认我们的理论发现,与替代方法进行了彻底的比较,并进一步支持在实践中实现这一环境的兴趣。
translated by 谷歌翻译
上下文强盗算法广泛用于域中,其中期望通过利用上下文信息提供个性化服务,这可能包含需要保护的敏感信息。灵感来自这种情况,我们研究了差异隐私(DP)约束的上下文线性强盗问题。虽然文献专注于集中式(联合DP)或本地(本地DP)隐私,但我们考虑了隐私的洗牌模型,我们表明可以在JDP和LDP之间实现隐私/实用权折衷。通过利用隐私和批处理从匪徒进行洗牌,我们介绍了一个遗憾的遗留率$ \ widetilde {\ mathcal {o}}(t ^ {2/3} / \ varepsilon ^ {1/3})$,同时保证中央(联合)和当地隐私。我们的结果表明,通过利用Shuffle模型在保留本地隐私时,可以在JDP和LDP之间获得权衡。
translated by 谷歌翻译
本文研究了Markov决策过程(MDP)的隐私保留探索,线性表示。我们首先考虑线性混合MDP(Ayoub等,2020)(A.K.A.基于模型的设置)的设置,并提供统一的框架,用于分析关节和局部差异私有(DP)探索。通过这个框架,我们证明了一个$ \ widetilde {o}(k ^ {3/4} / \ sqrt {\ epsilon})$遗憾绑定$(\ epsilon,\ delta)$ - 本地DP探索和$ \widetilde {o}(\ sqrt {k / \ epsilon})$后悔绑定$(\ epsilon,\ delta)$ - 联合dp。我们进一步研究了Linear MDP中的隐私保留探索(Jin等,2020)(AKA \ Forws-Free Setting),我们提供$ \ widetilde {o}(\ sqrt {k / \ epsilon})$后悔绑定$(\ epsilon,\ delta)$ - 关节dp,具有基于低切换的新型算法。最后,我们提供了在这种无模型设置中设计本地DP算法的问题的见解。
translated by 谷歌翻译