Information asymmetry in games enables players with the information advantage to manipulate others' beliefs by strategically revealing information to other players. This work considers a double-sided information asymmetry in a Bayesian Stackelberg game, where the leader's realized action, sampled from the mixed strategy commitment, is hidden from the follower. In contrast, the follower holds private information about his payoff. Given asymmetric information on both sides, an important question arises: \emph{Does the leader's information advantage outweigh the follower's?} We answer this question affirmatively in this work, where we demonstrate that by adequately designing a signaling device that reveals partial information regarding the leader's realized action to the follower, the leader can achieve a higher expected utility than that without signaling. Moreover, unlike previous works on the Bayesian Stackelberg game where mathematical programming tools are utilized, we interpret the leader's commitment as a probability measure over the belief space. Such a probabilistic language greatly simplifies the analysis and allows an indirect signaling scheme, leading to a geometric characterization of the equilibrium under the proposed game model.
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
要利用战略承诺,这是玩游戏的有用策略,领导者必须学习有关追随者的回报功能的足够信息。但是,这使追随者有机会提供虚假信息并影响最终的游戏结果。通过对学习领导者的精心虚假的回报功能,与他的真实行为相比,追随者可能会引起更多使他受益的结果。我们通过广泛的游戏中这种战略行为研究追随者的最佳操纵。追随者的不同态度被考虑在内。乐观的追随者在所有游戏成果中最大限度地发挥了他的真实用途,这些效用可以由某些回报功能引起。悲观的追随者只考虑了导致独特游戏结果的错误报告的回报功能。对于本文中考虑的所有设置,我们表征了可以成功诱导的所有可能的游戏结果。我们证明,追随者可以找到误会其私人收益信息的最佳方法是多项式时间的。我们的工作完全解决了该追随者在广泛的游戏树上的最佳操纵问题。
translated by 谷歌翻译
Stackelberg游戏模型,领导者致力于制定策略,而追随者最能做出响应,它发现了广泛的应用程序,特别是针对安全问题。在安全环境中,目标是为了保护某些资产,使领导者计算一个最佳策略。在许多这些应用程序中,追随者实用程序模型的参数尚不确定。分布式优化优化通过允许在可能的模型参数上进行分配来解决此问题,而该分布来自一组可能的分布。目的是最大程度地提高预期的效用,相对于最坏情况下的分布。我们启动了分配稳定模型的研究,以计算最佳策略。我们考虑了对追随者公用事业模型的不确定性的正常形式游戏的情况。我们的主要理论结果是表明,在各种不确定性模型中,始终存在分布稳定的stackelberg平衡。对于一组有限的追随者实用程序函数,我们提出了两种算法,用于计算使用数学程序的分布强烈的Stackelberg平衡(DRSSE)。接下来,在一般情况下,存在无限数量的可能的追随者实用程序功能,并且不确定性在有限支撑的名义分布周围由Wasserstein Ball表示,我们给出了一个增量的基于混合组合编程的算法来计算最佳的算法分配稳定的策略。实验证实了我们在经典的Stackelberg游戏中算法的障碍,这表明我们的进近范围扩展到中型游戏。
translated by 谷歌翻译
众所周知,传统平台之间的竞争可以通过将平台的操作与用户偏好保持一致,从而改善用户实用性。但是,在数据驱动的市场中表现出多大的一致性?为了从理论的角度研究这个问题,我们介绍了一个双重垄断市场,平台动作是强盗算法,两个平台竞争用户参与。该市场的一个显着特征是,建议的质量取决于强盗算法和用户交互提供的数据量。算法性能与用户的动作之间的这种相互依赖性使市场平衡的结构及其在用户公用事业方面的质量复杂化。我们的主要发现是,该市场的竞争并不能完全使市场成果与用户公用事业完全融合。有趣的是,市场成果不仅在平台拥有单独的数据存储库时,而且在平台具有共享数据存储库时表现不对。尽管如此,数据共享假设会影响什么机制驱动未对准的机制,并影响未对准的特定形式(例如,最佳案例和最差的市场成果的质量)。从更广泛的角度来看,我们的工作说明了数字市场中的竞争对用户实用性产生了微妙的后果,值得进一步调查。
translated by 谷歌翻译
主导的行动是自然的(也许是最简单的)多代理概括的子最优动作,如标准单代理决策中的那样。因此类似于标准强盗学习,多代理系统中的基本学习问题是如果他们只能观察到他们播放动作的回报的嘈杂的强盗反馈,那么代理商可以学会有效地消除所有主导的动作。令人惊讶的是,尽管有一个看似简单的任务,我们展示了一个相当负面的结果;也就是说,标准没有遗憾的算法 - 包括整个双平均算法的家庭 - 可呈指数级地取消逐渐消除所有主导的行动。此外,具有较强的交换后悔的算法也遭受了类似的指数低效率。为了克服这些障碍,我们开发了一种新的算法,调整EXP3,历史奖励减少(exp3-DH); Exp3-DH逐渐忘记仔细量身定制的速率。我们证明,当所有代理运行Exp3-DH(A.K.A.,在多代理学习中自行发行)时,所有主导的行动都可以在多项多轮内迭代地消除。我们的实验结果进一步证明了Exp3-DH的效率,即使是那些专门用于在游戏中学习的最先进的强盗算法,也无法有效地消除所有主导的行动。
translated by 谷歌翻译
数字推荐系统(例如Spotify和Netflix)不仅会影响消费者的行为,还会影响生产者的激励措施:生产商试图提供系统推荐的内容。但是将产生什么内容?在本文中,我们研究了内容推荐系统中的供应方均衡。我们将用户和内容建模为$ d $维矢量,并推荐与每个用户具有最高点产品的内容。我们模型的主要特征是生产者的决策空间高维,用户群是异质的。这引起了平衡的新定性现象:首先是流派的形成,生产者专门竞争用户的亚集。使用二元参数,我们得出了这种专业化的必要条件。其次,我们表明生产商可以在平衡下实现正利润,这在完美的竞争中通常是不可能的。我们得出了足够的条件,并证明它与内容的专业化密切相关。在这两种结果中,用户的几何形状与生产者成本的结构之间的相互作用都会影响供应方均衡的结构。从概念上讲,我们的工作是研究推荐系统如何塑造生产者之间供应方竞争的起点。
translated by 谷歌翻译
游戏理论到目前为止在各个领域都发现了许多应用,包括经济学,工业,法学和人工智能,每个玩家都只关心自己对非合作或合作方式的兴趣,但对其他玩家没有明显的恶意。但是,在许多实际应用中,例如扑克,国际象棋,逃避者追求,毒品拦截,海岸警卫队,网络安全和国防,球员通常都具有对抗性立场,也就是说,每个球员的自私行动不可避免地或故意造成损失或对其他球员造成严重破坏。沿着这条线,本文对在对抗性游戏中广泛使用的三种主要游戏模型(即零和零正常形式和广泛形式游戏,stackelberg(Security)游戏,零和差异游戏)提供了系统的调查。观点,包括游戏模型的基本知识,(近似)平衡概念,问题分类,研究前沿,(近似)最佳策略寻求技术,普遍的算法和实际应用。最后,还讨论了有关对抗性游戏的有希望的未来研究方向。
translated by 谷歌翻译
大多数算法研究到目前为止,多智能经纪信息设计的研究专注于没有代理商外部性的限制情况;一些例外调查了真正的战略游戏,如零和游戏和二价格拍卖,但只关注最佳的公共信令。本文启动了\ emph {public}和\ emph {privy}信号传导的算法信息设计,其中of基本的外部性,即单例拥塞游戏,在今天的数字经济中的应用范围广,机器调度,路由,对于公共和私人信令等,我们表明,当资源数量是常数时,可以有效地计算最佳信息设计。为了我们的知识,这是一系列高效的\ EMPH {精确}算法,用于在简明地代表的许多玩家游戏中的信息设计。我们的结果符合新颖的技术,如开发某些“减少形式”,以便在公共信令中紧凑地表征均衡或代表私人信令中的球员边际信仰。当有许多资源时,我们会显示计算难扰性结果。为了克服多个均衡问题,这里我们介绍了均衡 - \ EMPH {忽视}硬度的新概念,这条规定了计算良好信令方案的任何可能性,而不管均衡选择规则如何。
translated by 谷歌翻译
我们考虑战略设置,其中几个用户在重复的在线互动中聘用,辅助最小化的代理商代表他们反复发挥“游戏”。我们研究了代理人的重复游戏的动态和平均结果,并将其视为诱导用户之间的元游戏。我们的主要焦点是用户可以在此元游戏中从“操纵”他们自己的代理商中可以受益于他们自己的代理商。我们正式定义了普通游戏的这种“用户代理元荟萃游戏”模型,讨论了自动化代理动态的不同概念下的属性,并分析了2x2游戏中用户的均衡,其中动态收敛到a单均衡。
translated by 谷歌翻译
我们研究了在几个课程之一的未知会员的对手对对手的反复游戏中保证对反对者的低遗憾的问题。我们添加了我们的算法是非利用的约束,因为对手缺乏使用算法的激励,我们无法实现超过一些“公平”价值的奖励。我们的解决方案是一组专家算法(LAFF),该算法(LAFF)在一组子算法内搜索每个对手课程的最佳算法,并在检测对手剥削证据时使用惩罚政策。通过依赖对手课的基准,我们展示了除了剥削者之外的可能对手统一地掩盖了Lublinear的遗憾,我们保证对手有线性遗憾。为了我们的知识,这项工作是第一个在多智能经纪人学习中提供遗憾和非剥削性的保证。
translated by 谷歌翻译
我们研究Stackelberg游戏,其中一位校长反复与长寿,非洋流代理商进行互动,而不知道代理商的回报功能。尽管当代理商是近视,非侧心代理会带来额外的并发症时,在Stackelberg游戏中的学习是充分理解的。尤其是,非洋流代理可以从战略上选择当前劣等的行动,以误导校长的学习算法并在未来获得更好的结果。我们提供了一个通用框架,该框架可在存在近视剂的情况下降低非洋白酶的学习来优化强大的匪徒。通过设计和分析微型反应性匪徒算法,我们的还原从校长学习算法的统计效率中进行了差异,以与其在诱导接近最佳的响应中的有效性。我们将此框架应用于Stackelberg Security Games(SSG),需求曲线,战略分类和一般有限的Stackelberg游戏的价格。在每种情况下,我们都表征了近最佳响应中存在的错误的类型和影响,并为此类拼写错误开发了一种鲁棒性的学习算法。在此过程中,我们通过最先进的$ O(n^3)$从SSGS中提高了SSG中的学习复杂性,从通过发现此类游戏的基本结构属性。该结果除了对非洋流药物学习之外,还具有独立的兴趣。
translated by 谷歌翻译
当今许多大型系统的设计,从交通路由环境到智能电网,都依赖游戏理论平衡概念。但是,随着$ n $玩家游戏的大小通常会随着$ n $而成倍增长,标准游戏理论分析实际上是不可行的。最近的方法通过考虑平均场游戏,匿名$ n $玩家游戏的近似值,在这种限制中,玩家的数量是无限的,而人口的状态分布,而不是每个单独的球员的状态,是兴趣。然而,迄今为止研究最多的平均场平衡的平均场nash平衡的实际可计算性通常取决于有益的非一般结构特性,例如单调性或收缩性能,这是已知的算法收敛所必需的。在这项工作中,我们通过开发均值相关和与粗相关的平衡的概念来研究平均场比赛的替代途径。我们证明,可以使用三种经典算法在\ emph {ash All Games}中有效地学习它们,而无需对游戏结构进行任何其他假设。此外,我们在文献中已经建立了对应关系,从而获得了平均场 - $ n $玩家过渡的最佳范围,并经验证明了这些算法在简单游戏中的收敛性。
translated by 谷歌翻译
我们研究了一个知情的发件人面临的重复信息设计问题,该问题试图影响自我利益接收者的行为。我们考虑接收器面临顺序决策(SDM)问题的设置。在每回合中,发件人都会观察SDM问题中随机事件的实现。这会面临如何逐步向接收者披露此类信息以说服他们遵循(理想的)行动建议的挑战。我们研究了发件人不知道随机事件概率的情况,因此,他们必须在说服接收器的同时逐渐学习它们。首先,我们提供了发件人说服力信息结构集的非平凡的多面近似。这对于设计有效的学习算法至关重要。接下来,我们证明了一个负面的结果:没有学习算法可以说服力。因此,我们通过关注算法来保证接收者对以下建议的遗憾会增长,从而放松说服力。在全反馈设置(发件人观察所有随机事件实现)中,我们提供了一种算法,其中包括$ \ tilde {o}(\ sqrt {t})$ sexter和接收者遗憾。取而代之的是,在Bandit反馈设置中 - 发件人仅观察SDM问题中实际发生的随机事件的实现 - 我们设计了一种算法,给定一个$ \ alpha \ in [1/2,1] $作为输入,确保$ \ tilde {o}({t^\ alpha})$和$ \ tilde {o}(t^{\ max \ arpha,1- \ frac {\ frac {\ alpha} })$遗憾,分别为发件人和接收器。该结果补充了下限,表明这种遗憾的权衡本质上是紧张的。
translated by 谷歌翻译
在拍卖领域,了解重复拍卖中学习动态的收敛属性是一个及时,重要的问题,例如在线广告市场中有许多应用程序。这项工作着重于重复的首次价格拍卖,该物品具有固定值的竞标者学会使用基于平均值的算法出价 - 大量的在线学习算法,其中包括流行的无regret算法,例如多重权重更新,并遵循扰动的领导者。我们完全表征了基于均值算法的学习动力学,从收敛到拍卖的NASH平衡方面,具有两种感觉:(1)时间平均水平:竞标者在bidiper the NASH平衡方面的回合分数,在极限中均在极限中。 ; (2)最后一题:竞标者的混合策略概况接近限制的NASH平衡。具体而言,结果取决于最高值的投标人的数量: - 如果数量至少为三个,则竞标动力学几乎可以肯定地收敛到拍卖的NASH平衡,无论是在时间平时还是在最后近期的情况下。 - 如果数字为两个,则竞标动力学几乎可以肯定会在时间平时收敛到NASH平衡,但不一定在最后近期。 - 如果数字是一个,则竞标动力学可能不会在时间平均值或最后近期的时间内收敛到NASH平衡。我们的发现为学习算法的融合动力学研究开辟了新的可能性。
translated by 谷歌翻译
经济学和政策等现实世界应用程序往往涉及解决多智能运动游戏与两个独特的特点:(1)代理人本质上是不对称的,并分成领导和追随者; (2)代理商有不同的奖励功能,因此游戏是普通的。该领域的大多数现有结果侧重于对称解决方案概念(例如纳什均衡)或零和游戏。它仍然开放了如何学习Stackelberg均衡 - 从嘈杂的样本有效地纳入均衡的不对称模拟 - 纳入均衡。本文启动了对Birtit反馈设置中Stackelberg均衡的样本高效学习的理论研究,我们只观察奖励的噪音。我们考虑三个代表双人普通和游戏:强盗游戏,强盗加固学习(Bandit-RL)游戏和线性匪徒游戏。在所有这些游戏中,我们使用有义的许多噪声样本来确定Stackelberg均衡和其估计版本的确切值之间的基本差距,无论算法如何,都无法封闭信息。然后,我们在对上面识别的差距最佳的基础上的数据高效学习的样本高效学习的敏锐积极结果,在依赖于依赖性的差距,误差容限和动作空间的大小,匹配下限。总体而言,我们的结果在嘈杂的强盗反馈下学习Stackelberg均衡的独特挑战,我们希望能够在未来的研究中阐明这一主题。
translated by 谷歌翻译
我们通过审查反馈重复进行一定的第一价格拍卖来研究在线学习,在每次拍卖结束时,出价者只观察获胜的出价,学会了适应性地出价,以最大程度地提高她的累积回报。为了实现这一目标,投标人面临着一个具有挑战性的困境:如果她赢得了竞标 - 获得正收益的唯一方法 - 然后她无法观察其他竞标者的最高竞标,我们认为我们认为这是从中汲取的。一个未知的分布。尽管这一困境让人联想到上下文强盗中的探索探索折衷权,但现有的UCB或汤普森采样算法无法直接解决。在本文中,通过利用第一价格拍卖的结构属性,我们开发了第一个实现$ o(\ sqrt {t} \ log^{2.5} t)$ hearry bund的第一个学习算法(\ sqrt {t} \ log^{2.5} t),这是最小值的最低$ $ \ log $因素,当投标人的私人价值随机生成时。我们这样做是通过在一系列问题上提供算法,称为部分有序的上下文匪徒,该算法将图形反馈跨动作,跨环境跨上下文进行结合,以及在上下文中的部分顺序。我们通过表现出一个奇怪的分离来确定该框架的优势和劣势,即在随机环境下几乎可以独立于动作/背景规模的遗憾,但是在对抗性环境下是不可能的。尽管这一通用框架有限制,但我们进一步利用了第一价格拍卖的结构,并开发了一种学习算法,该算法在存在对手生成的私有价值的情况下,在存在的情况下可以有效地运行样本(并有效地计算)。我们建立了一个$ o(\ sqrt {t} \ log^3 t)$遗憾,以此为此算法,因此提供了对第一价格拍卖的最佳学习保证的完整表征。
translated by 谷歌翻译
We consider a multi-agent episodic MDP setup where an agent (leader) takes action at each step of the episode followed by another agent (follower). The state evolution and rewards depend on the joint action pair of the leader and the follower. Such type of interactions can find applications in many domains such as smart grids, mechanism design, security, and policymaking. We are interested in how to learn policies for both the players with provable performance guarantee under a bandit feedback setting. We focus on a setup where both the leader and followers are {\em non-myopic}, i.e., they both seek to maximize their rewards over the entire episode and consider a linear MDP which can model continuous state-space which is very common in many RL applications. We propose a {\em model-free} RL algorithm and show that $\tilde{\mathcal{O}}(\sqrt{d^3H^3T})$ regret bounds can be achieved for both the leader and the follower, where $d$ is the dimension of the feature mapping, $H$ is the length of the episode, and $T$ is the total number of steps under the bandit feedback information setup. Thus, our result holds even when the number of states becomes infinite. The algorithm relies on {\em novel} adaptation of the LSVI-UCB algorithm. Specifically, we replace the standard greedy policy (as the best response) with the soft-max policy for both the leader and the follower. This turns out to be key in establishing uniform concentration bound for the value functions. To the best of our knowledge, this is the first sub-linear regret bound guarantee for the Markov games with non-myopic followers with function approximation.
translated by 谷歌翻译
我们研究供应商和零售商之间的重复游戏,他们希望在不了解问题参数的情况下最大化各自的利润。在用完整的信息表征了舞台游戏的Stackelberg平衡的独特性之后,我们表明,即使有部分了解需求和生产成本的联合分配,自然学习动态也可以保证供应商和零售商共同策略概况的收敛,舞台游戏的平衡。我们还证明了供应商对零售商的遗憾的遗憾和渐近界限的有限时间界限,在该零售商的遗憾中,特定费率取决于玩家初步可用的知识类型。在特殊情况下,当供应商不是战略性的(垂直整合)时,我们证明,当成本和需求是在对抗性和需求时,零售商的遗憾(或等同于社会福利)对零售商的遗憾(或等效地是社会福利)的最佳遗憾。
translated by 谷歌翻译
我们提供了第一个子线性空间和次线性遗憾算法,用于在线学习,并通过专家建议(反对遗忘的对手),解决了Srinivas,Woodruff,Xu和Zhou最近提出的一个公开问题(STOC 2022)。我们还通过证明对自适应对手的任何子线性遗憾算法的线性记忆下限,证明了遗忘和(强)适应对手之间的分离。我们的算法基于一个新颖的泳池选择程序,该程序绕过了传统的在线学习领导者选择的智慧,以及将任何弱的子线性遗憾$ O(t)$算法转变为$ t^{1- \ alpha} $遗憾算法,这可能具有独立的利益。我们的下边界利用了零和游戏中无需重新学习和平衡计算的连接,从而证明了与自适应对手相对于自适应对手的强大界限。
translated by 谷歌翻译