我们认为一个面对买家的卖家,他们有能力推迟他们的决定,我们称之为耐心。每种买家的类型都由价值和耐心组成,并采样了I.I.D。来自分布。卖方使用张贴的价格,希望从销售给买方来最大化她的收入。在本文中,我们将此环境正式化,并描述了由此产生的Stackelberg平衡,卖方首先承诺她的策略,然后买家最能做出回应。在此之后,我们展示了如何计算最佳纯和混合策略。然后,我们考虑一个学习环境,卖方无法通过购买者的类型访问分销。我们的主要结果是以下内容。我们通过计算此设置的脂肪震动维度来得出一个用于学习近似最佳纯策略的样本复杂性。此外,我们为近似最佳混合策略提供了一般的样本复杂性。我们还考虑在线环境,并在最佳纯策略和最佳混合策略方面获得了消失的遗憾。
translated by 谷歌翻译
在随着时间变化的组合环境中的在线决策激励,我们研究了将离线算法转换为其在线对应物的问题。我们专注于使用贪婪算法对局部错误的贪婪算法进行恒定因子近似的离线组合问题。对于此类问题,我们提供了一个通用框架,该框架可有效地将稳健的贪婪算法转换为使用Blackwell的易近算法。我们证明,在完整信息设置下,由此产生的在线算法具有$ O(\ sqrt {t})$(近似)遗憾。我们进一步介绍了Blackwell易接近性的强盗扩展,我们称之为Bandit Blackwell的可接近性。我们利用这一概念将贪婪的稳健离线算法转变为匪(t^{2/3})$(近似)$(近似)的遗憾。展示了我们框架的灵活性,我们将脱机之间的转换应用于收入管理,市场设计和在线优化的几个问题,包括在线平台中的产品排名优化,拍卖中的储备价格优化以及supperular tossodular最大化。 。我们还将还原扩展到连续优化的类似贪婪的一阶方法,例如用于最大化连续强的DR单调下调功能,这些功能受到凸约束的约束。我们表明,当应用于这些应用程序时,我们的转型会导致新的后悔界限或改善当前已知界限。我们通过为我们的两个应用进行数值模拟来补充我们的理论研究,在这两种应用中,我们都观察到,转换的数值性能在实际情况下优于理论保证。
translated by 谷歌翻译
We study the hidden-action principal-agent problem in an online setting. In each round, the principal posts a contract that specifies the payment to the agent based on each outcome. The agent then makes a strategic choice of action that maximizes her own utility, but the action is not directly observable by the principal. The principal observes the outcome and receives utility from the agent's choice of action. Based on past observations, the principal dynamically adjusts the contracts with the goal of maximizing her utility. We introduce an online learning algorithm and provide an upper bound on its Stackelberg regret. We show that when the contract space is $[0,1]^m$, the Stackelberg regret is upper bounded by $\widetilde O(\sqrt{m} \cdot T^{1-C/m})$, and lower bounded by $\Omega(T^{1-1/(m+2)})$. This result shows that exponential-in-$m$ samples are both sufficient and necessary to learn a near-optimal contract, resolving an open problem on the hardness of online contract design. When contracts are restricted to some subset $\mathcal{F} \subset [0,1]^m$, we define an intrinsic dimension of $\mathcal{F}$ that depends on the covering number of the spherical code in the space and bound the regret in terms of this intrinsic dimension. When $\mathcal{F}$ is the family of linear contracts, the Stackelberg regret grows exactly as $\Theta(T^{2/3})$. The contract design problem is challenging because the utility function is discontinuous. Bounding the discretization error in this setting has been an open problem. In this paper, we identify a limited set of directions in which the utility function is continuous, allowing us to design a new discretization method and bound its error. This approach enables the first upper bound with no restrictions on the contract and action space.
translated by 谷歌翻译
在古典语境匪徒问题中,在每轮$ t $,学习者观察一些上下文$ c $,选择一些动作$ i $执行,并收到一些奖励$ r_ {i,t}(c)$。我们考虑此问题的变体除了接收奖励$ r_ {i,t}(c)$之外,学习者还要学习其他一些上下文$的$ r_ {i,t}(c')$的值C'$ in设置$ \ mathcal {o} _i(c)$;即,通过在不同的上下文下执行该行动来实现的奖励\ mathcal {o} _i(c)$。这种变体出现在若干战略设置中,例如学习如何在非真实的重复拍卖中出价,最热衷于随着许多平台转换为运行的第一价格拍卖。我们将此问题称为交叉学习的上下文匪徒问题。古典上下围匪徒问题的最佳算法达到$ \ tilde {o}(\ sqrt {ckt})$遗憾针对所有固定策略,其中$ c $是上下文的数量,$ k $的行动数量和$ $次数。我们设计并分析了交叉学习的上下文匪徒问题的新算法,并表明他们的遗憾更好地依赖上下文的数量。在选择动作时学习所有上下文的奖励的完整交叉学习下,即设置$ \ mathcal {o} _i(c)$包含所有上下文,我们显示我们的算法实现后悔$ \ tilde {o}( \ sqrt {kt})$,删除$ c $的依赖。对于任何其他情况,即在部分交叉学习下,$ | \ mathcal {o} _i(c)| <c $ for $(i,c)$,遗憾界限取决于如何设置$ \ mathcal o_i(c)$影响上下文之间的交叉学习的程度。我们从Ad Exchange运行一流拍卖的广告交换中模拟了我们的真实拍卖数据的算法,并表明了它们优于传统的上下文强盗算法。
translated by 谷歌翻译
We study learning contextual MDPs using a function approximation for both the rewards and the dynamics. We consider both the case that the dynamics dependent or independent of the context. For both models we derive polynomial sample and time complexity (assuming an efficient ERM oracle). Our methodology gives a general reduction from learning contextual MDP to supervised learning.
translated by 谷歌翻译
我们研究了对对抗性产生的二进制序列进行校准概率预测的问题。遵循Foster和Vohra(1998)的开创性论文,自然通常被建模为自适应对手,除了预报员可以部署的随机化外,预报掌握了所有活动的所有活动。许多论文提出了随机预测策略,以实现$ o(1/\ sqrt {t})$的$ \ epsilon $ actibration错误率,我们通常证明这很紧张。另一方面,众所周知,如果没有随机化,或者大自然也可以看到预报员的随机化;在这两种情况下,校准误差都可能为$ \ omega(1)$。受到“两种选择的力量”和不精确概率理论的同样开创性作品的启发,我们研究了标准在线校准问题的一个小变体。对手为预报提供了对附近的两个概率预测的选择,或者等效地预测宽度很小,最接近显示结果的端点用于判断校准。这两种选择的功率或不精确的预测,具有重要功率的预报器 - 我们表明,即使不部署任何随机化,也可以达到更快的$ \ epsilon $ actailon $ calibration $(1/t)$。
translated by 谷歌翻译
近年来,动态机制设计引起了计算机科学家和经济学家的极大关注。通过允许代理商在多个回合中与卖方互动,在这种情况下,代理商的奖励功能可能会随着时间而变化并且与国家有关,该框架能够建模丰富的现实世界问题。在这些作品中,通常认为代理商和卖方之间的相互作用遵循马尔可夫决策过程(MDP)。我们专注于此类MDP的奖励和过渡函数的设置,而不是先验地知道,我们正在尝试使用先验收集的数据集恢复最佳机制。在使用函数近似来处理大型状态空间的情况下,只有对功能类表达式的轻度假设,我们能够使用离线增强学习算法设计动态机制。此外,学到的机制大约具有三个关键的逃避:效率,个人理性和真实性。我们的算法基于悲观原则,仅需要对离线数据集的覆盖率进行温和的假设。据我们所知,我们的工作为动态机制设计提供了第一个离线RL算法,而无需假设覆盖范围。
translated by 谷歌翻译
我们研究Stackelberg游戏,其中一位校长反复与长寿,非洋流代理商进行互动,而不知道代理商的回报功能。尽管当代理商是近视,非侧心代理会带来额外的并发症时,在Stackelberg游戏中的学习是充分理解的。尤其是,非洋流代理可以从战略上选择当前劣等的行动,以误导校长的学习算法并在未来获得更好的结果。我们提供了一个通用框架,该框架可在存在近视剂的情况下降低非洋白酶的学习来优化强大的匪徒。通过设计和分析微型反应性匪徒算法,我们的还原从校长学习算法的统计效率中进行了差异,以与其在诱导接近最佳的响应中的有效性。我们将此框架应用于Stackelberg Security Games(SSG),需求曲线,战略分类和一般有限的Stackelberg游戏的价格。在每种情况下,我们都表征了近最佳响应中存在的错误的类型和影响,并为此类拼写错误开发了一种鲁棒性的学习算法。在此过程中,我们通过最先进的$ O(n^3)$从SSGS中提高了SSG中的学习复杂性,从通过发现此类游戏的基本结构属性。该结果除了对非洋流药物学习之外,还具有独立的兴趣。
translated by 谷歌翻译
本文在动态定价的背景下调查预先存在的离线数据对在线学习的影响。我们在$ t $期间的销售地平线上研究单一产品动态定价问题。每个时段的需求由产品价格根据具有未知参数的线性需求模型确定。我们假设在销售地平线开始之前,卖方已经有一些预先存在的离线数据。离线数据集包含$ N $示例,其中每个标准是由历史价格和相关的需求观察组成的输入输出对。卖方希望利用预先存在的离线数据和顺序在线数据来最大限度地减少在线学习过程的遗憾。我们的特征在于在线学习过程的最佳遗憾的脱机数据的大小,位置和分散的联合效果。具体而言,离线数据的大小,位置和色散由历史样本数量为$ n $,平均历史价格与最佳价格$ \ delta $之间的距离以及历史价格的标准差价Sigma $分别。我们表明最佳遗憾是$ \ widetilde \ theta \ left(\ sqrt {t} \ wedge \ frac {t} {(n \ wedge t)\ delta ^ 2 + n \ sigma ^ 2} \右)$,基于“面对不确定性”原则的“乐观主义”的学习算法,其遗憾是最佳的对数因子。我们的结果揭示了对脱机数据的大小的最佳遗憾率的惊人变换,我们称之为阶段转型。此外,我们的结果表明,离线数据的位置和分散也对最佳遗憾具有内在效果,我们通过逆平面法量化了这种效果。
translated by 谷歌翻译
我们考虑激励探索:一种多臂匪徒的版本,其中武器的选择由自私者控制,而算法只能发布建议。该算法控制信息流,信息不对称可以激励代理探索。先前的工作达到了最佳的遗憾率,直到乘法因素,这些因素根据贝叶斯先验而变得很大,并在武器数量上成倍规模扩展。采样每只手臂的一个更基本的问题一旦遇到了类似的因素。我们专注于激励措施的价格:出于激励兼容的目的,绩效的损失,广泛解释为。我们证明,如果用足够多的数据点初始化,则标准的匪徒汤普森采样是激励兼容的。因此,当收集这些数据点时,由于激励措施的绩效损失仅限于初始回合。这个问题主要降低到样本复杂性的问题:需要多少个回合?我们解决了这个问题,提供了匹配的上限和下限,并在各种推论中实例化。通常,最佳样品复杂性在“信念强度”中的武器数量和指数中是多项式。
translated by 谷歌翻译
我们研究供应商和零售商之间的重复游戏,他们希望在不了解问题参数的情况下最大化各自的利润。在用完整的信息表征了舞台游戏的Stackelberg平衡的独特性之后,我们表明,即使有部分了解需求和生产成本的联合分配,自然学习动态也可以保证供应商和零售商共同策略概况的收敛,舞台游戏的平衡。我们还证明了供应商对零售商的遗憾的遗憾和渐近界限的有限时间界限,在该零售商的遗憾中,特定费率取决于玩家初步可用的知识类型。在特殊情况下,当供应商不是战略性的(垂直整合)时,我们证明,当成本和需求是在对抗性和需求时,零售商的遗憾(或等同于社会福利)对零售商的遗憾(或等效地是社会福利)的最佳遗憾。
translated by 谷歌翻译
我们研究了具有线性函数近似增强学习中的随机最短路径(SSP)问题,其中过渡内核表示为未知模型的线性混合物。我们将此类别的SSP问题称为线性混合物SSP。我们提出了一种具有Hoeffding-type置信度的新型算法,用于学习线性混合物SSP,可以获得$ \ tilde {\ Mathcal {o}}}}(d B _ {\ star}^{1.5} \ sqrt {k/c_ {k/c_ {k/c_ {k/c_ { \ min}})$遗憾。这里$ k $是情节的数量,$ d $是混合模型中功能映射的维度,$ b _ {\ star} $限制了最佳策略的预期累积成本,$ c _ {\ min}>> 0 $是成本函数的下限。当$ c _ {\ min} = 0 $和$ \ tilde {\ mathcal {o}}}(k^{2/3})$遗憾时,我们的算法也适用于情况。据我们所知,这是第一个具有sublrinear遗憾保证线性混合物SSP的算法。此外,我们设计了精致的伯恩斯坦型信心集并提出了改进的算法,该算法可实现$ \ tilde {\ Mathcal {o}}}(d b _ {\ star} \ sqrt {k/c/c/c {k/c _ {\ min}}) $遗憾。为了补充遗憾的上限,我们还证明了$ \ omega(db _ {\ star} \ sqrt {k})$的下限。因此,我们的改进算法将下限匹配到$ 1/\ sqrt {c _ {\ min}} $ factor和poly-logarithmic因素,从而实现了近乎最佳的遗憾保证。
translated by 谷歌翻译
我们使用线性函数近似研究强化学习,其中过渡概率和奖励函数相对于特征映射$ \ boldsymbol {\ phi}(s,a)$是线性的。具体而言,我们考虑情节不均匀线性马尔可夫决策过程(MDP),并提出了一种新颖的计算有效算法,lsvi-ucb $^+$,它可以实现$ \ widetilde {o} {o}(hd \ sqrt {t})$遗憾的是$ h $是情节长度,$ d $是功能维度,而$ t $是步骤数。 LSVI-UCB $^+$以伯恩斯坦类型的勘探奖金建立了加权山脊回归和上限价值迭代。我们的统计结果是通过新颖的分析工具获得的,包括与椭圆电位的保守主义的新伯恩斯坦自称结合,并对校正项进行了完善的分析。据我们所知,这是线性MDP的第一个最佳最佳算法,直至对数因素,它关闭了$ \ sqrt {hd} $差距,$ \ widetilde {o}(\ sqrt {\ sqrt {\ sqrt { h^3d^3t})$ in \ cit {jin2020provalible}和$ \ omega(hd \ sqrt {t})$的下限用于线性MDPS。
translated by 谷歌翻译
我们通过审查反馈重复进行一定的第一价格拍卖来研究在线学习,在每次拍卖结束时,出价者只观察获胜的出价,学会了适应性地出价,以最大程度地提高她的累积回报。为了实现这一目标,投标人面临着一个具有挑战性的困境:如果她赢得了竞标 - 获得正收益的唯一方法 - 然后她无法观察其他竞标者的最高竞标,我们认为我们认为这是从中汲取的。一个未知的分布。尽管这一困境让人联想到上下文强盗中的探索探索折衷权,但现有的UCB或汤普森采样算法无法直接解决。在本文中,通过利用第一价格拍卖的结构属性,我们开发了第一个实现$ o(\ sqrt {t} \ log^{2.5} t)$ hearry bund的第一个学习算法(\ sqrt {t} \ log^{2.5} t),这是最小值的最低$ $ \ log $因素,当投标人的私人价值随机生成时。我们这样做是通过在一系列问题上提供算法,称为部分有序的上下文匪徒,该算法将图形反馈跨动作,跨环境跨上下文进行结合,以及在上下文中的部分顺序。我们通过表现出一个奇怪的分离来确定该框架的优势和劣势,即在随机环境下几乎可以独立于动作/背景规模的遗憾,但是在对抗性环境下是不可能的。尽管这一通用框架有限制,但我们进一步利用了第一价格拍卖的结构,并开发了一种学习算法,该算法在存在对手生成的私有价值的情况下,在存在的情况下可以有效地运行样本(并有效地计算)。我们建立了一个$ o(\ sqrt {t} \ log^3 t)$遗憾,以此为此算法,因此提供了对第一价格拍卖的最佳学习保证的完整表征。
translated by 谷歌翻译
在拍卖领域,了解重复拍卖中学习动态的收敛属性是一个及时,重要的问题,例如在线广告市场中有许多应用程序。这项工作着重于重复的首次价格拍卖,该物品具有固定值的竞标者学会使用基于平均值的算法出价 - 大量的在线学习算法,其中包括流行的无regret算法,例如多重权重更新,并遵循扰动的领导者。我们完全表征了基于均值算法的学习动力学,从收敛到拍卖的NASH平衡方面,具有两种感觉:(1)时间平均水平:竞标者在bidiper the NASH平衡方面的回合分数,在极限中均在极限中。 ; (2)最后一题:竞标者的混合策略概况接近限制的NASH平衡。具体而言,结果取决于最高值的投标人的数量: - 如果数量至少为三个,则竞标动力学几乎可以肯定地收敛到拍卖的NASH平衡,无论是在时间平时还是在最后近期的情况下。 - 如果数字为两个,则竞标动力学几乎可以肯定会在时间平时收敛到NASH平衡,但不一定在最后近期。 - 如果数字是一个,则竞标动力学可能不会在时间平均值或最后近期的时间内收敛到NASH平衡。我们的发现为学习算法的融合动力学研究开辟了新的可能性。
translated by 谷歌翻译
在随机上下文的强盗设置中,对遗憾最小化算法进行了广泛的研究,但是他们的实例最少的最佳武器识别对应物仍然很少研究。在这项工作中,我们将重点关注$(\ epsilon,\ delta)$ - $ \ textit {pac} $设置:给定策略类$ \ pi $,学习者的目标是返回策略的目标, $ \ pi \ in \ pi $的预期奖励在最佳政策的$ \ epsilon $之内,概率大于$ 1- \ delta $。我们表征了第一个$ \ textit {实例依赖性} $ PAC样品通过数量$ \ rho _ {\ pi} $的上下文匪徒的复杂性,并根据$ \ rho _ {\ pi} $提供匹配的上和下限不可知论和线性上下文最佳武器标识设置。我们表明,对于遗憾的最小化和实例依赖性PAC而言,无法同时最小化算法。我们的主要结果是一种新的实例 - 最佳和计算有效算法,该算法依赖于多项式呼叫对Argmax Oracle的调用。
translated by 谷歌翻译
我们考虑了贝叶斯的预测汇总模型,在观察了关于未知二进制事件的私人信号之后,$ n $专家向校长报告了有关事件的后验信念,然后将报告汇总为事件的单个预测。专家的信号和事件的结果遵循校长未知的联合分配,但校长可以访问I.I.D.来自分布的“样本”,每个样本都是专家报告的元组(不是信号)和事件的实现。使用这些样品,主要目的是找到$ \ varepsilon $ - 易于最佳(贝叶斯)聚合器。我们研究此问题的样本复杂性。我们表明,对于任意离散分布,样本的数量必须至少为$ \ tilde \ omega(m^{n-2} / \ varepsilon)$,其中$ m $是每个专家信号空间的大小。该样本复杂性在专家$ n $的数量中成倍增长。但是,如果专家的信号是独立的,以实现事件的实现为条件,那么样本复杂性将大大降低到$ \ tilde o(1 / \ varepsilon^2)$,这不取决于$ n $。
translated by 谷歌翻译
除了最大化总收入外,许多行业的决策者还希望保证跨不同资源的公平消费,并避免饱和某些资源。在这些实际需求的推动下,本文研究了基于价格的网络收入管理问题,需求学习和公平性关注不同资源的消费。我们介绍了正式的收入,即以公平的正规化为目标,作为我们的目标,将公平性纳入收入最大化目标。我们提出了一种原始的偶型在线政策,并使用受到信心限制(UCB)的需求学习方法最大化正规化收入。我们采用了几种创新技术,以使我们的算法成为连续价格集和广泛的公平规则化的统一和计算高效的框架。我们的算法实现了$ \ tilde o(n^{5/2} \ sqrt {t})$的最坏遗憾,其中$ n $表示产品数,$ t $表示时间段。一些NRM示例中的数值实验证明了我们算法在平衡收入和公平性方面的有效性。
translated by 谷歌翻译
公司跨行业对机器学习(ML)的快速传播采用了重大的监管挑战。一个这样的挑战就是可伸缩性:监管机构如何有效地审核这些ML模型,以确保它们是公平的?在本文中,我们启动基于查询的审计算法的研究,这些算法可以以查询有效的方式估算ML模型的人口统计学率。我们提出了一种最佳的确定性算法,以及具有可比保证的实用随机,甲骨文效率的算法。此外,我们进一步了解了随机活动公平估计算法的最佳查询复杂性。我们对主动公平估计的首次探索旨在将AI治理置于更坚定的理论基础上。
translated by 谷歌翻译
大部分强化学习理论都建立在计算上难以实施的甲板上。专门用于在部分可观察到的马尔可夫决策过程(POMDP)中学习近乎最佳的政策,现有算法要么需要对模型动态(例如确定性过渡)做出强有力的假设,要么假设访问甲骨文作为解决艰难的计划或估算问题的访问子例程。在这项工作中,我们在合理的假设下开发了第一个用于POMDP的无Oracle学习算法。具体而言,我们给出了一种用于在“可观察” pomdps中学习的准化性时间端到端算法,其中可观察性是一个假设,即对国家而言,分离良好的分布诱导了分离良好的分布分布而不是观察。我们的技术规定了在不确定性下使用乐观原则来促进探索的更传统的方法,而是在构建策略涵盖的情况下提供了一种新颖的barycentric跨度应用。
translated by 谷歌翻译