智能论文笔记

Federated Online Clustering of Bandits

Xutong Liu , Haoru Zhao , Tong Yu , Shuai Li , John C. S. Lui

分类：机器学习

2022-08-31

上下文多臂强盗（MAB）是推荐系统中重要的顺序决策问题。一系列称为土匪（俱乐部）聚集的作品，利用了对用户的协作效果，并显着提高了建议质量。由于应用程序量表的日益增加和对隐私的关注，因此需求不断增加，以使用户数据分散并将匪徒学习推向本地服务器端。但是，现有的俱乐部算法是在中央服务器上可用的集中设置下设计的。我们专注于研究Bandit（FCLUB）问题的联合在线聚类，该问题旨在最大程度地减少遗憾，同时满足隐私和沟通的考虑。我们为群集检测设计了一种新的基于阶段的方案，并为解决此问题的合作强盗学习提供了一种新型的异步通信协议。为了保护用户的隐私，以前的差异隐私（DP）定义不是很合适，我们提出了一个在用户群集级别上起作用的新DP概念。我们提供了严格的证据，以证明我们的算法同时实现（聚类）DP，sublrinear沟通复杂性和sublrinear遗憾。最后，实验评估表明，与基准算法相比，我们的表现出色。

translated by 谷歌翻译

HTML版本

Improved Regret for Differentially Private Exploration in Linear MDP

Dung Daniel Ngo , Giuseppe Vietri , Zhiwei Steven Wu

分类：机器学习

2022-02-02

我们研究依靠敏感数据（例如医疗记录）的环境的顺序决策中，研究隐私的探索。特别是，我们专注于解决在线性MDP设置中受（联合）差异隐私的约束的增强学习问题（RL），在该设置中，动态和奖励均由线性函数给出。由于Luyo等人而引起的此问题的事先工作。（2021）实现了$ o（k^{3/5}）$的依赖性的遗憾率。我们提供了一种私人算法，其遗憾率提高，最佳依赖性为$ o（\ sqrt {k}）$对情节数量。我们强烈遗憾保证的关键配方是策略更新时间表中的适应性，其中仅在检测到数据足够更改时才发生更新。结果，我们的算法受益于低切换成本，并且仅执行$ o（\ log（k））$更新，这大大降低了隐私噪声的量。最后，在最普遍的隐私制度中，隐私参数$ \ epsilon $是一个常数，我们的算法会造成可忽略不计的隐私成本 - 与现有的非私人遗憾界限相比，由于隐私而引起的额外遗憾在低阶中出现了术语。

translated by 谷歌翻译

Differentially Private Linear Bandits with Partial Distributed Feedback

Fengjiao Li , Xingyu Zhou , Bo Ji

分类：机器学习

2022-07-12

在本文中，我们仅使用部分分布式反馈来研究全球奖励最大化的问题。这个问题是由几个现实世界应用程序（例如蜂窝网络配置，动态定价和政策选择）激发的，其中中央实体采取的行动会影响有助于全球奖励的大量人群。但是，从整个人群那里收集此类奖励反馈不仅会产生高昂的成本，而且经常导致隐私问题。为了解决此问题，我们考虑了差异的私有分布式线性土匪，其中只选择了来自人群的一部分用户（称为客户）来参与学习过程，并且中央服务器通过迭代地汇总这些部分从这种部分反馈中学习了全局模型客户的本地反馈以差异化的方式。然后，我们提出了一个统一的算法学习框架，称为差异性分布式分布式消除（DP-DPE），该框架可以与流行的差异隐私（DP）模型（包括中央DP，Local DP，Local DP和Shuffle DP）自然集成。此外，我们证明DP-DPE既可以达到统一的遗憾，又实现了额定性沟通成本。有趣的是，DP-DPE也可以“免费”获得隐私保护，这是因为由于隐私保证是一个较低的加法术语。此外，作为我们技术的副产品，对于标准的差异私有线性匪徒，也可以实现“自由”隐私的相同结果。最后，我们进行模拟以证实我们的理论结果并证明DP-DPE的有效性。

translated by 谷歌翻译

Dynamic Global Sensitivity for Differentially Private Contextual Bandits

Huazheng Wang , David Zhao , Hongning Wang

分类：机器学习 | (统计)机器学习

2022-08-30

土匪算法已成为交互式建议的参考解决方案。但是，由于这种算法直接与用户进行改进的建议，因此对其实际使用提出了严重的隐私问题。在这项工作中，我们通过基于树的机制提出了一种差异性的线性上下文匪徒算法，以将拉普拉斯或高斯噪声添加到模型参数中。我们的关键见解是，随着模型在在线更新过程中收敛时，其参数的全局灵敏度随着时间的推移而缩小（因此命名为动态全局灵敏度）。与现有解决方案相比，我们动态的全球敏感性分析使我们能够减少噪声以获得$（\ epsilon，\ delta）$ - 差异隐私，并具有$ \ tilde o（\ log {t} \ sqrt中的噪声注入引起的额外遗憾） {t}/\ epsilon）$。我们通过动态全局灵敏度和我们提出的算法的相应上后悔界限提供了严格的理论分析。合成和现实世界数据集的实验结果证实了该算法对现有解决方案的优势。

translated by 谷歌翻译

HTML版本

Privacy-Preserving Communication-Efficient Federated Multi-Armed Bandits

Tan Li , Linqi Song

分类：机器学习

2021-11-02

通信瓶颈和数据隐私是联邦多武装强盗（MAB）问题中的两个至关重要的问题，例如通过无线连接车辆的决策和建议的情况。在本文中，我们在这些问题中设计了隐私保留的通信有效的算法，并在遗憾方面研究隐私，沟通和学习绩效之间的互动。具体而言，我们设计隐私保留的学习算法和通信协议，并在网络私人代理在主工作人员，分散和混合结构中进行在线强盗学习时，从而导出学习遗憾。我们的强盗学习算法基于每个代理和代理在每个时代结束时与服务器/彼此交换学习知识的庞大的子最优手臂。此外，我们采用差异隐私（DP）方法在交换信息时保护每个代理人的数据隐私;并且我们通过减少频繁的沟通与较少的代理商参与来缩短沟通成本。通过分析我们拟议的算法框架，在硕士劳动，分散和混合结构中的暗示框架，理论上显示了遗憾和沟通成本/隐私之间的权衡。最后，我们经验展示了与我们理论分析一致的这些权衡。

translated by 谷歌翻译

A Simple and Provably Efficient Algorithm for Asynchronous Federated Contextual Linear Bandits

Jiafan He , Tianhao Wang , Yifei Min , Quanquan Gu

分类：机器学习 | (统计)机器学习

2022-07-07

我们研究联合的上下文线性匪徒，其中$ m $代理相互合作，在中央服务器的帮助下解决全球上下文线性匪徒问题。我们考虑了异步设置，所有代理商都独立工作，一个代理和服务器之间的通信不会触发其他代理的通信。我们提出了一种基于乐观原理的简单算法\ texttt {fedlinucb}。我们证明\ texttt {fedlinucb}的遗憾是由$ \ tilde {o}（d \ sqrt {\ sum_ {m = 1}^m t_m}）$界定的，通信复杂性是$ \ tilde {o}（o}（o}（o}（o}（o））dm^2）$，其中$ d $是上下文向量的尺寸，$ t_m $是与环境的交互总数，$ m $ -th代理。据我们所知，这是第一种可证明有效的算法，它允许联合上下文线性匪徒完全异步通信，同时获得与单一代理设置相同的遗憾保证。

translated by 谷歌翻译

Batch-Size Independent Regret Bounds for Combinatorial Semi-Bandits with Probabilistically Triggered Arms or Independent Arms

Xutong Liu , Jinhang Zuo , Siwei Wang , Carlee Joe-Wong , John C. S. Lui , Wei Chen

分类：机器学习 | 人工智能 | (统计)机器学习

2022-08-31

在本文中，我们研究了组合半伴侣（CMAB），并专注于减少遗憾的批量$ k $的依赖性，其中$ k $是可以拉动或触发的武器总数每个回合。首先，对于用概率触发的臂（CMAB-T）设置CMAB，我们发现了一个新颖的（定向）触发概率和方差调制（TPVM）条件，可以替代各种应用程序的先前使用的平滑度条件，例如级联bandsistits bandits bandits。，在线网络探索和在线影响最大化。在这种新条件下，我们提出了一种具有方差感知置信区间的BCUCB-T算法，并进行遗憾分析，将$ O（k）$ actival降低到$ o（\ log k）$或$ o（\ log^2 k））$在遗憾中，大大改善了上述申请的后悔界限。其次，为了设置具有独立武器的非触发CMAB，我们提出了一种SESCB算法，该算法利用TPVM条件的非触发版本，并完全消除了对$ k $的依赖，以备受遗憾。作为有价值的副产品，本文使用的遗憾分析可以将几个现有结果提高到$ O（\ log K）$的一倍。最后，实验评估表明，与不同应用中的基准算法相比，我们的表现出色。

translated by 谷歌翻译

HTML版本

On Private Online Convex Optimization: Optimal Algorithms in $\ell_p$-Geometry and High Dimensional Contextual Bandits

Yuxuan Han , Zhicong Liang , Zhipeng Liang , Yang Wang , Yuan Yao , Jiheng Zhang

分类：机器学习 | (统计)机器学习

2022-06-16

差异化（DP）随机凸优化（SCO）在可信赖的机器学习算法设计中无处不在。本文研究了DP-SCO问题，该问题是从分布中采样并顺序到达的流媒体数据。我们还考虑了连续发布模型，其中与私人信息相关的参数已在每个新数据（通常称为在线算法）上更新和发布。尽管已经开发了许多算法，以实现不同$ \ ell_p $ norm几何的最佳多余风险，但是没有一个现有的算法可以适应流和持续发布设置。为了解决诸如在线凸优化和隐私保护的挑战，我们提出了一种在线弗兰克 - 沃尔夫算法的私人变体，并带有递归梯度，以减少差异，以更新和揭示每个数据上的参数。结合自适应差异隐私分析，我们的在线算法在线性时间中实现了最佳的超额风险，当$ 1 <p \ leq 2 $和最先进的超额风险达到了非私人较低的风险时，当$ 2 <p \ p \ $ 2 <p \ leq \ infty $。我们的算法也可以扩展到$ p = 1 $的情况，以实现几乎与维度无关的多余风险。虽然先前的递归梯度降低结果仅在独立和分布的样本设置中才具有理论保证，但我们在非平稳环境中建立了这样的保证。为了展示我们方法的优点，我们设计了第一个DP算法，用于具有对数遗憾的高维广义线性土匪。使用多种DP-SCO和DP-Bandit算法的比较实验表现出所提出的算法的功效和实用性。

translated by 谷歌翻译

Local Clustering in Contextual Multi-Armed Bandits

Yikun Ban , Jingrui He

分类：机器学习

2021-02-26

我们研究在上下文多臂强盗（MAB）中识别用户簇。上下文mAB是许多真实应用程序的有效工具，例如内容建议和在线广告。实际上，用户依赖性在用户的操作以及奖励中起着至关重要的作用。聚类相似的用户可以提高奖励估计的质量，从而导致更有效的内容建议和有针对性的广告。与传统的聚类设置不同，我们基于未知的匪徒参数聚类用户，该参数将逐步估算。特别是，我们在上下文mAB中定义了群集检测的问题，并提出了一种带有局部聚类过程的Bandit算法，LocB，LocB。而且，我们就聚类的正确性和效率及其遗憾束缚的理论分析提供了有关LICB的理论分析。最后，我们从各个方面评估了提出的算法，这些算法的表现优于最先进的基准。

translated by 谷歌翻译

Distributed Differential Privacy in Multi-Armed Bandits

Sayak Ray Chowdhury , Xingyu Zhou

分类：机器学习

2022-06-12

我们考虑在差异隐私（DP）的分布式信任模型下考虑标准的$ k $武装匪徒问题，该问题使得无需可信赖的服务器保证隐私。在此信任模型下，先前的工作主要集中在使用Shuffle协议实现隐私，在此过程中，在发送到中央服务器之前，将一批用户数据随机排列。通过牺牲额外的添加剂$ o \！\ left（\！\ frac {k \ log t \ sqrt {\ log（1/\ delta）}} } {\ epsilon} \！\ right）\！$在$ t $ - 步骤累积遗憾中成本。相比之下，在广泛使用的中央信托模型下实现更强（$ \ epsilon，0 $）或纯dp保证的最佳隐私成本仅为$ \ theta \！\ left（\！\ frac {k \ log t t t } {\ epsilon} \！\ right）\！$，但是，需要一个受信任的服务器。在这项工作中，我们旨在获得分布式信托模型下的纯DP保证，同时牺牲比中央信托模型的遗憾。我们通过基于连续的ARM消除设计通用的匪徒算法来实现这一目标，在这种情况下，通过使用安全的计算协议确保使用等效的离散拉普拉斯噪声来损坏奖励来保证隐私。我们还表明，当使用Skellam噪声和安全协议实例化时，我们的算法可确保\ emph {r \'{e} nyi差异隐私} - 一个比分布式信任模型的近似dp更强的概念$ o \！\ left（\！\ frac {k \ sqrt {\ log t}}}} {\ epsilon} \！\ right）\！$。

translated by 谷歌翻译

Differentially Private Exploration in Reinforcement Learning with Linear Representation

Paul Luyo , Evrard Garcelon , Alessandro Lazaric , Matteo Pirotta

分类：机器学习

2021-12-02

本文研究了Markov决策过程（MDP）的隐私保留探索，线性表示。我们首先考虑线性混合MDP（Ayoub等，2020）（A.K.A.基于模型的设置）的设置，并提供统一的框架，用于分析关节和局部差异私有（DP）探索。通过这个框架，我们证明了一个$ \ widetilde {o}（k ^ {3/4} / \ sqrt {\ epsilon}）$遗憾绑定$（\ epsilon，\ delta）$ - 本地DP探索和$ \widetilde {o}（\ sqrt {k / \ epsilon}）$后悔绑定$（\ epsilon，\ delta）$ - 联合dp。我们进一步研究了Linear MDP中的隐私保留探索（Jin等，2020）（AKA \ Forws-Free Setting），我们提供$ \ widetilde {o}（\ sqrt {k / \ epsilon}）$后悔绑定$（\ epsilon，\ delta）$ - 关节dp，具有基于低切换的新型算法。最后，我们提供了在这种无模型设置中设计本地DP算法的问题的见解。

translated by 谷歌翻译

Online Low Rank Matrix Completion

Prateek Jain , Soumyabrata Pal

分类：机器学习 | (统计)机器学习

2022-09-08

我们研究了\ textit {在线}低率矩阵完成的问题，并使用$ \ mathsf {m} $用户，$ \ mathsf {n} $项目和$ \ mathsf {t} $ rounds。在每回合中，我们建议每个用户一项。对于每个建议，我们都会从低级别的用户项目奖励矩阵中获得（嘈杂的）奖励。目的是设计一种以下遗憾的在线方法（以$ \ mathsf {t} $）。虽然该问题可以映射到标准的多臂强盗问题，其中每个项目都是\ textit {独立}手臂，但由于没有利用武器和用户之间的相关性，因此遗憾会导致遗憾。相比之下，由于低级别的歧管的非凸度，利用奖励矩阵的低排列结构是具有挑战性的。我们使用探索-Commit（etc）方法克服了这一挑战，该方法确保了$ O（\ Mathsf {polylog}（\ Mathsf {m}+\ \ \ \ \ Mathsf {n}）\ Mathsf {t}^{2/2/ 3}）$。 That is, roughly only $\mathsf{polylog} (\mathsf{M}+\mathsf{N})$ item recommendations are required per user to get non-trivial solution.我们进一步改善了排名$ 1 $设置的结果。在这里，我们提出了一种新颖的算法八进制（使用迭代用户群集的在线协作过滤），以确保$ O（\ Mathsf {polylog}（\ Mathsf {M}+\ Mathsf {N}）几乎最佳的遗憾。 ^{1/2}）$。我们的算法使用了一种新颖的技术，可以共同和迭代地消除项目，这使我们能够在$ \ Mathsf {t} $中获得几乎最小的最佳速率。

translated by 谷歌翻译

Distributed Contextual Linear Bandits with Minimax Optimal Communication Cost

Sanae Amani , Tor Lattimore , András György , Lin F. Yang

分类：机器学习 | (统计)机器学习

2022-05-26

We study distributed contextual linear bandits with stochastic contexts, where $N$ agents act cooperatively to solve a linear bandit-optimization problem with $d$-dimensional features over the course of $T$ rounds. For this problem, we derive the first ever information-theoretic lower bound $\Omega(dN)$ on the communication cost of any algorithm that performs optimally in a regret minimization setup. We then propose a distributed batch elimination version of the LinUCB algorithm, DisBE-LUCB, where the agents share information among each other through a central server. We prove that the communication cost of DisBE-LUCB matches our lower bound up to logarithmic factors. In particular, for scenarios with known context distribution, the communication cost of DisBE-LUCB is only $\tilde{\mathcal{O}}(dN)$ and its regret is ${\tilde{\mathcal{O}}}(\sqrt{dNT})$, which is of the same order as that incurred by an optimal single-agent algorithm for $NT$ rounds. We also provide similar bounds for practical settings where the context distribution can only be estimated. Therefore, our proposed algorithm is nearly minimax optimal in terms of \emph{both regret and communication cost}. Finally, we propose DecBE-LUCB, a fully decentralized version of DisBE-LUCB, which operates without a central server, where agents share information with their \emph{immediate neighbors} through a carefully designed consensus procedure.

translated by 谷歌翻译

Privacy Amplification via Shuffling for Linear Contextual Bandits

Evrard Garcelon , Kamalika Chaudhuri , Vianney Perchet , Matteo Pirotta

分类：机器学习

2021-12-11

上下文强盗算法广泛用于域中，其中期望通过利用上下文信息提供个性化服务，这可能包含需要保护的敏感信息。灵感来自这种情况，我们研究了差异隐私（DP）约束的上下文线性强盗问题。虽然文献专注于集中式（联合DP）或本地（本地DP）隐私，但我们考虑了隐私的洗牌模型，我们表明可以在JDP和LDP之间实现隐私/实用权折衷。通过利用隐私和批处理从匪徒进行洗牌，我们介绍了一个遗憾的遗留率$ \ widetilde {\ mathcal {o}}（t ^ {2/3} / \ varepsilon ^ {1/3}）$，同时保证中央（联合）和当地隐私。我们的结果表明，通过利用Shuffle模型在保留本地隐私时，可以在JDP和LDP之间获得权衡。

translated by 谷歌翻译

Uplifting Bandits

Yu-Guan Hsieh , Shiva Prasad Kasiviswanathan , Branislav Kveton

分类： (统计)机器学习 | 机器学习

2022-06-08

我们介绍了一个多臂强盗模型，其中奖励是多个随机变量的总和，每个动作只会改变其中的分布。每次动作之后，代理都会观察所有变量的实现。该模型是由营销活动和推荐系统激励的，在该系统中，变量代表单个客户的结果，例如点击。我们提出了UCB风格的算法，以估计基线上的动作的提升。我们研究了问题的多种变体，包括何时未知基线和受影响的变量，并证明所有这些变量均具有sublrinear后悔界限。我们还提供了较低的界限，以证明我们的建模假设的必要性是合理的。关于合成和现实世界数据集的实验显示了估计不使用这种结构的策略的振奋方法的好处。

translated by 谷歌翻译

Distributed Stochastic Bandit Learning with Context Distributions

Jiabin Lin , Shana Moothedath

分类：机器学习

2022-07-28

我们研究了带有未知上下文的分布式随机多臂上下文匪徒的问题，其中M代理商在中央服务器的协调下合作选择最佳动作，以最大程度地减少遗憾。在我们的模型中，对手选择在可能的上下文集上的分布，而代理只观察到上下文分布，而确切的上下文是代理人未知的。例如，当上下文本身是嘈杂的测量或基于天气预报或股票市场预测中的预测机制时，就会出现这种情况。我们的目标是开发一种分布式算法，该算法选择一系列最佳动作序列以最大程度地提高累积奖励。通过执行功能向量转换并利用UCB算法，我们提出了一种具有上下文分布的随机匪徒的UCB算法，并证明我们的算法实现了$ O（D \ sqrt {mt} log^2t log^2t）$ o的遗憾和通信范围对于线性参数化的奖励函数，分别为$ o（m^{1.5} d^3）$。我们还考虑了一种情况，代理在选择动作后会观察实际情况。对于此设置，我们提出了一种修改后的算法，该算法利用其他信息来实现更严格的遗憾。最后，我们验证了算法的性能，并使用有关合成数据和现实世界Movielens数据集的大量模拟将其与其他基线方法进行了比较。

translated by 谷歌翻译

Differentially Private Stochastic Linear Bandits: (Almost) for Free

Osama A. Hanna , Antonious M. Girgis , Christina Fragouli , Suhas Diggavi

分类：机器学习

2022-07-07

在本文中，我们提出了针对中央，局部和洗牌模型中随机线性匪徒问题的差异私有算法。在中心模型中，我们获得了与最佳非私有算法的遗憾，这意味着我们可以免费获得隐私。特别是，我们感到遗憾的是$ \ tilde {o}（\ sqrt {t}+\ frac {1} {\ epsilon}）$匹配已知的私有线性匪徒的较低限制，而最佳以前已知的算法实现了$ \ tilde {o}（\ frac {1} {\ epsilon} \ sqrt {t}）$。在当地情况下，我们感到遗憾的是$ \ tilde {o}（\ frac {1} {\ epsilon} {\ sqrt {t}} $，与常数$ \ epsilon $相匹配的非私人遗憾，但是当$ \ epsilon $很小时，会受到遗憾的处罚。在洗牌模型中，我们还遗憾地对$ \ tilde {o}（\ sqrt {t}+\ frac {1} {\ epsilon} {\ epsilon}）$％$ \ epsilon $，如中心案例，而最佳情况是以前已知的算法对$ \ tilde {o}（\ frac {1} {\ epsilon} {t^{3/5}}）$感到遗憾。我们的数值评估验证了我们的理论结果。

translated by 谷歌翻译

Ranking in Contextual Multi-Armed Bandits

Amitis Shidani , George Deligiannidis , Arnaud Doucet

分类： (统计)机器学习 | 机器学习

2022-06-30

我们研究上下文多军匪徒设置中的排名问题。学习代理在每个时间步骤中选择一个有序的项目列表，并观察每个位置的随机结果。在在线推荐系统中，显示最有吸引力的项目的有序列表将不是最佳选择，因为位置和项目依赖性都会带来复杂的奖励功能。一个非常天真的例子是，当所有最有吸引力的物品都来自同一类别时，缺乏多样性。我们为此问题在“排序列表”和“设计UCB”和Thompson采样类型算法中对位置和项目依赖性建模。我们证明，遗憾超过$ t $ rounds和$ l $ positions是$ \ tilde {o}（l \ sqrt {d t}）$，它的订单与以前在$ t $和$ t $方面的作品相同仅用$ L $线性增加。我们的工作将现有的研究推广到多个方向，包括位置折扣是特定情况的位置依赖性，并提出了更一般的背景匪徒模型。

translated by 谷歌翻译

When Privacy Meets Partial Information: A Refined Analysis of Differentially Private Bandits

Achraf Azize , Debabrota Basu

分类：机器学习 | (统计)机器学习

2022-09-06

我们研究了具有$ \ epsilon $ -Global差异隐私（DP）的多臂土匪的问题。首先，我们证明了使用$ \ epsilon $ -Global DP量化土匪硬度的随机和线性土匪的最小值和问题依赖的后悔下限。这些界限表明存在两个硬度制度，具体取决于隐私预算$ \ epsilon $。在高私人制度（小$ \ epsilon $）中，硬度取决于隐私的耦合效果以及有关奖励分布的部分信息。在低私人制度（大$ \ epsilon $）中，具有$ \ epsilon $ -Global DP的土匪并不比没有隐私的土匪更难。对于随机匪徒，我们进一步提出了一个通用框架，以设计基于索引的乐观强盗算法的近乎最佳的$ \ epsilon $全局DP扩展。该框架由三种成分组成：拉普拉斯机制，依赖手臂的自适应发作以及仅在最后一集中收集的奖励来计算私人统计数据。具体而言，我们实例化了UCB和KL-UCB算法的Epsilon $ -Global DP扩展，即ADAP-UCB和ADAP-KLUCB。 Adap-klucb是两者都满足$ \ epsilon $ -Global DP的第一种算法，并产生了遗憾的上限，与问题依赖性下限与乘法常数相匹配。

translated by 谷歌翻译

Differentially Private Regret Minimization in Episodic Markov Decision Processes

Sayak Ray Chowdhury , Xingyu Zhou

分类：机器学习

2021-12-20

在差异隐私（DP）的约束下，我们在有限地域表格马尔可夫决策过程（MDP）中研究了遗憾最小化。这是由强化学习（RL）在现实世界顺序决策中的广泛应用程序的推动，保护用户敏感和私人信息变得最大程度。我们考虑了两种DP - 关节DP（JDP）的变体，其中集中式代理负责保护用户的敏感数据和本地DP（LDP），其中需要直接在用户端保护信息。我们首先提出了两个一般框架 - 一个用于策略优化，另一个用于迭代 - 用于设计私有，乐观的RL算法。然后，我们将这些框架实例化了合适的隐私机制来满足JDP和LDP要求，并同时获得Sublinear遗憾担保。遗憾的界限表明，在JDP下，隐私费用只是较低的秩序添加剂项，而在LDP下，对于更强的隐私保护，遭受的成本是乘法的。最后，通过统一的分析获得了遗憾范围，我们相信，我们相信，可以超出表格MDP。

translated by 谷歌翻译