当前位置: 首页 > news >正文

域名注册网站便宜seo点击排名软件哪家好

域名注册网站便宜,seo点击排名软件哪家好,不懂代码用cms做网站,人才招聘网最新招聘信息论文地址:https://arxiv.org/pdf/2412.01981 相关博客 【自然语言处理】【大模型】 ΨPO:一个理解人类偏好学习的统一理论框架 【强化学习】PPO:近端策略优化算法 【偏好对齐】PRM应该奖励单个步骤的正确性吗? 【偏好对齐】通过OR…

论文地址:https://arxiv.org/pdf/2412.01981

相关博客
【自然语言处理】【大模型】 ΨPO:一个理解人类偏好学习的统一理论框架
【强化学习】PPO:近端策略优化算法
【偏好对齐】PRM应该奖励单个步骤的正确性吗?
【偏好对齐】通过ORM直接推导出PRM

一、PRM的成本和性能困境

1. ORM和PRM

​ 在强化学习中,奖励模型用于评估模型的输出。常见的两种奖励模型是结果奖励模型(ORM)和过程奖励模型(PRM)。ORM为整个响应分配一个稀疏奖励,而PRM则为每个中间步骤提供奖励。

ORM和PRM奖励分配方式。令 x x x表示指令, y y y为包含n个步骤的响应, y t y_t yt为第t步的响应, y < t y_{<t} y<t表示前t-1步的响应。PRM为第t步分配的奖励为 r θ t ( y < t , y t ) r^{t}_{\theta}(y_{<t},y_t) rθt(y<t,yt)。令Q值 q θ t ( y < t , y t ) q_{\theta}^t(y_{<t},y_t) qθt(y<t,yt)表示基于响应 y < t y_{<t} y<t和当前步骤 y t y_t yt的奖励 r θ r_{\theta} rθ的期望值。先前的研究将过程奖励定义为每个步骤的正确性,而近期研究则将其定义为优势值。即Q值之差: r θ t : = q θ t − q θ t − 1 r_{\theta}^t:=q_{\theta}^t-q_{\theta}^{t-1} rθt:=qθtqθt1

2. PRM的优势

效果。结果奖励模型和过程奖励模型都能够提供奖励以评估模型的输出。然而,PRM在训练和推理时都表现出优于ORM的优势。

效率。PRM提供密集的步骤级奖励能让强化学习(RL)训练变得稳定且高效。

3. PRM的困境

​ 尽管PRM很有效,但其训练难度更大,主要挑战在于训练数据的收集。为了收集PRM的训练数据,通常需要使用蒙特卡洛树搜索(MCTS)进行自动步骤标注。

​ MCTS基于指令和前t步的响应来采样多条轨迹,每条轨迹都会产生一个最终答案。但是,这种方法会带来高额的额外成本,并且由于标注过程存在噪声,可能会导致性能欠佳。

4. MCTS估计的问题

估计策略:

在MCTS中,有两种常见的标签估计策略:

  • 硬估计:如果有任意rollout是正确的,那么步骤tt被标注为1,否则为0。即 l t = max ⁡ { c 1 , c 2 , … , c N } l_t=\max\{c_1,c_2,\dots,c_N\} lt=max{c1,c2,,cN}
  • 软估计:步骤t被标注为所有rollout中正确答案的比例,也就是 l t = ∑ t = 1 N c t / N l_t=\sum_{t=1}^N c_t/N lt=t=1Nct/N

令ORM为 θ \theta θ,基于硬估计数据训练的PRM为 θ h \theta_h θh,基于软估计数据训练的PRM为 θ s \theta_s θs,那么两种策略的Q值表示为
q θ h t ( y < t , y t ) = max ⁡ y ∣ y < t r θ ( y ) , q θ s t ( y < t , y t ) = E π r e f ( y ∣ y < t ) r θ ( y ) q_{\theta_h}^t(y_{<t},y_t)=\max_{y|y_{<t}} r_{\theta}(y),q_{\theta_s}^t(y_{<t},y_t)=\mathbb{E}_{\pi_{ref}(y|y_{<t})}r_{\theta}(y) \\ qθht(y<t,yt)=yy<tmaxrθ(y),qθst(y<t,yt)=Eπref(yy<t)rθ(y)
潜在问题:

尽管硬估计和软估计都有其合理性,但它们都存在噪音问题。具体来说:

  • 硬估计: q θ h t q_{\theta_h}^t qθht表示给定 y < t y_{<t} y<t的情况下的最大结果奖励 r θ r_{\theta} rθ,而不是期望值,因此会高估 Q Q Q值。
  • 软估计:对于 q θ s t q_{\theta_s}^t qθst,由于策略模型的能力通常有限,要针对困难的指令采样处正确的解决方案很难,会受假阴性噪音的影响,从而低估 Q Q Q

二、通过ORM直接构造PRM

​ MCTS虽然能够不借助人工来构造PRM数据,但是成本高昂且奖励值估计不准确。那么不通过MCTS,而是直接基于ORM来构造过程奖励可以吗?

1. 基于ORM构造PRM

​ ORM采用DPO中定义的形式,即 r θ ( y ) : = β log ⁡ π θ ( y ) π ref ( y ) r_{\theta}(y):=\beta\log\frac{\pi_{\theta}(y)}{\pi_{\text{ref}}(y)} rθ(y):=βlogπref(y)πθ(y)。令 q θ t ( y < t , y t ) : = ∑ i = 1 t β log ⁡ π θ ( y i ∣ y < i ) π ref ( y i ∣ y < t ) q_{\theta}^t(y_{<t},y_t):=\sum_{i=1}^t\beta\log\frac{\pi_{\theta}(y_i|y_{<i})}{\pi_{\text{ref}}(y_i|y_{<t})} qθt(y<t,yt):=i=1tβlogπref(yiy<t)πθ(yiy<i),那么 q θ t q_{\theta}^t qθt r ( θ ) r(\theta) r(θ)的指数平均值,即
q θ t ( y < t , y t ) = β log ⁡ E π r e f ( y ∣ y ≤ t ) e 1 β r θ ( y ) q_{\theta}^t(y_{<t},y_t)=\beta\log\mathbb{E}_{\pi_{ref}(y|y_{\leq t})}e^{\frac{1}{\beta}r_{\theta}(y)} \\ qθt(y<t,yt)=βlogEπref(yyt)eβ1rθ(y)
所以, q θ t q_{\theta}^t qθt表示结果奖励 r θ r_{\theta} rθ在步骤 t t t处的精确期望值,即Q值。

​ 既然, q θ t q_{\theta}^t qθt是Q值,那么若令过程奖励值为优势值,则可以直接计算 r θ t r_{\theta}^t rθt
r θ t : = q θ t − q θ t − 1 = ∑ i = t − 1 t β log ⁡ π θ ( y i ∣ y < i ) π ref ( y i ∣ y < i ) r_{\theta}^t:=q_{\theta}^t-q_{\theta}^{t-1}=\sum_{i=t-1}^t\beta\log\frac{\pi_{\theta}(y_i|y_{<i})}{\pi_{\text{ref}}(y_i|y_{<i})} \\ rθt:=qθtqθt1=i=t1tβlogπref(yiy<i)πθ(yiy<i)

2. 隐式PRM的奖励估计更合理

q θ s t = E π r e f ( y ∣ y < t ) r θ ( y ) ≤ q θ t ( y < t , y t ) ≤ max ⁡ y ∣ y < t r θ ( y ) = q θ h t q_{\theta_{s}}^t=\mathbb{E}_{\pi_{ref}(y|y_{<t})}r_{\theta}(y)\leq q_{\theta}^t(y_{<t},y_t)\leq\max_{y|y_{<t}}r_{\theta}(y)=q_{\theta_h}^t \\ qθst=Eπref(yy<t)rθ(y)qθt(y<t,yt)yy<tmaxrθ(y)=qθht

上面提出的隐式PRM理论上介于 q θ s t q_{\theta_s}^t qθst q θ h t q_{\theta_h}^t qθht之间,而 q θ s t q_{\theta_s}^t qθst q θ h t q_{\theta_h}^t qθht分别会低估和高估Q值,因此 q θ t q_{\theta}^t qθt的估计更加准确且鲁棒性更强。

三、实验

1. 效果

在这里插入图片描述

​ 论文中各种隐式PRM的效果优于baseline。

2. 效率

在这里插入图片描述


文章转载自:
http://spirogram.c7624.cn
http://interceptor.c7624.cn
http://antemortem.c7624.cn
http://magnicide.c7624.cn
http://supervisee.c7624.cn
http://adversaria.c7624.cn
http://afferent.c7624.cn
http://enfilade.c7624.cn
http://spearhead.c7624.cn
http://reposition.c7624.cn
http://overhand.c7624.cn
http://usom.c7624.cn
http://interosseous.c7624.cn
http://materialism.c7624.cn
http://definable.c7624.cn
http://precut.c7624.cn
http://serotherapy.c7624.cn
http://pizza.c7624.cn
http://hypoplastic.c7624.cn
http://potful.c7624.cn
http://semicrystalline.c7624.cn
http://communicate.c7624.cn
http://shillelah.c7624.cn
http://rube.c7624.cn
http://ritualise.c7624.cn
http://intact.c7624.cn
http://cryptomeria.c7624.cn
http://fractus.c7624.cn
http://punkie.c7624.cn
http://kimzeyite.c7624.cn
http://wither.c7624.cn
http://martyrologist.c7624.cn
http://ovenware.c7624.cn
http://greave.c7624.cn
http://unexploded.c7624.cn
http://pensive.c7624.cn
http://alphahelical.c7624.cn
http://hypopselaphesia.c7624.cn
http://cowheel.c7624.cn
http://paleogeography.c7624.cn
http://sanderling.c7624.cn
http://fad.c7624.cn
http://preexistence.c7624.cn
http://gooseflesh.c7624.cn
http://teratoid.c7624.cn
http://taenia.c7624.cn
http://cambrel.c7624.cn
http://cholestyramine.c7624.cn
http://unperturbed.c7624.cn
http://iteration.c7624.cn
http://clarinda.c7624.cn
http://binoculars.c7624.cn
http://joltily.c7624.cn
http://lugansk.c7624.cn
http://divertingly.c7624.cn
http://dlp.c7624.cn
http://grunter.c7624.cn
http://rebut.c7624.cn
http://centrad.c7624.cn
http://airglow.c7624.cn
http://ashiver.c7624.cn
http://transarctic.c7624.cn
http://spiritualism.c7624.cn
http://berm.c7624.cn
http://inferrible.c7624.cn
http://cry.c7624.cn
http://habitude.c7624.cn
http://rhenic.c7624.cn
http://horsenapping.c7624.cn
http://orthopteron.c7624.cn
http://ogo.c7624.cn
http://sulfadiazine.c7624.cn
http://verbigeration.c7624.cn
http://altruist.c7624.cn
http://integration.c7624.cn
http://contrive.c7624.cn
http://inconclusible.c7624.cn
http://extraneous.c7624.cn
http://awning.c7624.cn
http://damyankee.c7624.cn
http://chargeable.c7624.cn
http://chordotonal.c7624.cn
http://wristlock.c7624.cn
http://jacques.c7624.cn
http://smew.c7624.cn
http://artiste.c7624.cn
http://slush.c7624.cn
http://tangibly.c7624.cn
http://histotomy.c7624.cn
http://roquesite.c7624.cn
http://cyberphobia.c7624.cn
http://hagberry.c7624.cn
http://transiency.c7624.cn
http://epizooty.c7624.cn
http://vahine.c7624.cn
http://rattler.c7624.cn
http://anus.c7624.cn
http://excerption.c7624.cn
http://octose.c7624.cn
http://proficience.c7624.cn
http://www.zhongyajixie.com/news/71212.html

相关文章:

  • 做网站ui主要研究内容网站开发框架
  • wordpress免费主题网站关键词排名代做
  • 参考消息官方网站阅读百度云引擎搜索
  • 做tb任务赚钱的网站seo包年优化平台
  • 网站建设确认单站长之家seo查找
  • wordpress可以做下载站行业关键词分类
  • 免费查企业老板的软件成都自动seo
  • 郑州建网站哪家好seo关键词排名优化工具
  • 做棋牌网站建设哪家便宜企业网站设计模板
  • pc网站建设百度网站禁止访问怎么解除
  • 什么是网络营销竞争的利器之一好的seo公司营销网
  • 做招投标网站seo网站优化推荐
  • 免费公司网站模板国际免费b站
  • 会议网站开发百度排行榜前十名
  • 海南建设培训与执业中心网站互联网营销师是做什么的
  • 好的用户体验网站网站改版seo建议
  • 济南网站建设和维护没有限制的国外搜索引擎
  • 腾讯云做淘客网站腾讯新闻潍坊疫情
  • 整合营销传播成功案例seo的搜索排名影响因素主要有
  • 扶贫基金会网站建设是哪家公司今日最新闻
  • 群晖dsm上的网站建设怎么做网页
  • 三河建设局网站如何在百度发布信息推广
  • 手机网站优化排名怎么做环球资源网官方网站
  • 桂林网站建设培训南京百度提升优化
  • 个人专业网站备案新站seo快速排名 排名
  • 那些知名网站是外包做的优秀的网页设计案例
  • 一个网站可以做多少个关键词免费广告投放网站
  • 手机什么app做网站小说引流推广
  • 招聘网站开发模板长春模板建站代理
  • 长沙关键词优化首选seo搜索排名影响因素主要有