当前位置: 首页 > news >正文

网站开发公司起名佛山网站建设方案咨询

网站开发公司起名,佛山网站建设方案咨询,breaking news sticker wordpress,网站建设管理调研提纲前言 SARAS,假设环境状态和动作状态都是离散的。利用动作价值矩阵来进行行为的预测。其主要就是利用时序差分的思想,对动作价值矩阵进行更新。 代码实现 import gymnasium as gym import numpy as npclass sarsa():def __init__(self, states_n, acti…

前言

SARAS,假设环境状态和动作状态都是离散的。利用动作价值矩阵来进行行为的预测。其主要就是利用时序差分的思想,对动作价值矩阵进行更新。

代码实现

import gymnasium as gym
import numpy as npclass sarsa():def __init__(self, states_n, action_n, greedy_e=0.1):self.Q = np.zeros((states_n, action_n)) #动作价值矩阵self.greedy_e = greedy_e #随机探索的概率self.states_n = states_n #环境状态个数self.action_n = action_n #行动状态个数self.gamma=0.9 #价值衰减值self.lr=0.1 #学习率def predict(self, states):action_list=self.Q[states]#先拿出对应的行#再取出对应价值最大的行为,如果有重复则在重复项中随机选取,返回索引action=np.random.choice(np.flatnonzero(action_list==action_list.max()))return actiondef act(self, states):'''由对应环境产生对应的行动@param states: 当前环境@return: 行动动作'''if np.random.uniform() < self.greedy_e:#是否采取随即探索action = np.random.choice(np.arange(self.action_n))#随机探索else:action = self.predict(states) # 根据行动价值矩阵进行预测return actiondef learning(self,state,action,reward,next_state,next_action,does):'''学习更新参数@param state: 环境状态@param action: 采取的行动@param reward: 回报@param next_state: 采取行动后的下一个环境状态@param next_action: 下一个环境状态对应的行为@param does: 游戏是否结束@return:'''current_q=self.Q[state,action] #取出对应的行动价值if does: #查看是否已经完成游戏,完成则直接将当前回报作为下一个行动价值next_q=rewardelse:# 计算当前回报和下一个环境状态和下一个行动对应的价值,加和next_q=reward+self.gamma*self.Q[next_state,next_action]self.Q[state,action]+=self.lr*(next_q-current_q) #时序差分,更新行动价值矩阵def train():env = gym.make("FrozenLake-v1", render_mode="human")#初始化游戏环境obs,info=env.reset()#重置位置agent=sarsa(env.observation_space.n,env.action_space.n)#初始化模型action = agent.act(obs)#预测行为num=0while True:num+=1# 由行为产生回报和下一个环境状态next_obs, reward, done, truncated, info = env.step(action)#预测下一个动作next_action=agent.act(obs)# 更新参数agent.learning(obs,action,reward,next_obs,next_action,done)obs=next_obsaction=next_action# 判断游戏是否结束或者中断,是则重置游戏if done or truncated:obs, info = env.reset()if num % 100 == 0 :env.close()if __name__ == '__main__':train()
http://www.zhongyajixie.com/news/22191.html

相关文章:

  • 短期设计培训班湖南seo优化排名
  • asp网站做视频教程广东seo网站优化公司
  • html网站怎么做几个网页太原seo外包服务
  • 建设网站首页站长基地
  • 网站建设开票计量单位东莞百度推广排名
  • 保定哪里有做网站的创意广告
  • 女人做春梦网站上海搜索引擎关键词优化
  • 网站建设项目方案搜索引擎优化的工具
  • 做网站月入100万百度识图扫一扫
  • 推广网站wap端怎么做长沙网站关键词推广
  • 哈尔滨h5建站模板网络广告案例以及分析
  • emlog和wordpress关键词seo排名怎么样
  • 长春建设局网站江苏搜索引擎优化
  • 做网站软件_手机同仁seo排名优化培训
  • 外贸网站如何换域名怎么可以在百度发布信息
  • 请专业公司做个网站要花多少钱北京seo代理商
  • c 网站建设报告哈尔滨seo优化培训
  • 网站域名需要公安备案谷歌浏览器官网入口
  • 网站建设 时间安排新站整站优化
  • 收费用的网站怎么做网络关键词
  • 动态网站设计心得体会小红书软文推广
  • 世界500强企业平均寿命视频优化是什么意思
  • 网站建设与管理课后总结关键词搜索名词解释
  • 做微信公众号微网站吗seo排名优化代理
  • 重生做代购网站网站推广的公司
  • 经销商怎么做网站小程序seo推广技巧
  • 潍坊网站排名提升全球十大搜索引擎排名及网址
  • 做色情诱导网站域名查询服务器
  • 做垃圾网站可行吗填写电话的广告
  • 如何做网站展示商品文明seo技术教程网