强化学习第一个小例子

小例子import numpy as npimport pandas as pdimport timeN_STATES=6 #1维世界的宽度ACTIONS=['left','right'] #探索者的可用动作EPSILON=0.9 #贪婪度 greedyALPHA=0.1 #学习率GAMMA=0.9 #奖励递减值MAX_EPISODES=13 #最大回合数FRESH_TIME=0.001 #移动间

闲看庭前梦落花

348人浏览 · 2022-04-08 20:37:14

闲看庭前梦落花 · 2022-04-08 20:37:14 发布

小例子

import numpy as np
import pandas as pd
import time

N_STATES=6 #1维世界的宽度
ACTIONS=['left','right'] #探索者的可用动作
EPSILON=0.9 #贪婪度 greedy
ALPHA=0.1 #学习率
GAMMA=0.9 #奖励递减值
MAX_EPISODES=13 #最大回合数
FRESH_TIME=0.001 #移动间隔时间


def build_q_table(n_states,actions):
    table=pd.DataFrame(
        np.zeros((n_states,len(actions))),
        columns=actions
    )
    return table

#在某个state地点，选择行为
def choose_action(state,q_table):
    state_actions=q_table.iloc[state,:] #选出这个state的所有行为
    if (np.random.uniform()>EPSILON) or (state_actions.all()==0):
        action_name=np.random.choice(ACTIONS)
    else:
        action_name=state_actions.argmax()  #贪婪模式
    return action_name


#环境反馈S_,R
#做出行为后，环境也要给我们行为一个反馈
def get_env_feedback(S,A):
    if A =='right':
        if S==N_STATES -2:
            S_='terminal'
            R=1
        else:
            S_=S+1
            R=0
    else:
        R=0
        if S==0:
            S_=S
        else:
            S_=S-1

    return S_,R

#环境更新
def update_env(S, episode, step_counter):
    # This is how environment be updated
    env_list = ['-']*(N_STATES-1) + ['T']   # '---------T' our environment
    if S == 'terminal':
        interaction = 'Episode %s: total_steps = %s' % (episode+1, step_counter)
        print('\r{}'.format(interaction), end='')
        time.sleep(2)
        print('\r                                ', end='')
    else:
        env_list[S] = 'o'
        interaction = ''.join(env_list)
        print('\r{}'.format(interaction), end='')
        time.sleep(FRESH_TIME)


def rl():
    q_table=build_q_table(N_STATES,ACTIONS) #初始化q table
    for episode in range(MAX_EPISODES):#回合
        step_counter=0
        S=0    #回合初始位置
        is_terminated=False  #是否回合结束
        update_env(S,episode,step_counter)  #环境更新
        while not is_terminated:
            A=choose_action(S,q_table) #选择行为
            S_,R=get_env_feedback(S,A)  #实施行为并得到环境的反馈
            q_predict=q_table.loc[S,A]   #估算的状态行为值
            if S_ !='terminal':
                q_target=R+ GAMMA * q_table.iloc[S_, :].max() #实际的（状态-行为）值（回合没结束）
            else:
                q_target=R
                is_terminated=True
            q_table.loc[S,A]+=ALPHA * (q_target - q_predict)  #q_table更新
            S=S_   #探索者移动到下一个state
            update_env(S,episode,step_counter+1)  #环境更新

            step_counter+=1
    return q_table


if __name__ == '__main__':
    q_table=rl()
    print('\r\nQ-table:\n')
    print(q_table)

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git