schedSim/qLearning_8cpp_source.html

 #include "qLearning.h"

 #include <cassert>
 #include <iostream>

 #include <mdp/context.h>
 #include <mdp/mdpConfiguration.h>


 using namespace Mdp;


 QLearning::QLearning(std::shared_ptr<Context> c, TabularActionValues *actionValues)
     : RlBackupAlgorithm(c, actionValues)
     , tabularAv(actionValues)
 {
 }

 void QLearning::init()
 {
     assert(context != nullptr);
     assert(actionValues != nullptr);
     alpha = context->conf->getDoubleValue("reinforcementLearning","alpha");
     discountFactor = context->conf->getDoubleValue("mdp","discountFactor");
     alphaDecaySpeed = context->conf->getDoubleValue("reinforcementLearning", "alphaDecaySpeed");
     initAlpha();
 }


 void QLearning::end()
 {
 }


 void QLearning::updateActionValues(state_t previousState, state_t newState, action_t previousAction, double reward)
 {
     double Q = actionValues->getValue(previousState, previousAction);
     double newQ = Q + alpha*(reward - Q  + discountFactor*getMaxQ(newState));
     updateAlpha();
     tabularAv->updateValue(previousState, previousAction, newQ);
 }


Mdp::ActionValuesFunction::getValue
virtual double getValue(state_t state, action_t action)=0

context.h

Mdp::QLearning::end
void end() override
Definition: qLearning.cpp:40

Mdp::RlBackupAlgorithm
Definition: rlBackupAlgorithm.h:31

Mdp::QLearning::init
void init() override
Definition: qLearning.cpp:29

Mdp::RlBackupAlgorithm::updateAlpha
virtual void updateAlpha()
Definition: rlBackupAlgorithm.cpp:113

Mdp::TabularActionValues::updateValue
void updateValue(state_t state, action_t action, double value)
Definition: tabularActionValues.cpp:125

Mdp::action_t
size_t action_t
Definition: action_impl.h:18

Mdp::RlBackupAlgorithm::initAlpha
virtual void initAlpha()
Definition: rlBackupAlgorithm.cpp:97

Mdp
Definition: action.h:18

Mdp::RlBackupAlgorithm::alpha
double alpha
Definition: rlBackupAlgorithm.h:54

qLearning.h

mdpConfiguration.h

Mdp::QLearning::updateActionValues
void updateActionValues(state_t previousState, state_t nextState, action_t previousAction, double reward) override
Definition: qLearning.cpp:46

Mdp::state_t
size_t state_t
Definition: state.h:19

Mdp::RlBackupAlgorithm::context
std::shared_ptr< Context > context
Definition: rlBackupAlgorithm.h:52

Mdp::RlBackupAlgorithm::actionValues
ActionValuesFunction * actionValues
Definition: rlBackupAlgorithm.h:53

Mdp::TabularActionValues
Definition: tabularActionValues.h:23

Mdp::RlBackupAlgorithm::getMaxQ
virtual double getMaxQ(state_t state)
Definition: rlBackupAlgorithm.cpp:41

reward
Definition: reward.py:1

Mdp::RlBackupAlgorithm::alphaDecaySpeed
double alphaDecaySpeed
Definition: rlBackupAlgorithm.h:57

Mdp::QLearning::QLearning
QLearning(std::shared_ptr< Context > context, TabularActionValues *actionValues)
Definition: qLearning.cpp:23