schedSim/delayedQLearning_8cpp_source.html

 #include "delayedQLearning.h"

 using namespace Mdp;

 void DelayedQLearning::updateActionValues(state_t previousState, state_t /*nextState*/, action_t previousAction, double reward)
 {
     double delta = previousReward + discountFactor * getMaxQ(previousState);
     double av = actionValues->getValue(previousPreviousState, previousPreviousAction);
     delta -= av;
     tabularAv->updateValue(previousPreviousState, previousPreviousAction, av + alpha*delta);
     updateState(previousState, previousAction, reward);
 }


Mdp::ActionValuesFunction::getValue
virtual double getValue(state_t state, action_t action)=0

Mdp::EligibilityTraceAlgo::tabularAv
TabularActionValues * tabularAv
Definition: eligibilityTraceAlgo.h:31

delayedQLearning.h

Mdp::EligibilityTraceAlgo::updateState
void updateState(state_t previousState, action_t previousAction, double reward)
Definition: eligibilityTraceAlgo.cpp:36

Mdp::EligibilityTraceAlgo::previousReward
double previousReward
Definition: eligibilityTraceAlgo.h:34

Mdp::TabularActionValues::updateValue
void updateValue(state_t state, action_t action, double value)
Definition: tabularActionValues.cpp:125

Mdp::DelayedQLearning::updateActionValues
virtual void updateActionValues(state_t previousState, state_t nextState, action_t previousAction, double reward)
Definition: delayedQLearning.cpp:14

Mdp::action_t
size_t action_t
Definition: action_impl.h:18

Mdp
Definition: action.h:18

Mdp::RlBackupAlgorithm::alpha
double alpha
Definition: rlBackupAlgorithm.h:54

Mdp::EligibilityTraceAlgo::previousPreviousState
state_t previousPreviousState
Definition: eligibilityTraceAlgo.h:32

Mdp::EligibilityTraceAlgo::discountFactor
double discountFactor
Definition: eligibilityTraceAlgo.h:37

Mdp::state_t
size_t state_t
Definition: state.h:19

Mdp::RlBackupAlgorithm::actionValues
ActionValuesFunction * actionValues
Definition: rlBackupAlgorithm.h:53

Mdp::EligibilityTraceAlgo::previousPreviousAction
action_t previousPreviousAction
Definition: eligibilityTraceAlgo.h:33

Mdp::RlBackupAlgorithm::getMaxQ
virtual double getMaxQ(state_t state)
Definition: rlBackupAlgorithm.cpp:41

reward
Definition: reward.py:1