schedSim/naiveQLambda_8cpp_source.html

 #include "naiveQLambda.h"

 #include <mdp/context.h>

 using namespace Mdp;

 void NaiveQLambda::updateActionValues(state_t previousState, state_t /*nextState*/, action_t previousAction, double reward)
 {
     double delta = previousReward + discountFactor * getMaxQ(previousState);
     double av = actionValues->getValue(previousPreviousState, previousPreviousAction);
     delta -= av;

     e[previousPreviousState][previousPreviousAction] += 1.0;
     for (size_t i = 0; i < stateSize; i++)
     {
         for (size_t j = 0; j < actionSize; j++)
         {
             double update = alpha*delta*e[i][j];
             double newValue = actionValues->getValue(i, j) + update;
             tabularAv->updateValue(i, j, newValue);
             e[i][j] *= discountFactor*lambda;
         }
     }
     updateState(previousState, previousAction, reward);
 }


generatePbs.i
i
Definition: generatePbs.py:6

Mdp::ActionValuesFunction::getValue
virtual double getValue(state_t state, action_t action)=0

context.h

Mdp::EligibilityTraceAlgo::updateState
void updateState(state_t previousState, action_t previousAction, double reward)
Definition: eligibilityTraceAlgo.cpp:36

Mdp::EligibilityTraceAlgo::previousReward
double previousReward
Definition: eligibilityTraceAlgo.h:34

Mdp::TabularActionValues::updateValue
void updateValue(state_t state, action_t action, double value)
Definition: tabularActionValues.cpp:125

Mdp::NaiveQLambda::updateActionValues
virtual void updateActionValues(state_t previousState, state_t nextState, action_t previousAction, double reward)
Definition: naiveQLambda.cpp:16

Mdp::EligibilityTraceAlgo::actionSize
size_t actionSize
Definition: eligibilityTraceAlgo.h:39

Mdp::EligibilityTraceAlgo::e
std::vector< std::vector< double > > e
Definition: eligibilityTraceAlgo.h:35

Mdp::EligibilityTraceAlgo::lambda
double lambda
Definition: eligibilityTraceAlgo.h:36

naiveQLambda.h

Mdp::action_t
size_t action_t
Definition: action_impl.h:18

Mdp
Definition: action.h:18

Mdp::RlBackupAlgorithm::alpha
double alpha
Definition: rlBackupAlgorithm.h:54

Mdp::EligibilityTraceAlgo::previousPreviousState
state_t previousPreviousState
Definition: eligibilityTraceAlgo.h:32

Mdp::EligibilityTraceAlgo::discountFactor
double discountFactor
Definition: eligibilityTraceAlgo.h:37

Mdp::state_t
size_t state_t
Definition: state.h:19

Mdp::RlBackupAlgorithm::actionValues
ActionValuesFunction * actionValues
Definition: rlBackupAlgorithm.h:53

Mdp::EligibilityTraceAlgo::previousPreviousAction
action_t previousPreviousAction
Definition: eligibilityTraceAlgo.h:33

Mdp::RlBackupAlgorithm::getMaxQ
virtual double getMaxQ(state_t state)
Definition: rlBackupAlgorithm.cpp:41

reward
Definition: reward.py:1

Mdp::EligibilityTraceAlgo::stateSize
size_t stateSize
Definition: eligibilityTraceAlgo.h:38