schedSim/watkinsQLambda_8cpp_source.html

 #include "watkinsQLambda.h"

 #include <cassert>

 #include <mdp/context.h>
 #include <utils/randomGenerator.h>

 using namespace Mdp;

 void WatkinsQLambda::updateActionValues(state_t previousState, state_t /*nextState*/, action_t previousAction, double reward)
 {
     std::pair<double, action_t> pair = watkinsBestQ(previousState, previousAction);
     double newQ = pair.first;
     action_t astar = pair.second;
     double delta = previousReward + discountFactor * newQ;
     delta -= actionValues->getValue(previousPreviousState, previousPreviousAction);


     e[previousPreviousState][previousPreviousAction] += 1.0;
     for (size_t i = 0; i < stateSize; i++)
     {
         for (size_t j = 0; j < actionSize; j++)
         {
             double av = actionValues->getValue(i, j);
             double newValue = av + alpha*delta*e[i][j];
             tabularAv->updateValue(i, j, newValue);
             if (astar == previousAction)
             {
                 e[i][j] *= discountFactor*lambda;
             }
             else
             {
                 e[i][j] = 0.0;
             }
         }
     }
     updateState(previousState, previousAction, reward);
 }


 std::pair<double, action_t> WatkinsQLambda::watkinsBestQ(state_t state, action_t nextAction)
 {
     double Q = actionValues->getValue(state, 0);
     double candidate;
     action_t action = 0;
     for (size_t i = 1; i < actionSize; i++)
     {
         candidate = actionValues->getValue(state, i);
         static const double lowerMargin = 0.99999;//TODO: how to choose those
         static const double upperMargin = 1.00001;
         if ((candidate > Q*lowerMargin) && (candidate < Q*upperMargin))
         {
             if (action == nextAction)
             {
                 continue;
             }
             else if (i == nextAction)
             {
                 Q = candidate;
                 action = i;
                 continue;
             }
             else
             {
                 if (context->randomGenerator->drawUniform(0.0, 2.0) > 1.0)
                     continue;
                 Q = candidate;
                 action = i;
             }
         }
         else if (candidate > Q)
         {
             Q = candidate;
             action = i;
         }
     }
     return std::pair<double, action_t>(Q, action);
 }


generatePbs.i
i
Definition: generatePbs.py:6

Mdp::ActionValuesFunction::getValue
virtual double getValue(state_t state, action_t action)=0

context.h

Mdp::EligibilityTraceAlgo::updateState
void updateState(state_t previousState, action_t previousAction, double reward)
Definition: eligibilityTraceAlgo.cpp:36

Mdp::EligibilityTraceAlgo::previousReward
double previousReward
Definition: eligibilityTraceAlgo.h:34

Mdp::TabularActionValues::updateValue
void updateValue(state_t state, action_t action, double value)
Definition: tabularActionValues.cpp:125

Mdp::WatkinsQLambda::updateActionValues
virtual void updateActionValues(state_t previousState, state_t mextState, action_t previousAction, double reward)
Definition: watkinsQLambda.cpp:19

Mdp::EligibilityTraceAlgo::actionSize
size_t actionSize
Definition: eligibilityTraceAlgo.h:39

Mdp::EligibilityTraceAlgo::e
std::vector< std::vector< double > > e
Definition: eligibilityTraceAlgo.h:35

Mdp::EligibilityTraceAlgo::lambda
double lambda
Definition: eligibilityTraceAlgo.h:36

watkinsQLambda.h

randomGenerator.h

Mdp::action_t
size_t action_t
Definition: action_impl.h:18

Mdp
Definition: action.h:18

Mdp::RlBackupAlgorithm::alpha
double alpha
Definition: rlBackupAlgorithm.h:54

Mdp::EligibilityTraceAlgo::previousPreviousState
state_t previousPreviousState
Definition: eligibilityTraceAlgo.h:32

Mdp::EligibilityTraceAlgo::discountFactor
double discountFactor
Definition: eligibilityTraceAlgo.h:37

Mdp::state_t
size_t state_t
Definition: state.h:19

Mdp::RlBackupAlgorithm::context
std::shared_ptr< Context > context
Definition: rlBackupAlgorithm.h:52

Mdp::RlBackupAlgorithm::actionValues
ActionValuesFunction * actionValues
Definition: rlBackupAlgorithm.h:53

Mdp::EligibilityTraceAlgo::previousPreviousAction
action_t previousPreviousAction
Definition: eligibilityTraceAlgo.h:33

reward
Definition: reward.py:1

Mdp::EligibilityTraceAlgo::stateSize
size_t stateSize
Definition: eligibilityTraceAlgo.h:38