schedSim/rlBackupAlgorithm_8cpp_source.html

 #include "rlBackupAlgorithm.h"

 #include <cassert>
 #include <iostream>
 #include <memory>

 #include <utils/randomGenerator.h>

 #include <mdp/context.h>
 #include <mdp/mdpConfiguration.h>
 #include <mdp/stateSpace.h>

 #include <mdp/learning/reinforcementLearning/actionValuesFunction/actionValuesFunction.h>

 using namespace Mdp;

 RlBackupAlgorithm::RlBackupAlgorithm(std::shared_ptr<Context> c, ActionValuesFunction *av)
     : context(c)
     , actionValues(av)
     , bestQ(c->stateSpace->size())
     , bestAction(c->stateSpace->size())
     , needsUpdate(std::vector<bool>(c->stateSpace->size(), true))
 {
 }

 void RlBackupAlgorithm::notifyUpdateNeeded()
 {
     static size_t size = context->stateSpace->size();
     needsUpdate = std::vector<bool>(size, true);
 }

 double RlBackupAlgorithm::getMaxQ(state_t state)
 {
     if (needsUpdate[state])
     {
         updateBestActionAndQ(state);
         needsUpdate[state] = false;
     }
     return bestQ[state];
 }

 void RlBackupAlgorithm::updateBestActionAndQ(state_t state)
 {
     /*if ( state >= actionValues->size())
         std::cout << "state is "<<state<<" and actionValue size is "<<actionValues->size()<<" \n";
     assert(state < actionValues->size());*/
     double Q = actionValues->getValue(state, 0);
     double candidate;
     action_t action = 0;
     for (size_t i = 1; i < context->actionSpace->size(); i++)
     {
         candidate = actionValues->getValue(state, i);
         if (candidate >= Q)
         {
             const double eps = 0.0000001;//TODO: how to choose this value?
             if ((candidate < Q + eps) && (candidate > Q - eps) && context->randomGenerator->drawUniform(0.0, 2.0) > 1.0)
                 continue;
             Q = candidate;
             action = i;
         }
     }
     bestQ[state] = Q;
     bestAction[state] = action;
 }

 std::pair<action_t, double> RlBackupAlgorithm::getBestActionAndQ(state_t state)
 {
     updateIfNeeded(state);
     return std::pair<action_t, double>(bestAction[state], bestQ[state]);
 }

 void RlBackupAlgorithm::updateIfNeeded(state_t state)
 {
     if (needsUpdate[state])
     {
         updateBestActionAndQ(state);
         needsUpdate[state] = false;
     }
 }


 action_t RlBackupAlgorithm::getBestAction(state_t state)
 {
     updateIfNeeded(state);
     return bestAction[state];
 }

 void RlBackupAlgorithm::initAlpha()
 {
     alpha = context->conf->getDoubleValue("reinforcementLearning","alpha");
     alphaDecaySpeed = context->conf->getDoubleValue("reinforcementLearning","alphaDecaySpeed");
     if (context->conf->getBoolValue("reinforcementLearning", "alphaHyperbolicDecay", false))
         hyperbolic = true;
     if (context->conf->getBoolValue("reinforcementLearning", "alphaStepwiseDecay", false))
     {
         stepwise = true;
         stepLength = context->conf->getUnsignedLongLongIntValue("reinforcementLearning", "alphaStepLength");
     }
     alpha0 = alpha;
 }


 void RlBackupAlgorithm::updateAlpha()
 {
     if (hyperbolic)
     {
         alpha = alpha0/alphaCounter++;
     }
     if (stepwise)
     {
         stepwiseCounter++;
         if (stepwiseCounter == stepLength)
         {
             stepwiseCounter = 0;
             alpha *= alphaDecaySpeed;
         }
     }
 }


Mdp::RlBackupAlgorithm::alpha0
double alpha0
Definition: rlBackupAlgorithm.h:55

generatePbs.i
i
Definition: generatePbs.py:6

Mdp::RlBackupAlgorithm::notifyUpdateNeeded
virtual void notifyUpdateNeeded()
Definition: rlBackupAlgorithm.cpp:35

Mdp::ActionValuesFunction::getValue
virtual double getValue(state_t state, action_t action)=0

context.h

actionValuesFunction.h

Mdp::ActionValuesFunction
Definition: actionValuesFunction.h:27

Mdp::RlBackupAlgorithm::updateAlpha
virtual void updateAlpha()
Definition: rlBackupAlgorithm.cpp:113

Mdp::RlBackupAlgorithm::bestQ
std::vector< double > bestQ
Definition: rlBackupAlgorithm.h:64

Mdp::RlBackupAlgorithm::stepwiseCounter
unsigned long long stepwiseCounter
Definition: rlBackupAlgorithm.h:60

Mdp::RlBackupAlgorithm::updateBestActionAndQ
virtual void updateBestActionAndQ(state_t state)
Definition: rlBackupAlgorithm.cpp:51

Mdp::RlBackupAlgorithm::updateIfNeeded
virtual void updateIfNeeded(state_t state)
Definition: rlBackupAlgorithm.cpp:81

Mdp::RlBackupAlgorithm::bestAction
std::vector< action_t > bestAction
Definition: rlBackupAlgorithm.h:65

randomGenerator.h

Mdp::action_t
size_t action_t
Definition: action_impl.h:18

Mdp::RlBackupAlgorithm::stepwise
bool stepwise
Definition: rlBackupAlgorithm.h:59

Mdp::RlBackupAlgorithm::getBestAction
virtual action_t getBestAction(state_t state)
Definition: rlBackupAlgorithm.cpp:91

Mdp::RlBackupAlgorithm::getBestActionAndQ
virtual std::pair< action_t, double > getBestActionAndQ(state_t state)
Definition: rlBackupAlgorithm.cpp:75

Mdp::RlBackupAlgorithm::initAlpha
virtual void initAlpha()
Definition: rlBackupAlgorithm.cpp:97

Mdp::RlBackupAlgorithm::needsUpdate
std::vector< bool > needsUpdate
Definition: rlBackupAlgorithm.h:66

Mdp
Definition: action.h:18

rlBackupAlgorithm.h

Mdp::RlBackupAlgorithm::alpha
double alpha
Definition: rlBackupAlgorithm.h:54

stateSpace.h

mdpConfiguration.h

Mdp::RlBackupAlgorithm::RlBackupAlgorithm
RlBackupAlgorithm(std::shared_ptr< Context > c, ActionValuesFunction *av)
Definition: rlBackupAlgorithm.cpp:26

Mdp::RlBackupAlgorithm::hyperbolic
bool hyperbolic
Definition: rlBackupAlgorithm.h:58

Mdp::state_t
size_t state_t
Definition: state.h:19

Mdp::RlBackupAlgorithm::context
std::shared_ptr< Context > context
Definition: rlBackupAlgorithm.h:52

Mdp::RlBackupAlgorithm::actionValues
ActionValuesFunction * actionValues
Definition: rlBackupAlgorithm.h:53

Mdp::RlBackupAlgorithm::getMaxQ
virtual double getMaxQ(state_t state)
Definition: rlBackupAlgorithm.cpp:41

Mdp::RlBackupAlgorithm::stepLength
unsigned long long int stepLength
Definition: rlBackupAlgorithm.h:61

Mdp::RlBackupAlgorithm::alphaCounter
double alphaCounter
Definition: rlBackupAlgorithm.h:56

Mdp::RlBackupAlgorithm::alphaDecaySpeed
double alphaDecaySpeed
Definition: rlBackupAlgorithm.h:57