schedSim/reinforcedLearning_8h_source.html

 #ifndef REINFORCEDLEARNING_H
 #define REINFORCEDLEARNING_H

 #include <mdp/learning/learningStrategy.h>

 #include <utility>
 #include <vector>

 #include <mdp/state.h>
 #include <mdp/action_impl.h>

 #include <utils/record.h>

 #include "actionValuesFunction/tabularActionValues.h"

 #include "actionSelection/actionSelectionStrategy.h"

 #include "actionValuesRecord.h"

 namespace Mdp
 {
 struct Context;
 class RlBackupAlgorithm;


 class ReinforcedLearning : public LearningStrategy
 {
 public:
     static constexpr const char *configKey = "reinforcedLearning";
 public:
     ReinforcedLearning(std::shared_ptr<Context> context);
     ~ReinforcedLearning();
     void initializeModel();
     void updateModel();
     void end();
 protected:
     size_t S{0};
     size_t A{0};
     void initializePolicy();
     //void initializeActionValues();
     void initializeActionSelectionStrategy();
     void updatePolicy(state_t state);
     void updateLongTermReward(double reward, double discountFactor);
     void epsilonGreedyPolicyUpdate(state_t state);
     action_t getBestAction(state_t state);
     ActionValuesFunction *actionValues{nullptr};
     //double epsilon{0.1};
     double discountFactor{0.1};
     double alpha{0.1};
     double alphaDecaySpeed{0.99};
     //double epsilonDecaySpeed{0.99};
     state_t previousState;
     action_t previousAction;
     RlBackupAlgorithm *backupAlgo{nullptr};
     RlBackupAlgorithm *getBackupAlgorithm();
     //std::vector<std::vector<std::vector<double>>> actionValuesRecord;
     ActionValuesRecord actionValuesRecord;
     void printAVRecord();
     void updateEpsilon();
     long long unsigned int epsilonTimeOut{0};
     void updateActualDiscountedReward(double reward);
     double actualDiscountedReward{0.0};
     Utils::Record rewardRecord;
     void printActionValuesToFile(std::string folder);
     ActionSelectionStrategy *actionSelectionStrategy{nullptr};
     double longTermReward{0.0};
     action_t getBestActionFromInitialPolicy(state_t s);
     void printStateSpace();
 };


 }


 #endif
Mdp::ReinforcedLearning::rewardRecord
Utils::Record rewardRecord
Definition: reinforcedLearning.h:72

Mdp::ReinforcedLearning::~ReinforcedLearning
~ReinforcedLearning()
Definition: reinforcedLearning.cpp:56

Mdp::ReinforcedLearning::updateEpsilon
void updateEpsilon()

Mdp::ReinforcedLearning::discountFactor
double discountFactor
Definition: reinforcedLearning.h:57

Mdp::ReinforcedLearning::printStateSpace
void printStateSpace()
Definition: reinforcedLearning.cpp:80

Mdp::ReinforcedLearning::actionValues
ActionValuesFunction * actionValues
Definition: reinforcedLearning.h:55

Mdp::ReinforcedLearning::printAVRecord
void printAVRecord()

Mdp::ReinforcedLearning::backupAlgo
RlBackupAlgorithm * backupAlgo
Definition: reinforcedLearning.h:63

Mdp::ReinforcedLearning::initializePolicy
void initializePolicy()
Definition: reinforcedLearning.cpp:126

Mdp::ActionValuesFunction
Definition: actionValuesFunction.h:27

learningStrategy.h

Mdp::RlBackupAlgorithm
Definition: rlBackupAlgorithm.h:31

Mdp::ReinforcedLearning::actionValuesRecord
ActionValuesRecord actionValuesRecord
Definition: reinforcedLearning.h:66

Mdp::ReinforcedLearning::initializeModel
void initializeModel()
Definition: reinforcedLearning.cpp:64

Mdp::ActionValuesRecord
Definition: actionValuesRecord.h:27

Mdp::ReinforcedLearning::alpha
double alpha
Definition: reinforcedLearning.h:58

Mdp::ReinforcedLearning::getBestActionFromInitialPolicy
action_t getBestActionFromInitialPolicy(state_t s)
Definition: reinforcedLearning.cpp:231

Mdp::ReinforcedLearning::end
void end()
Definition: reinforcedLearning.cpp:285

Mdp::ReinforcedLearning::updatePolicy
void updatePolicy(state_t state)
Definition: reinforcedLearning.cpp:212

Mdp::ReinforcedLearning::updateLongTermReward
void updateLongTermReward(double reward, double discountFactor)
Definition: reinforcedLearning.cpp:197

Mdp::ReinforcedLearning::getBackupAlgorithm
RlBackupAlgorithm * getBackupAlgorithm()
Definition: reinforcedLearning.cpp:144

tabularActionValues.h

Mdp::ReinforcedLearning::configKey
static constexpr const char * configKey
Definition: reinforcedLearning.h:38

Mdp::ReinforcedLearning::alphaDecaySpeed
double alphaDecaySpeed
Definition: reinforcedLearning.h:59

Mdp::ReinforcedLearning::getBestAction
action_t getBestAction(state_t state)
Definition: reinforcedLearning.cpp:279

Mdp::ReinforcedLearning
Definition: reinforcedLearning.h:35

Mdp::action_t
size_t action_t
Definition: action_impl.h:18

Mdp::LearningStrategy
Definition: learningStrategy.h:21

Mdp
Definition: action.h:18

Mdp::ReinforcedLearning::actualDiscountedReward
double actualDiscountedReward
Definition: reinforcedLearning.h:71

Mdp::ReinforcedLearning::actionSelectionStrategy
ActionSelectionStrategy * actionSelectionStrategy
Definition: reinforcedLearning.h:74

Mdp::ReinforcedLearning::S
size_t S
Definition: reinforcedLearning.h:46

Utils::Record
Definition: record.h:23

record.h

actionValuesRecord.h

Mdp::ReinforcedLearning::epsilonGreedyPolicyUpdate
void epsilonGreedyPolicyUpdate(state_t state)
Definition: reinforcedLearning.cpp:222

state.h

Mdp::ReinforcedLearning::previousState
state_t previousState
Definition: reinforcedLearning.h:61

Mdp::ReinforcedLearning::printActionValuesToFile
void printActionValuesToFile(std::string folder)
Definition: reinforcedLearning.cpp:299

Mdp::state_t
size_t state_t
Definition: state.h:19

Mdp::ReinforcedLearning::ReinforcedLearning
ReinforcedLearning(std::shared_ptr< Context > context)
Definition: reinforcedLearning.cpp:45

Mdp::ReinforcedLearning::previousAction
action_t previousAction
Definition: reinforcedLearning.h:62

reward
Definition: reward.py:1

Mdp::ReinforcedLearning::longTermReward
double longTermReward
Definition: reinforcedLearning.h:75

Mdp::ActionSelectionStrategy
Definition: actionSelectionStrategy.h:20

Mdp::ReinforcedLearning::updateActualDiscountedReward
void updateActualDiscountedReward(double reward)
Definition: reinforcedLearning.cpp:203

Mdp::LearningStrategy::context
std::shared_ptr< Context > context
Definition: learningStrategy.h:28

Mdp::ReinforcedLearning::epsilonTimeOut
long long unsigned int epsilonTimeOut
Definition: reinforcedLearning.h:69

action_impl.h

actionSelectionStrategy.h

Mdp::ReinforcedLearning::updateModel
void updateModel()
Definition: reinforcedLearning.cpp:176

Mdp::ReinforcedLearning::A
size_t A
Definition: reinforcedLearning.h:47

Mdp::ReinforcedLearning::initializeActionSelectionStrategy
void initializeActionSelectionStrategy()
Definition: reinforcedLearning.cpp:96