schedSim/reinforcedLearning_8cpp_source.html

 #include "reinforcedLearning.h"

 #include <cassert>
 #include <cmath>
 #include <iomanip>
 #include <iostream>
 #include <fstream>
 #include <memory>
 #include <stdexcept>
 #include <vector>

 #include <utils/randomGenerator.h>
 #include <utils/stringUtils.h>

 #include <mdp/mdpConfiguration.h>
 #include <mdp/context.h>
 #include <mdp/actionSpace.h>
 #include <mdp/policy.h>
 #include <mdp/stateSpace.h>

 #include "rlBackupAlgo/qLearning.h"
 #include "rlBackupAlgo/sarsaLambda.h"
 #include "rlBackupAlgo/delayedQLearning.h"
 #include "rlBackupAlgo/naiveQLambda.h"
 #include "rlBackupAlgo/watkinsQLambda.h"

 #include "actionSelection/actionSelectionStrategy.h"
 #include "actionSelection/epsilonGreedy.h"
 #include "actionSelection/gibbsActionSelection.h"

 #include "actionValuesFunction/tabularActionValues.h"

 using namespace Mdp;


 ReinforcedLearning::ReinforcedLearning(std::shared_ptr<Context> c)
     : LearningStrategy(c)
     , S(c->stateSpace->size())
     , A(c->actionSpace->size())
     , actionValuesRecord(ActionValuesRecord(c->conf, S, A))
     , rewardRecord(c->conf, "rewardRecord")
 {
     assert(context != nullptr);
     assert(context->conf != nullptr);
 }

 ReinforcedLearning::~ReinforcedLearning()
 {
     if (backupAlgo != nullptr)
         delete backupAlgo;
 }

 /*TODO: what to do with initializeModel vs constructor?
  * initializeModel is a public function. Why? Where is it called?*/
 void ReinforcedLearning::initializeModel()
 {
     previousState = context->stateSpace->getState();
     std::cerr << "initial state is: " << previousState <<"\n";
     initializePolicy();
     assert(context != nullptr);
     assert(context->conf != nullptr);
     backupAlgo = getBackupAlgorithm();
     backupAlgo->init();
     actionValuesRecord.init();
     /*FIXME: REDUNDANT*/
     initializePolicy();
     initializeActionSelectionStrategy();
     printStateSpace();
 }

 void ReinforcedLearning::printStateSpace()
 {
 #ifdef PRINT
     size_t S = context->stateSpace->size();
     for (size_t s = 0; s < S; s++)
     {
         std::vector<size_t> *vect = context->stateSpace->factorize(s);
         for (size_t i = 0; i < vect->size(); i++)
         {
             std::cerr << (*vect)[i] << " ";
         }
         std::cerr << "\n";
     }
 #endif
 }

 void ReinforcedLearning::initializeActionSelectionStrategy()
 {
     std::string str = context->conf->getStringValue("reinforcementLearning", "actionSelectionStrategy");
     if (!str.compare("epsilonGreedy"))
     {
         double epsilon = context->conf->getRlEpsilonFromFile();
         double epsilonDecaySpeed = context->conf->getDoubleValue(
             "reinforcementLearning", "epsilonDecaySpeed");
         long long unsigned int epsilonTimeout = context->conf->getUnsignedLongLongIntValue(
             "reinforcementLearning", "epsilonTimeOut");
         actionSelectionStrategy = new EpsilonGreedy(epsilon, epsilonDecaySpeed, epsilonTimeout);
     }
     else if (!str.compare("greedy"))
     {
         actionSelectionStrategy = new EpsilonGreedy(0.0, 0.0, 0);
     }
     else if (!str.compare("Gibbs"))
     {
         double temperature = context->conf->getDoubleValue("reinforcementLearning", "GibbsTemperature");
         double tempDecaySpeed = context->conf->getDoubleValue("reinforcementLearning", "GibbsTempDecaySpeed");
         double tempStepSize = context->conf->getDoubleValue("reinforcementLearning", "GibbsTempStepSize");
         actionSelectionStrategy = new GibbsActionSelection(temperature, tempDecaySpeed, tempStepSize);
     }
     else
     {
         throw std::invalid_argument("invalid value for actionSelectionStrategy");
     }
 }


 void ReinforcedLearning::initializePolicy()
 {
     std::string initStr = context->conf->getStringValue("reinforcementLearning", "initialPolicy");
     if (!initStr.compare("uniform"))
     {
         context->policy->initializeUniformly();
     }
     else if (!initStr.compare("fromFile"))
     {
         /*TODO: path is hardcoded*/
         context->policy->initializeFromFile("configuration/initialPolicy");
     }
     else
     {
         throw std::invalid_argument("initial policy not defined");
     }
 }

 RlBackupAlgorithm *ReinforcedLearning::getBackupAlgorithm()
 {
     std::string str = context->conf->getStringValue("reinforcementLearning", "algo");
     if (!str.compare(QLearning::configKey))
     {
         actionValues = new TabularActionValues(context);
         return new QLearning(context, dynamic_cast<TabularActionValues*>(actionValues));
     }
     if (!str.compare(SarsaLambda::configKey))
     {
         actionValues = new TabularActionValues(context);
         return new SarsaLambda(context, dynamic_cast<TabularActionValues*>(actionValues));
     }
     if (!str.compare(DelayedQLearning::configKey))
     {
         actionValues = new TabularActionValues(context);
         return new DelayedQLearning(context, dynamic_cast<TabularActionValues*>(actionValues));
     }
     if (!str.compare(WatkinsQLambda::configKey))
     {
         actionValues = new TabularActionValues(context);
         return new WatkinsQLambda(context, dynamic_cast<TabularActionValues*>(actionValues));
     }
     if (!str.compare(NaiveQLambda::configKey))
     {
         actionValues = new TabularActionValues(context);
         return new NaiveQLambda(context, dynamic_cast<TabularActionValues*>(actionValues));
     }
     throw std::runtime_error("Reinforcement Learning algorithm lookup failed");
 }


 void ReinforcedLearning::updateModel()
 {
     /*We use Q-learning*/
     previousAction = context->actionSpace->getLastAction();
     state_t newState = context->stateSpace->getState();
     double reward = context->stateSpace->getReward();
     if (reward == -HUGE_VAL)
         reward = -1.0e100;

     static double discountFactor = context->conf->getDoubleValue("mdp", "discountFactor");
     updateLongTermReward(reward, discountFactor);

     //updateActualDiscountedReward(reward);
     backupAlgo->notifyUpdateNeeded();
     backupAlgo->updateActionValues(previousState, newState, previousAction, reward);
     actionValuesRecord.recordActionValues(actionValues, previousState, previousAction);

     updatePolicy(previousState);
     previousState = newState;
 }

 void ReinforcedLearning::updateLongTermReward(double reward, double discountFactor)
 {
     longTermReward *= discountFactor;
     longTermReward += reward;
 }

 void ReinforcedLearning::updateActualDiscountedReward(double reward)
 {
     static long long int counter = 0;
     actualDiscountedReward *= discountFactor;
     actualDiscountedReward += reward;

     rewardRecord.add(counter++, actualDiscountedReward);
 }

 void ReinforcedLearning::updatePolicy(state_t state)
 {
     static const bool updatePolicy = context->conf->getBoolValue("reinforcementLearning", "updatePolicy", true);
     if (!updatePolicy)
     {
         return;
     }
     epsilonGreedyPolicyUpdate(state); //FIXME: remove epsilongreedy from the name
 }

 void ReinforcedLearning::epsilonGreedyPolicyUpdate(state_t state)
 {
     action_t bestAction = getBestAction(state);
     std::vector<double> av = actionValues->getValues(state);
     //bestAction = getBestActionFromInitialPolicy(state);
     std::vector<double> policy = actionSelectionStrategy->generatePolicy(av, bestAction);
     context->policy->update(state, policy);
 }

 action_t ReinforcedLearning::getBestActionFromInitialPolicy(state_t s)
 {
     size_t S = context->stateSpace->size();
     size_t A = context->actionSpace->size();
     static std::vector<std::vector<double>> init(S, std::vector<double>(A));
     static bool valid = false;
     static std::vector<action_t> bestAction(S);
     if (!valid)
     {
         valid = true;
         std::string filename = "configuration/initialPolicy";
         std::fstream stream;
         stream.open(filename);
         if (!stream.is_open())
             throw std::runtime_error("cannot open file");
         std::string line;
         std::vector<std::vector<double>> pol;
         size_t a = 0;
         while(std::getline(stream, line))
         {
             std::vector<std::string> elements = Utils::StringUtils::split(line, ' ');
             std::vector<double> row;
             /*TODO: this can be rewritten more elegantly*/
             for (size_t i = 0; i < elements.size(); i++)
             {
                 row.push_back(std::stod(elements[i]));
             }
             init[a++] = row;
         }
         double bestValue;
         for (size_t s = 0; s < S; s++)
         {
             bestAction[s] = 0;
             bestValue = init[s][0];
             for (size_t a = 1; a < A; a++)
             {
                 if (init[s][a] > bestValue)
                 {
                     bestValue = init[s][a];
                     bestAction[s] = a;
                 }
             }
         }
     }

     return bestAction[s];
 }

 action_t ReinforcedLearning::getBestAction(state_t state)
 {
     return backupAlgo->getBestAction(state);
 }


 void ReinforcedLearning::end()
 {
     actionValuesRecord.end();
 #ifdef PRINT
     /*Action values are Q-learning's equivalent to mdp policy table*/
     printActionValuesToFile("./");
 #endif
     rewardRecord.printToFile("reports");
 #ifdef PRINT
     std::cerr << "the long-term reward is " << longTermReward <<"\n";
 #endif
 }


 void ReinforcedLearning::printActionValuesToFile(std::string folder)
 {
     std::ofstream file;
     std::ofstream normalized;
     file.open(folder + "/rlfile.txt", std::ios_base::app);
     normalized.open(folder + "/rlfilenormalized.txt", std::ios_base::app);
     for (unsigned int i = 0; i < S; i++)
     {
         bool allEqual = true;
         unsigned int maxIndex = 0;
         double maxValue = actionValues->getValue(i, 0);
         for (size_t j = 1; j < A; j++)
         {
             if (actionValues->getValue(i, j) > maxValue)
             {
                 maxValue = actionValues->getValue(i, j);
                 maxIndex = j;
             }
             double eps = 0.0000001; //TODO: what value should this be? Maybe make it relative to the abs value of actionValues[i][j]
             if (actionValues->getValue(i, j) < actionValues->getValue(i, j-1) - eps
                 || actionValues->getValue(i, j) > actionValues->getValue(i, j-1) + eps)
                 allEqual = false;
         }
         for (unsigned int j = 0; j < A; j++)
         {
             file << actionValues->getValue(i, j)<<" ";
             normalized << ((allEqual == true) ? 1 : ((j == maxIndex) ? 1 : 0) ) <<" ";
         }
         file << "\n";
         normalized << "\n";
     }
     file.close();
     normalized.close();
 }


Mdp::ActionSelectionStrategy::generatePolicy
virtual std::vector< double > generatePolicy(const std::vector< double > &, action_t bestAction)=0

generatePbs.i
i
Definition: generatePbs.py:6

Mdp::ReinforcedLearning::rewardRecord
Utils::Record rewardRecord
Definition: reinforcedLearning.h:72

Mdp::GibbsActionSelection
Definition: gibbsActionSelection.h:18

temperature
Definition: temperature.py:1

Mdp::RlBackupAlgorithm::notifyUpdateNeeded
virtual void notifyUpdateNeeded()
Definition: rlBackupAlgorithm.cpp:35

Mdp::ReinforcedLearning::~ReinforcedLearning
~ReinforcedLearning()
Definition: reinforcedLearning.cpp:56

Mdp::ActionValuesFunction::getValue
virtual double getValue(state_t state, action_t action)=0

Mdp::RlBackupAlgorithm::init
virtual void init()=0

delayedQLearning.h

Mdp::ReinforcedLearning::discountFactor
double discountFactor
Definition: reinforcedLearning.h:57

A
const size_t A
Definition: testLinearProgrammingSolver.cpp:35

gibbsActionSelection.h

S
const size_t S
Definition: testLinearProgrammingSolver.cpp:34

context.h

Mdp::ReinforcedLearning::printStateSpace
void printStateSpace()
Definition: reinforcedLearning.cpp:80

Mdp::ReinforcedLearning::actionValues
ActionValuesFunction * actionValues
Definition: reinforcedLearning.h:55

bigtemp.line
line
Definition: bigtemp.py:6

Mdp::NaiveQLambda
Definition: naiveQLambda.h:18

Mdp::ReinforcedLearning::backupAlgo
RlBackupAlgorithm * backupAlgo
Definition: reinforcedLearning.h:63

Mdp::ReinforcedLearning::initializePolicy
void initializePolicy()
Definition: reinforcedLearning.cpp:126

Mdp::QLearning::configKey
static constexpr const char * configKey
Definition: qLearning.h:26

Mdp::RlBackupAlgorithm
Definition: rlBackupAlgorithm.h:31

Mdp::ReinforcedLearning::actionValuesRecord
ActionValuesRecord actionValuesRecord
Definition: reinforcedLearning.h:66

Mdp::ReinforcedLearning::initializeModel
void initializeModel()
Definition: reinforcedLearning.cpp:64

Mdp::ActionValuesFunction::getValues
virtual std::vector< double > getValues(state_t state)=0

Utils::Record::printToFile
void printToFile(std::string folder) const
Definition: record.cpp:23

Mdp::DelayedQLearning
Definition: delayedQLearning.h:21

Mdp::ActionValuesRecord
Definition: actionValuesRecord.h:27

Mdp::ReinforcedLearning::getBestActionFromInitialPolicy
action_t getBestActionFromInitialPolicy(state_t s)
Definition: reinforcedLearning.cpp:231

Mdp::ActionValuesRecord::init
void init()
Definition: actionValuesRecord.cpp:31

Mdp::NaiveQLambda::configKey
static constexpr const char * configKey
Definition: naiveQLambda.h:21

Mdp::ReinforcedLearning::end
void end()
Definition: reinforcedLearning.cpp:285

Mdp::RlBackupAlgorithm::updateActionValues
virtual void updateActionValues(state_t previousState, state_t nextState, action_t previousAction, double reward)=0

Mdp::WatkinsQLambda
Definition: watkinsQLambda.h:20

Mdp::ReinforcedLearning::updatePolicy
void updatePolicy(state_t state)
Definition: reinforcedLearning.cpp:212

Mdp::ReinforcedLearning::updateLongTermReward
void updateLongTermReward(double reward, double discountFactor)
Definition: reinforcedLearning.cpp:197

Mdp::ReinforcedLearning::getBackupAlgorithm
RlBackupAlgorithm * getBackupAlgorithm()
Definition: reinforcedLearning.cpp:144

Utils::Record::add
void add(double time, double element)
Definition: record.cpp:41

tabularActionValues.h

sarsaLambda.h

naiveQLambda.h

Mdp::ActionValuesRecord::recordActionValues
void recordActionValues(ActionValuesFunction *actionValues, state_t state, action_t action)
Definition: actionValuesRecord.cpp:64

aging.filename
string filename
Definition: aging.py:5

watkinsQLambda.h

policy.h

Mdp::ReinforcedLearning::getBestAction
action_t getBestAction(state_t state)
Definition: reinforcedLearning.cpp:279

randomGenerator.h

Mdp::WatkinsQLambda::configKey
static const constexpr char * configKey
Definition: watkinsQLambda.h:23

epsilonGreedy.h

Mdp::action_t
size_t action_t
Definition: action_impl.h:18

Mdp::RlBackupAlgorithm::getBestAction
virtual action_t getBestAction(state_t state)
Definition: rlBackupAlgorithm.cpp:91

Mdp::LearningStrategy
Definition: learningStrategy.h:21

Mdp
Definition: action.h:18

Mdp::ReinforcedLearning::actualDiscountedReward
double actualDiscountedReward
Definition: reinforcedLearning.h:71

Mdp::ReinforcedLearning::actionSelectionStrategy
ActionSelectionStrategy * actionSelectionStrategy
Definition: reinforcedLearning.h:74

Mdp::SarsaLambda::configKey
static constexpr const char * configKey
Definition: sarsaLambda.h:21

Mdp::ReinforcedLearning::S
size_t S
Definition: reinforcedLearning.h:46

Mdp::EpsilonGreedy
Definition: epsilonGreedy.h:17

qLearning.h

reinforcedLearning.h

stateSpace.h

pol
const double pol
Definition: testLinearProgrammingSolver.cpp:47

mdpConfiguration.h

Mdp::ReinforcedLearning::epsilonGreedyPolicyUpdate
void epsilonGreedyPolicyUpdate(state_t state)
Definition: reinforcedLearning.cpp:222

Mdp::ActionValuesRecord::end
void end()
Definition: actionValuesRecord.cpp:52

Mdp::ReinforcedLearning::previousState
state_t previousState
Definition: reinforcedLearning.h:61

Mdp::DelayedQLearning::configKey
static constexpr const char * configKey
Definition: delayedQLearning.h:24

getMissingFiles.counter
int counter
Definition: getMissingFiles.py:8

Mdp::ReinforcedLearning::printActionValuesToFile
void printActionValuesToFile(std::string folder)
Definition: reinforcedLearning.cpp:299

Mdp::state_t
size_t state_t
Definition: state.h:19

stringUtils.h

Mdp::TabularActionValues
Definition: tabularActionValues.h:23

Mdp::ReinforcedLearning::ReinforcedLearning
ReinforcedLearning(std::shared_ptr< Context > context)
Definition: reinforcedLearning.cpp:45

actionSpace.h

Mdp::ReinforcedLearning::previousAction
action_t previousAction
Definition: reinforcedLearning.h:62

reward
Definition: reward.py:1

Mdp::ReinforcedLearning::longTermReward
double longTermReward
Definition: reinforcedLearning.h:75

Mdp::ReinforcedLearning::updateActualDiscountedReward
void updateActualDiscountedReward(double reward)
Definition: reinforcedLearning.cpp:203

Mdp::LearningStrategy::context
std::shared_ptr< Context > context
Definition: learningStrategy.h:28

Mdp::QLearning
Definition: qLearning.h:23

Utils::StringUtils::split
static std::vector< std::string > split(std::string str, char delimiter)
Definition: stringUtils.cpp:18

Mdp::SarsaLambda
Definition: sarsaLambda.h:18

actionSelectionStrategy.h

Mdp::ReinforcedLearning::updateModel
void updateModel()
Definition: reinforcedLearning.cpp:176

Mdp::ReinforcedLearning::A
size_t A
Definition: reinforcedLearning.h:47

Mdp::ReinforcedLearning::initializeActionSelectionStrategy
void initializeActionSelectionStrategy()
Definition: reinforcedLearning.cpp:96