schedSim/mdpModel_8cpp_source.html

 #include "mdpModel.h"

 #include <cassert>
 #include <iostream>
 #include <fstream>

 #include <utils/randomGenerator.h>

 #include "action.h"
 #include "action_impl.h"
 #include "actionSpace.h"
 #include "constraintList.h"
 #include "context.h"
 #include "horizon.h"
 #include "learning/learningStrategy.h"
 #include "mdpConfiguration.h"
 #include "policy.h"
 #include "rewards.h"
 #include "stateSpace.h"
 #include "transitionMatrix.h"

 using namespace Mdp;


 MdpModel::MdpModel(std::shared_ptr<StateSpace> stateSpace,
                    std::shared_ptr<ActionSpace> actionSpace,
                    std::shared_ptr<MdpConfiguration> conf)
 {
     constructContext(stateSpace, actionSpace, conf);
     setLearningStrategy();
 }

 void MdpModel::setLearningStrategy()
 {
     assert(context);
     learningStrategy = context->conf->getLearningStrategyFromFile(context);
 }

 void MdpModel::constructContext(std::shared_ptr<StateSpace> stateSpace,
                                 std::shared_ptr<ActionSpace> actionSpace,
                                 std::shared_ptr<MdpConfiguration> conf)
 {
     context = std::make_shared<Context>();
     context->stateSpace = stateSpace;
     context->actionSpace = actionSpace;
     size_t s = context->stateSpace->size();
     size_t a = context->actionSpace->size();
     context->matrix = std::make_shared<TransitionMatrix>(s, a);
     context->rewards = std::make_shared<Rewards>(s, a);
     context->constraintList = std::make_shared<ConstraintList>();
     context->randomGenerator = std::make_shared<Utils::RandomGenerator>();
     context->randomGenerator->seed(conf->getIntValue("mdp","seed"));
     context->policy = std::make_shared<Policy>(s, a, context->randomGenerator);
     context->conf = conf;
     context->horizon = std::shared_ptr<Horizon>(context->conf->getHorizonFromFile());
     context->horizon->initialStateDistribution = std::vector<double>(s, 1.0/s);
 }

 MdpModel::~MdpModel()
 {
 }

 void MdpModel::init()
 {
     context->stateSpace->updateCurrentState();
     learningStrategy->initializeModel();
     recordHistory = context->conf->getBoolValue("mdp", "recordHistory", false);
 }

 void MdpModel::end()
 {
     learningStrategy->end();
 }

 Action *MdpModel::selectActionWithoutUpdate()
 {
     return selectAction(false);
 }

 Action *MdpModel::selectAction(bool updateModel)
 {
     context->stateSpace->updateCurrentState();
     if (updateModel)
         learningStrategy->updateModel();
     state_t state = context->stateSpace->getState();
     action_t action = context->policy->getAction(state);
     context->actionSpace->updateLastAction(action);
     if (recordHistory)
         record(state, action, context->stateSpace->getReward());
     return context->actionSpace->getAction(action);
 }


 void MdpModel::printReportsToFile(std::string folder)
 {
     std::ofstream file;
     file.open(folder + "/transitionMatrix.txt", std::ios_base::app);
     context->matrix->print(file);
     file.close();

     std::ofstream policyFile;
     policyFile.open(folder + "/policy.txt", std::ios_base::app);
     context->policy->print(policyFile);
     policyFile.close();

     std::ofstream summaryFile;
     summaryFile.open(folder + "/mdpSummary.txt", std::ios_base::app);
     printSummary(summaryFile);
     summaryFile.close();
 }


 void MdpModel::printPolicy(std::ostream& stream)
 {
     context->policy->print(stream);
 }


 void MdpModel::record(state_t state, action_t action, double reward)
 {
     if (recordHistory)
     {
         stateHistory.push_back(state);
         actionHistory.push_back(action);
         rewardHistory.push_back(reward);
     }
 }


 void MdpModel::printSummary(std::ostream& stream)
 {
     stream << "Summary of MDP\n";
     stream << "state statistics:\n";
     stream << "distribution of states visited:\n";
     std::vector<int> stateCount(context->stateSpace->size());
     for (size_t i = 0; i < stateHistory.size(); i++)
     {
         stateCount[stateHistory[i]]++;
     }
     int sum = 0;
     for (size_t i = 0; i < stateCount.size(); i++)
     {
         sum += stateCount[i];
     }
     for (size_t i = 0; i < stateCount.size(); i++)
     {
         stream << i << ": " << ((double)stateCount[i]) / ((double)sum) << "\n";
     }
 }

 void MdpModel::setConstraintList(std::shared_ptr<ConstraintList> list)
 {
     context->constraintList = list;
 }

 void MdpModel::setRewards(std::shared_ptr<Rewards> rewards)
 {
     context->rewards = rewards;
 }


generatePbs.i
i
Definition: generatePbs.py:6

Mdp::MdpModel::setLearningStrategy
virtual void setLearningStrategy()
Definition: mdpModel.cpp:42

rewards.h

context.h

constraintList.h

Mdp::MdpModel::constructContext
virtual void constructContext(std::shared_ptr< StateSpace > stateSpace, std::shared_ptr< ActionSpace > actionSpace, std::shared_ptr< MdpConfiguration > conf)
Definition: mdpModel.cpp:48

Mdp::MdpModel::~MdpModel
virtual ~MdpModel()
Definition: mdpModel.cpp:68

Mdp::LearningStrategy::updateModel
virtual void updateModel()=0

Mdp::MdpModel::printPolicy
void printPolicy(std::ostream &stream)
Definition: mdpModel.cpp:122

learningStrategy.h

Mdp::MdpModel::actionHistory
std::vector< action_t > actionHistory
Definition: mdpModel.h:79

Mdp::LearningStrategy::end
virtual void end()
Definition: learningStrategy.h:28

Mdp::MdpModel::learningStrategy
LearningStrategy * learningStrategy
Definition: mdpModel.h:75

Mdp::LearningStrategy::initializeModel
virtual void initializeModel()=0

Mdp::MdpModel::record
void record(state_t state, action_t action, double reward)
Definition: mdpModel.cpp:129

Mdp::MdpModel::selectAction
Action * selectAction(bool updateModel=true)
Returns the optimal action for the current timestep.
Definition: mdpModel.cpp:89

Mdp::MdpModel::context
std::shared_ptr< Context > context
Definition: mdpModel.h:74

Mdp::Action
Definition: action.h:25

Mdp::MdpModel::stateHistory
std::vector< state_t > stateHistory
Definition: mdpModel.h:78

mdpModel.h

action.h

Mdp::MdpModel::recordHistory
bool recordHistory
Definition: mdpModel.h:81

policy.h

randomGenerator.h

Mdp::action_t
size_t action_t
Definition: action_impl.h:18

Mdp
Definition: action.h:18

Mdp::MdpModel::rewardHistory
std::vector< double > rewardHistory
Definition: mdpModel.h:80

Mdp::MdpModel::selectActionWithoutUpdate
Action * selectActionWithoutUpdate()
similar to selectAction, but without updating the model
Definition: mdpModel.cpp:84

Mdp::MdpModel::setConstraintList
void setConstraintList(std::shared_ptr< ConstraintList > list)
Definition: mdpModel.cpp:162

stateSpace.h

Mdp::MdpModel::MdpModel
MdpModel(std::shared_ptr< StateSpace > stateSpace, std::shared_ptr< ActionSpace > actionSpace, std::shared_ptr< MdpConfiguration > conf)
Definition: mdpModel.cpp:34

mdpConfiguration.h

Mdp::MdpModel::printSummary
void printSummary(std::ostream &stream)
Definition: mdpModel.cpp:141

Mdp::MdpModel::init
void init()
call this function first
Definition: mdpModel.cpp:72

Mdp::MdpModel::printReportsToFile
void printReportsToFile(std::string folder)
Print reports to file.
Definition: mdpModel.cpp:103

Mdp::MdpModel::end
void end()
call this function at the end
Definition: mdpModel.cpp:79

transitionMatrix.h

Mdp::MdpModel::setRewards
void setRewards(std::shared_ptr< Rewards > rewards)
Definition: mdpModel.cpp:167

Mdp::state_t
size_t state_t
Definition: state.h:19

actionSpace.h

reward
Definition: reward.py:1

horizon.h

action_impl.h