schedSim/testRL_8cpp_source.html

 #include <iostream>
 #include <vector>


 #include <mdp/mdpModel.h>
 #include <mdp/stateSpaceBuilder.h>
 #include <mdp/actionSpaceBuilder.h>
 #include <mdp/mdpConfiguration.h>
 #include <mdp/action.h>

 #include "rlTestDomainModel.h"
 #include "rlTestActions.h"
 #include "rlTestDimensions.h"

 int main()
 {
     Mdp::StateSpaceBuilder stateSpaceBuilder;
     Mdp::ActionSpaceBuilder actionSpaceBuilder;

     std::shared_ptr<RlTestDomainModel> domainModel = std::make_shared<RlTestDomainModel>();

     stateSpaceBuilder.setDomainModel(domainModel);
     actionSpaceBuilder.setDomainModel(domainModel);

     stateSpaceBuilder.addDimension(new RlDim(12));
     stateSpaceBuilder.addDimension(new RlDim(4));

     Mdp::StateSpace *stateSpace = stateSpaceBuilder.getStateSpace();

     actionSpaceBuilder.addAction(new GoUp);
     actionSpaceBuilder.addAction(new GoDown);
     actionSpaceBuilder.addAction(new GoLeft);
     actionSpaceBuilder.addAction(new GoRight);

     Mdp::ActionSpace *actionSpace = actionSpaceBuilder.getActionSpace();


     Mdp::MdpConfiguration *config = new Mdp::MdpConfiguration("configuration.conf");
     Mdp::MdpModel mdpModel(stateSpace, actionSpace, config);
     mdpModel.init();

     const int nbOfEpisodes = 500;
     const int averageHorizon = 10;
     double history[averageHorizon];
     for (int i = 0; i < nbOfEpisodes; i++)
     {
         double reward = 0.0;
         int steps = 0;
             Mdp::Action *action = mdpModel.selectActionWithoutUpdate();
             action->performAction();
             reward += domainModel->measureReward();
         while(domainModel->xpos != 11 || domainModel->ypos != 0)
         {
             steps++;
             Mdp::Action *action = mdpModel.selectAction();
             action->performAction();
             reward += domainModel->measureReward();
             //std::cout << "landed in xpos "<<domainModel->xpos<<" ypos "<<domainModel->ypos<<" \n";
         }
         mdpModel.end();
         //std::cout << "episode "<<i<<": total reward is "<<reward<<" reached in "<<steps<<" steps\n";
         history[i % averageHorizon] = reward;
         if (i >= averageHorizon)
         {
             double average = 0;
             for (int j = 0; j < averageHorizon; j++)
             {
                 average += history[j];
             }
             std::cout << "episode "<<i<<": average cost: " << average/averageHorizon << "\n";
         }
         //mdpModel.printPolicy(std::cout);
         domainModel->xpos = 0;
         domainModel->ypos = 0;
     }
 #if 0
         while(domainModel->xpos != 11 || domainModel->ypos != 0)
         {
             std::cout << "xpos: "<<domainModel->xpos<<"ypos:"<<domainModel->ypos<<"\n";
             Mdp::Action *action = mdpModel.selectAction();
             action->performAction();
         }
 #endif
     return 0;
 }
Mdp::StateSpaceBuilder::setDomainModel
void setDomainModel(std::shared_ptr< DomainModel > model)
sets the domain model used by the state space to determine current state
Definition: stateSpaceBuilder.cpp:44

generatePbs.i
i
Definition: generatePbs.py:6

actionSpaceBuilder.h

Mdp::ActionSpaceBuilder::setDomainModel
void setDomainModel(std::shared_ptr< DomainModel > model)
sets the domain model used by the actions to act on the environment
Definition: actionSpaceBuilder.cpp:67

Mdp::Action::performAction
virtual void performAction()=0

Mdp::ActionSpaceBuilder::addAction
void addAction(Action *action)
add an action to the actino space
Definition: actionSpaceBuilder.cpp:60

Mdp::StateSpaceBuilder::getStateSpace
std::shared_ptr< StateSpace > getStateSpace()
call this function last!
Definition: stateSpaceBuilder.cpp:22

Mdp::ActionSpaceBuilder::getActionSpace
std::shared_ptr< ActionSpace > getActionSpace()
get the action space
Definition: actionSpaceBuilder.cpp:23

Mdp::StateSpaceBuilder::addDimension
void addDimension(StateSpaceDimension *dimension)
adds a dimension to the state space
Definition: stateSpaceBuilder.cpp:34

GoUp
Definition: rlTestActions.h:20

Mdp::MdpModel::selectAction
Action * selectAction(bool updateModel=true)
Returns the optimal action for the current timestep.
Definition: mdpModel.cpp:89

rlTestDomainModel.h

Mdp::Action
Definition: action.h:25

rlTestDimensions.h

Mdp::StateSpace
Definition: stateSpace.h:29

mdpModel.h

action.h

Mdp::ActionSpaceBuilder
Builds the action space.
Definition: actionSpaceBuilder.h:28

Mdp::MdpConfiguration
Definition: mdpConfiguration.h:26

Mdp::MdpModel
The main class of the MDP framework.
Definition: mdpModel.h:35

GoRight
Definition: rlTestActions.h:44

RlDim
Definition: rlTestDimensions.h:23

Mdp::MdpModel::selectActionWithoutUpdate
Action * selectActionWithoutUpdate()
similar to selectAction, but without updating the model
Definition: mdpModel.cpp:84

Mdp::ActionSpace
Definition: actionSpace.h:30

main
int main()
Definition: testRL.cpp:24

mdpConfiguration.h

Mdp::MdpModel::init
void init()
call this function first
Definition: mdpModel.cpp:72

Mdp::MdpModel::end
void end()
call this function at the end
Definition: mdpModel.cpp:79

GoDown
Definition: rlTestActions.h:27

reward
Definition: reward.py:1

GoLeft
Definition: rlTestActions.h:35

rlTestActions.h

stateSpaceBuilder.h

Mdp::StateSpaceBuilder
builds a domain specific state space
Definition: stateSpaceBuilder.h:25