@mastersthesis{development-gsi-mastersthesis-20191,
author = "G{\'o}mez, Guzman",
abstract = "1.- Integraci{\'o}n de un m{\'o}dulo con el algoritmo Q-Learning a la plataforma SOBA (simulaci{\'o}n de agentes en edficios) para su posterior aplicaci{\'o}n a diversas utilidades como eficiencia energ{\'e}tica del edificio. En concreto, este TFG se centra en la evacuaci{\'o}n del edificio en una situaci{\'o}n de emergencia como puede ser un incendio, una inundaci{\'o}n o eventos similares. Por esta raz{\'o}n la segunda parte del c{\'o}digo se implementar{\'a} dentro de SEBA  (simulaci{\'o}n de agentes en edificios ante situaci{\'o}n de emergencia), que es una plataforma que hereda de SOBA. 
Ambas plataformas est{\'a}n construidas sobre el paquete MESA (simulaci{\'o}n de agentes).
2.- El proceso de "explotaci{\'o}n y exploraci{\'o}n" del algoritmo Q-Learning se estudiar{\'a} con las dos t{\'e}cnicas m{\'a}s extendidas: E-Greedy y Boltzmann. 
3.- El objetivo final es comparar la eficacia del reinforcement learning por recompensa frente al actual m{\'e}todo de algoritmo en estrella (distancia matem{\'a}tica {\'o}ptima) implantado en SEBA, a la hora de evacuar el edificio exitosamente.
4.- El lenguaje de programaci{\'o}n utilizado ser{\'a} el mismo que utilizan las tres plataformas: Python en su versi{\'o}n > 3.0.",
address = "ETSI Telecomunicaci{\'o}n",
institution = "Universidad Polit{\'e}cnica de Madrid",
month = "January",
title = "{D}evelopment of a {R}einforcement {L}earning {M}odule based on {Q}-{L}earning of a  {M}ulti-agent {S}ystem for {E}mergency {E}vacuation {S}imulation",
type = "TFG",
year = "2019",
}