Adquisición de Comportamientos Grupales en un Dominio de Agentes de FÚtbol Utilizando un Mecanismo de Toma de Decisiones Distribuido y Aprendizaje por Refuerzo

Hdl Handle:
http://hdl.handle.net/11285/572626
Title:
Adquisición de Comportamientos Grupales en un Dominio de Agentes de FÚtbol Utilizando un Mecanismo de Toma de Decisiones Distribuido y Aprendizaje por Refuerzo
Authors:
Junco Rey, María de los A.
Issue Date:
01/03/2006
Abstract:
En un sistema multiagente la coordinación de las actividades de los diferentes participantes es una tarea difícil de lograr, especialmente si los agentes interactÚan en un medio dinámico. Tradicionalmente, la toma de decisiones se realiza de una forma centralizada lo cual representa ciertas limitantes relacionadas a este modelo: � No se considera la información de diferentes puntos de vista. � La decisión es tomada por un solo agente que puede contar con una visión limitada del problema. � Si el agente que toma las decisiones falla, el sistema completo falla. En este trabajo se presenta la hipótesis de que, para mejorar la utilidad lograda por la interacción de los participantes en un dominio multiagente, el proceso de toma de decisiones debe distribuirse entre los diferentes agentes para considerar los diversos puntos de vista y la información local que cada uno de ellos posee, coordinándose de una mejor manera. Además, el mecanismo de negociación, asociado a este proceso de toma de decisiones, debe considerar tanto la utilidad global del sistema así como las utilidades particulares de cada uno de los agentes participantes. Sin embargo, bajo este marco distribuido, el proceso de toma de decisiones encuentra dificultades de conflictos propios a este tipo de ambientes, los cuales deben ser resueltos a través del uso de mecanismos de negociación. Para lograr un comportamiento coordinado y cooperativo no es suficiente con proveer a los agentes con información acerca de sus compañeros, es necesario contar con alguna medida de racionalidad. La teoría de juegos provee un marco teórico para analizar las interacciones entre varios agentes y proporcionar la medida de racionalidad necesaria. Así, en este trabajo los agentes utilizan un modelo de solución de Nash para evaluar las utilidades obtenidas de las interacciones realizadas por los agentes, ya que permite evaluar diferentes soluciones conjuntas entre los agentes e identificar una o más soluciones que maximizan la utilidad del sistema. Por otro lado, en un dominio multiagente es necesario considerar un proceso de interacción que facilite la coordinación de sus acciones y pueda desempeñarse adecuadamente considerando los cambios que surgen en un universo dinámico como este. Así, los agentes en este trabajo cuentan con la capacidad de aprender de sus interacciones identificando comportamientos conjuntos que los llevan a cumplir su meta global. El proceso de toma de decisiones apoya al proceso de aprendizaje proporcionando a los agentes información que les permite evaluar aquellos comportamientos conjuntos que cuentan con poca posibilidad de éxito y así no considerarlos dentro de los comportamientos válidos a ser ejecutados. Entonces, el algoritmo de aprendizaje implementado en este trabajo es una implementación distribuida del algoritmo de aprendizaje por refuerzo, conocido como Q-learning, y la denominamos Distributed Q-learning. Este algoritmo distribuido permitirá a los agentes aprender utilidades de acciones conjuntas segÚn diferentes roles que ejecuten los agentes involucrados en una misma jugada y no solo de sus acciones en forma individual. Así, al aprender las mejores acciones conjuntas el proceso de intercambio de información local se reduce ya que los agentes son capaces de identificar la relación entre una situación dada y la mejor acción a elegir que los llevará a comportarse como un equipo coordinado. Nuestro modelo de negociación se ha probado en el medio de agentes de fÚtbol y se ha realizado una extrapolación para su aplicación en problemas de toma de decisiones distribuidas en ambientes de negocios, demostrando así que es posible utilizarlo en dominios que impliquen la participación de varios jugadores y donde el proceso de toma de decisiones no se encuentra centralizado en alguno de ellos sino que tiene que ejecutarse de una forma distribuida buscando beneficiar al sistema en general y a cada uno de los jugadores. Las principales contribuciones de este trabajo son: � Un mecanismo de toma de decisiones racional que permite evaluar las acciones conjuntas de los agentes que les permiten comportarse coordinadamente buscando maximizar la utilidad del sistema. � Diseño e implementación de un algoritmo de aprendizaje por refuerzo distribuido que permite a los agentes participantes aprender acciones conjuntas. El algoritmo de aprendizaje por refuerzo se apoya del proceso de toma de decisiones para considerar solo aquellos comportamientos conjuntos que cuentan con mayor posibilidad de éxito, reduciendo así el espacio de comportamientos conjuntos a evaluar, ya que se eliminan aquellos que cuentan con utilidades negativas para el sistema. � La extrapolación teórica de nuestro modelo, probado en un dominio de agentes de fÚtbol, a un dominio de negocios para la toma de decisiones distribuida.
Keywords:
FÚtbol; Toma de Decisiones
Degree Program:
Programa de Graduados en Informática y Computación
Advisors:
Dr. Fernando Ramos Quintana
Committee Member / Sinodal:
Dr. Luis Enrique Succar Sucar; Dr. Ramón Brena Pinero; Dr. Carlos Eduardo Mariano Romero
Degree Level:
Doctora en Ciencias de la Computación
School:
Escuela en Ciencias de La Computación
Campus Program:
Campus Cuernavaca
Discipline:
Ingeniería y Ciencias Aplicadas / Engineering & Applied Sciences
Appears in Collections:
Ciencias Exactas

Full metadata record

DC FieldValue Language
dc.contributor.advisorDr. Fernando Ramos Quintanaes
dc.contributor.authorJunco Rey, María de los A.es
dc.date.accessioned2015-08-17T11:36:51Zen
dc.date.available2015-08-17T11:36:51Zen
dc.date.issued01/03/2006-
dc.identifier.urihttp://hdl.handle.net/11285/572626en
dc.description.abstractEn un sistema multiagente la coordinación de las actividades de los diferentes participantes es una tarea difícil de lograr, especialmente si los agentes interactÚan en un medio dinámico. Tradicionalmente, la toma de decisiones se realiza de una forma centralizada lo cual representa ciertas limitantes relacionadas a este modelo: � No se considera la información de diferentes puntos de vista. � La decisión es tomada por un solo agente que puede contar con una visión limitada del problema. � Si el agente que toma las decisiones falla, el sistema completo falla. En este trabajo se presenta la hipótesis de que, para mejorar la utilidad lograda por la interacción de los participantes en un dominio multiagente, el proceso de toma de decisiones debe distribuirse entre los diferentes agentes para considerar los diversos puntos de vista y la información local que cada uno de ellos posee, coordinándose de una mejor manera. Además, el mecanismo de negociación, asociado a este proceso de toma de decisiones, debe considerar tanto la utilidad global del sistema así como las utilidades particulares de cada uno de los agentes participantes. Sin embargo, bajo este marco distribuido, el proceso de toma de decisiones encuentra dificultades de conflictos propios a este tipo de ambientes, los cuales deben ser resueltos a través del uso de mecanismos de negociación. Para lograr un comportamiento coordinado y cooperativo no es suficiente con proveer a los agentes con información acerca de sus compañeros, es necesario contar con alguna medida de racionalidad. La teoría de juegos provee un marco teórico para analizar las interacciones entre varios agentes y proporcionar la medida de racionalidad necesaria. Así, en este trabajo los agentes utilizan un modelo de solución de Nash para evaluar las utilidades obtenidas de las interacciones realizadas por los agentes, ya que permite evaluar diferentes soluciones conjuntas entre los agentes e identificar una o más soluciones que maximizan la utilidad del sistema. Por otro lado, en un dominio multiagente es necesario considerar un proceso de interacción que facilite la coordinación de sus acciones y pueda desempeñarse adecuadamente considerando los cambios que surgen en un universo dinámico como este. Así, los agentes en este trabajo cuentan con la capacidad de aprender de sus interacciones identificando comportamientos conjuntos que los llevan a cumplir su meta global. El proceso de toma de decisiones apoya al proceso de aprendizaje proporcionando a los agentes información que les permite evaluar aquellos comportamientos conjuntos que cuentan con poca posibilidad de éxito y así no considerarlos dentro de los comportamientos válidos a ser ejecutados. Entonces, el algoritmo de aprendizaje implementado en este trabajo es una implementación distribuida del algoritmo de aprendizaje por refuerzo, conocido como Q-learning, y la denominamos Distributed Q-learning. Este algoritmo distribuido permitirá a los agentes aprender utilidades de acciones conjuntas segÚn diferentes roles que ejecuten los agentes involucrados en una misma jugada y no solo de sus acciones en forma individual. Así, al aprender las mejores acciones conjuntas el proceso de intercambio de información local se reduce ya que los agentes son capaces de identificar la relación entre una situación dada y la mejor acción a elegir que los llevará a comportarse como un equipo coordinado. Nuestro modelo de negociación se ha probado en el medio de agentes de fÚtbol y se ha realizado una extrapolación para su aplicación en problemas de toma de decisiones distribuidas en ambientes de negocios, demostrando así que es posible utilizarlo en dominios que impliquen la participación de varios jugadores y donde el proceso de toma de decisiones no se encuentra centralizado en alguno de ellos sino que tiene que ejecutarse de una forma distribuida buscando beneficiar al sistema en general y a cada uno de los jugadores. Las principales contribuciones de este trabajo son: � Un mecanismo de toma de decisiones racional que permite evaluar las acciones conjuntas de los agentes que les permiten comportarse coordinadamente buscando maximizar la utilidad del sistema. � Diseño e implementación de un algoritmo de aprendizaje por refuerzo distribuido que permite a los agentes participantes aprender acciones conjuntas. El algoritmo de aprendizaje por refuerzo se apoya del proceso de toma de decisiones para considerar solo aquellos comportamientos conjuntos que cuentan con mayor posibilidad de éxito, reduciendo así el espacio de comportamientos conjuntos a evaluar, ya que se eliminan aquellos que cuentan con utilidades negativas para el sistema. � La extrapolación teórica de nuestro modelo, probado en un dominio de agentes de fÚtbol, a un dominio de negocios para la toma de decisiones distribuida.es
dc.language.isoesen
dc.rightsOpen Accessen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.titleAdquisición de Comportamientos Grupales en un Dominio de Agentes de FÚtbol Utilizando un Mecanismo de Toma de Decisiones Distribuido y Aprendizaje por Refuerzoes
dc.typeTesis de Doctoradoes
thesis.degree.grantorInstituto Tecnológico y de Estudios Superiores de Monterreyes
thesis.degree.levelDoctora en Ciencias de la Computaciónes
dc.contributor.committeememberDr. Luis Enrique Succar Sucares
dc.contributor.committeememberDr. Ramón Brena Pineroes
dc.contributor.committeememberDr. Carlos Eduardo Mariano Romeroes
thesis.degree.disciplineEscuela en Ciencias de La Computaciónes
thesis.degree.namePrograma de Graduados en Informática y Computaciónes
dc.subject.keywordFÚtboles
dc.subject.keywordToma de Decisioneses
thesis.degree.programCampus Cuernavacaes
dc.subject.disciplineIngeniería y Ciencias Aplicadas / Engineering & Applied Scienceses
All Items in REPOSITORIO DEL TECNOLOGICO DE MONTERREY are protected by copyright, with all rights reserved, unless otherwise indicated.