Outils logiciels pour les cours Paris II
Cours Paris II
Stages/ Thèses/ Séminaires |
BD 10
Exemple du Go: s'améliorer en jouant des millions de parties. Apprentissage par renforcement
Exemple: Jeu de Morra choisir 1$ ou 2$ et deviner le choix de l'autre joueur. Le gain est le "pot". Matrice de gain de I. La matrice de II est B=-A, aussi la symétrique. Gains des joueurs Transformations Problème linéaire Problème linéaire à 5 variables Max ct.x A . x < b L'algorithme du simplex permet de trouver la stratégie optimale, et la valeur du jeu Implémentation dans Excel Par défaut a=1, b=2. Solution
|