6) L'aspect sociologique: Le dilemme du prisonnier



Dans la partie précédente nous avons observés des règlement particuliers , maintenant nous allons nous pencher sur un jeu incontournable en théorie des jeux: le dilemme des prisonnier et sur quelques stratégies (dans cette partie nous entendons par stratégie une règle à suivre pendant un jeu répété on dit itéré , a ne pas confondre avec une stratégie d'un jeu non répété ).

Remarque pour ceux qui veulent directement voir l'aspect sociologique il y a ce lien .

    6.1) Principe et applications

    Dans ce dilemme nous sommes en présence de deux prisonniers dont la culpabilité n'a pas été prouvé. Il leur ai fait la proposition suivante alors qu'ils ne peuvent communiquer :

- Si tu dénonces ton complice et qu'il ne te dénonce pas, tu seras remis en liberté et l'autre écopera de 10 ans de prison.

- Si tu le dénonces et lui aussi, vous écoperez tous les deux de 5 ans de prison.

- Si personne ne se dénonce, vous aurez tous deux 6 mois de prison.

Pour permettre de construire la matrice des gains on ne parle pas d'années de prison mais plutôt d'années de liberté.


Voici les conditions pour qu'un jeu soit un dilemme du prisonnier:

en notant:

- (trahit,trahit)=P

-(coopère,coopère) = R

-(coopère,trahit)pour J 1= S

-(coopère,trahit)pour J 2 = T

Pour que ce soit un dilemme il faut que: S < P < R < T c'est ce que l'on a car 0< 1< 3 <5

De plus il ne faut pas inciter a faire des (coopère,trahit) par alternance par rapport à des ( coopère , coopère) c'est ce que l'on note avec: T < 2*R car 5 < 6

Il convient de noter que le fait que la personne soit ou non réellement coupable ne nous intéresse pas.

Chacun des prisonniers doit donc réfléchir a la situation la plus intéressante pour lui en tenant compte du choix de son adversaire :

-Si il me dénonce :

- si je me tais, je purge 5 ans de prison. - si je le dénonce, je purge 3 ans de prison.


-Si il se tait :

- je me tais, je purge 1 an de prison.

- si je le dénonce je suis libre.


Les deux prisonniers doivent donc faire le choix de trahir ou non l'autre, sachant que s'il le trahisse il écoperont au maximum de 5 ans de prison. Le choix le plus rationnel est de dénoncer l'autre.


Ce dilemme met donc en situation deux acteurs, où aucun ne peut contraindre l'autre à faire un certain choix, et où la coopération serait le meilleur choix. Cette situation se retrouve dans de nombreux domaines :

-dans l'économie. Deux entreprises n'ont pas le droit de s'entendre pour fixer les prix du marché (loi antitrust). Mais si par exemple elles haussent toutes les deux leur prix et que la demande ne diminue pas, elles vendront autant d'objets à un meilleur prix, contrairement au cas où une entreprise aurait baissé le prix de cet objet pour en vendre plus que l'autre.

-politique internationale. Deux pays frontaliers peuvent faire le choix ou non d'entretenir une armée. Si ils le font, ils ne posséderont pas assez d'argent pour faire une guerre. Si un seul ne le fait pas il prend le risque de se faire envahir. Si aucun ne le fait, les deux pays gagnent l'argent qui aurait servi pour entretenir l'armée et vivent dans un état de paix. Bien que chacun des pays est incité a créer une armée pour envahir son voisin.

-psychologie. Un couple marié est en état de conflit car chacun des conjoints à eu une relation extra-conjugale à l'insu de l'autre. Chacun des deux voudraient pouvoir avouer leur faute et se réconcilier (coopération) mais s'ils le font ils craignent le mépris de l'autre si l'autre n'a pas fauté et ainsi ils vont préférer l'état de conflit.

-survie en temps de guerre. Lors de la guerre des tranchées deux entités se font face. Le choix consiste à tirer ou non pour choisir de laisser la vie a l'autre ou pas. Il est primordial d'affaiblir l'ennemi pour survivre donc on pourrais préférer de tirer. Or lors de la guerre des tranchées, les deux entités sont exposées longuement l'une face à l'autre et le choix le plus profitable est une coopération mutuelle fondée sur la réciprocité. Les unités vont donc faire le choix de ne tirer que si ce pacte implicite est rompu. Ceci est réalisable car nous somme dans le cas d'un dilemme du prisonnier itératif.


« Lorsque les positions se sont stabilisées, la non-agression entre les troupes s'est installée spontanément en de nombreux endroits du front. Elle a peut-être commencé à s'instaurer au moment des repas, servis à la même heure des deux côtés du no man's land. Un témoin a alors noté que sur une section du front, la période comprise entre 8 et 9 heures du matin était considérée comme réservée aux affaires privées, et certains endroits indiqués par un drapeau étaient interdits aux tireurs des deux camps. Durant l'été 1915, un soldat a fait remarqué que cela aurait été un jeu d'enfant d'attaquer la route qui menait aux tranchées de l'ennemi, encombrée de camions de ravitaillement et de citernes, et de faire un massacre. En réalité, c'est le silence qui régnait. Car après tout, si l'on empêche l'ennemi de s'approvisionner, sa réaction sera simple : il fera de même avec vous.»



6.2) Dilemme du prisonnier itératif

Avec l'exemple de la guerre des tranchées on voit apparaître une certaine stratégie du dilemme du prisonnier : la stratégie du donnant-donnant. D'autres stratégies existe et ont été testé lors de «tournoi» de stratégies du dilemme du prisonnier par ordinateur. Il est apparu que les meilleurs stratégies étaient celle qui répondait aux critères suivants :

-la stratégie doit être dite courtoise, c'est à dire qu'elle peut adopter une stratégie donnant-donnant lorsqu'elle y est confronté.

-elle doit pouvoir aussi répondre aux réactions hostile.

-elle doit être indulgente : pouvoir revenir à un mode coopératif après avoir réagi à une agression.

-elle doit être aisément compréhensible : les adversaires doivent pouvoir anticiper les conséquences de leurs actions. La stratégie pourrait donc être qualifié de «oeil pour oeil avec pardon» qui consiste à coopérer à la première itération pour ensuite répéter le dernier coup de l'adversaire.

    Cependant il n'existe pas de stratégie optimale à ce jeux. En effet, face à cette stratégie, une stratégie qui consisterais à toujours trahir serait plus positive. Si le nombre d'itérations est connue, l'équilibre de Nash conseille d'ailleurs de toujours trahir. La raison en est simple : sachant qu'il n'y aura aucune réplique possible au dernier coup on peut trahir son adversaire. Comme on anticipe la réaction de l'adversaire au dernier coup il vaut mieux trahir dès l'avant-dernier coup. Le raisonnement est poursuivit jusqu'à refuser de coopérer à tout les coups. Pour que la coopération soit donc intéressante il faut que le futur soit incertain et donc que le nombre d'itérations soit inconnu par exemple.



    6.3) Certains fondements du dilemme

Dans le cas d'un dilemme du prisonnier itéré ou l'adversaire pourrait changer il convient d'étudier les trois phénomènes importants que sont la territorialité, la reconnaissance de son adversaire ou l'importance du futur. Ces trois paramètres sont nécessaires pour que les stratégies puissent s'effectuer en fonction des choix de l'adversaire et non du fait qu'il puisse ou non ne pas être le prochain adversaire.


La territorialité est nécessaire pour que l'on puisse avoir toujours le même adversaire, et ensuite adapter sa stratégie à celui-ci. L'absence de territorialité entraînerait des brassages d'adversaires ou de groupes d'adversaires trop important pour l'adaptation d'une réelle stratégie contre ceux-ci. Ce paramètre est aussi vrai dans d'autres contextes tels que la nature par exemple. Ainsi on remarque que le petit animal d'eau douce Chlorohydra viridissima possède dans ses tissus des algues vertes très difficiles à enlever, se transmettant par l'oeuf. Une autre espèce nomme H Vulgaris est elle parasité par des algues du même type mais la transition ne se fait pas par l'oeuf. Lorsque le H Vulgaris est parasité on remarque un affaiblissement de celui-ci. On voit donc que la permanence de l'interaction entraîne une perturbation de la symbiose.


La reconnaissance est le fait de savoir de quel type est l'adversaire, de savoir comment il réagit. Lorsque la territorialité est clairement établie et qu'il n'y a qu'une seule stratégie possible de la part des adversaires, alors la reconnaissance est inutile. Cependant dans des endroits ou différentes stratégies sont présentes, il est bénéfique de savoir quel types d'adversaire l'on rencontre pour adapter au mieux ses choix. Encore une fois dans la nature, on rencontre ce problème de reconnaissance par exemple au niveau de la bactérie. Une bactérie répond à toutes intrusions étrangères par la libérations d'agents ayant pour but de neutraliser le corps étranger. Cependant, le corps étranger pourrait être totalement inoffensif voire bénéfique par rapport à cette même bactérie.


L'importance du futur est aussi un paramètre important. Prenons l'exemple d'un cas du dilemme du prisonnier ou il n'y a qu'une itération (aucun futur), le meilleur choix est de trahir. Dans le cas où l'adversaire est sur le point de quitter le jeu ou de changer, le choix revient donc au même que dans le cas précédent : trahir l'autre devient de plus en plus rentable. C'est le même cas lorsque le nombre d'itérations est connus : il devient de plus en plus rentable de trahir l'autre (équilibre de Nash).


    6.4) Le principe du tournoi

    Nous avons simulé un tournois confrontant 15 stratégies:

-oeil pour oeil

-méfiant (identique a oeil pour oeil en trahissant à la première itération)

-méchante (toujours trahir)

-gentille

-Périodique gentille (suite récurrente de 'coopère coopère trahit')

-Périodique méchante (suite récurrente de 'coopère trahit trahit')

-Aléatoire (50%)

-Rancunière (trahit dès que l'adversaire a trahi une fois)

-Joss (oeil pour oeil avec une faible probabilité de trahir lorsqu'il devrait collaborer)

-Mouche du coche (cette stratégie trahi au premier tour puis si l'adversaire a trahi elle trahi puis joue oeil pour oeil par contre si l'adversaire coopère elle joue coopère,trahit)

-sondeur (joue trahir coopérer coopérer, si l'adversaire à coopéré en 2 et 3, je trahit toujours sinon donnant donnant)

-majorité mou (répond la réponse donnée par l'adversaire en majorité, coopère en cas d'égalité)

-coopère trahit

-un oeil pour deux yeux (oeil pour oeil qui trahit pour 2 trahisons de suite)

-graduelle (coopère tant que l’autre coopère, et fait défection N fois lorsque l’autre

fait défection. N est le nombre de fois où l’autre a trahi. Elle essaie de renouer la coopération en

coopérant deux fois après la punition)


Pour ce tournoi nous avons utilisé le programme avec le module prison , le nombre de manches était fixé à 1000 et nous avons gardé la matrice de gains classique c'est à dire celle ci dessous:



J1|J2

S1 = "trahir"

S2 = "ne pas trahir"

S1 = "trahir"

(1;1)

(5;0)

S2 = "ne pas trahir"

(0;5)

(3;3)


Nous avons donc consigné les résultats de chaque confrontation dans ce tableau:




Le premier chiffre de chaque case représente les gains de J1 et le second les gains de J2.



6.5) Résultats du tournoi:

Voici les scores obtenus donc pour chaque stratégie:


Stratégie|stats

Victoires/Défaites

Pts encaissés

Pts marqués

Différence de points

classement

oeil pour oeil

0/4

44996

39353

-2643

1

graduelle

0/5

39336

39311

-25

2

rancunier

6/1

26541

38986

12445

3

joss

6/1

35091

36271

1180

4

majorité mou

2/5

38692

36247

-2445

5

coopère trahit

8/4

337902

36100

2310

6

un oeil pour deux yeux

1/7

41644

35584

-6060

7

mouche du coche

7/2

29273

34873

5600

8

périodique gentille

3/9

38298

34745

-3553

9

sondeur

4/7

27516

32501

4985

10

lunatique (50%)

5/6

34639

32024

-2615

11

méfiante

5/1

32504

31529

-975

12

périodique méchante

8/4

28363

31523

3160

13

gentille

0/8

54007

31488

-22520

14

méchante

12/0

11979

26068

14068

15



Le classement ne tient compte que du nombre de points marqués puisque l'on se base sur l'axiome de la rationalité des actions.

On pourrait dire que méchante est la meilleure défense mais aussi la pire stratégie., que oeil pour oeil est la meilleure attaque.

Un autre pont intéressant est que la stratégie qui "concrétise" le moins (et de loin) en terme de victoire est la stratégie oeil pour oeil qui termine première grâce à sa réactivité et au fait qu'elle coopère du mieux qu'elle peux. On remarque aussi qu'elle est première malgré sa simplicité. Des stratégies plus complexes mais ressemblantes ne s'en tirant pas aussi mieux comme majorité mou qui ne termine que 5° avec un code beaucoup plus complexe (vous pouvez le voir sur le 1° programme en annexe).


Il n'est pas étonnant d'avoir méchante en meilleure différence de points puisque avec cette stratégie on est sûr de marquer au pire autant de points que l'adversaire alors que l'on encaisse très peu de points (1 maximum par manche), par contre on ne fait pas énormément de gains dés que l'adversaire à compris la stratégie.


La très bonne surprise de ce classement vient de la stratégie rancunière puisqu'elle termine troisième avec la meilleure défense après méchante(26541 points encaissés) puisqu'elle est prête à coopérer et puisqu'elle réagit plutôt bien à la trahison.


Il convient de noter que ce classement différerais selon la matrice des gains ainsi que les proportions de stratégies dominantes. Ainsi mouche du coche est créé pour exploiter un oeil pour deux yeux ou gentille par exemple. Plus de ces dernières stratégies lui aurait été bénéfique.


J Pdelahaye et son équipe obtiennent comme classement (mais pour plus d'un millier de manches !!!!) :



Rang Stratégie Total

1 DONNANT-DONNANT(oeil pour oeil) 30 890

2 MAJORITE-MOU 30 527

3 RANCUNIERE 28 045

4 SONDEUR 27 507

5 PERIODIQUE GENTILLE 27 320

6 DONNANT-DONNANT DUR 27 309

7 GENTILLE 25 506

8 LUNATIQUE (aléatoire (50%)) 24 336

9 MEFIANTE 22 925

10 MAJORITE-DUR 22 066

11 MECHANTE 22 022

12 PERIODIQUE MECHANTE 21 210


Cependant on retrouve des résultats assez similaires.


On a étudié une extension du dilemme du prisonnier: le dilemme du prisonnier géométrique.


Précédant

 

Suivant