Skip to main content

Lê Nguyên Hoang - La formule du savoir

Le bayésianisme est une approche en statistiques et en épistémologie qui repose sur la théorie des probabilités bayésienne. Cette approche tire son nom du mathématicien Thomas Bayes. Et c'est cette formule de Bayes qui donne au livre son nom "la formule de savoir", puisqu'elle est plus qu'une simple formule dans les statistiques mais toute une approche de pensée.

  • est la probabilité de l'hypothèse sachant (la probabilité conditionnelle de sachant ).

  • () est la probabilité de sachant (la probabilité conditionnelle de sachant ).

  • () est la probabilité a priori de , c'est-à-dire la probabilité de avant d'avoir les nouvelles informations .

  • () est la probabilité marginale de , c'est-à-dire la probabilité de indépendamment de .

L'approche bayésien

Dans la perspective bayésienne, la probabilité est interprétée comme une mesure du degré de croyance ou d'incertitude associé à une proposition. Au lieu de considérer la probabilité comme une fréquence relative dans un grand nombre de répétitions d'une expérience (comme en statistique fréquentistes), les bayésiens voient la probabilité comme une représentation subjective du degré de confiance dans une hypothèse donnée.

Le processus bayésien repose sur la mise à jour des probabilités à mesure que de nouvelles données deviennent disponibles. La mise à jour est effectuée à l'aide du théorème de Bayes, qui permet d'ajuster la probabilité d'une hypothèse en fonction des nouvelles informations.
Du coup, pour que la connaissance soit possible, il est nécessaire d'avoir un "préjugé", une croyance a priori à une probabilité avant d'avoir aucune autre information.
Sans préjugé, aucune conclusion ne peut être tirée. - Lê

"La théorie des probabilités n’est, au fond, que le bon sens réduit au calcul ; elle fait apprécier avec exactitude ce que les esprits justes sentent par une sorte d’instinct, sans qu’ils puissent souvent s’en rendre compte." - Pierre-Simon Laplace (1749-1827)

La conséquence étant que tout modèle de connaissance n'est qu'une croyance à ajuster à chaque fois avec les données empiriques. Donc, tout est subjectif mais ça ne ferait pas que tout opinion est égal.

"Tous les modèles sont faux, certains sont utiles." - George Box 

La pure bayésienne et le bayésien pragmatique

La pure bayésienne est la formule "complexe" qui n'est pas si simple à calculer. Du coup, une formule plus simple et rapide est introduit, c'est ce que Lê appelle le bayésien pragmatique.

Problème de l'auto-référence ???

Un problème récurant dans la philosophie est l'auto-référence. Si on prend l'exemple du principe de réfutabilité de Popper, ce principe lui même n'est pas réfutable donc il se contredit. Le bayésianisme aussi a ce défi.

Exemples de problèmes résolus par la formules de Bayes

Le problème des deux enfants

Un père a deux enfant, au moins un d'eux est un garçon. Quelle est la probabilité que le 2ème soit un garçon aussi?

Réponse 1: Le genre du 2ème enfant ne dépend pas du premier donc 1/2.

Réponse 2: Il y a quatre possibilités avec les mêmes chances chacune:
1. garçon-garçon,
2. fille-fille,
3. fille-garçon,
4. garçon-fille.
On barre la 2ème possibilité puisqu'on sait déjà que l'un des deux est un garçon. Donc parmi les 3 possibilités égales, il n'y a qu'une où l'autre enfant est un garçon, donc la probabilité est 1/3.

Réponse 3 (bayésienne): 1/3


Problème de Monty Hall

Vous avez 3 portes fermées, derrière l'une d'eux se cache une voiture, les deux autres: rien. Vous choisissez une, vous avez 1/3 de chance à gagner la voiture. L'une des deux autres portes s'ouvre et il y en a rien. Vous avez le choix à choisir l'autre porte ou garder votre choix.

Selon les calculs, si vous changer la porte vous avez 2/3 chance à gagner! C'est vérifié empiriquement et c'est vrai mais ce n'est pas évident intuitivement.

La démonstration est la suivante:

La probabilité que la voiture soit derrière une des portes est a priori 1/3:

P(Car@A) = P(Car@B) = P(Car@C)=1/3

Si on choisit A et Monty révèle B. On applique la formule de Bayes:

P(Car@A | Open B) = P(Open B | Car@A).P(Car@A) / P(Open B)

Avec:

P(Open B) = P(Open B | Car@A).P(Car@A) + P(Open B | Car@B).P(Car@B) + P(Open B | Car@C).P(Car@C)

Le problème de Linda

Linda a 31 ans. Elle est célibataire, franche et très intelligente. Elle a fait des études de philosophie. Quand elle était étudiante, elle était très concernée par les problèmes de discrimination et de justice sociale, et a aussi participé à des manifestations anti-nucléaires. Qu’est-ce qui est le plus probable ?

1. Linda est caissière de banque.
2. Linda est caissière de banque et active dans le mouvement féministe.

Moi personnellement, j'ai choisit la 2ème réponse: car, le fait d'être caissière de banque est le même dans les cas, mais j'aurais penser qu'elle pourrait être féministe. Mais on y réfléchissant, j'ai probablement tort, par ce que la plupart des gens (+80%) ont donné la mauvaise réponse. Et aussi par ce qu'en fait, déjà on ne sait pas la probabilité qu'elle soit  caissière de banque, peut être 10%, et celle de devenir féministe peut être 50%. Si on fait la multiplication ça donne 5% ce qui est fortement plus faible que le premier probabilité. Donc avoir deux événement peu probable à la fois est moins probable qu'un d'eux. Mais pourquoi j'avais l'intuition de choisir la 2ème?

Quelque soit la probabilité qu'elle soit féministe ou celle qu'elle soit caissière de banque, on aura toujours P(choix 1) >= P(choix 2).

P[2|Preambule] = P[Feministe|Preambule et Banque] · P[1|Preambule].

La déduction et l'induction

La logique

La logique ou la déduction est ce qu'on utilise largement dans les mathématiques. Elle est complexe et si divers, il y en a plusieurs types.

Lê distingue deux types de logiciens: platonicien, qui croit à une réalité logique où la Vérité est démontrable; et intuitionniste, qui voit les démonstrations mathématiques comme des objets à construire à partir des axiomes suivants les lois de la logique, en y ajoutant le théorème d'incomplétude de Gödel, qui a démontré que certaines théorèmes ne sont pas démontrables ou réfutables. 

Du coup, un problème de la logique arrive. « P ou non P » est une tautologie. Si P est vraie, alors « P ou non P » est vraie aussi. Et si P est fausse, alors non P est vraie, et donc « P ou non P » est vraie aussi. Mais il y a une troisième possibilité : le cas où P n’est ni démontrable ni réfutable. On dit alors de P qu’il est indécidable. Du coup, la proposition « P ou non P » est alors indécidable elle aussi. 

Logique bayésienne

Il y a une autre logique basée sur le bayésianisme, c'est la logique bayésienne. Elle a ses propres expressions. P(A) = 1 est équivalente à "A est vrai", alors que P(A) = 0 <=> A est faux.
L'implication peut s'écrire: P(A|B)=1 <=> (A=>B)

Or cette expression P(A|B)=1 n'est pas applicable si P(B)=0.

La quantification universelle « ∀xA(x) » se traduit alors par l’identité P[A(x)] = 1, ainsi que la quantification existentielle « ∃xA(x) » se traduit en P[A] > 0.

La conséquence directe d'utiliser la logique bayésienne est que l'évaluation d'une expression ne serait plus binaire mais une probabilité, une crédence qui peut augmenter ou diminuer avec les données ou évidences.

Une autre propriété unique du bayésianisme est la possibilité de combiner plusieurs théories incompatibles et leurs prédictions: Une forêt de modèles incompatibles est plus sage que chacun de ses arbres.

L'induction ou la généralisation

"Toute connaissance dégénère en probabilité; et cette probabilité est plus ou moins grande, en fonction de notre expérience de la vérité ou de la fausseté de notre compréhension, et en fonction de la simplicité ou de la complexité de la question." - David Hume (1711-1776)

Pour Hume, les observations dans le mondes réelles n'impliquent pas des vérités sur le monde. Ce ne sont que des généralisations, mais elles sont utiles pragmatiquement. Ce qui est en accord avec le principe de réfutabilité.

Le principe de réfutabilité de Karl Popper dit qu'une théorie n'est scientifique que si elle réfutable par l'expérience, donc si on peut faire une expérience et déprouver la théorie, c'est qu'elle scientifique, sinon, si je prétends qu'un démon à 4 yeux habite sur le soleil, alors ce ne peut pas être vérifié, donc ce n'est pas une théorie. Mais l'un des superstar de la physique, Einstein, n'avait pas besoin de vérifier sa théorie de relativité, il en croyait tout simplement, par ce qu'il a fait les maths!

Ce n'est pas le cas uniquement pour Einstein et sa théorie de relativité, mais aussi pour la mécanique quantique, la théorie des cordes, l'évolution darwinienne, etc. L'induction est largement utilisée et est importante dans les sciences. Non pas seulement l'induction, mais le fait qu'une seule expérience a réfuté une théorie ne veut pas dire que la théorie est fausse, et les scientifiques y croient encore, parce qu'on peut l'explique par une erreur de l'expérience. Ce qui importe est la crédence de la théorie!

Et pour Lê, ce qui distingue les « sciences » des « pseudo-sciences » par exemple, n’est pas la réfutabilité des hypothèses de ces disciplines, mais la justesse de l’application de la formule de Bayes.

Statistiques fréquentistes et bayésiennes

P-value

Dans les statistiques fréquentistes, il y a une notion très important: la p-value, qui représente la probabilité d'observer des données aussi extrêmes ou plus extrêmes que celles obtenues, sous l'hypothèse nulle. L'hypothèse nulle (H0) est une déclaration initiale selon laquelle il n'y a pas d'effet ou de différence significative. (Par exemple: Les bosons de Higgs n'existent pas). Une petite p-value (typiquement inférieure à un seuil, comme 0,05) suggère que les données sont peu probables sous l'hypothèse nulle, ce qui conduit souvent à rejeter cette hypothèse.

Dans notre exemple si on suppose que les bosons de Higgs n'existent pas, et qu'on trouve par expérience des résultats très improbables, donc on doit rejeter l'H0. Du coup, les bosons de Higgs existent!

La critique de la p-value est sur le choix de la seuil qui est arbitraire, et sur le fait qu'on pourrait rejeter toute théorie si on choisit les bons nombres, ou que parfois on n'a pas tout simplement des données! Mais pire encore, le p-hacking: la manipulation consciente ou inconsciente des procédures statistiques pour obtenir des résultats significatifs (une p-value faible), souvent en testant de multiples hypothèses ou en choisissant des méthodes d'analyse en fonction des résultats observés ou la sélection sélective des données.

Le problème du Soleil d'xkcd

Un exemple trompeur du mal-usage de p-value est le problème du Soleil d'xkcd: Imaginez-vous à Paris. Bob est à Hawaii. Juste avant minuit, il lancera deux dés. S’il tombe sur un double six, il vous dira que le soleil a disparu. Sinon, il vous dira si le soleil a disparu. Minuit sonne. Bob appelle et dit que le soleil a disparu. Que pouvez-vous conclure ?

En utilisant la p-value, si on veut montrer que le soleil est disparu. H0: le soleil n'est pas disparu. On calcule p = 1/6 * 1/6 = 1/36 = 0.028 qui est la probabilité de tomber sur de faces 6 des deux dés. Alors p<0.05 donc on rejette H0. Du coup, le soleil est disparu!



Formule de Bayes

Dans la formule de Bayes, il y a un terme équivalent à la fameuse p-value: P[Data|Theorie]. Cependant, il est crucial de prendre en considération la probabilité à priori P[Théorie].



Et si on suppose qu'on avait initialement un ensemble de données qu'on note D. Et à partir d'une nouvelle donnée NewData, on veut calculer de nouveau la probabilité, la formule devient:

Et si NewData ne dépend pas de D, la formule devient:

Et maintenant, l’a priori est là un a priori calculé à partir des données D collectées avant la nouvelle donnée NewData. Donc on va remplacer l’a priori fondamental P[T] par sa crédence actuelle P[T|D] et P[A] par P[A|D].

Si on utilise la formule de Bayes avec le problème précèdent du soleil d'xkcd, on trouve: 

avec Vecu est l'ensemble des expériences qu'on avait avec le soleil et les données scientifiques. Vecu=D. Et on a le préjugé P(Soleil|Vécu), qui fait toute la différence.

Les préjugés

Selon Lê, il faut avoir des préjugés plutot que dire je ne sais pas, parceque ça serait une occasion pour savoir quand peut on faire confiance à notre intuition ou pas, et parceque notre biais est en fait issue d'un ensemble d'expériences qu'on a vécu même s'il ne reflète pas la réalité! Alors, il vaut mieux d'avoir des préjugés et les mettre à jour avec des nouvelles données que de ne rien penser! 

« Douter de tout ou tout croire sont deux solutions également commodes, qui l’une et l’autre nous dispensent de réfléchir » -Poincaré

 Une autre raison pour avoir des préjugés est raison est ludique: Se rendre compte qu’une prédiction tombe juste est plaisant, mais découvrir qu’une intuition très convaincante est erronée peut être d’une jouissance exquise! Celui qui n’a jamais vécu l’extase de la découverte d’un fait contre-intuitif ne comprendra jamais cette raison de vivre des scientifiques.

La phrase la plus excitante à entendre en science n’est pas “eurêka”, mais “c’est bizarre” - Isaac Asimov

Or il y a la possibilité d'avoir des préjugés erronées influencées par des biais cognitifs ou par les on-dit plutôt que des données empiriques. Il faut absolument appliquer la formule de Bayes pour calculer la préjugé (l'a priori).

Cryptographie

Chiffre César: décaler les lettres de l'alphabet (par exemple A devient D, B devient E... et ainsi de suite). Il faut essayer 25 fois pour le décoder.

Permutation de lettres, Remplacer A par n'importe quel autre alphabet (26 choix), puis B par un des 25, puis C par un des 24, etc. Il faut 26! essais pour le décoder. C'est un nombre de l'ordre 10^26.

La sécurité et confidentialité de nos technologies de communication est garantie par l’immensité du nombre de codages possibles, et par l’hypothèse selon laquelle tout hacker devra tester une grosse portion de ces codages pour réussir son coup. Cependant, tout ce raisonnement ignore les deux outils de prédilection du bayésien : le préjugé et la formule de Bayes.

Pour décoder un message encrypté par la méthode de substitution par exemple, on peut utiliser des préjugés, voir les lettres les plus utilisées dans la langue, et déterminer ceux qui y correspondent, par la suite si on déchiffre 2 lettres, on peut remplir les lettres vides pour trouver des mots les plus utilisés ou bien les plus probables. Tout ça se repose sur la probabilité sans avoir besoin d'essayer 26! fois.

Confidentialité

Le problème de sondage de l'armée américaine sur la consommation de marijuana.

Pour garder la confidentialité des soldats, on leur demande de répondre honnêtement s'ils ont pile, et dire "oui" si c'était face. Alors les résultats sont: 160 oui, 40 no. On sait que 100 des réponses "oui" aurait "face". Alors on a un préjugé 60% fume, 40% non.

Maintenant pour calculer la probabilité qu'un soldat qui a répondu "oui" fume. On applique la formule:


P[oui|fume] = 1; P[fume] = 0.6; P[oui|non-fumeur] = 0.5; P[non-fumeur] = 0.4;

P[oui] = (P[oui|fume] *P[fume]) + (P[oui|non-fumeur] * P[non-fumeur]) = 0.6 * 1 + 0.5 * 0.4 = 0.8

P[fume|oui] = 0.6 / 0.8 = 0.75

Et intuitivement, si on prend les 160 soldats qui ont répondu "oui", on sait déjà que 60 d'eux ont répondu honnêtement. Les autre 100 qui ont répondu oui, 60% parmi eux fument. Donc (60 + 60) / 160 = 75%

Alors un soldat tiré par hasard a 60% d'être fumeur, mais le fait de participer au sondage et répondre "oui" augmente cette chance à 75%. Mais Il y a un problème de confidentialité des personnes qui ont répondu "non". On sait qu'ils ne fument pas (même si ça semble n'avoir aucun effet mais ça reste un problème de confidentialité). 

Pour résoudre ce problème, le sondage sera modifié et il y aura deux pièces à lancer: Dans cette variante, tout soldat a une chance sur deux de répondre honnêtement, une chance sur quatre de répondre oui à cause des lancers de pièces, et une chance sur quatre de répondre non à cause des lancers de pièces.

Faisant les calculs, on aura une crédence de 82 % en le fait qu’un soldat ayant répondu oui au sondage est effectivement un fumeur. Et à l’inverse, une crédence de 33% en le fait qu’un soldat ayant répondu non au sondage fume malgré tout. Donc ça a impacté le degré de confidentialité par les rapports 82/60 et 60/33. Cette perte de confidentialité peut avoir même un rapport de 3 dépendant du préjugé.

C'est d'où vient le concept de confidentialité différentielle qui est fait référence à un ensemble de techniques mathématiques qui permettent de réaliser des analyses de big data sans divulguer d’informations individuelles. Un mécanisme d’extraction d’information sera dit différentiellement confidentiel si, a posteriori, les crédences sur un individu analysé sont toujours presque les mêmes que celles d’un individu non-analysé.
Une solution sera le chiffrement homomorphe a été introduit. Il permet aux électeurs de coder leur vote et l'envoyer, et par la suite l'ensemble des votes encodés sont combinés via une opération publiquement vérifiable, et fournissent un résultat final encodé. Les clés privées des électeurs sont ensuite combinées pour former une sorte de superclé, avec laquelle le résultat final encodé, et seulement ce résultat final encodé, peut être décodé. Ce qui garantie la confidentialité!

Les préjugés de la théorie bayésienne ne sont pas morales. Ce qui est moral sort du domaine bayésien. Mais ces préjugés sont nécessaires dans le cadre du conséquentialisme pour faire le bon choix, scientifiquement, et atteindre des objectifs.

Equilibre de Nash: pierre bat ciseaux

p169


Comments

Popular posts from this blog

الإنسان بين المظهر والجوهر - إريك فروم - الجزء الأول: التملك والكينونة

إريك فروم Erich Fromm (1900-1980) محلل نفسي وفيلسوف وأستاذ جامعي إنساني أمريكي، ألماني الأصل، تأثر فكره بالمحلل النفسي سيغموند فرويد، وكارل ماركس وماكس هوركهايم. وطبق النظريات الفرويدية على الواقع المجتمعي. له مؤلفات عدة من بينها الهروب من الحرية، التحليل النفسي والدين، أزمة التحليل النفسي. يبين إريك فروم في هذا الكتاب أن العالم في أزمته الحاضرة يتجاذبه أسلوبان في الوجود يتصارعان للفوز بالنفس البشرية. فالأسلوب الأول وهو المهيمن في المجتمع الصناعي الحديث، رأسماليا كان أم شيوعيا، هو أسلوب التملك الذي ينصب على التملك المادي والقوة، وهو مبني على الجشع والحسد والعدوان والاقتناء والاستحواذ والاكتناز والجشع. أما الأسلوب الثاني، وهو الأسلوب البديل، فإنه يتجه نحو الكينونة ، ويتجلى في الشعور بمتعة التجربة المشتركة والقيام بالأعمال المنتجة حقا، وتتأصل فيه القيم الأخلاقية السامية على القيم المادية لترسيخ قواعد الوجود الإنساني الخيّر، الذي يعطي البشر فرصة لإخراج أجمل ما عندهم من مواهب وملكات وأخلاق. يفسر إريك فروم فكرته حول التملك والكينونة، والفرق بينهما هو الفرق بين الملك ...

موجز لكتاب معنى الحياة لألفريد أدلر

What life could mean to you – Alfred Adler كتاب معنى الحياة – ألفريد أدلر وُلد أدلر في فيينا عاصمة النمسا عام 1879، وكان الابن الثاني من سبعة أبناء. أصيب في الخامسة من عمره بمرض رئوي خطير، وتوفي أخوه الأصغر بسبب الدفتيريا، فقرر أن يصبح طبيبا ليتمكن من "محاربة الموت". درس الطب في جامعة فيينا ونال الشهادة، وقابل لاحقا "سيغموند فرويد" واهتم بنرياته فانضم لجماعة المناقشة التي أسسها فرويد في عام 1902، إلا أن الخلافات بدأت بينه وبين فرويد ويونج، مما ادى لاستقالته عام 1911 ليكون جماعة علم النفس الفردين حيث يسلك طريقا مختلفة لوصف وعلاج مشاكل البشر النفسية. وهذا موجز لما جاء في كتابه "معنى الحياة". الفصل الأول: معنى الحياة. يركز أدلر مهام الحياة الرئيسية في ثلاثة: الوظيفة أو العمل؛ العلاقات الاجتماعية؛ الزواج أو الحب. ويرى أن الحياة لا يكون لها معنى أو فائدة إلا إذا كانت ذات فائدة للمجتمع، فالمعنى الخاص للحياة ليس سوى انعدام للمعنى، لأنه لا يعني شيئا لباقي أفراد المجتمع؛ فالمعنى الحقيقي للحياة هو التعاون. إن علم النفس الفردي يريد الوصول عن طريق العلم،...

قراءة في كتاب "الإنسان يبحث عن المعنى" ل فيكتور فرانكل viktor frankl

من الملفت للانتباه أن فيينا النمساوية التي أنجبت سيغموند فرويد، مؤسس التحليل النفسي الذي يرى أن دوافع السلوك البشري هي إرادة اللذة الجنسية ، وأنجبت ألفريد أدلر، مؤسس علم النفس الفردي المنظر لدافع المكانة وإرادة القوة؛ هي نفسها التي أنجبت  فيكتور فرانكل، مؤسس العلاج بالمعنى. فماذا يرى فرانكل؟ {صورة لفرانكل} وُلد فرانكل عام 1905 وتوفي عام 1997. درس الطب بمسقط رأسه، فيينا، حيث حصل على الدكتوراه وعمل لاحقا بقسم الانتحار في مستشفى فيينا وترأس لاحقا قسم طب الأعصاب في مستشفى روتشيلد. خلال الحرب العالمية الثانية، أرسل فرانكل وزوجته إلى معسكر تعذيب نازي في ألمانيا. كتب عن هذه الأحداث في كتابه "الإنسان يبحث عن المعنى"، حيث يصف معاناة الجوع والبرد والقسوة وتوقع الإبادة في كل ساعة في المعسكر. معاناته كانت أشقى مما كتب عنه فيودور دوستوفسكي في روايته "ذكريات من منزل الأموات". وفي قلب المعاناة يبحث عن معنى الحياة. تركز المدرسة الثالثة لعلم النفس (طريقة العلاج بالمعنى) على فكرة أن الدافع المحرك للإنسان أكثر من غيره هو إرادة المعنى ، اتباع مسيرة محددة للحياة؛ فالإنسا...