Comprendre Le Théorème De Bayes Du Point De Vue De L'apprentissage Automatique
1 Explication amusante du théorème de Bayes
L’école bayésienne pense qu’il n’y a rien de vraiment aléatoire, et si c’est le cas, c’est certainement dû à un manque d’information (théorie de l’information de Shannon) ; L’école bayésienne en statistique a introduit ce qui est devenu plus tard le bayésianisme en apprentissage automatique.
Le théorème de Bayes nous donne la capacité de raisonner sur des événements après qu’ils se sont produits, en utilisant diverses probabilités antérieures.
Exemple d’utilisation involontaire de Bayes : une blague — l’eau est un poison mortel, car toutes les personnes atteintes de cancer ont bu de l’eau. Exemple d’être trompé involontairement par Bayes : une méthode de diagnostic avec un taux de détection très élevé (précision de 99,9%), mais un taux de faux positifs très élevé (>50%) en raison d’une faible prévalence de la maladie dans la population (<1%).
La théorie des probabilités et des statistiques est vraiment une jeune fille que l’on peut habiller comme on veut.
$$P(c|x) = \frac{P(c)P(x|c)}{P(x)}$$
2 Comprendre le théorème de Bayes du point de vue de l’apprentissage automatique
C’est toujours la même formule, mais en apprentissage automatique, cela définit un classificateur bayésien naïf, lu comme P c given x
, le côté gauche est la probabilité a posteriori, $P(c)$ est la probabilité a priori, $P(x|c)$ est la vraisemblance, qui est la partie que le modèle apprend principalement. $P(x)$ est le même pour tous les échantillons d’entrée et est utilisé pour la normalisation (développé à l’aide de la formule de la probabilité totale) ; l’estimation de $P(c)P(c|x)$ peut être effectuée à l’aide de la méthode de l’estimation du maximum de vraisemblance (Maximum Likelihood Estimation). (Livre de la pastèque P148)
D’un point de vue général (peut-être pas très précis) : $P(c)$ est la probabilité initiale d’un événement, et après que quelque chose s’est produit (ou que nous savons qu’il s’est produit, ce qui est le point de divergence entre l’école bayésienne et l’école fréquentiste), $P(c|x)$ est la probabilité corrigée, le facteur de correction étant $\frac{P(x|c)}{P(x)}$.
Trop profond, à première vue c’est juste une formule, mais en profondeur c’est une vision du monde et une méthodologie, plus on regarde, plus on est confus
3 Concepts introduits par le théorème de Bayes
3.1 Probabilité a priori
Avant que les choses ne se produisent, on analyse la probabilité qu’elles se produisent en se basant uniquement sur des données et des expériences passées, c’est-à-dire la probabilité a priori. Ou bien, selon l’expérience et l’analyse passées, la probabilité qui peut être obtenue avant l’expérience ou l’échantillonnage. La probabilité a priori est la probabilité obtenue à partir de l’expérience et de l’analyse passées, comme la formule de la probabilité totale, elle apparaît souvent comme la “cause” dans les problèmes de “cause à effet”.
3.2 Probabilité a posteriori et probabilité a priori
- Probabilité a posteriori Les choses se sont déjà produites, le résultat est connu, on cherche la probabilité des facteurs qui ont causé cet événement, c’est-à-dire la probabilité a posteriori. Cela signifie qu’un événement s’est déjà produit et que l’on veut calculer la probabilité que cet événement ait été causé par un certain facteur. La probabilité a posteriori est la probabilité calculée en se basant sur l’information du “résultat” obtenu, comme dans le théorème de Bayes, c’est la “cause” dans le problème de “chercher la cause à partir de l’effet”.
- Relation avec la probabilité a priori Le calcul de la probabilité a posteriori est basé sur la probabilité a priori comme condition préalable. Si l’on ne connaît que le résultat de l’événement et que l’on ne connaît pas la probabilité a priori (pas de données passées), il est impossible de calculer la probabilité a posteriori. Le calcul de la probabilité a posteriori nécessite l’application du théorème de Bayes.
- Relation entre la formule de la probabilité totale, le théorème de Bayes et les probabilités a priori et a posteriori La formule de la probabilité totale résume l’union des probabilités des événements causés par plusieurs facteurs. De cause à effet. Le théorème de Bayes, l’événement s’est déjà produit, calcule la probabilité des facteurs ayant causé le résultat, de l’effet à la cause. Même chose que la probabilité a posteriori. La probabilité totale utilise la cause pour prédire l’effet, le théorème de Bayes utilise l’effet pour prédire la cause.
4 Articles de référence
《Apprentissage automatique》Zhou Zhihua