WisFaq!

\require{AMSmath} geprint op vrijdag 29 maart 2024

Naive Bayes classifier - complement

Beste

Waarom mag je bij een naive bayes classifier (data mining) zoals bijvoorbeeld:

P(Ci|x1, x2, ..., xn) niet zomaar gebruik maken van de complementregel? (Ci staat voor een klasselabel, bijvoorbeeld 'yes' of 'no' en x1 ... xn zijn attribuutwaarden van het te classificeren record)

Ik weet dat je de complementregel niet zomaar mag gebruiken bij P(A|B) ¹ P(A|BC) omdat hier hetgeen gegeven is verschilt.

Na een ruime zoektocht heb ik nog geen sluitend antwoord gevonden, ik vermoed dat het iets te maken heeft met het feit dat wij in feite de argmax functie gebruiken om de maximale a posteriori kans te berekenen, maar voor mijn studenten is dit niet bepaald een bevredigend antwoord.

Zie bijvoorbeeld Naive Bayes Classifier example

Brian
30-11-2017

Antwoord

Je mag de regel wel gebruiken maar dan moet je met de echte kansen werken.
Zie de formules op de gelinkte pagina hieronder.
Die kansen zien er in je voorbeeld als volgt uit:
$$
P(C\mid x_1,x_2,x_3)=\frac{P(C)\cdot P(x_1,x_2,x_3\mid C)}{P(x_1,x_2,x_3)}
$$Voor het bepalen van de $C$ met maximum kans is $P(x_1,x_2.x_3)$ altijd hetzelfde, dus die hoef je niet te berekenen.
Er geldt, natuurlijk,
$$
P(\mathrm{Yes}\mid x_1,x_2,x_3)+ P(\mathrm{No}\mid x_1,x_2,x_3) =1
$$Ofwel
$$
P(\mathrm{Yes})\cdot P(x_1,x_2,x_3\mid\mathrm{Yes}) +
P(\mathrm{No})\cdot P(x_1,x_2,x_3\mid\mathrm{No}) = P(x_1,x_2,x_3)
$$Dit laat zien dat je $P(x_1,x_2,x_3)$ pas hebt als je de twee individuele tellers bepaald hebt. Het berekenen van die kans is alleen maar extra werk dus.

Zie Wikipedia: Naive Bayes Classifier [https://en.wikipedia.org/wiki/Naive_Bayes_classifier]

kphart
2-12-2017


© 2001-2024 WisFaq
WisFaq - de digitale vraagbaak voor het wiskunde onderwijs - http://www.wisfaq.nl

#85270 - Kansrekenen - Docent