WisFaq!

\require{AMSmath} geprint op zaterdag 20 april 2024

Re: Theorie van Bayes

De zoekmachine Google gebruikt de stelling, staat in verschillende artikelen, ook om zoektermen te filteren. Bij andere zoekmachines komen andere bedrijven/websites boven in de lijst te staan zonder dat ze met de zoekterm te maken hebben.

Nu zou ik graag willen weten of er een logische verklaring is om de stelling toe te passen. De stelling heeft dus vaste waarden nodig maar ik snap niet hoe Google die berekent aan de hand van zoektermen.

Met vriendelijke groet

Piet de Vries
21-5-2003

Antwoord

Met uitspraken als "Google gebruikt de stelling van Bayes" wordt het volgende bedoeld:

Als een Information Retrieval System de gevonden documenten weergeeft kan worden gepoogd de gevonden documenten in een (vermoedelijke) volgorde van belangrijkheid voor de zoekvraag te rangschikken.
Een veelgebruikte methode hiervoor is het zogenaamde Probabilistische model. (Probabilistic Model). Een ander gebruikt model is bijvoorbeeld het vectormodel.

Bij de afleiding van de formule die gebruikt wordt om de relevantie van de gevonden documenten voor de zoekvraag te schatten wordt de formule van Bayes gebruikt.

De motivatie om deze formule te gebruiken is de volgende:
Met deze formule kan men de kans P(A|B) die men wil weten omzetten in de kans P(B|A) die men kan berekenen of schatten.

Hoe werkt dat nu in de praktijk:
Een information retrieval system zal altijd alle documenten waar het toegang toe heeft indexeren. Dat houdt in dat van zo'n document wordt opgeslagen welke woorden het bevat.
Voor het probabilistische model wordt alleen opgeslagen of het woord voorkomt, dus niet hoe vaak. Omdat dit kan gebeuren met nullen en enen (0=niet 1=wel) wordt dit een binair systeem genoemd. Bij andere methoden wordt soms ook opgeslagen hoevaak.
Als je een zoekvraag (query) intikt wordt in feite ook de zoekvraag geindexeerd.
Vervolgens wordt uitgezocht in hoeverre document dat wordt onderzocht relevant is voor de zoekvraag.
Bij veel zoekmachines wordt het zogenaamde Boolean model gebruikt: het document voldoet wel of niet aan de query.
Bij het probabilistische model wordt gepoogd de documenten op volgorde van belangrijkheid voor de zoekvraag te rangschikken.
Voor een uitgebreidere uitleg:

Zie Bayes.doc [http://home.wxs.nl/~hklein/Bayes.doc]

hk
29-5-2003


© 2001-2024 WisFaq
WisFaq - de digitale vraagbaak voor het wiskunde onderwijs - http://www.wisfaq.nl

#11384 - Kansrekenen - Ouder