Was ist Naive Bayes?
Naive Bayes ist ein probates Mittel in der Künstlichen Intelligenz (KI) mit dem Klassifikationen vorgenommen werden können. So stellt der Bayes-Klassifikator eine Technik des maschinellen Lernens dar. Es können Objekte wie Textdokumente in zwei oder mehr Klassen eingeteilt werden. Durch die Analyse spezieller Trainingsdaten, bei denen richtige Klassen vorgegeben sind, lernt der Klassifikator. Der naive Bayes-Klassifikator kommt dann zum Einsatz, wenn Wahrscheinlichkeiten von Klassen anhand einer Reihe von bestimmten Beobachtungen gemacht werden.
Das Modell beruht auf der Annahme, dass Variablen je nach Klasse nämlich bedingt unabhängig sind. Um den Bayes-Klassifikator zu definieren, benötigt man ein Kostenmaß, das jeder vorstellbaren Klassifizierung Kosten zuweist. Ein Bayes-Klassifikator ist dabei der Klassifikator, der alle durch Klassifizierungen aufkommenden Kosten minimiert. Das Kostenmaß wird auch Risikofunktion genannt.
Der Bayes-Klassifikator minimiert das Risiko einer Fehlentscheidung und ist über das Minimum-risk-Kriterium definiert. Wenn ein primitives Kostenmaß eingesetzt wird, das praktisch ausschließlich bei Fehlentscheidungen Kosten verursacht, dann minimiert ein Bayes-Klassifikator die Wahrscheinlichkeit von Fehlentscheidungen. Dann sagt man, der Klassifikator ist über das Maximum-a-posteriori-Kriterium definiert.
Welche Anwendungen gibt es für Naive Bayes?
Naive Bayes wird häufig für Spam-Klassifizierung eingesetzt. So nutzen Spamfilter häufig den naiven Bayes-Klassifikator. Die Klassenvariable zeigt an, ob eine Nachricht Spam oder erwünscht ist. Alle Wörter in dieser Nachricht entsprechen den Variablen, wobei die Anzahl an Variablen im Modell durch die entsprechende Länge der Nachricht bestimmt sind.
Welche Varianten gibt es?
Es gibt den:
- Gaussian Naive Bayes
- Multinomial Naive Bayes
- Bernoulli Naive Bayes
- Complement Naive Bayes
- Categorical Naive Bayes
Wie funktioniert Naive Bayes?
Die Technik benutzt alle gegebenen Attribute. Es gibt zwei Annahmen über diese Attribute. Einerseits sind alle Attribute in der Annahme gleich wichtig. Andererseits sind die Attribute statistisch unabhängig, was bedeutet, dass die Kenntnis eines Wertes nichts über den Wert von einem anderen Attribut aussagt. Diese Unabhängigkeitsannahme stimmt allerdings nie. Dennoch funktioniert dieses Verfahren in der Praxis gut! Zudem kann es gut mit fehlenden Werten arbeiten.