7.1 朴素贝叶斯算法概述

垃圾邮件(见图7-1)可以说是因特网带给人类最具争议性的副产品,它的泛滥已经使整个因特网不堪重负,它严重地影响了人们的日常办公和生活。通常,企业和大型邮件服务提供商都会提供拦截垃圾邮件的功能,其中最常见的一种算法就是基于朴素贝叶斯的文本分类算法,大体思路是通过学习大量的垃圾邮件和正常邮件样本,让朴素贝叶斯训练出文本分类模型。

图7-1 垃圾邮件

贝叶斯分类是一系列分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。其中朴素贝叶斯(Naive Bayesian,NB)是其中应用最为广泛的分类算法之一。NB算法是基于贝叶斯定理与特征条件独立假设的分类方法。这个在250多年前由英国数字家贝叶斯(见图7-2)发明的算法,在信息领域内有着无与伦比的地位。NB基于一个简单的假定:给定目标值时属性之间相互条件独立。

图7-2 贝叶斯肖像

NB发源于古典数学理论,有着坚实的数学基础以及稳定的分类效率。同时,NB所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NB模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NB模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NB模型的正确分类带来了一定影响。

NB包括以下算法:

·高斯朴素贝叶斯(Gaussian Naive Bayes);

·多项式朴素贝叶斯(Multinomial Naive Bayes);

·伯努利朴素贝叶斯(Bernoulli Naive Bayes)。