第3章研究方法
摘要
首先介绍本章的目的以及研究中用到的分类器。其次讨论本研究遵循的框架和操作流程,并且解释了研究中涉及的各个步骤和流程之间的交互以及每个阶段的预期产出。接着列出了我们用于计算精确率的公式,也就是性能度量。本章的最后部分讨论了研究中用到的数据集及其来源。
关键词
虚警率
精确率
表决
组合
钓鱼网站数据库
真阳性(预测为正,实际为正)
真阴性(预测为负,实际为负)
算法
3.1简介
本项研究专注于比较分类器组合系统和单个分类器系统(C5.0、SVM、LR、KNN)在钓鱼检测方面的性能,以了解每个算法在检测的准确率和虚警率方面的有效性。整体研究工作由一系列步骤组成。下面几节将详述本研究的目标,研究步骤和使用到的数据集。
3.2研究框架
研究框架描述项目研究过程中将采取的步骤。我们采用这种方式作为整个项目研究的指导,以确保具体工作能够专注于正确的范围而且没有遗漏。如图3.1所示为本研究所遵循的操作框架。
如图3.1所示,本研究项目分为3个阶段,每个阶段的输出是下一阶段的输入。第一阶段的主要工作是数据采集、处理和特征提取。第二阶段评估本研究中涉及的训练和测试分类器,主要评估点包括精确率、召回率、准确率和f值。第三阶段分为两部分: 第一部分(用3a指代)利用精确率、召回率、准确率和f值来评估不同分类器组成的组合系统; 第二部分(即3b阶段)则是比较单个分类器和组合分类器的性能,以此判断哪种算法在钓鱼网站检测方面效果更佳。
3.3研究设计
本研究包含3个主要阶段,以下简要介绍。
3.3.1第一阶段: 数据预处理和特征提取
我们对收集来的数据需要做一些预处理以满足研究的特定需求。这个过程涉及多个步骤,例如,特征提取、归一化、数据划分和属性加权。这些处理是为了确保分类器能够正确理解数据并将它们归类。这个阶段的输出直接输入到第二阶段用以评估涉及的分类器。
3.3.2第二阶段: 单个分类器的评估
对分类器的评估主要是为了测量每种特定算法的性能。为此,我们使用了两组数据: 一组用于训练分类器; 另一组是测试数据。我们先使用训练数据对分类器进行训练,然后让分类器对测试数据进行分类,最后通过比较分类器的输出数据和数据的真实情况来评估性能[Elkan, 2008]。因此,利用第一阶段得到的数据来训练和测试分类器,并评估精确率、召回率、f值和准确率等方面的性能就尤为重要。表3.1所示为用于计算性能的公式。
表3.1分类算法性能计算公式[Elkan, 2008]
性 能 指 标
描述
百分比分类
准确率
准确率是模型整体的正确性,它可以通过正确分类的总和除以总分类数计算获得
TN+TPTN+TP+FN+FP
精确率
精确率是对一个特定类别预测值准确率的量度
TPTP+FP
召回率
检测分类器正确检测到模式的频率
TPTP+FN
f值
f值是一个测试准确率的度量值。f值可以被解释为精确率和召回率的加权平均值,其中f值在1时达到其最佳值而在0时达到其最差值。
传统的f值或平衡的f值是精确率和召回率的调和平均值
2×精确率×召回率精确率×召回率
错误百分比/%
虚警率
被错误分类为恶意模式的正常模式平均值
FPTN+FP
漏警率
被错误分类为正常模式的恶意模式平均值
FNFP+FN
……
展开