设为首页 - 加入收藏 PHP编程网 - PHP站长网 (http://www.52php.cn)- 电商,百科,编程,业界,移动互联,5G,云计算,站长网!
热搜: google 娱乐 服务 百度
当前位置: 首页 > 大数据 > 正文

BigData学习4_内部攻击实验数据集浅析

发布时间:2020-12-23 23:03 所属栏目:[大数据] 来源:网络整理
导读:杨光+吴钰 摘要:获取用户行为数据集是内部威胁研究的前提和基础,该文深度调研了当今公开的内部威胁实验数据集,通过分析KDD99、SEA、WUIL以及CERT-IT四种主流的数据集,提出上述数据集的优缺点,并指出未来数据集构建的研究方向。 关键词:内部威胁;网

杨光+吴钰

摘要:获取用户行为数据集是内部威胁研究的前提和基础,该文深度调研了当今公开的内部威胁实验数据集,通过分析KDD99、SEA、WUIL以及CERT-IT四种主流的数据集,提出上述数据集的优缺点,并指出未来数据集构建的研究方向。

关键词:内部威胁;网络安全;安全审计

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)21-0055-02

1 引言

2013年“棱镜门”事件震惊全球,美国安全部门雇员斯诺登利用职务之便窃取大量机密信息,直接揭露了美国历史上最大的网络监控行为。2014年韩国信用机构与英国巴克莱银行的千万条客户信息遭到窃取,其中涉及信用卡号、身份ID、社保号等多项客户隐私数据。2016年,我国某军工企业离职人员利用暗中备份、欺骗同事等手段窃取了大量军工用品数据,大肆出卖给国外间谍机关,最终被依法判处死刑。上述典型的内部威胁攻击案例引起了各国的高度重视,陆续开展了广泛的研究。

当前内部威胁研究集中在检测领域。根据检测方法的不同,我们可以将现有内部威胁检测分为误用检测(Misuse Detection)与异常检测(Anomaly Detection)两类。其中误用检测基于已知攻击特征数据,将新数据与已知特征比较,从而检测已知攻击,其优点是检测效率高、准确度高,然而不足是完全基于已知的攻击特征,需要实时更新特征库,而且无法有效应对新型攻击类型。异常检测基于用户正常行为模型,将新数据与正常行为模型进行比较判断攻击,其实质是“白名单”思想,优点是更加灵活,学术界研究已经证明可以用于检测新型攻击,不足是较高的误报率成为实际应用的主要限制因素。

表征内部用户行为的数据集是内部威胁检测研究的前提,其原因有二:(1)内部正常与恶意用户的行为数据集体现了正常行为与恶意行为的特征,可以由此分析用户行为,建立正常行为模型以进行异常检测;(2)基于领域知识与数据分析建立的异常检测分类器模型只有通过数据实验才能评估其有效性。因此为了开展内部威胁检测研究,研究者需要在模拟环境中构造内部威胁的实现场景,收集实验环境下的行为数据,公开作为内部威胁行为数据集,供所有研究者使用。接下来我们对KDD99、SEA、WUIL与CERT-IT四类现有公开的主要数据集作深入分析,以从中提取出现有数据集的不足,为未来的数据集研究提供方向。

2 KDD99数据集

KDD99数据集最早公开于1999年,当时是作为该年度KDD CUP竞赛的官方指定数据集。其实KDD99原始数据来自于美国国防部高级规划署(DARPA)的入侵检测评估项目的审计数据,主要包括主机和网络两个维度,共收集了9周的系统审计与网络流量数据。其中审计数据遵循基本安全模型(Basic Security Model),以Header和Token的形式组织数据,其中的Header负责描述Token的大小、时间版本以及涉及的系统调用名称等;而Token则负责具体的记录描述,如用户信息(用户与用户组ID)、进程信息(进程ID、会话ID)等。

KDD99网络流量数据来自Tcpdump记录,7周时间收集的约500万条数据网络数据作为训练集,其余2周时间收集的200万条数据作为实验测试。KDD99中每一条数据记录均是包含41个特征的多维特征向量,详细记录了每一次网络连接的对象、时间、协议类型等详细信息,从而细粒度地刻画了四类网络攻击行为,分别是:拒绝服务攻击(DOS)、探测攻击(Probe)、用户提权攻击(U2R)、远程连接攻击(R2L),正因为KDD99数据集刻画了主流的网络攻击行为,因此其成为了当时安全研究人员广为使用的第一个公开数据集。

尽管影响广泛,但是KDD99数据集的不足仍然十分明显,即由于创建时间较早,并且并非专用于内部威胁检测,因此与实际的内部威胁数据差异较大,其应用主要在入侵检测领域,而非内部威胁研究。

3 SEA数据集

2001年Schonlau等人第一次将内部攻击者分类成叛徒(Traitor)与伪装者(Masquerader),其中叛徒指攻击者来源于组织内部,本身是内部合法用户,而伪装者指外部攻击者窃取了内部合法用户的身份凭证,从而利用内部用户身份实施内部攻击。随后该团队构造了一个公开的检测伪装者攻击的数据集SEA,该数据被广泛用于内部伪装者威胁检测研究。

SEA数据集涵盖70多个UNIX系统用户的行为日志,这些数据来自于UNIX系统acct机制记录的用户使用的命令。SEA数据集中每个用户都采集了15000条命令,从用户集合中随机抽取50个用户作为正常用户,剩余用户的命令块中随机插入模拟命令作为内部伪装者攻击数据。SEA数据集中的用户日志类似于下面的命令序列:

{cpp, sh,cpp, sh, xrdb, mkpts...}

每个用户的数据按照100命令长度分为150个块,前三分之一数据块用作训练该用户正常行为模型,剩余三分之二数据块随机插入了测试用的恶意数据。SEA数据集中恶意数据的分布具有统计规律,任意给定一个测试集命令块,其中含有恶意指令的概率为1%;而当一个命令块中含有恶意指令,则后续命令块也含有恶意指令的概率达到80%。可以看出SEA中的数据集将连续数据块看作一个会话(Session),只能模拟连续会话关联的攻击行为;此外由于缺乏用户详细个人信息(职位、权限等)、数据维度单一(仅有命令信息)以及构造性(恶意数据由人工模拟)等因素,数据集在内部威胁检测研究中作用有限。

4 WUIL数据集

与SEA数据集不同,2014年Camina等人基于Windows系统环境,记录表征用户访问文件的行为。通过借助Windows的审计工具,他们实验记录20个用户的打开文件/目录的行为,每条记录包含事件ID、事件时间以及事件对象及其路径信息(如文件名与文件路径)。此外,为了体现用户的计算机知识背景与技能对文件访问行为的影响,WUIL数据集来自于20个用户,这些用户背景各不相同,如职业,学生、行政人员等。

与SEA数据集相比,WUIL数据集的优势在于恶意数据采集于实际用户操作,实验中系统登录后由攻击者操作,借此模拟内部攻击者伪装其他用户身份未授权进行恶意操作的攻击场景。为了进一步分析攻击者个人知识能力对攻击的影响,工作人员将模拟的攻击分成初级、中级、高级三个层次,每个层次对应着攻击者具备的不同的知识层次、掌握的攻击工具数量以及对计划准备程度,如初级层次的攻击者不仅缺乏相应的攻击工具与技术,也只是偶然使用其他用户的电脑;而高级层次的攻击者不仅携带了USB设备,还准备了自动化脚本搜索系统中的有价值文件,最终安全退出等。WUIL数据集从用户浏览文件系统角度刻画用户行为,以此作为验证用户身份的工具,该数据集不足之处是仅仅采集了用户操作文件系统的行为,维度单一,缺乏全面地反映。

5 CERT-IT数据集

CERT-IT(Insider Threat)数据集来源于卡耐基梅隆大学(CMU)的内部威胁中心,该中心由美国国防部高级研究计划局(DARPA)赞助,与ExactData公司合作从真实企业环境中采集数据构造了一个内部威胁测试集。该数据集模拟了恶意内部人实施的系统破坏、信息窃取与内部欺诈三类主要的攻击行为数据以及大量正常背景数据。

CERT数据集中涉及多个维度的用户行为数据,如文件访问(创建、修改、删除以文件名称、类型等)、邮件收发、设备使用(移动存储设备、打印机等)、HTTP访问以及系统登录等行为,还包括了用户的工作岗位以及工作部门等信息。CERT数据集提供了用户全面的行为观测数据以刻画用户行为模型。

CERT数据集考虑了内部人行为建模多个维度,如关系模型、资产模型、行为模型、心理学模型、以及攻击场景特征等来构造攻击数据,从而达到了内部攻击的全方位模拟,不足之处有两方面:(1)攻击数据来源于人工模拟,与真实攻击数据特征存在偏差;(2)仅仅采集了用户在信息系统中的操作行为,没有考虑用户个体特征的建模(如职位、技术能力、工作绩效等),因此无法避免实际检测中的误报。

6 总结

上述数据集为研究者提供了内部威胁研究的实验数据支撑,但是由于每个数据集在构造时均有一定的局限性,导致实际中部分研究者根据实验需求选择或构造其他的数据集。现有公开的内部威胁数据集一定程度上弥补了实验数据的缺失,促进了内部威胁研究的开展。但是由于其恶意数据多数来源于人工模拟,不可避免地与真实攻击数据存在偏移,因此会影响内部威胁检测研究的实际准确性;此外多数数据来源于用户行为的某个方面(如命令或文件行为),不能全面反映内部攻击者行为特征,因此数据集采集与构造方面均亟须产学研各界予以高度重视,投入足够力量研究更完善的数据集获取方案。本文认为未来数据集获取可以侧重两个方向:一是建立全面、深度地用户行为审计,从进程、机器、用户个体以及网络等四个层次进行立体的行为审计,保证用户行为刻画的全面性;二是延长数据记录的时间周期,从而保证尽可能获取真实攻击数据,并且对真实数据进行匿名化处理,从而可以获取公开的真实攻击行为数据集。

参考文献:

[1] KDD Cup 1999 Data, http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html

[2] 张有新,曾华燊,贾磊.入侵检测数据集KDD CUP99研究 [J].计算机工程与设计,2010, 31(22).

[3]Schonlau M. : Masquerading user data (1998), http://www.schonlau.net.


转载自:http://www.fx361.com/page/2016/1018/284843.shtml

数字来自:万方&知网

【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

推荐文章
热点阅读