图神经网络在反欺诈领域的应用

news/2024/7/4 1:44:01

具体场景为图神经网络在恶意网址检测中的应用。

文章目录

  • 1. 场景介绍
  • 2. 节点刻画
  • 3. 恶意网址检测
    • 3.1 构建图
    • 3.2 模型设计
    • 3.3 评估结果

1. 场景介绍

恶意网址检测中存在的难点有两方面:

  • 一是借助短链接或跳转的方式到恶意网址,链接或跳转的前置页面特征不明显,可能是空白页面,对前置页面特征提取很难,导致难以检测;

  • 二是网页信息有限,纯图片的网页难以提取文本特征,即使基于文本或URL等单元数据,也无法有效刻画节点。

2. 节点刻画

  综合 URL、 文本、 统计特征等多维度的数据进行数据融合, 利用 Embedding 进行节点刻画。
  URL 字符串难以使用分词工具进行合理切片, 所以直接采用字符分词方式, 通过不同维度进行卷积来提取字符之间的关系。 对 URL 词向量应用的是 TEXTCNN,统计特征采用 DNN, 文本词向量采用了 TEXTCNN。 三类数据分别获得了对应的URL Loss、 Statis Loss、 Text Loss, 三个 Loss 相加作为反向传播的依据进而更新模型。 最后将 URL 词向量、 统计特征、 文本词向量的 Embedding 结合一起来刻画 URL 节点的特征。

3. 恶意网址检测

问题:跳转、引用的前置链接黑特征不明显,多通道模型难以检出。
方案:构建异构图,加入引用、跳转等关系,借助HINSAGE模型,实现覆盖。
效果:在确保精准率为70.0%时,召回率为92.5%,比多维度数据模型提升28.9%。

3.1 构建图

  恶意网址检测对于整个现实场景的覆盖率还比较少, 比如赌博、 色情等, 因此引入图的模型。 因为多维度模型无法解决跳转或前置链接因特征不明显而无法检出的问题, 为此在图中添加引用和跳转等关系来提高覆盖率。
在异构图的构建过程中添加更多关系:

  • 一是归属关系, 例如站点和域名之间、 域名和 IP 之间;
  • 二是跳转关系, 例如短链接、 跳转;
  • 三是引用关系, 例如色情网站为赌博网站导流;
  • 四是聚集关系, 不法人员租赁服务器部署很多恶意站点。
    通过图添加更多关系来丰富特征信息。

3.2 模型设计

  恶意站点检测模型进行节点采样和节点嵌入, 节点采样的方向和节点嵌入生成的方向是相反的, 节点采样是自顶向下, 节点嵌入生成是自底向上。

  借助 HinSage 模型实现覆盖, 应对工业界的图中的动态变化的场景, 通过归纳学习聚合节点的邻居生成 Embedding, 而不是直接学习节点的 Embedding, 效率也有大幅度提升。

  通过注意力聚合得到邻居节点特征, 将邻居节点所有特征信息和它自身特征信息拼接, 形成节点的嵌入信息, 再通过一层 DNN 进行节点结果预测。

3.3 评估结果

  保证精确率为 70%,召回率可以达到 92.5%,相比多维度数据模型提升了 28.9%,效果明显的提高。

  恶意网址检测使用图模型主要进行网络黑产的监控, 但由于复杂模型在可解释性和准确率方面难以达到上线打击的要求, 因此我们应用该模型来发现黑产的恶意模式, 并根据输出的恶意情报来指导团队设计策略进行打击。


http://www.niftyadmin.cn/n/4230173.html

相关文章

创造选择与选择权

当我发烧时,其实并不是我们发烧,而是被发烧所控制。同理,当我们变富后,也会被富裕所控制。These individuals have riches just as we say that we “have a fever,” when really the fever has us. I also have in mind that s…

用Markdown画流程图

流程图语法: 流程图的语法大体分为两部分:流程图元素定义部分;连接流程图元素部分,该部分用来指明流程图的执行走向。 定义元素的语法 tag>type: content:>url 实例: flowchat st>start: 开始 e>end: …

Burp Suite详细教程

文章目录1. Proxy模块2. Send to Intruder3. Repeater1. Proxy模块 抓包之前必须配置代理服务器,将代理IP设置为127.0.0.1,Chrome如下图所示 在Burp Suite中 使intercept is on 打开拦截: 在浏览器中打开页面,就能在软件中查看相…

复盘概念解释

复盘,围棋术语,也称 “复局”,指对局完毕后,复演该盘棋的记录,以检查对局中招法的优劣与得失关键。一般用以自学,或请高手给予指导分析。如按照棋谱排演,类如复盘,称 “ 打谱 ” 或 …

神经网络概念解释

人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处…

机器学习概念解释

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心&#…

有关复盘的阅读与思考

先说下读完复盘两本书的感受吧,读完后突然有一种若干年前上考研学习班的感觉,同样一门课不同的老师讲解,貌似学到了越来越多的知识,但是好像什么也没有学到。然后先谈谈自己对复盘的新思考吧,复盘本质上是源自于围棋&a…

ASN码查询

自治系统( Autonomous System) , 用通俗的语言来形容,就是一个互联网的独立王国,这一个个独立王国互联起来,就组成了互联网( Internet )。 每个王国有自己独立的国号,以区别于别的王国,这个国号用自治系统号ASN ( Autonomous System Number) , ASN由两个字节组成,理论上取值范围…