DGragh是一个用于图异常检测(gragh anomaly detection, GAD)的大型金融数据集。
它包含300w个节点、400w个动态边和100w个ground-truth节点。
现实世界场景中,异常是普遍存在的且具有破坏性的。作者举了一个电汇欺诈的例子:2020年电汇欺诈者造成了高达1.8万亿美元的损失。然而,只有12%-15%的案件被报告,且只有29%的受害者能完全追回资金。因此,研究GAD可以帮助预防和检测这些欺诈者的存在。
在GAD中具有代表性
GAD数据集的主要要求:缩小学术界和工业界之间的差距
由于现实世界中异常的稀缺性,只有少数公共数据集同时具有图结构和异常的ground-truth标注,所以丰富GAD的多样性是当前GAD研究的基础工作。
从一些具有代表性但当前未被覆盖的领域收集数据集可以大大加快这一过程,因此本文关注金融欺诈检测。
当前GAD数据集存在的一些局限性:
作者针对这三个问题进行了优化。
因此,以下是对DGragh的简单介绍:
总结而言,特定用户的原始数据包括五个组成部分:
(1)用户ID。
(2)基本个人资料信息,如年龄、性别等。
(3)电话号码;注意,每个账户都与特定电话号码匹配。
(4)借贷行为,包括还款到期日和实际还款日期。
(5)紧急联系人,包括每个联系人的姓名、电话号码和最后更新时间。
金融欺诈者经常提供虚假的个人信息,其中一些可能还有奇怪的社交网络(与普通用户相比),还有一些在平台操作上表现异常。
源自基本个人资料的节点特征是一个17维的向量,每个维度对应个人资料的一个不同元素(如年龄和性别)。为了保护用户隐私,作者不透露任何维度的具体意义。缺失值被标记为“-1”。
在构建过程中,紧急联系人仅保留那些是Finvolution用户的,以保护用户隐私。
DGragh中有32.2%节点有相关的借贷记录。
定义:至少有一次,在到期日后很长时间不还款并忽视平台多次提醒的用户为异常/欺诈者。
另一部分借款用户是正常用户,而另一部分没有借贷行为的用户被标记为“背景节点”。
文章中还有对背景节点的研究,这里不再赘述。
作者围绕以下三个问题:
Q1:当前的GAD模型在DGraph上的表现如何?
Q2:如何处理DGraph的缺失值?
Q3:DGraph的背景节点有多重要?
结论见论文。
在异构GNN(Heterogeneous Graph Neural Networks)中,“异构”指的是图的节点或边的类型多样性。与传统的同构图(Homogeneous Graph)不同,异构图包含多种类型的节点和/或多种类型的边。这种多样性通常可以更好地表示复杂的关系和信息结构。
具体来说,异构图中的异构性主要体现在:
节点异构性:图中存在不同类型的节点。例如,在一个社交网络中,节点可以代表“用户”、“帖子”或“评论”。
边异构性:图中存在不同类型的边,表示不同的关系或交互。例如,在同一个社交网络中,边可以表示“用户关注用户”、“用户点赞帖子”或“用户评论帖子”。
异构GNN旨在利用这种多样性,通过设计特定的网络结构或机制来有效地捕捉和利用不同类型节点和边之间的复杂关系,从而提高对异构数据的建模能力。
参与评论
手机查看
返回顶部