研究人员提出人工智能来检测欺诈性众筹活动

发布时间：2020-07-13 16:53:29 【来源：】

众筹已成为支持个人事业和慈善事业的事实上的方式。但是，随着众筹平台的兴起，它们也吸引了恶意参与者，这些恶意参与者利用了毫无戒心的捐助者。去年八月，一报告从危局调查蜻蜓Futurefön，长达十年的欺诈行为的操作，成本受害者近$ 600万引起了美国联邦调查局的注意。两年前，美国联邦贸易委员会(US Federal Trade Commission)宣布，它正在调查一项具有Wi-Fi功能，电池供电的背包的运动，该背包以超过70万美元的价格消失了。

GoFundMe此前曾表示，欺诈性活动仅占其平台上所有活动的不到0.1%，但由于每年启动数百万个新项目，许多不良行为者能够避免被发现。为了帮助抓住它们，伦敦大学学院，Telefonica Research和伦敦经济学院的研究人员设计了一种AI系统，该系统考虑了文本和基于图像的功能，以便在发布时对欺诈性众筹行为进行分类。他们声称，即使没有任何用户或捐赠活动，也能将欺诈和合法众筹行为区分开来，准确率高达90.14%。

虽然网络上最大的两个众筹平台GoFundMe和Kickstarter都采用自动化形式来发现潜在的欺诈行为，但都没有声称采用研究共同作者所倡导的AI驱动方法。GoFundMe的一位发言人告诉VentureBeat，该公司依靠其信任和安全团队的“专职专家”，他们使用“与金融业相当”的技术和社区报告来发现欺诈活动。为此，他们着眼于以下方面：

广告活动是否遵守服务条款
是否为捐助者提供足够的信息
是否'窃
谁发起了竞选
谁在提取资金
谁应该收到资金

Kickstarter表示，除了专有的自动化工具外，它没有使用AI或机器学习工具来防止欺诈，并且它的大部分调查工作都是通过查看表面出现的信号并进行分析以指导采取的任何操作来手动完成的。一位发言人告诉VentureBeat，在2018年Kickstarter的团队暂停了354个项目和509,487个帐户，并禁止5,397名用户违反了公司的规则和准则，是2017年暂停的8倍。

研究人员认为，这些努力还远远不够。“我们发现欺诈行为在众筹生态系统中所占比例很小，但却是一个隐患。他们写道，这破坏了这些平台在其上运行的信任生态系统，危及成千上万的人每年获得的支持。”“ [众筹平台使用不当]受到激励，以打击用户及其发起的活动中的欺诈行为：一方面，该平台的收入与所进行的交易数量成正比(因为该平台每次捐赠收取固定金额);另一方面，如果平台对其欺诈行为具有透明性，则可能会阻止潜在的捐助者参与。”

为了建立一个可以用来“教”上述系统挑选欺诈活动的语料库，研究人员从GoFraudMe那里获取了条目，GoFraudMe是一种旨在在平台上对欺诈案件进行分类的资源。然后，他们创建了两个手动注释的数据集，重点放在健康领域，而金钱和情感方面的赌注往往很高。一组包含来自GoFundMe医疗类别的191个活动，而另一组包含来自与器官移植直接相关的不同众筹平台(Indiegogo，GoFundMe，MightyCause，Fundrazr和Fundly)的350个活动。

人工注释者根据指导方针将语料库中大约700个运动中的每个运动都标记为“欺诈”或“不欺诈”，其中包括诸如相互矛盾的信息证据，捐赠者缺乏参与以及创建者参与其中的因素。其他运动。接下来，研究人员研究了可能有助于系统分析的不同文字和视觉提示：

情感分析：团队使用IBM的Watson自然语言处理服务提取了广告系列描述中表达的情感和语气。他们在分析七个可能的语气(沮丧，满意，兴奋，礼貌，不礼貌，悲伤和同情)的置信度得分之前，将情感作为五种情绪(悲伤，喜悦，恐惧，厌恶和愤怒)的概率进行计算。
复杂性和语言选择：假设欺诈者偏爱较简单的语言和较短的句子，研究人员在活动描述中检查了语言的复杂性和单词选择。他们研究了一系列可读性评分和语言功能，例如功能词，人称代词和每个单词的平均音节以及字符总数。
文字形式：合著者检查了竞选活动文字的视觉结构，研究了字母是全部小写还是全部大写以及文字中表情符号的数量。
单词重要性和命名实体识别：团队计算了广告系列说明中文本的单词重要性，从而揭示了广告系列之间的相似性(和相似性)。他们还确定了文本中的专有名词，数字实体和货币，并将它们分配给一组有限的类别。
情绪表示：研究人员重新调整了预训练的AI模型，将运动图像归类为通过对来自23,000幅带有情感标签的图像进行微调来唤起八种情绪(娱乐，愤怒，敬畏，知足，厌恶，兴奋，恐惧和悲伤)中的一种Flickr和Instagram。
外观和语义表示：研究人员使用另一种AI模型提取了图像外观表示，这些图像表示提供了每张图像的描述，例如主色，片段边缘的纹理以及某些对象的存在。他们还使用面部检测器算法来估计每个图像中存在的面部数量。

在将成千上万个可能的功能分解为71个文本变量和501个视觉变量之后，研究人员使用它们训练了机器学习模型来自动检测欺诈活动。要达到此整体模型，就需要建立子模型，以将图像和文本分类为欺诈或非欺诈，并将每个活动的结果合并为一个分数。

共同作者声称他们的方法揭示了独特的趋势，例如与欺诈性活动相比，合法活动更可能具有至少一张脸的图像。另一方面，与合法活动对情况的描述性和公开性相比，欺诈活动通常更具吸引力。

研究人员写道：“近年来，众筹已经成为一种向公众提供财务支持的个人呼吁手段。……社区相信，无论任务如何，要求支持的个人都在没有恶意的情况下这样做，”研究人员写道。“但是，欺诈案件屡次曝光，从伪造目标到挪用公款不等。欺诈者经常在雷达之下飞舞，欺骗人们，以小额个人捐款的名义在众筹支持下伪装成千万。因此，检测和防止欺诈是一个对抗性问题。不可避免地，犯罪者会做出调整并试图绕过任何部署的系统，以防止其恶意方案。”

该系统可能会在进行预测时锁定某些功能，乍一看并不明显。因此，合著者计划通过考虑标签偏见的来源并测试其在众筹平台上针对未标签的与医学相关的活动的健壮性，来改善它。

他们写道：“这是构建抢占式(例如，浏览器插件)而非反应式系统的重要一步。”“我们相信我们的方法可以通过允许潜在的捐助者在捐助之前审查竞选活动来帮助建立对这个生态系统的信任。”

上一篇：AweSun发布macOS版本以提供多平台远程支持
下一篇：Epos希望占领高端游戏耳机的世界