部分研究方向

一、多方协同社会治理体系构建

1、研发基于多方共治的餐饮溯源与监管系统

       崔晓晖教授项目团队致力于示范并推动建立(包括政府、企业、行业协会、媒体、监管机构、消费者等)多方参与的食品安全监管生态,实现社会共治。


图1 社会共治体系框架图

       构建面向监管部门、企业、消费者等多角色信息共享、社会共治的监管系统,对构建社会协同、公众参与的基层社会治理模式具有重要促进作用。


图2 企业监管项目示例图

2、积极推动与贵州科学院项目间的合作与资源共享

       崔晓晖教授项目团队积极推动项目间合作与资源共享。2019年4月11日,由崔晓晖教授主持的“食品安全大数据关键技术研发”项目推进会,邀请贵州科学院谭红院长等专家团队莅临指导,并为项目推进提出了宝贵的指导意见。


图3 国家重点研发计划“食品安全大数据关键技术研究”项目 顾问专家

       2019年8月,项目团队与贵州大数据研究院(由贵州科学院领导)进行技术需求研讨,探讨贵州大数据资源可行性共享方案。


图4 项目团队与贵州大数据研究院技术需求研讨会图

3、推动国家重点研发项目群合作

       2020年1月7日,由中国生物技术发展中心主办,武汉大学国家网络安全学院与云南大学软件学院承办的国家重点研发计划“食品安全关键技术研发”重点专项项目间合作研讨会在云南昆明召开。2017、2018年共10个国家重点研发项目团队参加研讨会。


       项目间合作研讨环节由武汉大学崔晓晖教授主持,崔教授指出参会的十个国家重点研发计划专项项目各有特色,同时存在数据、系统及算法三方面的共性特点,共同探讨数据、系统及算法共用可行性,实现优势资源互补,共同高质量的完成专项目标,促进我国食品安全从“被动应对”向“主动保障”转变,确保群众舌尖上的安全。随后,各参会首席、责任专家等依次发言讨论,并一致认为,各项目应加强和责任专家的联系、积极促进项目间合作。


图5 “食品安全关键技术研发”重点专项项目间合作研讨合照

二、社交网络分析——菲律宾社交媒体(部分内容)

1、社交信息推广平台构建

       爬取菲律宾的Twitter用户进行筛选,通过关注度、热度、活跃度等指标,对用户进行评估,选出大V录入数据库。基于社交平台采用文本生产的方法,用机器人对大V的推文以及粉丝做回复,以达到对粉丝进行影响。具体措施为:

  • 筛选大V数据:对大V数据库中的所有大V进行筛选工作,通过各项指标对大V进行评估分类,选取优质大V进行推广以提高推广效率。

  • 记录推广任务:针对筛选不同的大V类型进行推广策略选择,以评论大V、回复大V粉丝评论为主,以消息广播、@大V广播、视频回复大V、视频@大V为辅等任务操作对目标大V进行推广。并将每次的推广任务统计记录。

  • 统计分析推广效果:每天对推广效果评估相关的数据进行统计,为保证系统推广有效性,提前通过社交智能体转发原视频URL,实现系统社交智能体的推广链接有效点击,保证视频推广效果来自本系统。在执行一段时间推广任务后,评估推广效果数据变化程度,判断原视频各项推广效果数据相较于推广任务开始前的提升以及转发视频BOT-URL的有效点击数据,以评估是否达到预期提升30%的目标。

2、社交信息倾向分析

       热度排行:定期对twitter上菲律宾的媒体数据进行新闻主题倾向分析,示例如爬取2021.08.11-2021.08.17期间包含菲律宾关键词的推文,分析相关推文hashtag热度排行;社交网络图:根据推特用户之间相互关注,评论,转发等交互关系,构建社交网络图谱,发现社交网络中的社群,并找出社群中传播影响力高的用户。


图1 推文话题热度统计

图2 社交网络图

       菲律宾推文主题分类:利用改进的LDA模型,针对菲律宾推文数据抽取出10个主题,利用推文主题分析一段时间内菲律宾民众关注的时政热点。对推文进行进一步的情感分析,分别考察推文对美国的态度和对中国的态度。发现,包含美国的推文中,28.6%的推文明确表现出了对美国的反对态度;包含中国的推文中,44.7%的推文明确表现出了对中国的反对态度,且大多数都基于南海问题。

图3 主题分类词云图

三、深度学习、图像处理、非平衡样本学习

       非平衡数据常存在于诸如银行、保险、安全和医疗等领域的数据中。类间不平衡会导致决策边界发生偏移,从而使得具有更高价值的少数类数据分类错误。因此,非平衡数据分类作为一项极具挑战性的任务,在众多学科引起了广泛的研究。


       我们研究了一种用于处理非平衡数据的混合方法,即结合负类的欠采样方法和正类的过采样方法来生成平衡数据(如图1所示)。首先,我们利用K-nearest neighbors方法对数据集中的数据进行划分,将数据划分为异常数据、边界数据和安全数据。然后,在尽量减少负类样本信息丢失的前提下,进行负类样本的欠采样。具体的,在负样本的欠采样中,①去除其中的异常数据和靠近正类样本的负类边界数据;②在剩余的数据中使用K-means聚类算法选择具有较高局部密度的负类样本作为代表性样本。最后,我们设计一种用于正类样本过采样的生成式对抗网络模型,即TWGAN-GP(如图2所示)。TWGAN-GP模型是WGAN-GP模型的扩展,我们在生成器中加入两种用于度量真实数据和生成数据之间信息损失的损失函数,从而使得TWGAN-GP更加适合于表格数据的生成。

图1 非平衡数据处理框架图

图2 基于TWGAN-GP的表格数据生成

四、可解释人工智能研究

       机器学习的巨大成功导致了AI应用的新浪潮(例如,交通、安全、医疗、金融、国防),这些应用提供了巨大的好处,但无法向人类用户解释它们的决定和行动。对于普通用户而言机器学习模型尤其是深度神经网络模型如同黑盒一般,给它一个输入,其反馈一个决策结果,无法确切地知道它背后的决策依据以及它做出的决策是否可靠。而缺乏可解释性将有可能给实际任务中尤其是安全敏感任务中的许多基于深度神经网络模型的现实应用带来严重的威胁。


       可解释人工智能研究致力于创建可解释的人工智能系统,其学习的模型和决策可以被最终用户理解并适当信任。其研究目标在于提高机器学习模型的可解释性和透明性,建立用户与决策模型之间的信任关系,消除模型在实际部署应用中的潜在威胁。实现这一目标需要学习更多可解释的模型、设计有效的解释界面和理解有效解释的心理要求的方法。可解释性人工智能当前主要研究内容包含以下几个方面:一是设计更精确、更友好的解释方法,消除解释结果与模型真实行为之间的不一致,精确地理解机器学习的工作原理;二是设计更科学、更统一的可解释性评估指标,以评估可解释方法解释性能和安全性;三是研究透明的、可解释且可证明机器学习技术。总结来说就是通过构建可解释的模型或设计解释方法提高模型的透明性,同时验证和评估模型决策行为和决策结果的可靠性和安全性。本实验室致力于研究现有AI模型的解释方法,设计实现可解释的AI模型,并将其应用到关键的军事、工业领域。

图1 可解释人工智能

五、数据确权、数据定价、数据交易激励机制、数据安全与隐私保护

       数据本身蕴藏着巨大的潜在价值,同时由于数据供需矛盾日益尖锐,数据的经济特征越发明显,单纯的公益性的“开放数据”已不能满足时代的需求,通过市场对数据进行资源的有效配置逐渐成为各国探索的新方向。但目前在数据的确权、定价、交易等市场化方面,特别是在数据的流通机制、激励机制等方面存在许多突出的问题待解决。


       交易标准和数据治理是一些约束、规则和策略,用以保障数据交易的进行。平台是软件系统,由物理存储、数据确权、资产化平台等部分组成。数据交易平台包含电商网站和资产交易所两种类型,以软件的形式对数据市场激励机制进行固化。元数据管理平台和资产化平台是市场部分的核心,元数据存储与实体数据存储分离,交易平台通过对元数据的管理和交易实现实体数据的管理和交易,元数据是实体数据的指针,同时可以通过元数据对数据做资产化处理。物理存储平台是实体数据的实际存储位置,数据通过区块链进行溯源和确权。当买卖双方在交易平台上进行数据交易时,最终付款用户可以得到数据即可,元数据是数据信息管理汇集的平台,交易平台是买卖双方完成购买行为的场所。

图1 数据交易