封面

       随着大数据和人工智能的兴起,“数据智能”(Data Intelligence)逐渐成为学术界和产业界共同关注的焦点。今天为大家分享北京航空航天大学数据智能研究中心受邀为《系统工程理论与实践》40周年纪念专刊撰写的综述文章《数据智能:趋势与挑战》。该综述聚焦于数据智能,指出推动数据智能实现迭代发展的三维要素:数据、算法和场景,围绕这三个维度介绍数据智能的前沿热点、发展趋势和存在挑战,特别对数据智能与管理学交叉的研究与应用进行了较为深入的探索。


image.png

----1.引言----


      从管理的视角触发,可将数据智能定义为:通过大规模数据挖掘机器学习深度学习等预测性分析技术,对现实应用场景的内外部多源异质大数据进行处理和分析,从中提取有价值的信息或知识,并用于提升复杂实践活动中的管理和决策水平。大数据驱动应用场景牵引,是数据智能的关键特征,是其异于其他概念的关键点。人工智能不一定数据驱动,也更强调研究通用的方法与技术;源自统计学领域的数据科学概念,在方法上范围更宽(如涵盖计量等因果分析方法),距离具体应用场景也通常更远;而与数据智能较为相关的商务智能概念,虽同样是数据驱动和场景牵引,但其输入主要是大规模结构化数据、主要应用商业领域以及基本不涉及大数据分析的核心技术这些具体含义都与数据智能有较大差别。

image.png


     下面分别从数据维度、算法维度和场景维度对数据智能进行展开。

----2.数据维度---


      数据时代,数据分布广泛、源头庞杂,个体借助不同类型的设备、渠道在不同的时空场景中产生数据。如何在泛在的网络空间中高效获取和感知数据,进而全面治理和使用数据,成为数据智能领域的研究热点。


2.1大数据感知


       大数据感知的核心是从大规模、分布式、泛在性的大数据中获取有价值的数据。如何从细粒度的个体层面更有效地感知数据,并利用群体智能(Crowd Intelligence)来提升大数据的感知能力,成为了研究热点;特别是其中应用到的任务分配、优化、调度等思想,是管理科学长期关注的重点,也是在数据智能时代值得持续关注的科学问题之一。作者在本节重点介绍了众包在线社会化媒体移动群智感知三类方法。


2.2数据治理与数据共享


       如何实现数据共享与数据安全的平衡,日益被业界和学术界所重视。

一类研究聚焦于设计算法以对数据记录进行匿名化处理,从而保护用户隐私。这可以通过不同的隐私保护模型(比如k-匿名)或面向特定数据和场景设计针对性方法来实现。进一步,保障匿名处理后的数据集的服务效用以及应对隐私攻击方法的发展也成为隐私数据保护研究的重点和挑战。


      要更深层次地解决数据的隐私、共享、定价等治理问题,需要从机制设计、优化决策等角度进行深入的探讨。基于从用户行为中识别的其对于隐私性问题的认知从而设计隐私管理机制是一个重要角度;同时,互联网企业对用户信息的收集唤醒了用户对隐私价值的意识,据此设计数据保护方法也是一种角度。另一个挑战性问题是面对大数据分布式存储难以共享的场景训练数据智能模型,目前主要的两类解决方案是采用安全数据传输协议对数据汇总训练和联邦学习


----3.算法维度----


      智能算法是实现大数据智能的灵魂,决定了数据能够发挥的效用以及在实际场景中的应用效果。考虑建模效果、解释性和普遍性,作者在该维度重点关注了四类算法。

3.1

3.1经典学习策略

      传统的知识发现和数据挖掘过程通常涉及分类、聚类、关联等基本算法,这些算法在真实数据场景中往往面临训练数据稀疏、标签不足、噪声大等问题,需要采取一些特殊的学习策略提升学习效率和预测效果。作者在本节介绍了四类策略以应对不同的复杂学习场景:组合学习、融合学习、迁移学习和强化学习

3.2

3.2深度学习

      随着信息技术的进一步发展,其瓶颈已经逐步从数据获取与计算的能力,转变为从海量异构数据中提取抽象信息并转化为可用知识的能力,在此契机下,以深度学习为代表的人工智能技术迅速崛起。作者在本节分别从端到端学习表征学习可解释性等三个角度,对深度学习的研究进展进行了简要介绍。

3.3

3.3概率隐变量模型

      概率隐变量模型是一类结合了图论和概率论知识的概率建模方法,鉴于其可刻画数据潜在维度、可建模不确定性、可解释性高等特点,已成为数十年来概率建模方法中的研究热点。从应用层面而言,概率隐变量模型在文本分析用户行为分析等领域得到了广泛的应用。从方法层面而言,随着深度学习技术的发展,传统的概率隐变量模型与新兴的深度学习技术相互融合,衍生出贝叶斯深度学习,正成为当下机器学习社区最热门的研究主题之一。

3.4

3.4文本分析

      在大数据时代,互联网无时无刻不在产生诸如新闻、在线评论、社交媒体帖子等不同类型的海量文本。文本中蕴含丰富的信息,可用于股票指数预测、工作满意度因素调查、垃圾评论识别、消费者与在线零售品牌等研究,对管理学领域有重要价值。作者从特征、模型、应用和学习方式四个方面,介绍了文本分析技术的发展趋势与研究挑战。


----4.场景维度----


      数据智能的最终目标是将大数据和智能算法应用于各类实际场景并创造价值。

4.1

4.1商务场景

      数据智能对商务领域最显著的意义就在于利用用户数据实现对用户偏好与需求的精准刻画,进而帮助企业实现精准营销等目的,作者在本节主要围绕数据智能的个性化推荐应用展开分析和讨论。

4.2

4.2金融场景

       对于数据智能在金融领域的应用,作者在本节分别讨论了数据智能方法对金融时间序列的预测问题、与金融理论和领域知识深度融合问题和以金融决策收益为导向的预测模型评价问题,并从业界角度对金融科技的发展和其在智慧风控中的科研需求作了分析。

4.3

4.3社会计算

      社会计算是大数据时代的标志性领域之一。其收集具有前所未有的广度、深度和规模的网络空间大数据,通过数据智能方法建模,以揭示个体或群体的行为模式,进而分析复杂且相互作用的社会经济系统的发展规律。作者在本节主要对社交媒体分析社会经济系统分析政治活动预测三个研究热点进行了阐述。

4.4

4.4移动物联网

       移动物联网与数据智能的深度融合是一个相得益彰的过程。一方面,移动物联网无处不在的数据获取感知能力,为数据智能技术提供了丰富的应用场景和海量的数据分析原料;另一方面,借助移动网络和智能终端的连接能力,数据智能技术强大的分析、预测、优化能力被有效地投送到目标应用场景,充分体现了数据智能赋能多样化的管理应用场景之能力。作者在本节介绍了智能交通城市计算众包服务等三类典型场景。


----5.结论----


      数据智能是在大数据驱动与应用场景牵引下,融合来自多学科的数据获取、处理、分析和可视化技术,为现实世界的复杂管理决策实践提供可行动准则(actionable rules)的一个新兴学科领域。


       面对众多应用领域涌现的大数据分析需求,大家始终缺乏通用且有效的解决方案,直到深度学习出现,为连接大数据“原料”与智能应用“产出”提供了至关重要的一块拼图。自此数据、算法、场景三个维度得以真正打通,形成有效的生长循环,驱动商务智能进化为数据智能,并且在三维螺旋中不断迭代成长。从这个意义上说,数据智能虽然是方法和技术的集合,但其应用导向特征才是其区别于数据科学、人工智能等热点概念的关键特征。它必将推动众多领域从不同层次的数字化逐渐走向智能化,并在智能化进程中发展出新的技术与方法。



北航数据智能研究中心

发布于 数据智能 社群