51CTO首页
AI.x社区
博客
学堂
精品班
直播训练营
企业培训
鸿蒙开发者社区
WOT技术大会
AIGC创新中国行
公众号矩阵
移动端

科普 | 说说大数据是什么,及其特点与应用

大数据
大数据因为具有海量化、多样化、时效性和价值密度这四个特点被广泛应用于各个领域,对企业而言不仅可以了解客户也可以了解自身的价值。本文详细的讲述了大数据的概念、特点、开发和应用,以及大数据、数据分析和数据挖掘之间的区别

 Runsen在KFC买早餐,偶然听见一句话,男孩对朋友说,“你每在手机上下一次订单,就给肯德基的大数据做了一次贡献。”

[[358102]]


想来有趣,在网上购物、订外卖、手机支付已成为很多人日常生活的一部分,可穿戴设备、智能家居设备等风头正旺的现在,我们每天的吃饭、睡觉、工作,甚至娱乐产生的“数据”都会通过某种手段被保留和集中起来。根据IBM调研的说法,人类每天生成的数据涵盖我们发送的文本、上传的照片、各类传感器数据、设备与设备之间的通信的所有信息等,相当于从地球到月球的距离。

 

将这样量级的数据称为“大数据”可一点也不为过。最早提出“大数据”时代到来的全球知名咨询公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”今天我们就来说说大数据。

 

一、什么是大数据

[[358103]]


在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理的分析方法;而研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

 

我们这里主要采用第三种定义,即所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策的目的资讯。

[[358104]]


湖畔大学曾鸣老师曾列举的的大数据与传统的数据最大的差别是:在线实时全貌

 

①在线:首先大数据必须是永远是在线的,而且在线的还得是热备份的,不是冷备份的,不是放在磁带里的,是随时能调用的。不在线的数据不是大数据,因为你根本没时间把它导出来使用。只有在线的数据才能马上被计算、被使用。

 

②实时:大数据必须实时反应。我们上淘宝输入一个商品,后台必须在10亿件商品当中,瞬间进行呈现。如果要等一个小时才呈现,我相信没有人再上淘宝。十亿件商品、几百万个卖家、一亿的消费者,瞬间完成匹配呈现,这才叫大数据。

 

③全貌:大数据还有一个最大的特征,它不再是样本思维,它是一个全体思维。以前一提到数据,人们第一个反应是样本、抽样,但是大数据不再抽样,不再调用部分,我们要的是所有可能的数据,它是一个全貌。其实叫全数据比大数据更准确。

 

二、大数据对企业有什么好处

 

“大数据”在物理学、

生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。据统计,企业内部的经营交易信息、互联网中的商品物流信息、人与人交互信息、位置信息等数据,每2~3年时间就会成倍增长。

 

而信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。这些数据蕴含着巨大的商业价值,但是企业所关注的通常只占在总数据量的2%~4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以至于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。

[[358105]]


对于一般的企业而言,大数据的作用主要表现在两个方面:

 

1.帮助企业了解用户

 

大数据通过相关性分析,将客户和产品、服务进行关系串联,对用户的偏好进行定位,从而提供更精准、更有导向性的产品和服务,提升销售业绩。典型的例子就是电商。像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期的时候,这些数据都是累赘和负担,存储它们需要大量的硬件成本。但是,现在这些数据都是阿里最宝贵的财富。

 

大数据也可以对业绩产生直接影响。它的效率和准确性,远远超过传统的用户调研。除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。

 

2.帮助企业了解自己

除了帮助了解用户之外,大数据还能帮助了解自己。企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。总而言之,“知己知彼,百战百胜”。大数据,就是为决策服务的。

 

三、大数据有什么特点


大数据的特点有4个层面:

 

1.Volume(海量化):数据体量巨大。从TB级别,跃升到PB级别;

 

2.Variety(多样化):数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据;

 

3.Velocity(时效性):处理速度快,1秒定律,从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化;

 

4.Value(价值密度):大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报

 

四、大数据的开发

[[358106]]


1.数据采集

 

数据采集有线上和线下两种方式,线上一般通过爬虫,通过抓取或者通过已有应用系统的采集。

 

在这个阶段,我们可以做一个大数据采集平台,依托自动爬虫(使用Python或者Node.js制作爬虫软件),ETL工具、或者自定义的抽取转换引擎,从文件中、数据库中、网页中专项爬取数据。如果这一步通过自动化系统来做的话,可以很方便的管理所有的原始数据,并且从数据的开始对数据进行标签采集,可以规范开发人员的工作,同时目标数据源可以更方便的管理。

 

数据采集的难点在于多数据源,例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。还有本地文件、excel统计文档、甚至是doc文件。如何将它们规整、有方案地整理进我们的大数据流程中也是必不可缺的一环。

 

2.数据汇聚

 

数据的汇聚是大数据流程最关键的一步,你可以在这里加上数据标准化,你也可以在这里做数据清洗,数据合并,还可以在这一步将数据存档,将确认可用的数据经过可监控的流程进行整理归类,这里产出的所有数据就是整个公司的数据资产,到了一定的量就是一笔固定资产。

 

数据汇聚的难点在于如何标准化数据,例如表名标准化,表的标签分类,表的用途,数据的量,是否有数据增量?数据是否可用?

 

这些需要在业务上下很大的功夫,必要时还要引入智能化处理,例如根据内容训练结果自动打标签,自动分配推荐表名、表字段名等,还有如何从原始数据中导入数据等。

 

3.数据转化与映射

 

经过数据汇聚的数据资产如何提供给具体的使用方使用?在这一步,主要就是考虑数据如何应用,如何将两、三个数据表转换成一张能够提供服务的数据。然后定期更新增量。

 

经过前面的那几步,在这一步难点并不太多了,如何转换数据与如何清洗数据、标准数据无二,将两个字段的值转换成一个字段,或者根据多个可用表统计出一张图表数据等等。


4.数据应用

 

数据的应用方式很多,有对外的、有对内的,如果拥有了前期的大量数据资产,是通过restful API提供给用户?还是提供流式引擎 KAFKA 给应用消费? 或者直接组成专题数据,供自己的应用查询?这里对数据资产的要求比较高,所以前期的工作做好了,这里的自由度很高。

 

五、大数据、数据分析和数据挖掘的区别

 

大数据、数据分析、数据挖掘的区别是,大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘,数据分析就是进行做出针对性的分析和诊断,大数据需要分析的是趋势和发展,数据挖掘主要发现的是问题和诊断:

[[358107]]


1.大数据

 

指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

 

2.数据分析

 

是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。

 

3.数据挖掘

 

 

又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

 

数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

 

根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。

 

大数据是范围比较广的数据分析和数据挖掘。按照数据分析的流程来说,数据挖掘工作较数据分析工作靠前些,二者又有重合的地方,数据挖掘侧重数据的清洗和梳理。数据分析处于数据处理的最末端,是最后阶段。数据分析和数据挖掘的分界、概念比较模糊,模糊的意思是二者很难区分。大数据概念更为广泛,是把创新的思维、信息技术、统计学等等技术的综合体,每个人限于学术背景、技术背景,概述的都不一样。

 

六、大数据的应用

 

数据在行业中的应用的越来越广泛,我们先看看大数据在当下有怎样的杰出表现:


1.大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;电力企业会通过大数据实时做数据的监测和预测,让我们更好、更方便做这种电力的调度;

 

2.医疗中更是有着比较广泛的应用,现在的基因工程以及疾病的预测分析和每个病人的手术方案等等,可能都会用到大数据。 大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;

 

3.大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格;

 

4.大数据帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升广告投放精准度;大数据帮助社交网站提供更准确的好友推荐,为用户提供更精准的企业招聘信息,向用户推荐可能喜欢的游戏以及适合购买的商品;

 

5.大数据帮助娱乐行业预测歌手,歌曲,电影,电视剧的受欢迎程度,并为投资者分析评估拍一部电影需要投入多少钱才最合适,否则就有可能收不回成本;另外电影其实都是需要渲染的,之前每渲染一分钟可能就需要上千台机器、可能需要一两个月,现在通过云计算、大数据的方式,可能渲染一个一分钟的电影镜头就缩短成了一秒或者两秒。

 

6.大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;

[[358108]]


七、大数据的展望

 

其实,除了以上大数据的应用外,未来大数据的身影应该无处不在,就算无法准确预测大数据终会将人类社会带往到哪种最终形态,但我相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每一个角落。

 

比如,Amazon的最终期望是:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。”Google也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内容,而这并不需要用户给予Google太多的提示。

 

而当物联网发展到达一定规模时,借助条形码、二维码、RFID等能够唯一标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析,这些数据能够支撑智慧城市,智慧交通,智慧能源,智慧医疗,智慧环保的理念需要,这些都所谓的智慧将是大数据的采集数据来源和服务范围。

 

未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。

 

责任编辑:梁菲 来源: Python之王
相关推荐
anacron是什么及其特点
Anacron服务的实用工具提供了一种解决方案,支持计算机在每次开机后运行常规的维护作业,即使这些开机时间是不固定的。

2010-06-21 09:39:31

anacron是什么
大数据特点是什么大数据Hadoop有什么关系?
在大数据时代,Hadoop以其优越的性能受到业界的广泛关注,已经成为大数据处理领域事实上的标准。如今,Hadoop在诸多领域大显身手。随着开源社区和国际众多国际技术厂商对这一开源技术的积极支持与持续的大量投入,相信不久的将来,Hadoop技术会被拓展到更多的应用领域。

2018-09-30 15:55:56

数据大数据及其本质是什么
最近几年,数据问题进入哲学视野。对于哲学家们探索的数据本质特征,我们可以从以下几个方面来把握。

2015-10-10 10:51:25

数据 本质 大数据
科普篇:什么大数据
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

2016-12-12 16:31:46

大数据 决策
是什么卡住了大数据应用
要想考察大数据最好同时考察大数据背后的技术、商业和社会维度。从发展成熟度来看,技术维度走的最远、商业维度有所发展但不算全面成熟,社会维度发展最差。

2015-11-02 11:39:42

大数据 应用
大数据分析及其建模应用
在数字经济时代,互联网、物联网、5G、大数据、智慧城市等各类形式的信息技术呈爆炸式增长,使得数据以令人难以想象的速度不断增长,企业经营的各个阶段都可以被记录下来,产品销售的各个环节也被记录下来,客户的消费行为和网上行为,智能设备的信息都被采集下来。

2019-08-01 13:09:57

大数据 分析建模 信息化
大数据Hadoop之间是什么关系?
大数据在近些年来越来越火热,人们在提到大数据遇到了很多相关概念上的问题,比如云计算、Hadoop等等。那么,大数据是什么、Hadoop是什么,大数据和Hadoop有什么关系呢?

2015-08-03 10:20:39

大数据 Hadoop
科普帖:五分钟快速了解大数据及其必备技能
当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。虽然大数据潮流在默默的推进各种变革,但您真的了解大数据么

2018-02-02 16:08:32

互联网 大数据 数据分析
大数据分析建模及其应用建议
通过对数据的收集、存储、再组织和分析建模,隐藏在数据中的重要价值及规律逐渐展现出来,正成为企业转型升级及可持续发展的重要推动力量。大数据分析建模是大数据应用的核心和重要基础,已成为科技界和企业界关注的热点话题。

2019-04-15 13:40:47

大数据分析建模 数据 数据分析
大数据分析是什么
现阶段,大数据时代的不断发展,让数据分析岗也跟着火了起来,但是很多的一部分人还不了解,什么是数据分析,有什么前景?

2022-03-29 14:49:14

大数据 数据分析
大数据是什么?多大的数据大数据
很多没有接触过大数据的人,都很难清楚地知道,究竟多大的数据量才可以称之为大数据。那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。

2019-07-04 14:22:56

大数据 数据挖掘 数量级
说说什么才是真正的大数据分析
数据是如此重要,以至于历史上很长一段时间,统计任务归属于政府、军队、情报机关。我国的第一家调查公司还是在90年代初,在宝洁强烈要求下成立的。

2023-03-04 21:31:57

大数据 采集 抽样式
WebSocket是什么及其HTTP的区别
如果我们只想获取一次数据来用应用程序处理它,我们应该使用HTTP协议,只获取一次的数据可以通过简单的HTTP请求查询,所以在这种情况下,最好不要使用WebSocket。​

2023-11-10 08:03:00

科普:了解RAM是什么?有何用?
经常逛科技网站的朋友都会发现,大家对于很多产品的名词都是用英文缩写代替。这不,昨天看新闻就蹦出个“RAM”,便随手上网查了一下,今天想用比较容易理解的方式,让大家知道到底啥是“RAM”。

2018-08-15 10:15:55

RAM 存储器 SSD
大数据还大的是什么
大数据,大数据,大数据。我没有在学唐僧念经,而是近来这个词实在是太热门了,在我耳边余音不绝。看到一个略带批判主义的信息图,审视拷贝数据的体量。

2013-08-01 14:03:50

大数据 比大数据还大 更大的数据
大数据现状趋势:大数据应用、治理技术
全球范围内,研究发展大数据技术、运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。下面将从应用、治理和技术三个方面来讲讲当前的大数据的现状与趋势。

2021-06-10 19:10:32

大数据 大数据应用 大数据技术
大数据发展的根基是什么
如果将单个或局部领域的数据及其挖掘处理视为小数据,那么关于某一主体的大数据就是由成千上万、相互关联、相互交织的小数据汇聚而成的。小数据的充分融合,就是大数据形成的根基。

2015-09-14 09:28:05

大数据 发展 根基
科普一下什么是区块链技术应用
网络技术不断发展,现阶段区块链技术,大数据以及人工智能无疑是科技领域的前沿技术,什么是区块链技术与应用呢

2020-09-10 18:47:54

区块链
医疗大数据技术应用
摘要:健康医疗大数据已经成为国家和医疗机构的基础性战略资源。健康医疗大数据应用也将带来健康医疗模式的深刻变化。基于大数据的患者服务、临床诊疗、临床科研及管理决策等,正在构建一个全新的数据驱动的健康医疗服务与管理模式。如何利用自身掌握的大数据,真正服务好临床科研及管理决策等,是各个医疗机构面临的重大机遇与挑战。

2016-11-01 11:53:48

医疗 大数据
科普文】银行业9大数据科学应用案例解析
在银行业中使用数据科学不仅仅是一种趋势,它已成为保持竞争的必要条件。银行必须认识到,大数据技术可以帮助他们有效地集中资源,做出更明智的决策并提高绩效。

2018-06-19 16:26:18

数据科学 银行业 机器学习

代做工资流水公司台州房贷收入证明银川房贷收入证明代办福州查询工资银行流水合肥代开企业对私流水吉林代做在职证明铜陵查自存银行流水荆州车贷银行流水 打印绍兴办流水单咸阳银行流水账单打印芜湖代办流水账单烟台银行对公流水代开三亚个人工资流水 打印泉州查询自存流水福州薪资银行流水制作漳州办理工资流水账单常德代办企业对私流水惠州个人工资流水 报价潮州流水单公司南宁工资流水绍兴代开银行流水账芜湖企业对公流水图片赣州银行流水账单制作福州打日常消费流水潍坊查对公银行流水湖州贷款银行流水费用潮州办理个人银行流水宁德工资代付流水代办南宁企业流水打印费用常州签证流水图片许昌背调流水查询香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化