什么是流处理和批处理?
批处理和流处理
在大数据和数据分析的世界中,批量数据处理和流数据处理是非常重要的概念。一般来说,在批处理中,数据是先收集然后处理的,而流处理是实时的,数据是分段发送到分析工具中的。
批处理
当我们处理相对大量的数据时,如果此数据的来源是与流数据处理不兼容的旧系统或遗留系统,批处理是一种很好的解决方案。
批处理通常适用于不需要实时分析的场景,以及处理大量数据的能力比处理所述数据的速度更重要的场景(可
以接受较慢的分析结果,比如:账单、客户订单、工资单等)
流处理
如果我们需要实时分析结果,那么流处理是唯一的方法。
使用数据流将其输入分析工具,在生成数据的那一刻,就能够获得几乎即时的结果。
流处理在欺诈检测中很有用,因为流处理允许实时检测异常。流处理的延迟通常以秒或毫秒为单位,因为在流处理中,数据在到达磁盘之前会被分析。
流处理通常被用于:
- 欺诈识别
- 日志监控
- 客户行为分析
- 分析社交媒体
批处理和流处理的概念:
批处理 | 流处理 |
---|---|
数据是在一段时间和一定范围内收集的 | 数据是连续不断的数据集 |
数据仅在全部收集后才进行处理 | 数据被实时处理,逐段处理 |
它可能需要很长时间,更适合大量数据 时间限制低 | 更快更合适数据立即处理的需求 |