AI 助理
备案 控制台
开发者社区 云计算 文章 正文

日志数据采集与大数据存储方案实践

本文涉及的产品
对象存储 OSS,20GB 3个月
推荐场景:
基于PAI-EAS挂载OSS部署AIGC服务 ossutil工具管理OSS
对象存储 OSS,内容安全 1000次 1年
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 互联网及企业客户业务系统有大量的埋点日志数据实时生成,这些日志数据往往需要长期保存并有离线计算或者实时计算的需求。本文为您介绍日志数据采集与大数据存储实践方案。

互联网及企业客户业务系统有大量的埋点日志数据实时生成,这些日志数据往往需要长期保存并有离线计算或者实时计算的需求。本文为您介绍日志数据采集与大数据存储实践方案。

背景

一些客户会选择将日志数据存储在自建的HDFS中,使用flume、kafka等中间件作为数据通道进行采集传输,由spark等大数据引擎做进一步的加工处理,然后与一些BI系统集成做分析展示。很多用户在使用这套架构过程中面临显著的痛点。

  • 日志数据分散,无法形成具备实时查询、离线分析、统一监控告警的日志中枢平台。

  • 当hadoop集群较大时,文件量级达到数亿以上时,namenode 性能会成为一个潜在的瓶颈点。

  • HDFS往往采用3副本的方式创建,存储空间利用率低。

  • 80%左右的数据为温冷数据,HDFS集群缺少自动化的冷热分层机制

  • 容灾备份困难,一但集群挂掉意味着数据全部丢失。如果构建数据容灾集群,需要在另一个机房搭建同样的一套hadoop集群。

  • Hadoop架构迭代难,兼容性很差,业务低谷时计算资源利用率低,缺少弹性,需要进行村算分离改造。

优化步骤1:存算分离改造,数据写入OSS数据湖(兼容原有自建flume、kafka等)

兼容原有自建flume、kafka架构,可以通过flume将数据写入OSS,以OSS数据湖为存储核心,实现存算分离。阿里云OSS支持原生的OSS-HDFS接口,通过 OSS-HDFS服务,无需对现有的Hadoop、Spark大数据分析应用做任何修改即可实原生的HDFS协议兼容。OSS对象存储作为大数据存算分离方案的核心存储方案,在元数据操作管理能力上深度优化,为大数据场景提供海量数据的存储管理能力、超高的吞吐带宽性能,解决用户自建HDFS存储的扩展性瓶颈和管理难题。

OSS支持多种数据源的写入,也可以和阿里云EMR Jindo FS SDK集成来对接中间件的数据接入。OSS存储支持海量的数据存储,高达Tbps级别的吞吐能力,可以避免HDFS的Namenode性能瓶颈问题。此架构优势如下:

  • 高可靠 OSS可以提供高达12个9的数据可靠性,保障数据不丢不坏,通过开通多版本和跨区域复制,可以进一步实现数据的备份和容灾。

  • 兼容性原生HDFS OSS支持原生的OSS-HDFS接口,用户无需改造即可实原生的HDFS协议兼容,OSS可以无缝对接客户自建开源的 spark、hive 等引擎。

  • 成本节约 OSS采用了纠删码机制,相比自建HDFS可以实现大幅的成本节约。OSS的生命周期管理策略,可以将用户访问不频繁数据转入低频存储,将需要长期保存的冷数据自动转入归档类型存储。

  • 完善的生命周期管理 OSS通过生命周期策略实现数据冷热分层,整体存储成本大幅降低。并且JindoFS与OSS生命周期进行了集成,在Hadoop端即可以进行存储类型指定以及冷数据解冻。

日志采集

数据写入及数据迁移工具支持--EMR JindoFS

JindoFS SDK是一个简单易用面向Hadoop/Spark生态的OSS客户端,为阿里云OSS提供高度优化的Hadoop FileSystem,提升了用户的现有架构软件版本的兼容性。 Jindo DistCp(分布式文件拷贝工具)是用于大规模集群内部和集群之间拷贝文件的工具, 它使用MapReduce实现文件分发,错误处理和恢复,支持hdfs->OSS,hdfs->hdfs,OSS->hdfs,OSS->OSS的数据拷贝场景,提供多种个性化拷贝参数和策略。重点优化了hdfs到OSS的数据拷贝,通过定制化CopyCommitter,实现No-Rename拷贝,提高数据copy性能并保证数据拷贝落地的一致性。 Jindo DistCp vs Hadoop DistCp 性能测试对于table 类型数仓数据,可以使用阿里云专为迁移数仓数据而设计的MoveTo 工具。MoveTo底层调用了jindo distcp,当拷贝成功后自动更新 Metastore 元数据,实现完整的迁移过程。对于分区表,该工具支持分区过滤表达式,可实现大量分区的同时拷贝,支持设置存储类型、覆盖写等选项,满足多种需求。Jindo SDK与OSS无缝兼容,可以在竞争中带来技术差异化上的补充。

优化步骤2:使用日志服务SLS进行数据采集及投递OSS

对于日志数据的采集、处理和分析的场景,阿里云日志服务(SLS)是一款性能优越、易用性强,并且具有较低成本的产品,使用日志服务SLS替代flume作为数据管道以及通过日志服务进行数据加工清洗的方案具有诸多优势。

  • SLS支持包括服务器与应用、开源软件、物联网、移动端、标准协议、阿里云产品等多种来源在内的可观测数据(Log/Metric/Trace)的统一采集存储。支持40+成熟接入方案,支持包括服务器与应用、开源软件、物联网、移动端、标准协议、阿里云产品等在内的多端采集。

  • 使用日志服务替代用户自建ES,可以形成统一的日志采集、分析、计算的日志统一中枢平台。日志服务采集数据后可以直接进行实时的查询、BI、数据加工、报表等,日志服务提供了成熟完善的AIOPS方案,帮助用户打造智能运维平台。

  • 在实时计算场景日志服务可以对接实时计算引擎进行消费

  • 离线计算场景日志服务可以将数据投递到OSS,通过OSS-HDFS原生HDFS协议打通离线计算生态体系。日志服务数据采集

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
游客cpas4xzzy2kkg
目录
相关文章
阿里云开发者
|
11天前
|
SQL 分布式计算 运维
如何对付一个耗时6h+的ODPS任务:慢节点优化实践
本文描述了大数据处理任务(特别是涉及大量JOIN操作的任务)中遇到的性能瓶颈问题及其优化过程。
阿里云开发者
33 2
toddli
|
25天前
|
存储 监控 数据库
Django 后端架构开发:高效日志规范与实践
Django 后端架构开发:高效日志规范与实践
toddli
38 1
东方睿赢
|
18天前
|
存储 监控 数据可视化
SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
【9月更文挑战第2天】SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
东方睿赢
50 9
尹正杰
|
17天前
|
存储 分布式计算 资源调度
通过日志聚合将作业日志存储在HDFS中
如何通过配置Hadoop的日志聚合功能,将作业日志存储在HDFS中以实现长期保留,并详细说明了相关配置参数和访问日志的方法。
尹正杰
15 0
通过日志聚合将作业日志存储在HDFS中
游客mldfis24krfue
|
29天前
|
存储 安全 Linux
在Linux中,日志文件通常存储在哪些目录?
在Linux中,日志文件通常存储在哪些目录?
游客mldfis24krfue
64 6
格格的阿里云
|
27天前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
格格的阿里云
117 2
格格的阿里云
|
27天前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
格格的阿里云
118 1
william.zhang(张)
|
1月前
|
存储 缓存 NoSQL
深入解析Memcached:内部机制、存储结构及在大数据中的应用
深入解析Memcached:内部机制、存储结构及在大数据中的应用
william.zhang(张)
75 1
土木林森
|
20天前
|
API C# 开发框架
WPF与Web服务集成大揭秘:手把手教你调用RESTful API,客户端与服务器端优劣对比全解析!
【8月更文挑战第31天】在现代软件开发中,WPF 和 Web 服务各具特色。WPF 以其出色的界面展示能力受到欢迎,而 Web 服务则凭借跨平台和易维护性在互联网应用中占有一席之地。本文探讨了 WPF 如何通过 HttpClient 类调用 RESTful API,并展示了基于 ASP.NET Core 的 Web 服务如何实现同样的功能。通过对比分析,揭示了两者各自的优缺点:WPF 客户端直接处理数据,减轻服务器负担,但需处理网络异常;Web 服务则能利用服务器端功能如缓存和权限验证,但可能增加服务器负载。希望本文能帮助开发者根据具体需求选择合适的技术方案。
土木林森
56 0
土木林森
|
27天前
|
存储 关系型数据库 MySQL
深入MySQL:事务日志redo log详解与实践
【8月更文挑战第24天】在MySQL的InnoDB存储引擎中,为确保事务的持久性和数据一致性,采用了redo log(重做日志)机制。redo log记录了所有数据修改,在系统崩溃后可通过它恢复未完成的事务。它由内存中的redo log buffer和磁盘上的redo log file组成。事务修改先写入buffer,再异步刷新至磁盘,最后提交事务。若系统崩溃,InnoDB通过redo log重放已提交事务并利用undo log回滚未提交事务,确保数据完整。理解redo log工作流程有助于优化数据库性能和确保数据安全。
土木林森
108 0

热门文章

最新文章

  • 1
    Oracle自动清理日志脚本
  • 2
    Kubernetes全方位日志采集与管理的最佳实践 资料下载
  • 3
    海量游戏日志收集与分析
  • 4
    log4net的配置与使用
  • 5
    日志分析对决:揭示 ELK 与 GrayLog 的优势和差异
  • 6
    为什么别人家的APP,上报日志就这么省流量?
  • 7
    Go 第三方 log 库之 logrus 使用
  • 8
    ELK 日志分析系统
  • 9
    仿酷狗音乐播放器开发日志四——标题栏和状态栏的完善
  • 10
    仿酷狗音乐播放器开发日志八——播放列表的实现三
  • 1
    大数据组件之Storm简介
    91
  • 2
    大数据处理与分析实战:技术深度剖析与案例分享
    741
  • 3
    矢量数据库与大数据平台的集成:实现高效数据处理
    59
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    65
  • 5
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    72
  • 6
    DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
    72
  • 7
    DataWorks操作报错合集之在使用MaxCompute的Java SDK创建函数时,出现找不到文件资源的情况,是BUG吗
    65
  • 8
    DataWorks操作报错合集之在DataWorks数据集成中,但是预览ODPS源数据库为空,是什么导致的
    70
  • 9
    DataWorks操作报错合集之在DataWorks中使用ODPS SQL时遇到"该文件对应引擎实例已失效,请重新选择可用的引擎实例"的错误提示”,是什么导致的
    99
  • 10
    DataWorks产品使用合集之DataWorks一键maxcompute数据同步的操作步骤是什么
    67
  • 相关课程

    更多
  • 基于阿里云MaxCompute搭建数据仓库(离线)
  • 基于MongoDB构建实时日志分析平台
  • 日志服务SLS实现云产品可观测
  • 日志服务 SLS 可观测数据分析平台介绍
  • 大数据知识图谱系列—基于ELK+Flink日志全观测最佳实践
  • 场景实践-基于阿里云Quick BI 对MOOC网站日志分析
  • 相关电子书

    更多
  • PostgresChina2018_赖思超_PostgreSQL10_hash索引的WAL日志修改版final
  • Kubernetes下日志实时采集、存储与计算实践
  • 日志数据采集与分析对接
  • 相关实验场景

    更多
  • 通过日志服务实现云资源OSS的安全审计
  • 如何将OSS数据导入至SLS中进行分析
  • 日志服务之使用Nginx模式采集日志
  • 库仓一体实时数据分析
  • 通过FastMR自动拉起大数据集群并运行TPCDS任务
  • 下一篇
    通义千问API入门教程

    玻璃钢生产厂家信丰玻璃钢雕塑价格季节性商场美陈销售佛山玻璃钢仿铜人物雕塑批发山东户外玻璃钢雕塑批发商场美陈发展前景宁德玻璃钢广场雕塑厂家商场玻璃钢雕塑定制加工大理玻璃钢雕塑制作厂家石家庄泡沫玻璃钢雕塑工业玻璃钢花盆花器推销官渡区玻璃钢雕塑的设计金山区拉丝玻璃钢雕塑诚信企业绍兴特色玻璃钢雕塑优势商场美陈复古商场门厅元旦美陈湖州玻璃钢花盆黄冈市玻璃钢雕塑金昌彩色玻璃钢雕塑定做湖南玻璃钢卡通雕塑设计及定制吉安特色玻璃钢雕塑揭阳商场美陈苏州玻璃钢雕塑加工玻璃钢雕塑类定西玻璃钢卡通雕塑订做福建福州玻璃钢雕塑河源玻璃钢动物雕塑推荐厂家昆山美陈商场上海大型主题商场美陈厂家直销玻璃钢西红柿番茄雕塑扬州商场美陈策划香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

    玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化