博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
大数据学习总结(7)we should...
阅读量:5350 次
发布时间:2019-06-15

本文共 1278 字,大约阅读时间需要 4 分钟。

 

 

大数据场景一、各种标签查询

查询要素:人、事、物、单位

查询范围:A范围、B范围、...

查询结果:pic、name、data from

1、痛点:对所有文本皆有实时查询需求

2、难点:传统SQL使用WHERE子句匹配LIKE关键词,在庞大的数据字段中搜索某些想要的字,需遍历所有数据页或者索引页,查询效率底,当出现千万级以上数据时,耗时较高,无法满足实时要求
3、方案:使用全文检索方案,分布式架构,即使PB级量级也可做到毫秒级查询

 

大数据场景二、客户事件查询

查询条件:

城市、区域、时间跨度(20170301 00:00-20170311 00:00)数据来源:旅店 or
城市、区域、时间跨度(20170301 00:00-20170311 00:00)数据来源:旅店

查询结果:

身份证号、姓名、年龄、民族、性别、籍贯、标签、轨迹(A地||B地||C地)

1、痛点:通过多表碰撞,获得某几个维度的深度分析结果

2、难点:传统方式按照一定条件对两表进行交叉查询,一旦到达十万级,即达到百亿级查询量,无法达到准实时级
3、方案: 大数据二级索引建模和Impala大数据组件

 

大数据场景三、每日工作简报

A1 今天客户(累计、首次、其他)、今年客户(累计、活动)、

     今天客户、from detail、to detail

A2 今日客车(累计、活动)、

A3 重点关注信息

B1 事件(编号、时间、描述、参与者、审批人)

B2 客户累计、同比、环比,客户分布,重点关注

 

1、痛点:重点分析,每日预警报告,实时应对

2、难点:传统方式数据库之间大表直接执行多表联查效率较低,数据分析难度较大
3、方案:使用大数据NoSql数据库,二级索引建模分析技术

 

大数据场景四、可视化分析展现

不同场景客户(客户、wb、路口)的可视化分析(正常、预警和高精)

1、痛点:实时数据展示,可以一目了然观察各类数据、分析各个维度发展趋势

2、难点:传统技术实时Count,资源消耗重,且当数据量较大时,延迟较大,聚合查询耗时严重
3、方案:大数据Nosql数据库、流式计算以及消息中间件,对历史数据深度分析,实时数据毫秒级处理

 

大数据场景五、云服务设施利用率监控

全公司:物理服务器数量、云服务器数量、利用率

分公司:服务器、cpu、内存分布

1、痛点:实时监控系统内所有硬件设备的使用情况

2、难点:设备较多,参数复杂,实时监控难度大
3、方案:大数据存储架构与NoSql数据库、离线计算结合

1、痛点:数据质量参次不齐,只能在入库后才知质量情况

2、难点:传统技术无法实时监控数据质量情况
3、方案:使用流式计算技术,实时监控入库数据质量,智能纠错报警,后续可做深度分析

 

1、痛点:服务运行状态无法掌控,日志数据无法有效利用

2、难点:日志一般为非结构化数据,分析难度较大
3、方案:使用大数据技术,将非结构化日志数据实时入库转化为结构数据,进行深度分析并实时监控

转载于:https://www.cnblogs.com/lexiaofei/p/6644441.html

你可能感兴趣的文章
迷宫问题
查看>>
【FZSZ2017暑假提高组Day9】猜数游戏(number)
查看>>
泛型子类_属性类型_重写方法类型
查看>>
对闭包的理解
查看>>
练习10-1 使用递归函数计算1到n之和(10 分
查看>>
Oracle MySQL yaSSL 不明细节缓冲区溢出漏洞2
查看>>
Code Snippet
查看>>
zoj 1232 Adventure of Super Mario
查看>>
组合数学 UVa 11538 Chess Queen
查看>>
oracle job
查看>>
Redis常用命令
查看>>
[转载]电脑小绝技
查看>>
windos系统定时执行批处理文件(bat文件)
查看>>
thinkphp如何实现伪静态
查看>>
BZOJ 2243: [SDOI2011]染色( 树链剖分 )
查看>>
BZOJ 1925: [Sdoi2010]地精部落( dp )
查看>>
c++中的string常用函数用法总结!
查看>>
[DLX精确覆盖+打表] hdu 2518 Dominoes
查看>>
SuperMap iServerJava 6R扩展领域开发及压力测试---判断点在那个面内(1)
查看>>
Week03-面向对象入门
查看>>