万里鹏,就职于字节跳动客户端基础技术部门,负责Android端性能监控体系,主要包括:异常监控、性能监控、事件监控和日志系统等。主要服务于头条、抖音、西瓜视频、火山小视频、多闪等全公司级移动端产品,为业务开发、异常排查、性能优化和用户反馈提供整套监控体系。
万里鹏,就职于字节跳动客户端基础技术部门,负责Android端性能监控体系,主要包括:异常监控、性能监控、事件监控和日志系统等。主要服务于头条、抖音、西瓜视频、火山小视频、多闪等全公司级移动端产品,为业务开发、异常排查、性能优化和用户反馈提供整套监控体系。
移动互联网发展这么多年,稳定性、性能一直是开发者面临的主要线上问题。字节跳动发布多款App,全球几亿用户量级,在追求用户体验上面,面临着巨大的挑战。用户会因为滑动信息流、播放视频流的卡顿,手机发烫、流量消耗过大等问题而卸载使用,如何优化性能手段提升留存率是我们需要解决的问题。
本次分享,以线上产品遇到的一些问题为背景,详细介绍性能监控体系中不同维度的性能监控,提供发现线上问题、定位具体问题原因的能力。包括App耗电问题、大内存归因、流量消耗过大问题的监控原理和问题排查。对于线上单点问题排查,日志检索和指令下发的闭环系统结构。希望能对线上性能问题精细监控提供一些借鉴和帮助。
演讲提纲:
1. 研发流程和现状
(1) 研发流程中可能出现的问题
(2) 线上问题的主动发现
(3) 解决用户反馈问题的流程
2. 性能监控体系的建立
(1) 性能监控概要
(2) 大内存和OOM的原因
(3) 卡顿指标的建立
(4) 排查空间占用的罪魁祸首
(5) 耗电操作的监控
(6) 流量消耗的来龙去脉
3. 单点问题追查
(1) 日志中间件和日志库
(2) 日志流系统
听众收益:
1. 了解监控体系的内容和具体作用
2. 知道如何解决大用户量级的线上性能问题的方式手段
3. 对于线上问题的监控,提高监控的能效性具有一定的参考作用