金山云魏代政解读:移动视频云第一平台是怎样炼成的业界
金山云视频云事业部运维总监魏代政在发表演讲
2016年直播风头正劲,云公司也迎来春风。纵观视频云市场,金山视频云异军突起,在移动直播领域拔得头筹,一举成为移动视频云第一平台。仅仅半年,排名前200的直播App中有一半已经是金山视频云的客户。
那么,是什么使金山视频云在短短半年内成为行业的绝对领导者呢?这个业内公认的“移动视频云第一平台”在运维上又有哪些绝招呢? 这些疑问在GOPS2016全球运维大会上得到了解答。
12月16日,在高效运维主办的GOPS2016全球运维大会-北京站上,金山云视频云事业部运维总监魏代政发表了题为《视频直播运维难点与解决方案》的主题演讲,对金山视频云运维经验进行了干货分享。
他指出,优质的云架构是平台的根基和灵魂,金山视频云具备一站式,超融合的解决方案,服务能力方面追求高吞吐和高可靠。监控全面精准、故障快速隔离、科学的容量调度与建设规划,是保障超大规模视频CDN系统持续稳定运行的三大首要任务。
一站式、超融合、高吞吐、高可靠,打造完美视频云解决方案
从解决方案角度,金山视频云具备一站式,超融合的特点,即:从播放SDK到CDN系统,从CDN系统到直播源站,从直播源站到点播源站,在线/离线转码,连麦服务,美颜&动态贴纸等,一应俱全,可以为客户一站式解决所有问题。
与此同时,兼容和友商进行源流互推共享,方便用户整合各家云服务优势达到自身服务质量的极致提升。
从服务能力方面,金山视频云一直秉承高吞吐,高可靠的追求。
而在基础设施建设方面,金山视频云的CDN具备6大三线上层、200+CDN节点、6TB带宽储备,并计划在2017年实现500+节点、10TB带宽储备。在直播源站方面则具备10万路流、5万路实时转码,而且整个架构具备快速水平扩展能力。
从上述数据不难看出,金山视频云的海量流量承载能力,能力的背后是大量的节点和设备,和众多条可用数据链路的冗余。那么,面对如此多的机房、设备以及众多的网络数据流链路,在如此之快的成长和发展速度下,金山视频云是如何保障平台稳定性,如何做到高可靠呢?
魏代政指出,监控全面精准、故障快速隔离、科学的容量调度与建设规划是保障金山视频云服务持续高速发展的三个首要任务。
运维主动出击,将隐患扼杀于萌芽阶段
对于云平台而言,面对超大规模CDN系统,应如何保证平台持续稳定运行呢?在运维方面,需要实现以下目标,即:
l 监控&巡检:全面无遗漏、告警精准数量少、定位问题速度快,发现问题于萌芽;
l 集群机器管理:故障快速隔离、故障修复优先级、全程可控无泄漏;
l 带宽容量管理:容量安全不过载、流量徒增扛得住、满足保底不浪费、容忍节点离线割接、容忍节点故障离线。
保障监控全面精准
金山视频云监控是一个全链路的系统架构,从基础设施到软件服务到用户请求再到用户端上的数据,统统进行了全面收集和整合分析。基于链路监控,可以精准的发现是在全链路的哪个环节上出现了故障,如“鹰眼”般敏锐、精准。
故障快速隔离
CDN是一个超大型的分布式缓存,从设备和网络资源方面都有很大的冗余度,能够容忍单点故障。能精确识别出来的故障(物理机故障,网络故障,软件故障灯),要做到快速隔离,这是快速止损保证服务质量的有效方式。
在大规模节点设备维护方面,金山云CDN有一整套机器全生命周期管理系统,做到机器设备从采购到上线服务,从上线服务到故障离线,从故障离线到修复回归线上的整个机器生命周期全程跟踪,并实现了部分状态转换的自动化。
金山视频云在机器采购、预处理、压测、初始化到机器故障被摘除及故障处理的各个环节中,充分保障机器的各种生命状态的管理和维护。如果出现故障,第一时间进行快速隔离、修复、再利用。各个状态的机器时刻在监控,就像带领士兵打仗一样,高度自动化的盘点前线士兵数量(+微信关注网络世界),受伤的士兵数量,及时撤下伤员,快速跟进并治愈伤员再次派上战场,各个环节衔接流畅,处理及时,从而实现机器的高在线率、高出勤率,保证群体总战斗力输出。
科学的容量调度与建设规划、
容量管理成功的关键在于容量调度和建设规划。
调度是以带宽容量数据为依据,数据的准确性决定了调度系统的表现是否符合预期,保证容量数据的准确性是做好容量管理和调度的关键。金山视频云对带宽容量数据有多种持续进行的稽核手段,从CDN日志和交换机物理层面采集进行了例行的稽核,进而保障数据的准确性,一旦出现问题立即人工介入干预,及时消除数据噪声,将数据修正,保证调度系统的数据支撑是正确可靠的。
建设规划方面,金山视频云根据中国核心运营商的网络结构特点,结合自身容量数据,按照一定的片区、省份对各个运营商的资源利用率进行分析,产出建设决策,做到片区利用率均衡,每个省份和片区都具备一定的冗余带宽,容忍流量徒增,容忍部分节点因故障或者割接而暂时离线。
在目前阶段,为了保证服务的绝对稳定,金山视频云的调度采用了“自动化方式调度”+“人工干预”的双保险机制,来实现容量安全不过载、流量徒增扛得住、满足保底不浪费、容忍节点离线的目标,随着调度系统的不断优化,目前人工干预已经变得很少。
移动视频云第一平台并非一蹴而就,金山视频云在客户积累中获取经验,在培育市场的同时,不断地提高自身的技术输出能力。作为视频云领域的先行者,金山视频云还将在技术上持续打磨、与时俱进,以技术引领视频行业的革新,将未来“视”界带到今天。
【来源:网界网】
1. 遵循行业规范,任何转载的稿件都会明确标注作者和来源;2. 的原创文章,请转载时务必注明文章作者和"来源: ",不尊重原创的行为 或将追究责任;3.作者投稿可能会经 编辑修改或补充。