时间:2016年4月21~23日
地点: 北京·国际会议中心
购票电话:010-64738142

专题: 自动化运维

Day of week:

运维事故频频出现,运维人员应该如何避免

专题出品人:
史海峰
当当网架构部总监,EGO会员

当当网架构师,技术委员会成员。

2001年毕业于北京化工大学计算机科学与技术专业,曾在神州数码、亚信联创长期从事电信行业业务支撑系统集成工作,参与中国移动、中国联通多个项目,具有丰富的大型业务系统研发实施经验。 2012年加入当当网,负责总体架构规划、技术规范制定和技术预研推广,善于把握复杂业务需求,提出创新性解决方案,在项目中对系统架构进行持续改造优化。负责技术委员会组织管理工作,发掘最佳实践、推动技术革新,组织内外部技术交流。


by 张智宇
阿里巴巴技术专家,EGO会员

聚石塔是阿里的电商云平台,TAE 团队针对聚石塔的应用场景,推出了 EWS(Enterprise Workstation)服务,旨在通过容器技术,让 ISV 快速搭建高可靠性和高性能的系统架构。除了 ISV 的系统,聚石塔订单推送,全链路压测等系统均部署在 EWS 上面,EWS 上面承载的站内、站外系统容量超过 10000 核的容器。如何运维一个海量容器系统,以及如何通过运维自动化让几个人的小团队轻松支撑千万 UV 的流量,EWS 将分享在这些方面的探索和实践。


by 王剑英
百度资深研发工程师

随着百度重点投入 O2O 业务,百度糯米、钱包面对的流量日益增长。如何打造一个高效的数据库系统架构来应对交易支付类型的负载,成为百度 DBA 团队面对的一个新挑战。

本次分享将向大家介绍百度 DBA 团队如何以 MySQL 为中心,通过一套高效可靠的数据库变更发布系统 DTS,融和 Cache 平台,业务系统消息队列等。实现对业务请求的快速响应和交易链路的中的调用解耦。

本次分享将包括以下几个内容:

  1. MySQL 变更消息发布系统 DTS;
  2. 基于 DTS 实现 MySQL 和 Redis 的深度融合,提升业务响应速度;
  3. 通过 MySQL 消息通知机制实现糯米交易链路中的逻辑解耦。

by 陆沛
滴滴运维部技术经理

滴滴从 2012 年成立以来,3 年半的时间,经历了几何级数的成长。滴滴运维是如何应对的,运维架构是如何演进的,在这里经历了哪些挑战,可以和大家一起分享一下。


by 朱兆龙
豆瓣高级系统工程师

在豆瓣我们使用了 Kenshin + Graphite + Grafana + Icinga 2 的组合来支撑我们的监控需求,其中 Kenshin 是我们自己开发的用于代替 Whisper 的存储组件。

在本次分享中我们将介绍 Kenshin 的设计与实现、如何架构单机支撑百万指标收集的指标系统、以及 Grafana 和 Icinga 2 的使用经验。


by 于新林(青轩)
蚂蚁金服支付事业群首席架构师

2016 年春晚,对支付宝来说既是挑战也是机遇。头一次和央视搞这么大规模的活动,这样的活动只能成功不能失败。对于支付宝来说,是第一次搞这么大规模的活动,对用户的行为习惯是没法预测的。如何保障活动顺利是我们头痛的问题。

得知消息后,我们第一时间确定了主题思路,确定了总体目标。接下来通过以下这套方法来保障活动的顺利进行。

  1. 研发质量保障机制
  2. 版本发布管理机制
  3. 活动灰度机制
  4. 全联路压测体系保障容量符合预期
  5. 弹性计算能力,快速按照预期容量模型部署应用和存储模型
  6. 内部演练机制保障整体活动按照预期进展
  7. 春晚前提前小规模活动提前规避问题,根据用户行为调整容量模型
  8. 应急响应体系,以应对意外事件,保障春晚互动顺利进行

by 陈浩
eBay Inc 高级软件工程师,Eagle项目技术负责人

在与云计算和大数据时代背景下,各种大型分布式系统例如 Hadoop,Spark、Open Stack 等层出不穷,eBay 作为世界顶尖的电商巨头之一,这些系统在驱动 eBay 业务增长的同时,管理维护它们的挑战也愈加严峻,同时对监控系统提出了更高的要求,例如更强的伸缩能力、更实时的预警能力、支持更复杂的预警规则、更加动态灵活的关联预警等,而传统预警系统如 Zabbix、Nagios 、Ganglia 等逐渐疲于满足我们的需求,于是,我们决定从零开始打造全新的分布式实时预警引擎——Apache Eagle。Apache Eagle (http://eagle.incubator.apache.org/) 是由 eBay 开源的分布式实时监控与预警系统,专注于解决大规模分布式集群(如 Hadoop)运维场景中的服务监控、性能分析、异常预警以及数据安全等问题,于2015年10月26日正式开源并加入 Apache 软件基金会(...


by
党受辉
腾讯游戏蓝鲸产品中心总监

蓝鲸体系,是由蓝鲸集成平台、蓝鲸作业平台、蓝鲸配置平台、蓝鲸管控平台、蓝鲸数据平台、蓝鲸移动平台以及庞大的 devops 生态构成的一套企业操作系统,不但将应用运维(ARE)的工作从自动化拉升到了智能化,也将应用运维的价值输出从操作服务拉升到了辅助运营,从成本部门向效益部门演进,同时促进了技术运营团队(应用运维+支撑开发)的效率融合。

本次分享主题分为五个部分:

  1. 自动化
    • 介绍蓝鲸体系独特的自动化构建思路,如何充分发挥应用运维的作用,如何做到一套体系,适配运维行业中的所有业务类型,而且不需要业务开发修改任何业务架构
  2. 无人值守
    • 在蓝鲸体系内如何轻松的构建海量(十万以上的 OS 或容器)、跨云(统一管理私有云和不同公有云)的运维基础服务无人值守方案,我们如何将无人值守从“工作亮点”普及为运维“基础 KPI”
  3. 工具文化
    • 应用运维如何使用蓝鲸的 PaaS,跳出运维传统工作,为开发和产品等其他岗位提供运营系统...

演讲专题

Covering innovative topics

  • 业务核心架构

    本专题将介绍不同业务场景下,为了满足不同业务需求,系统核心架构设计上的特殊性考虑。例如,O2O业务系统架构设计上如何打通线上和线下,即时通讯业务系统架构如何实现高效消息通知,智能派单业务系统架构如何融入各种不同的算法……推荐业务,互联网金融业务,电商业务……没有实现不了的业务,只有你意想不到的架构。

  • 工程效率提升

    各公司研发体系内部会有很多工具及平台。他们和产品并没有直接的关系,但是这些工具及平台是工程师使用最多的。提高这部分的效率实际上对整个工程效率影响非常大,可以极大缩短开发的周期及人力投入。本专题致力于分享各公司在提高工程效率的各种最佳实践以及典型思路。

  • 大数据应用层层深入

    大家都知道大数据是金矿,但是,经过巧妙设计的大数据应用才是把金子挖出来的工具,缺乏合适的工具,金矿将长眠地下,不能发挥任何作用。本专题结合一线互联网公司微信,京东,LinkedIn等大数据应用,通过细致的剖析,包括场景,建模,结果应用,扩展等,全面展示了大数据应用的方法论和价值,相信对于各个行业都具有极高的借鉴意义。

  • 研发安全

    如何从研发过程的各个方面保障系统的安全

  • Java新发展

    2015 年,Java 度过了 20 岁生日。可以说 Java 是目前应用最广的语言之一。本专题将关注最新的 Java 技术和最好的 Java 实践经验。

  • 亚马逊AWS深度创新实践(厂商专场)

    从亚马逊 AWS 于2006年3月14日上线 Amazon S3 服务至今,已经过去了整整十年时间。AWS 作为云计算领域的开拓者之一,其在保障云服务的弹性、安全性、高可用性、成本可控性等方面积累了大量的实践经验与知识,同时也推动了全球云服务行业的快速发展。

    在 AWS 迎来10周年纪念之际,本专场将邀请来自 AWS 的资深技术顾问、解决方案架构师及 AWS 云服务用户,分享在 AWS 上构建个性化服务的实践过程,展示云计算相关技术的创新成果,演讲内容将覆盖深度学习、Python 开发、大数据平台架构、容器管理、物联网应用等多个技术领域。

  • 基于云的 IT 系统升级部署专场(厂商专场)

    2016年随着云计算相关技术的不断发展与实践,企业在面对云服务时必然将更加关注应用落地与解决方案的实际部署等问题。而对于开发者来说,基于云的开发可以解决一些传统开发方式解决不了的问题,但在云计算开发实践以及云平台迁移的过程当中仍需要留意一些关键的技术细节问题。

  • 容器集群管理实践专场(厂商专场)

    容器技术及Docker在经历了过去一年的不断实践、应用以及开源社区的努力推动,目前已经发展得愈发成熟、稳定。然而当企业在进行大规模容器调度、编排、管理以及Docker部署应用、各种管理工具的使用结合时,仍然会面临着一些困难和挑战需要解决。

  • 支撑互联网服务的高可用架构

    探究典型的互联网服务的高可用架构之道

  • 云平台架构

    云计算的概念已经发展了多年,无论是公有云还是私有云均已得到广泛运用,近年来以Docker为代表的容器技术更是极大的推动了云平台技术的发展。本专题将探讨在多种不同的应用场景下,云平台的架构该如何设计,云平台的服务该如何管理,业内多家公司将分享他们的实战经验。

  • 架构演进之路
  • 大数据平台架构

    大数据平台层出不穷,如何选型和架构

  • 从机器学习到人工智能

    在大数据时代,这些技术如何影响我们的生活

  • 自动化运维

    运维事故频频出现,运维人员应该如何避免

  • 未来的前端

    前端的变化日新月异。从早期脚本库、jQuery,到百花齐放框架,再到近年 AngularJS 和 React;手工打包、合并 Sprite 到工具自动化;单人作战到团队协作的工程化开发;传输协议上从 HTTP 1.1 到 HTTP 2;从简单页面到越来越多的复杂富应用。这次专题,我们希望能面向未来,一起思考、探索与实践。

  • 移动开发挑战

    移动互联网日益深入生活,背后有哪些值得挖掘的技术实践

  • 人才与团队
  • 复杂环境下美丽说&蘑菇街电商的升级之道(限额免费体验专场)

    蘑菇街 CEO 陈琪说,简单地只做媒体把时尚内容摆在用户面前的时代正在成为过去,能够引导用户消费的社交电商正在袭来。在这个机遇与挑战并存的时代,电商平台亟需找到新的用户兴趣点,更加快速地响应用户需求,不断提升用户体验品质。从技术层面来看,电商平台在应对业务挑战时,仍然需要不断提高技术支撑力,比如怎样在电商促销活动逐日增多的情况下,对系统的设计、研发等各方面进行升级换代?在全民移动化的趋势不容忽视的情况下,如何能保障移动端全链路的问题实时跟踪实时解决?转型到社会化电商之后,如何根据业务环境寻找到合适的算法模型?这些都将是本期美丽说&蘑菇街专场活动将要分享的重点内容。

  • 大数据生态构建专场(厂商专场)

    业界流传一句话:三分技术,七分数据,得数据者得天下。

  • 打破规则,我是黑客

    「这个世界有规则,不过是用来打破的。」对于黑客来说,证明自己存在最直接的方式就是打破已有规则,在网络空间中进入上帝模式,俯视目标的运行规律。黑客是有争议的存在,但是谁能没争议?守正出奇且具备创造力,在争议中进化世界。本专题将把黑客文化浓厚的「KCon 黑客大会」诸多精彩带上 QCon 大舞台。

  • 产品设计思维

    互联网产品层出不穷,那些成功的产品背后有哪些思路可以借鉴

  • 移动测试技术

    

移动互联网快速发展阶段下,移动端的自动化测试、专项性能优化测试(crash、内存泄露、流量、耗电、卡顿/流畅度、弱网络、I/O等等)、动静态测试、移动众测等多个领域都有很多不同于PC时代的困难和挑战,也都有其领域独特的优势和机会。以移动领域的最佳测试技术实践方案为切入点,本专题希望给大家更多的思路方向和视野。

  • 服务化与微服务架构

    越来越多的公司开始尝试使用微服务架构(Microservices Architecture)构建围绕业务、细粒度的分布式系统。微服务的优势显而易见,不过在其带来灵活性、扩展性和可伸缩性的同时,也面临着诸多挑战,譬如服务拆分、服务治理、测试、自动化部署以及监控告警等。本专题邀请国内一线互联网公司的技术专家,分享其使用微服务的实践以及思路。

  • 编程语言实战

    新的编程语言不断涌现,旧有语言也有很多新的发展。不同语言又有很多类似或者迥异的机制实现某些共有的概念,如异步,如并发。本专题中,你将看到不同语言如何实现并发和异步,Lua 语言的新应用,以及 Rust 语言之特性。

  • 知名互联网公司的管理方法

    知名互联网公司的管理方法

  • 技术创业

    技术人要创业,有哪些因素要考虑,有哪些坑要面对

  • 新时代的数据存储与访问技术
  • 运维与监控专场(厂商专场)

    有人认为运维的过程更像是消防,7*24小时响应异常和危情。但实际情况是,无论做什么运维,最基本的职责都是保证业务能够稳定运行。运维以技术为基础,通过技术保障产品来提供更高质量的服务。当然,运维技术也包括服务监控技术,对服务运行的状态进行实时的监控;对基础设施性能分析;对App和API进行性能监控;发现服务隐患等等。本专场就邀请了好雨云CTO张斌、逸创云客服CEO叶翔、云智慧VP刘志达,和听云研发总监杨金全共同来讲讲各自在产品运维方面,在为客户提供性能优化服务方面克服了哪些难关,在技术选型上有哪些值得借鉴的经验。

  • 新兴技术及应用
  • 移动开发与即时通讯专场(厂商专场)

    移动之火,人尽皆知!移动端设备性能和功能的不断提升,直接促进了移动领域的发展,进而,移动App开发平台和第三方服务机构如雨后春笋般出现。在此前提下,用户对高效、稳定、可靠的即时消息推送服务的需求亦在不断增加,这些服务所提供的开放平台标准接口,自助集成语音、短信、即时通信能力也是提升用户体验的重点。