专题: 大数据平台架构
Day of week:
- 星期五
大数据平台层出不穷,如何选型和架构
2009年至2012年在百度从事Hadoop平台研究与建设,2012年至今在360负责大数据平台,包括Hadoop、Storm、Spark、HBase、Cassandra等,熟悉Hadoop核心代码,经历了Hadoop集群从几十台到上万台规模的扩张和其中遇到的各种问题与解决方案。在360参与设计实现基于HBase的千亿级搜索网页库,创建基于Storm的分布式实时流式计算平台,推动基于Spark的机器学习和数据分析平台建设,负责大数据技术在360的研究和应用。热衷于开源技术,积极参与Hadoop、Storm、Spark等开源社区,曾在Hadoop In China、中国大数据技术大会、QCon担任演讲嘉宾。
by 曾勇
Elastic开发工程师与布道师
ElasticStack 是一系列开源产品的合集,包括 Elasticsearch、Kibana、Logstash 以及 Beats,Elasticsearch 除了大家所熟知的强大的搜索功能之外,还提供了很多针对数据分析领域的功能,比如 Pipeline Aggregation,还有在即将发布的 5.0 版本还将提供 Graph 图分析引擎等等,Medcl 将为大家介绍 ElasticStack 以及基于 ElasticStack 在数据搜索、探索发现、聚合分析等应用场景的各种可能性,同时还会借助大家所熟知的国内 PM2.5 的数据以 Demo 的方式进行分析实战。
by 俞育才
Intel大数据资深专家
调优是 Spark 开发中非常重要的一个环节,好的调优可以提升 10 倍以上的性能。我们首先分享了 Intel 长期调优经验的总结,然后展示了一种利用 NVMe SSD 搭建的层次化存储,以低成本提升程序的性能。NVMe 是由英特尔,三星,SanDisk,Dell等多家公司发起的新一代 SSD 通信协议接口。无论是顺序读写还是随机读写,它所带来的性能提升都数倍于普通的 SATA SSD,随机访问更是机械硬盘的千倍,但价格相对硬盘还是较贵。英特尔的 Spark 技术团队,重构了 Apache Spark 文件分配模块的代码,按照存储设备的性能和价格特点,设计出多层级的存储结构。在端到端的基准测试中,Spark 应用程序的性能提高了 3 倍,Shuffle 阶段的提升更是达到 5 倍之多。本演讲讲解了 Intel 技术团队如何通过收集 Linux 内核数据,展现 Spark 应用程序在不同阶段对磁盘操作的特征,定位性能瓶颈,进而优化 Spark Core 代码,设计出简单易用、高性价比的层次化设备存储方案。
听众收益:
- Spark...
by 李远策
奇虎360技术经理
Spark 平台作为新一代分布式计算平台在过去的两年中得到了飞速的发展,各大公司也逐渐将其引入到实际业务中来。奇虎 360 自 2015 年以来正式上线 Spark 平台,并在公司的搜索、安全、数据分析等业务线得到广泛的应用。本次演讲围绕 Spark 在公司内的实践,包括以下主要内容:
- Spark 平台及发展介绍;
- Spark 平台在 360 的应用介绍(包括搜索、安全、数据分析等业务的使用案例);
- Spark 实践过程中的经验分享。
by 孟宪军
百度开放云架构师
随着业界分布式计算系统的不断演进,数据与计算需求的不断激增,不同分布式计算模型相互割裂,各自为政的格局已经不适应当前大数据的应用场景,如何合理的利用资源,各个计算模型协调配合稳定运行,是一个底层工程师越来越关注的事情。在这里面我们以百度为例,介绍一下分布式系统在百度的实战应用。
我认为,分布式计算有两个核心问题:
- 第一,框架,也可以理解成一个公司分布式计算平台的组织架构。
- 第二,调度,包括先验以及后验调度,是保证各个计算模型协同工作的基础。
by 封仲淹(纪君祥)
阿里巴巴高级技术专家
2015 阿里巴巴双 11 全球狂欢节,天猫交易额达到 912.17 亿元,而交易峰值达到 8.59 万笔/秒。在这天量交易背后,无数的系统齐心协力,共同完成。而实时计算平台 JStorm Turbo 就是其中重要的一员,支持着线上 1400 多项任务,让业务方在页面上托拉拽取快速部署监控任务或生成实时报表。本次分享,着重介绍:
- JStorm Turbo 支撑着哪些实时计算业务。
- 底层实时计算引擎新特性。
- 中间层数据计算因子层设计和实现。
- 未来 Storm 和 JStorm 的趋势。
by 谢语宸
新美大离线大数据平台方向技术负责人
O2O 是新形式的电商,在其业务产品形式迭代过程中,会有大量的数据分析需求。近些年美团网在 O2O 领域,建平台,建生态。
随着电影、外卖、酒店、广告等新的业务线建立,以及如金融、汽车服务等新业务的尝试,数据平台同时面临业务多样性,场景多样性,数据量增长的持续挑战。
同时,业界的大数据平台技术持续发展,新技术,新架构层出不穷。
本次分享将会给大家介绍美团网大数据平台架构,以及在平台演进过程中,我们选型和架构决策思路。
by 郭李明
京东架构师
Presto 是由 Facebook 开源的大数据分布式 SQL 查询引擎,适用于交互式分析查询,可支持众多的数据源,包括 HDFS,RDBMS,KAFKA 等,而且提供了非常友好的接口开发数据源连接器。京东从 2014 年开始 Presto 的技术研究,并于 2015 年连续开源了 2 个 Presto-JD 版本,并于 2016 年将 Presto 应用于京东云的数据计算平台上。本次分享的内容将介绍京东云大数据计算平台集成 Presto 的技术架构及相关应用实践。
演讲专题
Covering innovative topics
-
业务核心架构
本专题将介绍不同业务场景下,为了满足不同业务需求,系统核心架构设计上的特殊性考虑。例如,O2O业务系统架构设计上如何打通线上和线下,即时通讯业务系统架构如何实现高效消息通知,智能派单业务系统架构如何融入各种不同的算法……推荐业务,互联网金融业务,电商业务……没有实现不了的业务,只有你意想不到的架构。
-
工程效率提升
各公司研发体系内部会有很多工具及平台。他们和产品并没有直接的关系,但是这些工具及平台是工程师使用最多的。提高这部分的效率实际上对整个工程效率影响非常大,可以极大缩短开发的周期及人力投入。本专题致力于分享各公司在提高工程效率的各种最佳实践以及典型思路。
-
大数据应用层层深入
大家都知道大数据是金矿,但是,经过巧妙设计的大数据应用才是把金子挖出来的工具,缺乏合适的工具,金矿将长眠地下,不能发挥任何作用。本专题结合一线互联网公司微信,京东,LinkedIn等大数据应用,通过细致的剖析,包括场景,建模,结果应用,扩展等,全面展示了大数据应用的方法论和价值,相信对于各个行业都具有极高的借鉴意义。
-
研发安全
如何从研发过程的各个方面保障系统的安全
-
Java新发展
2015 年,Java 度过了 20 岁生日。可以说 Java 是目前应用最广的语言之一。本专题将关注最新的 Java 技术和最好的 Java 实践经验。
-
亚马逊AWS深度创新实践(厂商专场)
从亚马逊 AWS 于2006年3月14日上线 Amazon S3 服务至今,已经过去了整整十年时间。AWS 作为云计算领域的开拓者之一,其在保障云服务的弹性、安全性、高可用性、成本可控性等方面积累了大量的实践经验与知识,同时也推动了全球云服务行业的快速发展。
在 AWS 迎来10周年纪念之际,本专场将邀请来自 AWS 的资深技术顾问、解决方案架构师及 AWS 云服务用户,分享在 AWS 上构建个性化服务的实践过程,展示云计算相关技术的创新成果,演讲内容将覆盖深度学习、Python 开发、大数据平台架构、容器管理、物联网应用等多个技术领域。
-
基于云的 IT 系统升级部署专场(厂商专场)
2016年随着云计算相关技术的不断发展与实践,企业在面对云服务时必然将更加关注应用落地与解决方案的实际部署等问题。而对于开发者来说,基于云的开发可以解决一些传统开发方式解决不了的问题,但在云计算开发实践以及云平台迁移的过程当中仍需要留意一些关键的技术细节问题。
-
容器集群管理实践专场(厂商专场)
容器技术及Docker在经历了过去一年的不断实践、应用以及开源社区的努力推动,目前已经发展得愈发成熟、稳定。然而当企业在进行大规模容器调度、编排、管理以及Docker部署应用、各种管理工具的使用结合时,仍然会面临着一些困难和挑战需要解决。
-
支撑互联网服务的高可用架构
探究典型的互联网服务的高可用架构之道
-
云平台架构
云计算的概念已经发展了多年,无论是公有云还是私有云均已得到广泛运用,近年来以Docker为代表的容器技术更是极大的推动了云平台技术的发展。本专题将探讨在多种不同的应用场景下,云平台的架构该如何设计,云平台的服务该如何管理,业内多家公司将分享他们的实战经验。
-
架构演进之路
-
大数据平台架构
大数据平台层出不穷,如何选型和架构
-
从机器学习到人工智能
在大数据时代,这些技术如何影响我们的生活
-
自动化运维
运维事故频频出现,运维人员应该如何避免
-
未来的前端
前端的变化日新月异。从早期脚本库、jQuery,到百花齐放框架,再到近年 AngularJS 和 React;手工打包、合并 Sprite 到工具自动化;单人作战到团队协作的工程化开发;传输协议上从 HTTP 1.1 到 HTTP 2;从简单页面到越来越多的复杂富应用。这次专题,我们希望能面向未来,一起思考、探索与实践。
-
移动开发挑战
移动互联网日益深入生活,背后有哪些值得挖掘的技术实践
-
人才与团队
-
复杂环境下美丽说&蘑菇街电商的升级之道(限额免费体验专场)
蘑菇街 CEO 陈琪说,简单地只做媒体把时尚内容摆在用户面前的时代正在成为过去,能够引导用户消费的社交电商正在袭来。在这个机遇与挑战并存的时代,电商平台亟需找到新的用户兴趣点,更加快速地响应用户需求,不断提升用户体验品质。从技术层面来看,电商平台在应对业务挑战时,仍然需要不断提高技术支撑力,比如怎样在电商促销活动逐日增多的情况下,对系统的设计、研发等各方面进行升级换代?在全民移动化的趋势不容忽视的情况下,如何能保障移动端全链路的问题实时跟踪实时解决?转型到社会化电商之后,如何根据业务环境寻找到合适的算法模型?这些都将是本期美丽说&蘑菇街专场活动将要分享的重点内容。
-
大数据生态构建专场(厂商专场)
业界流传一句话:三分技术,七分数据,得数据者得天下。
-
打破规则,我是黑客
「这个世界有规则,不过是用来打破的。」对于黑客来说,证明自己存在最直接的方式就是打破已有规则,在网络空间中进入上帝模式,俯视目标的运行规律。黑客是有争议的存在,但是谁能没争议?守正出奇且具备创造力,在争议中进化世界。本专题将把黑客文化浓厚的「KCon 黑客大会」诸多精彩带上 QCon 大舞台。
-
产品设计思维
互联网产品层出不穷,那些成功的产品背后有哪些思路可以借鉴
-
移动测试技术
移动互联网快速发展阶段下,移动端的自动化测试、专项性能优化测试(crash、内存泄露、流量、耗电、卡顿/流畅度、弱网络、I/O等等)、动静态测试、移动众测等多个领域都有很多不同于PC时代的困难和挑战,也都有其领域独特的优势和机会。以移动领域的最佳测试技术实践方案为切入点,本专题希望给大家更多的思路方向和视野。
-
服务化与微服务架构
越来越多的公司开始尝试使用微服务架构(Microservices Architecture)构建围绕业务、细粒度的分布式系统。微服务的优势显而易见,不过在其带来灵活性、扩展性和可伸缩性的同时,也面临着诸多挑战,譬如服务拆分、服务治理、测试、自动化部署以及监控告警等。本专题邀请国内一线互联网公司的技术专家,分享其使用微服务的实践以及思路。
-
编程语言实战
新的编程语言不断涌现,旧有语言也有很多新的发展。不同语言又有很多类似或者迥异的机制实现某些共有的概念,如异步,如并发。本专题中,你将看到不同语言如何实现并发和异步,Lua 语言的新应用,以及 Rust 语言之特性。
-
知名互联网公司的管理方法
知名互联网公司的管理方法
-
技术创业
技术人要创业,有哪些因素要考虑,有哪些坑要面对
-
新时代的数据存储与访问技术
-
运维与监控专场(厂商专场)
有人认为运维的过程更像是消防,7*24小时响应异常和危情。但实际情况是,无论做什么运维,最基本的职责都是保证业务能够稳定运行。运维以技术为基础,通过技术保障产品来提供更高质量的服务。当然,运维技术也包括服务监控技术,对服务运行的状态进行实时的监控;对基础设施性能分析;对App和API进行性能监控;发现服务隐患等等。本专场就邀请了好雨云CTO张斌、逸创云客服CEO叶翔、云智慧VP刘志达,和听云研发总监杨金全共同来讲讲各自在产品运维方面,在为客户提供性能优化服务方面克服了哪些难关,在技术选型上有哪些值得借鉴的经验。
-
新兴技术及应用
-
移动开发与即时通讯专场(厂商专场)
移动之火,人尽皆知!移动端设备性能和功能的不断提升,直接促进了移动领域的发展,进而,移动App开发平台和第三方服务机构如雨后春笋般出现。在此前提下,用户对高效、稳定、可靠的即时消息推送服务的需求亦在不断增加,这些服务所提供的开放平台标准接口,自助集成语音、短信、即时通信能力也是提升用户体验的重点。