活动介绍

“2014 中国Spark技术峰会”(Spark Summit China)将于2014年4月19日召开,国内外Apache Spark社区成员和企业用户将第一次齐聚北京。来自AMPLab、Databricks、Intel、淘宝、网易等公司的Spark贡献者及一线开发者将分享在生产环境中使用Spark及相关项目的第一手经验和最佳实践方案。


最新资讯:
-Spark独门秘籍:打造结构一体化、功能多元化的高效数据流水线
-网易王健宗:革命Hadoop,Spark带来百亿市场价值
-Intel尹绪森:打开圈子拥抱变化,谈Spark玩家的自我修养
-皮皮网陈超:易用与性能兼备,Spark蓬勃发展
-淘宝明风:基于Graphx的图计算实践分享

 

 

演讲嘉宾

Andy Konwinski
集群调度系统Mesos作者,Spark创始团队AMPLab成员,Databricks联合创始人,美国Spark Summit组织者。
孙元浩
2003年加入英特尔,曾是英特尔亚太研发有限公司数据中心软件部亚太区CTO,负责英特尔Hadoop发行版的研发和产品化工作。 2013年离开英特尔创办星环科技,推出国内首个基于Spark的大数据平台产品,在中国成功建立数个Spark成功案例。
明风
淘宝技术部数据挖掘与计算团队负责人,带领团队构建了国内第一个100台规模的Spark on Yarn集群,并基于Spark进行大量机器学习,实时计算和图计算的先行尝试,并将实践成果快速应用于淘宝网数据相关的业务和产品。
陈超
就职于皮皮网,担任数据平台负责人,负责公司所有数据分析与数据挖掘相关的项目。近年来一直专注于分布式计算与机器学习相关领域。国内较早的Spark研究与使用者,Spark Contributor。目前专注于基于Spark平台的大数据处理。
王健宗
现负责网易游戏大数据框架的研究和部署工作,在其推广下成功将Spark稳定应用在生产环境中。曾任惠普云计算高级解决方案专家和美国莱斯大学电子与计算工程系研究员。
尹绪森
Intel工程师,致力于机器学习算法并行、凸优化层面的算法优化问题,以及大数据平台性能调优。对Spark、Mahout、GraphLab等开源项目有所尝试和理解,并希望从优化层向下,系统层向上对并行算法及平台做出贡献。
连城
Intel物联技术研究院研究员,Spark contributor;目前专注于以Apache Spark为主的大数据处理平台,即将加入Databricks。
薛伟
腾讯精准推荐中心广告推荐负责人。2006年在北京航空航天大学取得博士学位,同年加入IBM中国研究院,2011年加入腾讯数据平台部。一直从事云计算、海量数据分析和数据挖掘、精准推荐相关的研发工作。
John Busch
Vice President and Senior Fellow at SanDisk Corporation. At DanDisk, John leads explorations into flash optimized data center solutions. Prior to SanDisk, John was the founder of Schooner Information Technology, he lead the creation of flash-optimized databases and data stores.
邢刚
广州浩微数据服务公司CEO。曾参加和管理多个大型数据仓库项目实施,并多次参与中国移动集团经营分析系统技术规范的编写。在数据仓库及商业智能的架构规划和最佳实践有多年经验。熟悉Vertica(MPP DB)、Hadoop、Spark、流处理等大数据的架构和应用规划。
顾荣
南京大学计算机系博士生。Apache Spark Contributor,Tachyon Contributor。他关于TachyonStore的PR已被Apach Spark社区接受,新增功能将随Spark 1.0版本发布。

程序委员会成员

辛湜(Reynold S. Xin)
Databricks联合创始人,Spark、Shark、GraphX等项目核心作者
夏俊鸾
Apache Spark Committer,英特尔亚太研发有限公司架构师
吴甘沙
英特尔中国研究院首席工程师
刘江
CSDN暨《程序员》总编,图灵公司创始人

大会日程

 

时间 演讲议题 嘉宾
08:50-09:00 开场致辞 刘   江     CSDN暨《程序员》总编
09:00-09:40 The Spark Project Today and What's Next Andy Konwinski     Spark创始团队AMPLab成员
09:40-10:20 Spark内核探索与性能优化
 
本演讲主要分享Spark的核心原理,并在此基础上探讨几个Spark性能的优化点。
 
陈   超      皮皮网数据平台经理
10:20-11:00 Spark在闪存中的优化:Broaden Use Cases and Reduce TCO John Busch     SanDisk副总裁,资深院士
11:00-11:40 Transwarp Inceptor:基于Spark引擎的高速内存分析和挖掘工具
 
介绍如何构建分布式内存列式存储,以及如何利用PL/SQL和R语言对内存数据进行高速数据统计和挖掘。
 
孙元浩     星环科技联合创始人及CTO
11:40-11:55 YAFIM:基于Spark的并行化频繁项集挖掘算法 顾    荣      南京大学计算机系博士生
11:55-12:10 Spark实际应用模式的经验共享
 
英特尔大数据技术部门已与多家互联网公司合作,设计开发了一系列基于Spark/Shark平台的大数据典型应用。包括图式处理、交互在线分析和商业智能处理、批式处理、复合型处理、复杂图运算,以及复合型实时处理等。演讲将归类各种应用并总结相关性能特征,同时总结Spark/Shark框架给实际应用带来的好处以及其本身可能存在的问题。
 
易   岚      英特尔亚太研究院大数据技术部资深架构师
12:10-12:25 Spark在中国移动省公司试点应用 邢    刚     广州浩微数据服务公司CEO
12:25-13:20 午休  
13:20-14:00 Datacenter Management With Mesos Andy Konwinski     Spark创始团队AMPLab成员
14:00-14:40 基于Spark Graphx的大规模用户图计算和应用
 
面对淘宝的海量用户,如何基于亿级别的用户和十亿级别的关系链,进行高效的关系构建,社区发现和属性传播,一个高效强大的分布式图计算引擎必不可少。初出茅庐的Graphx是否能够担当如此的重任,在Spark一栈式数据解决方案的蓝图中,胜任至关重要的图计算一角?开发时,如何提升性能?计算的结果,如何高效应用?本演讲将带给你满意的答案。
 
明   风      淘宝技术部数据挖掘与计算技术专家
14:40-15:20 Catalyst: Spark a Chain Reaction
 
Catalyst/Spark SQL是新近加入Spark主线版本的alpha组件,它是一套简洁强大的SQL查询计划优化框架。随着时间的推移,已逐渐进化为一整套完整的SQL on Spark解决方案并更名为Spark SQL。 它的主要特点包括:向下兼容HiveQL,支持针对原生RDD对象的关系查询,可对用户编写的HQL/SQL查询进行有效优化,实现了一套可扩展的代码生成框架,可以针对特定逻辑直接生成字节码,进一步提升性能。它将成为Shark的新引擎。
 
连   城      Spark Contributor
15:20-16:00 面向实时计算和ETL处理的Shark应用
 
Spark对于所人几乎都是处于学习阶段新事物。本演讲将介绍应用Spark时的经验得失,希望这些经验总结能为大家应用落地Spark提供参考和帮助。
 
王健宗     网易大数据高级研究员
16:00-16:40 当机器学习遇到大数据系统:从Spark MLlib看两者的混合发展
 
MLlib的出现让我们看到在一个成熟的大数据栈上构建简洁、易用、高效的机器学习算法的希望。当机器学习遇到大数据系统,究竟会产生怎样的火花?让我们一起从MLlib看看两者的混合发展。
 
尹绪森     Intel工程师
16:40-17:20 快速模型更新在精准广告推荐中的应用
 
精准推荐的数据环境是快速变化的,无论是用户还是被推荐的物品,都在快速地出现,变化和消失。用于推荐的机器学习模型必须够快地更新才能更好地适应这种快速变化,这一点对于展示广告来说尤为重要。腾讯广点通团队长期从事社交网络展示广告的技术研究和应用,从spark诞生之初就开始关注这项技术和这个开源项目,并在广点通项目中进行了长期的应用实践。在这个报告中,我将简单介绍我们如何综合运用包括spark在内的技术来实现广告推荐模型的快速更新。
 
薛    伟     腾讯精准推荐中心广告推荐负责人
17:20-18:00 圆桌论坛与观众互动 夏俊鸾     (主持人)Apache Spark Committer

 

联系我们

  • 购票咨询:010-51661202-820
  • 商务合作:010-51661202-835
  • 媒体咨询:010-51661202-525
  • E-mail:gaoliang@csdn.net