出品人:阎志涛

TalkingData研发副总裁

阎志涛现任TalkingData研发副总裁,领导研发了公司的数据管理平台(DMP)、数据观象台等产品,并且负责公司大数据计算平台的研发。目前专注于构建一个融合多种计算模型,支持机器学习和数据挖掘的大数据计算平台。关注Spark、Hadoop、HBase、MongoDB等技术。超过15年的IT领域从业经验,一直从事大规模分布式计算系统、中间件、BI等相关工作。

本科毕业于北京大学大气物理专业,硕士毕业于华北计算技术研究所,研究方向为分布式计算系统。在加入TalkingData之前,历任IBM CDL资深架构师,Oracle亚太区首席中间件技术顾问,BEA亚太区首席中间件技术顾问等职务。参与一系列跨国以及大型的国内的中间件、BI等项目。

主题:流式大数据和即时交互式分析技术

内容简介:大数据技术逐渐变成企业的标配,漫长的等待数据分析结果已经不合时宜,延迟更低的流式大数据处理技术,即时分析变得越来越重要。在本论坛将给大家带来行业中领先的流式大数据,即时交互式分析技术的相关分享。

返回

演讲嘉宾:陈丰

苏宁易购IT总部

大数据平台高级技术经理

负责苏宁易购集团大数据流计算平台建设,包括Storm、SparkStreaming、Flink等组件,经历了流计算从组件化到平台服务化到智能化的发展过程。对大数据开源框架有较为丰富的经验,在分布式计算架构设计和系统优化方面有自己的思考和领悟。

主题:流计算在苏宁的前世今生

1. 流计算平台的发展历程

2014年到现在4年多的发展历程,经历storm->spark streaming->flink的转变,目前在转变中。

规模:storm(4000~虚机节点),flink&spark streaming(200+物理节点,on yarn模式),各引擎发展过程中的问题及解决;

2. storm及spark streaming的缺点&我们为什么选择flink?

(1)兼顾吞吐量和延时

(2)高效的状态管理

(3)Exactly-Once的保证

(4)Event-Time

3. 关于flink,我们做了哪些工作?

(1)平台层功能丰富:sql语法丰富(distinct,流表join),算子自动扩缩容,connector(mysql, hbase,kafka1.0),sink降速

(2)工具层:统一日志收集及展示、统一监控管理平台(平台层&业务层)

(3)服务层:Dlink 一站式开发平台。

4. 未来展望

数据集成 && 机器学习 && CEP 等

演讲嘉宾:黄祥为

网易资深数据研发工程师

从事大数据研发工作七年,现负责网易严选流计算平台、数据交换平台和机器学习平台的建设。对分布式调度、内存计算和流计算的理论和实现有一定的研究,对相关开源框架(Flink、spark)有丰富的研发经验。

主题:基于Flink的严选流计算平台架构与应用实践

流计算技术因其对事件的快速响应而极具吸引力,在电商平台中已成为一项不可或缺的技术。

随着近几年开源流计算框架的快速发展和易用性、可靠性的不断改善,使其在生产环境大范围使用变得简单。在严选,流计算平台经历了从无到有近两年的发展,很大程度上提高了数据产出和辅助决策效率。

目前平台已在公司内部被广泛使用,如监控、实时数仓、风控等业务。本次分享将介绍严选流计算平台的架构实现以及在严选多个业务线中的实践经验。

演讲嘉宾:王成光

中东新媒体首席架构师,硕士毕业10年,曾先后在百丽电商优购、搜狐、网易、一点资讯任职架构师、技术专家等职位,一直从事搜索、数据挖掘和个性化推荐的设计、研发工作,曾多次从零构建完整的搜索和推荐系统,曾开源轻量级分布式实时计算框架light_drtc,并于2016年出版《分布式实时计算框架原理及实践案例》

主题:流式计算在内容资讯推荐服务的应用

流式计算一直是近年来赤手可热的专业技术话题,内容资讯也是互联网发展近20年来一致持续受资本青睐的创业方向,本期内容主要是向大家介绍流式计算在内容资讯推荐方面的应用,给大家介绍当前主流资讯推荐服务流程,介绍其中用户画像的实时更新,这个也正是流式计算的典型应用。

听众收益点:

1). 了解内容资讯推荐服务流程

2). 了解用户画像

3)了解用户画像实时更新流程

演讲嘉宾:谢长生

武汉光电国家研究中心 教授 (特邀嘉宾)

武汉光电国家研究中心教授。历任信息存储系统教育部重点实验室主任,武汉光电国家实验室副主任。长期从事信息存储理论与技术的研究与教学,承担了包括国家自然科学重点基金、国家重大基础研究(973)项目、国家高技术发展计划(863)项目等在内的国家级研究项目,所开发的技术向工业界转移,成为中国企业自主创新产品的核心技术。发表学术论文200余篇,拥有50余项国家专利,曾获得过国际发明金奖和国家发明奖。并为计算机存储领域培养了大批博士和硕士生,其中很多人成为国际、国内著名企业的核心技术骨干以及海内外知名大学的教授、副教授。

主题:磁光电融合大数据长效存储

大数据的“大”(Big)是热点,但大数据寿命的“长”(Long)却被人们忽略。目前的闪存及硬盘等主流存储介质及设备平均寿命仅在5年左右,而与人相关的信息的保存时间则需要至少与人的寿命一样长,互联网之父Cerf担忧信息随时间的增长而丢失将使未来的人们无法了解现在人类产生的信息而进入数字黑暗时代,信息的长期保存和再现是摆在我们面前的重大挑战性问题。

光存储具有最长的保存时间,但容量和速度是其短版。近年来光学衍射极限的突破及多维度光存储的重大进展使人们看到了新的希望,可以期盼具有超长存储时间又容量巨大的新型存储设备的出现。

本讲演将分析长效存储的关键因素,从物理长效和协议长效两方面提出待解决的重大问题。介绍光存储超长期存储的最新进展,并介绍用磁光电融合技术解决长效存储在寿命、性能、成本等方面遇到的综合问题。最后还介绍了利用生物系统新陈代谢原理构建超长寿命存储系统的新思路。

返回