首届Apache Hadoop技术社区中国Meetup举办

近日，在Apache Hadoop社区主导及邀请下，腾讯开源、腾讯大数据、腾讯云联合承办了Hadoop技术社区在中国的首次Meetup。围绕Hadoop技术实践，来自腾讯、Cloudera、京东、小米、阿里、滴滴、华为、字节跳动的多位嘉宾参与了分享讨论。

腾讯开源运营负责人王春雨表示：“中国企业的参与是开源生态建设不可或缺的一部分。腾讯作为国内开源的先行者，将持续投入社区协同合作，以开放的心态，推动更多开源社区之间的交流对话，助力技术生态发展。”

Hadoop是由Apache基金会所开发的分布式系统基础架构。自2006年诞生以来，Hadoop改变了企业对数据的存储、处理和分析的过程，形成了一个极其丰富的技术生态圈，并在经历了大数据技术高速发展之后，迎来了3.x的时代。

作为Apache Member, Hadoop PMC & Committer, Hadoop社区负责人之一，堵俊平于2011年开始持续关注Hadoop技术的进展，参与社区贡献，并积极推动 Hadoop技术在全球各地的落地推广。他同时也是腾讯TEG数据平台部海量存储与计算研发负责人、腾讯开源联盟主席、开源管理委员会委员。据介绍，腾讯是最早采用Hadoop技术的中国公司之一，这两年向社区贡献了大量patch和特性，包括HDFS稳定性增强、YARN增强型资源隔离方案、Ozone项目的新特性等，并作为国内首家企业率先在社区发布2.8.4与2.8.5 release。

堵俊平展示了大数据Hadoop技术与社区发展的Roadmap。包括存储平台（HDFS，Ozone）向大规模、云、容器化、机器学习等方向的演进路线以及近期的热点feature，包括RBF(Router Based Federation)，即基于路由机制的集群联邦方案来应对海量数据存储的增长，HDFS对外部对象存储的管理，OpenTracing机制的支持，以及Ozone的特性。据悉，Hadoop项目的近期发布计划将包括2.8.6, 3.1.3，3.2.1和3.3.0。

堵俊平表示，此次Meetup将是Hadoop社区交流的良好开端，腾讯将积极参与社区交流，贡献自己的技术实践，推动Hadoop技术生态发展。未来Apache Hadoop社区在中国的Meetup将沿用之前在硅谷的方式，即：由Hadoop PMC组织发起，志愿参与社区贡献的公司来自愿承办，开源贡献者共同参与并提交议题，活动向开源社区所有用户与贡献者免费开放。未来，Hadoop社区将在中国形成每季度举办一次中小型的Meetup的惯例，甚至开创新的形式，包括举办较大规模的HadoopCon。

腾讯大数据工程师、Apache Hadoop Committer & PMC member陈怡以Ozone为例，介绍了Hadoop原生对象存储服务的解决方案。

Ozone是由Hadoop社区新发起的一个强一致性分布式对象存储服务，旨在解决目前HDFS Namenode的扩展性上限问题。Ozone 拥有和HDFS一样的可靠性，一致性和可用性，支持Hadoop文件系统接口，无缝对接YARN，SPARK 和HIVE。支持S3接口，提供CNCF CSI驱动。Ozone不仅适用于on-premise大数据环境，同时也是大数据上云，云端存储的一个很好的选择。

陈怡在分享中介绍了Ozone的动机和目标，namespace管理和数据管理分离的构架，支持的对象存储的语义，对象读写流程，访问控制，用户可自定义的弹性网络拓扑结构，和Kubernetes集成的支持等等将要发布的0.5版本的新特性。

腾讯高级工程师、Hadoop YARN和Kubernetes社区活跃贡献者龚军、陈东东则介绍了腾讯大规模YARN集群实践。腾讯的Hadoop YARN集群在2014年就已经支持单集群8800台上的规模，每日调度上亿的container。龚军分享了优化调度器性能的一些基本思路和方法，包括改进热点代码的算法、降低时间复杂度、避免重复的查找与计算、减少锁竞争以及优化锁粒度等。通过这些调度性能优化，使YARN能满足大规模集群的吞吐量。

陈东东则主要介绍了如何使用cgroup对底层资源进行弹性控制，确保业务的请求资源可以得到保障，特别是对多资源纬度的管理，包括cpu、内存、网络io、磁盘io等，同时在有空闲资源的情况下，可以临时借用更多的资源，以此来提高底层资源利用率。

此外，Cloudera、京东、小米、阿里、滴滴、华为、字节跳动的多位嘉宾也参与了分享，分别围绕Hadoop在各大企业的大规模实践、HDFS的改进优化，YARN与机器学习和云原生结合，以及架构演进等话题进行了讨论。