职位描述
岗位职责:
1、对百度CDN PB级别数据进行离线、实时处理;
2、基于Hadoop、Spark、Storm设计并实现大规模机器学习算法;
3、参与大规模数据服务平台架构的系统设计、实现和调优;
任职资格:
1、较好的数学基础和算法基础;
2、熟练掌握一门以上编程语言(Java/Python/Scala/C&C++),熟悉Linux开发环境;
3、熟悉主流分布式处理框架——Hadoop、HBase、hive、Kafka等,掌握MapReduce、Storm或者Spark编程。
4、熟悉机器学习的基本理论,了解常见机器学习算法;
5、熟悉分布式开发环境,熟悉多线程及并发技术,熟悉网络编程
6、有较强的分析和解决问题的能力;
7、有持续学习新知识的能力和意愿,善于沟通和逻辑表达,优秀的团队合作意识,积极主动。
企业介绍
百度,全球最大的中文搜索引擎、最大的中文网站。2000年1月创立于北京中关村。
百度拥有数千名研发工程师,这是中国乃至全球最为优秀的技术团队,这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。
从创立之初,百度便将“让人们最便捷地获取信息,找到所求”作为自己的使命,成立以来,公司秉承“以用户为导向”的理念,不断坚持技术创新,致力于为用户提供“简单,可依赖”的互联网搜索产品及服务,其中包括:以网络搜索为主的功能性搜索,以贴吧为主的社区搜索,针对各区域、行业所需的垂直搜索,Mp3搜索,以及门户频道、IM等,全面覆盖了中文网络世界所有的搜索需求,根据第三方权威数据,百度在中国的搜索份额超过80%。