职位描述
岗位描述:
1. 负责分布式网络爬虫系统的架构设计与开发;
2. 负责爬虫核心算法的策略优化研发,优化搜索、匹配、任务调度、抓取,充分利用资源,提升程序性能及效率;
3. 研发防屏蔽规则,避免限制,提升抓取的效率和质量;
4. 能独立解决实际开发过程碰到的各类问题,进行技术分享与培训;
任职要求:
1. 3年以上垂直搜索爬虫,分布式网络爬虫开发经验,至少独立负责过1个完整爬虫项目;
2. 至少精通一门编程语言(Python或Java等);
3. 熟悉爬虫相关技术,正则表达式/css path/xpath/验证码加密处理/身份限制/代理池等,能够从结构化的和非结构化的数据中获取信息;
4. 精通一种开源爬虫框架,如scrapy、webmagic、nutch、heritrix等,有开发爬虫框架经验优先;熟悉反爬虫、验证码识别技术者优先;
5. 抓取策略熟悉(深度优先遍历策略/宽度优先遍历策略/反向链接数策略/Partial PageRank策略/OPIC策略策略/大站优先策略等);
6. 善于总结,积极主动学习新技术,热爱爬虫工作,直面困难敢于承担责任,有较强的沟通的能力和理解能力,有较强的抗压能力。
企业介绍
PatSnap is a disruptive market leading provider of intellectual property
analytics, for analysing technology trends, accelerating innovation, market
planning, competitor intelligence and maximising returns on existing and new
IP assets. It is used by over 3000 organisations globally including Nasa, GE,
Lego, Vodafone, Ferrari, Siemens, Xiaomi and China Mobile. The company is
backed by world class venture capital firms such as Sequoia, Summit
Partners, Shunwei and Vertex Ventures. With an impressive revenue growth
rate of 1078% from 2014 to 2016, PatSnap was ranked 44 on “Deloitte
Technology Fast 500”.
智慧芽是一家全球领先的知识产权信息服务(SaaS)提供商,基于专利大数据,
帮助分客户析和了解最新技术发展趋势并加速创新、获取竞争对手情报、科学
进行市场布局以及实现知识产权价值最大化,提高企业核心竞争力。目前全球
已有超过3000 多机构和企业成为智慧芽的客户,如美国宇航局、通用、乐高、
沃达丰、法拉利、西门子、小米、中国移动等。智慧芽得到了包括红杉、顶峰
投资、顺为、淡马锡祥峰基金等世界顶级风险投资机构的青睐和投资。2014~
2016 年,智慧芽的营业收入以超过1078%的增长率快速发展,被评为德勤亚太
区高科技高成长500 强企业,并获得第44 位的优质排名。