职位描述:
1.负责采集任务的分析及采集方案设计;
2.负责公司医学数据库、外部医疗领域、医疗定向网站相关渠道的医学数据采集;
3.负责医学相关数据的采集、去重、清洗、分析、转换与入库;
4.配合数据分析师完成相关数据采集;
5.上级安排的数据采集相关工作。
任职资格:
1.两年java或python开发经验,熟悉常用的信息抓取策略;
2.熟悉信息抓取和整合技术,从结构化和非结构化的数据中获取信息;
3.熟悉Mongodb、HBase、HIVE等NoSQL数据库、Mysql数据库,了解关系型数据库优先;
4.熟悉大规模网页爬取,深度网页爬取,熟悉Nutch、Scrapy、Lucene、Heritrix、Solr、Sphinx、Pyspider等工具优先考虑;
5.理解http,熟悉html, DOM, xpath优先;
6.有责任心,学习能力强,良好的团队合作精神,对工作有热情;
7.本科以上学历,数学、统计学、计算机等相关专业。