转行大数据了,先用数据看看战场

分析目标:为了从多角度描述大数据岗位就业现状,拟从以下几个方面着手分析:

  • 大数据岗位画像,包括岗位类型分布,公司分布、区域分布、招聘学历要求、工作经验要求、薪资分布
  • 主要技术栈,主要是利用招聘岗位标签信息,分析大数据岗位招聘技能需求,并对头部企业进行细分
  • 影响薪资因素,包括分析各区域、各公司、各岗位类型以及各技能对应的薪资分布情况
  • 薪酬福利情况,简单分析大数据岗位整体福利词云

注:因样本数据随机性以及分析结果主观性,本文所属观点结论仅供参考!

01 数据获取及清洗

Garbage in,garbage out!

选取某直聘平台,按照目标岗位设置搜索条件,可以直接访问10页数据,以此为目标,分别爬取各招聘记录的如下信息,且各字段信息直接从查询首页即可完整获取,无需分别访问各岗位详情页:

这里直接爬取的字段相对较为整齐,多数字段均无需清洗处理,但为了后续分析需要,这里做以下4步处理:

  • 过滤实习生招聘记录,即通过薪酬范围字段按天计算的记录,抓取记录中共2条;
  • 将招聘公司统一为集团公司名称,主要是阿里巴巴包括“阿里巴巴集团”、“阿里云”以及“阿里健康”等不同描述;网易包括“网易游戏”和“网易杭州”等子公司名称;海康威视包括“杭州海康威视”和“海康威视武汉研发中心”两个别称。处理过程中统一将这些同一公司的不同名称描述进行统一;
  • 薪酬提取,不失一般性,将给定薪酬范围上下限间的1/3分位数作为岗位薪酬,例如标定20-35K的薪酬范围,最终按25K参与分析,实现薪酬字段的标签向数值转换;
  • 岗位类型划分:主要依据岗位title关键词情况,区分开发(关键词:开发、研发)、算法(关键词:算法、挖掘、分析)、架构师(关键词:架构)、产品(关键词:产品)以及其他,共5种岗位类型。这一定程
【声明】:芜湖站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

相关文章