基础介绍
接口文档
简历解析 简历画像 人岗匹配 职位解析 职位语义相似度 简历评估 人才推荐 人才搜索 简历查重

更新日志

v4.1.0 - 2024/02/18

  • 新增简历画像功能模块;
  • 新增职位解析功能模块;
  • 证书及奖项提取优化:词典优化,并增加cert_type字段,以区分证书和奖项;
  • 工作经历优化:被错误切分的问题优化;
  • 文件解析优化
    • 51job水印的过滤策略优化;
    • eml格式提取问题处理;
    • 优化图片处理速度并放宽大小限制;

v4.0.0 - 2023/11/23

  • 基础依赖软件大版本升级,解析效率提升30%;
  • 工作经历优化:分段识别策略优化 & job_location识别优化;
  • 字段提取优化
    • 新增字段:gender_infer(性别预测);
    • 新增字段:age_infer(年龄预测);
    • 电话:优化部分外国电话格式识别;
  • 文件解析优化
    • 几个水印去除逻辑的优化;
    • 长行截断问题的处理;
    • 自定义OCR接口升级;

v3.9.0 - 2023/09/04

  • 中英混合识别优化:提升51job模板及部分其他场景下的识别;
  • 姓名优化:增加对特殊排版下姓名的召回;
  • 部分字段提取优化
    • 期望薪资:增加对新型格式的提取;
    • 工作描述:对内容格式的清洗;
    • 工作年限:提升对无工作年限情况下的识别;
  • 文件解析优化
    • 图文混排类问题的优化;
    • 多栏布局的识别优化;
    • 特殊条件下高并发问题bugfix;

v3.8.0 - 2023/06/04

  • 基本信息优化:增加血型、星座字段,优化应聘职位字段的提取;
  • 工作经历优化:token识别优化;
  • 性能优化
    • 分词性能优化,提升10%左右;
    • cache策略机制优化;
  • 文件解析优化
    • 51job、智联文本提取优化;
    • 表格中模块名识别优化;

v3.7.0 - 2023/03/26

  • 基本信息优化:提升对生日等字段的召回;
  • 期望工作优化:优化对多值问题的处理;
  • 更新百万量级词典,优化对实体的识别;
  • 文件解析优化
    • 猎聘/BOSS特殊模板问题处理;
    • 增加对阿里云OCR问题的处理;
    • 增加cache机制,提升OCR处理效率;

v3.6.0 - 2023/01/28

  • 姓名识别优化:识别模型更新及部分策略优化;
  • 增加对繁体中文的支持;
  • 英文简历里中文公司名的处理;
  • 文件解析优化
    • 各种水印去除逻辑的优化;
    • PDF中缺失空格问题的处理;

v3.5.0 - 2022/11/04

  • 增加新字段:科研实践;
  • 头像识别优化:部分头像丢失字节问题修复;
  • 文件解析优化:部分BOSS直聘pdf空结果处理优化;
  • 区块识别优化
    • 重构基础流程代码,提升一定效率;
    • 梳理并优化部分逻辑策略;
    • 基于更大标注数据优化识别模型;

v3.4.0 - 2022/09/01

  • 增加新字段:教育描述、应聘职位、应聘公司;
  • 提供对自定义OCR服务接口的支持;
  • 文件解析优化
    • 51job/58同城特殊简历问题处理优化;
    • 部分水印问题处理优化;
    • 部分图片布局识别优化;
  • SaaS接口提供https支持;

v3.3.0 - 2022/06/18

  • 工作经历优化:基于新算法策略优化识别效果,对某类简历有较大提升;
  • 请求接口优化:增加file_url的请求方式;
  • 51job特殊简历问题处理;
  • 增加对特殊形式姓名的支持;

v3.2.0 - 2022/04/02

  • 项目经历解析优化
    • 项目名称部分丢失问题处理;
    • 项目名识别模型更新;
    • 项目经验区块识别优化;
  • 姓名解析优化:增加对部分常见歧义人名的召回;
  • 文件解析优化:部分水印问题处理及解析为空问题的处理;
  • 公司识别优化:词典及模型更新,并增加对“某”类名称的识别;

v3.1.0 - 2022/02/09

  • 增加对特殊形式姓名的支持,特殊情况下提升10%的召回;
  • 增加对当前工作状态的召回(+30%);
  • 增加对工作地点的召回(+40%);
  • 关键依赖包的升级

v3.0.0 - 2021/12/02

  • 文件解析优化
    • 猎聘水印处理优化;
    • 领英模板解析优化;
    • ocr超时设置优化;
  • 修复部分学校类型和排名错误的bug;
  • 头像识别优化,增加5%的召回;
  • 期望职位模块解析优化;

v2.9.0 - 2021/09/06

  • 文件解析优化
    • 高并发下部分为空bugfix;
    • PDF布局识别优化;
    • 异常空格字符的过滤处理;
  • 增加对虚拟电话号码的支持;

v2.8.0 - 2021/05/30

  • 工作经历优化
    • 增加职能类型字段(用户填写及算法预测);
    • 进行两版filter逻辑优化;
  • 文件解析优化
    • txt/html等格式解析速度提升40%;
    • 部分模板水印/底纹信息的处理;
  • 项目名称提取bugfix;
  • 部分依赖包升级至最新版;

v2.7.0 - 2021/03/18

  • 增加all_cert_objs字段:对各种证书名称进行提取;
  • 文件解析优化
    • 对部分解析为空的PDF简历进行识别和提取;
    • 对BOSS直聘异常简历进行优化和处理;
    • 对全能扫描王的简历进行识别和处理;
  • 对部分模块识别问题进行优化;
  • 行业词典的更新;

v2.6.0 - 2021/01/14

  • 基于模型优化对区块的识别,提升约5%的准确率;
  • 项目经历中公司名称识别bugfix;
  • 高并发条件下部分简历解析为空bugfix;

v2.5.0 - 2020/11/08

  • 图片简历解析优化
    • 增加对高级版OCR的支持,让图片解析的效果有较大提升;
    • 增加对TIF/GIF图片格式的支持;
    • 更新对应的请求接口,增加ocr_type字段;
  • 英文工作经历解析优化,提升约10%准确率;
  • 中文人名识别优化,减少50%左右的误识别率;
  • 针对部分大文件简历,优化解析性能;

v2.4.0 - 2020/10/12

  • 新增对社会及学校实践经历的解析
    • 实践经历的识别和解析;
    • 增加对非实体的活动名称的识别和处理;
    • 更新对应的请求接口,增加need_social_exp字段;
  • 接口更新-新增v1版本,支持对所有字段的返回;
  • 英文解析-更新英文城市名单(1000+);
  • 人岗匹配-更新人岗查询的接口,并优化内部处理逻辑;

v2.3.0 - 2020/08/25

  • 文件解析优化
    • doc文件部分textbox问题处理;
    • unicode特殊文字识别与替换;
  • 工作经历-带括号的token识别优化;
  • 项目经历-对齐逻辑优化处理;
  • 人名识别-特殊符号识别过滤;
  • 词典优化-部分实体的增删改;
  • 其他-输入参数file_name强制带上后缀名;

v2.2.0 - 2020/06/06

  • 工作经历优化v3.0
    • 流程重写,考虑更多feature,效果更强大;
    • 过滤逻辑优化,提升准确率;
    • 实体格式化,结果更规范;
  • 邮件解析v0.1
    • 新增邮件解析接口;
  • 其他关键优化点
    • 独立学院的处理;
    • 多个项目经历的识别和分析;
    • 部分pdf解析为空问题的处理;

v2.1.3 - 2020/04/21

  • 关键字段优化
    • 姓名解析优化v3.0;
    • 工作经历下错误分段优化;
    • 项目经历下职位识别bugfix;
  • 文件解析和提取优化
    • eml特殊格式处理;
    • 部分网站格式优化;
    • concat逻辑优化;

v2.1.2 - 2020/03/23

  • 词典优化
    • 行业词典整理;
    • 公司词典:+100%,达千万级;
    • 学校词典:+40%;
  • 实体识别优化
    • 项目名称识别bugfix;
    • 公司名称识别bugfix;
    • 并列职位名称识别;
  • 英文简历解析优化
    • 姓名识别优化:增加对港澳台姓氏的支持;
    • 分段识别优化;

v2.1.1 - 2020/03/01

  • 基本信息优化
    • 姓名识别优化:线下准确率从96%提升至98%左右;
    • 电话号码识别,增加对港澳台及国际电话号码格式的支持;
  • 附件解析优化
    • 解决PDF格式unicode字符规范化问题;
  • 英文简历解析优化
    • 日期识别增加召回规则,提升10%左右;
    • 工作经历识别优化,加入深度学习模型的支持;

v2.1.0 - 2020/02/01

  • 接口优化
    • 分段内容保留原始大小写格式信息;
    • 返回代码规范化;
  • 附件解析优化
    • 提升对PDF特殊排版模式的判别,解决乱序问题;
    • 头像提取bugfix;
  • 英文简历解析优化
    • 英文人名识别优化,大约提升10%准确率;
    • 教育经历解析优化,提升学校识别和分段识别的效果;

v2.0.1 - 2019/09/01

  • 词典数据优化
    • 对公司、职位等词典进行清洗(万级)
    • 补充常见的公司名和学校名(千级);
  • 识别模型优化
    • 使用深度学习新模型重新训练识别模型,线下评估准确率从95%提升至98%;

v2.0.0.1 - 2019/06/01

  • 头像识别优化
    • 采用新算法进行识别,准确率从80%+提升至90%+左右;
  • 基础组件升级
    • ft版本从0.8.1升级至0.8.3;
  • 过滤误识别的教育经历;

v2.0.0 - 2019/03/01

  • 增加10多个新解析字段,让解析结果更细化、更规范化,比如对城市、地点的规范化。增加的字段包括:
    • resume_name
    • resume_parse_time
    • work_industry
    • work_year_inf
    • work_start_time_inf
    • work_salary_min
    • work_salary_max
    • ...
  • 优化取值
    • 优化resume_source(简历来源)的取值范围;
    • 优化简历头像的取值;
  • 人岗匹配功能上线;(人岗匹配相关套餐才包含该功能)

v1.6.2 - 2019/01/01

  • 增加招聘网站规则模板适配,提取更加精准;
  • 项目名称识别模型重新训练,校正对公司名/职位名的误识别问题;
  • 基础组件升级
    • gs版本从v2.1升级到v3.4;
    • 采用更好的分词器版本,性能提升25%左右;

v1.6.1 - 2018/11/01

  • 基本信息优化
    • 姓名识别优化:去除常见的城市名误识别;
    • 增加对基本信息里期望公司字段的识别;
  • 词典优化
    • 职位词典:增加千级常见职位名称;
  • 分组识别优化
    • 增加新的分组模板;
  • 基础组件升级
    • gs版本从v2.1升级到v3.4;
    • 采用更好的分词器版本,性能提升25%左右;

v1.6.0 - 2018/08/01

  • 基本信息识别优化
    • 姓名解析模型:利用千万量级的语料重新训练,准确率提升2个点;
    • 电话号码识别:新前缀的加入,同时增加对台湾区号的识别;
  • 分组识别优化
    • 教育经历增加predict功能,提升准确;
    • 项目经历采用实体+位置的联合识别策略,准确率提升30%;

v1.5.1 - 2018/04/01

  • 性能优化(速度提升40%)
    • 各类实体识别增加cache功能;
    • log日志增加级别控制机制;
    • 增加对超长标点字符串的识别和过滤;

v1.5.0 - 2017/12/01

  • 英文解析优化
    • 增加对新分组模板的识别;
    • 增加对项目经验的解析;
  • 英文解析优化
    • 修复高并发下解析串写的bug;
    • 提升某些异常简历的解析准确率;

v... - ......

v0.1.0 - 2014/07/01

  • 简历解析项目启动开发