更新日志

v3.5.0 - 2022/11/04

  • 增加新字段:科研实践;
  • 头像识别优化:部分头像丢失字节问题修复;
  • 文件解析优化:部分BOSS直聘pdf空结果处理优化;
  • 区块识别优化
    • 重构基础流程代码,提升一定效率;
    • 梳理并优化部分逻辑策略;
    • 基于更大标注数据优化识别模型;

v3.4.0 - 2022/09/01

  • 增加新字段:教育描述、应聘职位、应聘公司;
  • 提供对自定义OCR服务接口的支持;
  • 文件解析优化
    • 51job/58同城特殊简历问题处理优化;
    • 部分水印问题处理优化;
    • 部分图片布局识别优化;
  • SaaS接口提供https支持;

v3.3.0 - 2022/06/18

  • 工作经历优化:基于新算法策略优化识别效果,对某类简历有较大提升;
  • 请求接口优化:增加file_url的请求方式;
  • 51job特殊简历问题处理;
  • 增加对特殊形式姓名的支持;

v3.2.0 - 2022/04/02

  • 项目经历解析优化
    • 项目名称部分丢失问题处理;
    • 项目名识别模型更新;
    • 项目经验区块识别优化;
  • 姓名解析优化:增加对部分常见歧义人名的召回;
  • 文件解析优化:部分水印问题处理及解析为空问题的处理;
  • 公司识别优化:词典及模型更新,并增加对“某”类名称的识别;

v3.1.0 - 2022/02/09

  • 增加对特殊形式姓名的支持,特殊情况下提升10%的召回;
  • 增加对当前工作状态的召回(+30%);
  • 增加对工作地点的召回(+40%);
  • 关键依赖包的升级

v3.0.0 - 2021/12/02

  • 文件解析优化
    • 猎聘水印处理优化;
    • 领英模板解析优化;
    • ocr超时设置优化;
  • 修复部分学校类型和排名错误的bug;
  • 头像识别优化,增加5%的召回;
  • 期望职位模块解析优化;

v2.9.0 - 2021/09/06

  • 文件解析优化
    • 高并发下部分为空bugfix;
    • PDF布局识别优化;
    • 异常空格字符的过滤处理;
  • 增加对虚拟电话号码的支持;

v2.8.0 - 2021/05/30

  • 工作经历优化
    • 增加职能类型字段(用户填写及算法预测);
    • 进行两版filter逻辑优化;
  • 文件解析优化
    • txt/html等格式解析速度提升40%;
    • 部分模板水印/底纹信息的处理;
  • 项目名称提取bugfix;
  • 部分依赖包升级至最新版;

v2.7.0 - 2021/03/18

  • 增加all_cert_objs字段:对各种证书名称进行提取;
  • 文件解析优化
    • 对部分解析为空的PDF简历进行识别和提取;
    • 对BOSS直聘异常简历进行优化和处理;
    • 对全能扫描王的简历进行识别和处理;
  • 对部分模块识别问题进行优化;
  • 行业词典的更新;

v2.6.0 - 2021/01/14

  • 基于模型优化对区块的识别,提升约5%的准确率;
  • 项目经历中公司名称识别bugfix;
  • 高并发条件下部分简历解析为空bugfix;

v2.5.0 - 2020/11/08

  • 图片简历解析优化
    • 增加对高级版OCR的支持,让图片解析的效果有较大提升;
    • 增加对TIF/GIF图片格式的支持;
    • 更新对应的请求接口,增加ocr_type字段;
  • 英文工作经历解析优化,提升约10%准确率;
  • 中文人名识别优化,减少50%左右的误识别率;
  • 针对部分大文件简历,优化解析性能;

v2.4.0 - 2020/10/12

  • 新增对社会及学校实践经历的解析
    • 实践经历的识别和解析;
    • 增加对非实体的活动名称的识别和处理;
    • 更新对应的请求接口,增加need_social_exp字段;
  • 接口更新-新增v1版本,支持对所有字段的返回;
  • 英文解析-更新英文城市名单(1000+);
  • 人岗匹配-更新人岗查询的接口,并优化内部处理逻辑;

v2.3.0 - 2020/08/25

  • 文件解析优化
    • doc文件部分textbox问题处理;
    • unicode特殊文字识别与替换;
  • 工作经历-带括号的token识别优化;
  • 项目经历-对齐逻辑优化处理;
  • 人名识别-特殊符号识别过滤;
  • 词典优化-部分实体的增删改;
  • 其他-输入参数file_name强制带上后缀名;

v2.2.0 - 2020/06/06

  • 工作经历优化v3.0
    • 流程重写,考虑更多feature,效果更强大;
    • 过滤逻辑优化,提升准确率;
    • 实体格式化,结果更规范;
  • 邮件解析v0.1
    • 新增邮件解析接口;
  • 其他关键优化点
    • 独立学院的处理;
    • 多个项目经历的识别和分析;
    • 部分pdf解析为空问题的处理;

v2.1.3 - 2020/04/21

  • 关键字段优化
    • 姓名解析优化v3.0;
    • 工作经历下错误分段优化;
    • 项目经历下职位识别bugfix;
  • 文件解析和提取优化
    • eml特殊格式处理;
    • 部分网站格式优化;
    • concat逻辑优化;

v2.1.2 - 2020/03/23

  • 词典优化
    • 行业词典整理;
    • 公司词典:+100%,达千万级;
    • 学校词典:+40%;
  • 实体识别优化
    • 项目名称识别bugfix;
    • 公司名称识别bugfix;
    • 并列职位名称识别;
  • 英文简历解析优化
    • 姓名识别优化:增加对港澳台姓氏的支持;
    • 分段识别优化;

v2.1.1 - 2020/03/01

  • 基本信息优化
    • 姓名识别优化:线下准确率从96%提升至98%左右;
    • 电话号码识别,增加对港澳台及国际电话号码格式的支持;
  • 附件解析优化
    • 解决PDF格式unicode字符规范化问题;
  • 英文简历解析优化
    • 日期识别增加召回规则,提升10%左右;
    • 工作经历识别优化,加入深度学习模型的支持;

v2.1.0 - 2020/02/01

  • 接口优化
    • 分段内容保留原始大小写格式信息;
    • 返回代码规范化;
  • 附件解析优化
    • 提升对PDF特殊排版模式的判别,解决乱序问题;
    • 头像提取bugfix;
  • 英文简历解析优化
    • 英文人名识别优化,大约提升10%准确率;
    • 教育经历解析优化,提升学校识别和分段识别的效果;

v2.0.1 - 2019/09/01

  • 词典数据优化
    • 对公司、职位等词典进行清洗(万级)
    • 补充常见的公司名和学校名(千级);
  • 识别模型优化
    • 使用深度学习新模型重新训练识别模型,线下评估准确率从95%提升至98%;

v2.0.0.1 - 2019/06/01

  • 头像识别优化
    • 采用新算法进行识别,准确率从80%+提升至90%+左右;
  • 基础组件升级
    • ft版本从0.8.1升级至0.8.3;
  • 过滤误识别的教育经历;

v2.0.0 - 2019/03/01

  • 增加10多个新解析字段,让解析结果更细化、更规范化,比如对城市、地点的规范化。增加的字段包括:
    • resume_name
    • resume_parse_time
    • work_industry
    • work_year_inf
    • work_start_time_inf
    • work_salary_min
    • work_salary_max
    • ...
  • 优化取值
    • 优化resume_source(简历来源)的取值范围;
    • 优化简历头像的取值;
  • 人岗匹配功能上线;(人岗匹配相关套餐才包含该功能)

v1.6.2 - 2019/01/01

  • 增加招聘网站规则模板适配,提取更加精准;
  • 项目名称识别模型重新训练,校正对公司名/职位名的误识别问题;
  • 基础组件升级
    • gs版本从v2.1升级到v3.4;
    • 采用更好的分词器版本,性能提升25%左右;

v1.6.1 - 2018/11/01

  • 基本信息优化
    • 姓名识别优化:去除常见的城市名误识别;
    • 增加对基本信息里期望公司字段的识别;
  • 词典优化
    • 职位词典:增加千级常见职位名称;
  • 分组识别优化
    • 增加新的分组模板;
  • 基础组件升级
    • gs版本从v2.1升级到v3.4;
    • 采用更好的分词器版本,性能提升25%左右;

v1.6.0 - 2018/08/01

  • 基本信息识别优化
    • 姓名解析模型:利用千万量级的语料重新训练,准确率提升2个点;
    • 电话号码识别:新前缀的加入,同时增加对台湾区号的识别;
  • 分组识别优化
    • 教育经历增加predict功能,提升准确;
    • 项目经历采用实体+位置的联合识别策略,准确率提升30%;

v1.5.1 - 2018/04/01

  • 性能优化(速度提升40%)
    • 各类实体识别增加cache功能;
    • log日志增加级别控制机制;
    • 增加对超长标点字符串的识别和过滤;

v1.5.0 - 2017/12/01

  • 英文解析优化
    • 增加对新分组模板的识别;
    • 增加对项目经验的解析;
  • 英文解析优化
    • 修复高并发下解析串写的bug;
    • 提升某些异常简历的解析准确率;

v... - ......

v0.1.0 - 2014/07/01

  • 简历解析项目启动开发