功能介绍
三大功能
支持金融行业常见信息抽取任务
支持在新闻、公告、研报等不同文体中进行信息抽取。对姓名、公司名、时间等常见字段进行了专门优化。
零门槛定制信息抽取模型
无需 NLP 专业知识和大量标注数据,仅通过调整提示语即可在线定制多字段信息抽取模型。快速响应业务场景复杂多变的需求。
一键发布 API、轻松对接现有系统
在线可预览抽取效果,一键发布为 API 供已有业务平台调用。无缝对接低代码、RPA、聊天机器人等场景。
应用场景和痛点
金融行业信息抽取场景多、业务需求变化快。用纯规则方法做信息抽取应对变化能力较差。大部分场景缺少标注数据,难以进行模型训练。
纯规则抽取难以应对多变的表达
语言文字的描述方式变化多样,只用规则无法理解语义和上下文,难以获得更好的信息抽取效果。
算法模型定制项目实施周期漫长
算法模型标准化程度较低,好的效果往往需要深度定制。从立项、招标到业务上线投入巨大且过程漫长,难以快速响应业务需求。
缺少标注数据、模型训练“冷启动”难
深度定制算法模型不但需要大量数据标注,还涉及业务的高度配合和反馈。项目实施前期难以判断是否值得投入资源。
产品优势
产品优势
覆盖常见信息抽取场景、开箱即用
除了通用的姓名、公司名、时间等字段,还对金融领域常见的文档类型进行了针对性的优化,比如:罚款、诉讼、收购等公告和新闻事件。
基于零样本学习技术、标注需求低至零
基于孟子多任务学习技术,可以在完全没有标注数据的情况下也具有一定的抽取准确率。2022 年 8 月,在中文零样本学习权威榜单 ZeroCLUE、小样本学习权威榜单 FewCLUE 上均排名第一。
先冷启动再升级、项目投入风险低
可以先通过自定义信息抽取模型 API 快速冷启动建立基准效果,清晰定义输入输出。再对效果不及预期的环节加大投入进行针对性优化,有效降低项目风险。
2022 年 8 月 22 日排名
排名 | 模型 | 研究机构 | Score | EPRSTMT | CSLDCP | TNEWSE | IFLYTEKE | OCNLIE | BUSTM | CHIDE | CSLE | CLUEWSCE |
---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | Mengzi-T5-MT | 澜舟科技 | 68.926 | 86.99 | 55.19 | 74.73 | 22.42 | 74.69 | 77.6 | 85.1 | 84.17 | 65.17 |
2 | GPT-MoF | 阿里云机器学习平台PAI | 67.458 | 84.2 | 60.29 | 57.73 | 51.31 | 67.59 | 63.9 | 88.2 | 56.53 | 67.59 |
3 | 二郎神-MRC | IDEA研究院 | 63.515 | 86.19 | 48.65 | 69.47 | 36.08 | 45.59 | 74.05 | 84.65 | 53.53 | 79.31 |
2022 年 8 月 22 日排名
排名 | 模型 | 研究机构 | Score | EPRSTMT | CSLDCP | TNEWSE | IFLYTEKE | OCNLIE | BUSTM | CHIDE | CSLE | CLUEWSCE |
---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | Mengzi-T5-MT | 澜舟科技 | 76.612 | 88.18 | 63.15 | 78.73 | 51.54 | 74.75 | 78.85 | 85.25 | 84.2 | 86.9 |
2 | FSL++ | Meituan NLP | 76.458 | 88.45 | 68.42 | 75.53 | 54.27 | 77.76 | 80.3 | 83.35 | 79.73 | 79.31 |
3 | 玉言 | 网昜伏羲 | 76.306 | 88.45 | 70.92 | 71.87 | 53.12 | 70.23 | 78.75 | 78.15 | 82.83 | 87.93 |