核心技术简介
孟子预训练模型是基于团队自研技术研发的大规模预训练语言模型。可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,能快速满足不同领域、不同应用场景的需求。孟子模型基于 Transformer 架构,仅包含十亿参数量,基于数百 G 级别涵盖互联网网页、社区、新闻、电子商务、金融等领域的高质量语料训练。
核心技术简介
孟子预训练模型是基于团队自研技术研发的大规模预训练语言模型。可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,能快速满足不同领域、不同应用场景的需求。孟子模型基于 Transformer 架构,仅包含十亿参数量,基于数百 G 级别涵盖互联网网页、社区、新闻、电子商务、金融等领域的高质量语料训练。
支持多种模型架构
轻量模型性能强化
基于知识图谱增强
基于语言学知识增强
小样本/零样本学习
基于检索增强
在金融知识图谱搭建、研报脱水、公告抽取等多个任务上获得了超过常规模型的表现
支持 BERT、GPT、T5 等架构,能够覆盖文本理解、文本生成等不同场景
支持图文双模态输入,能够更好地处理图文相关任务
支持对垂直领域进行快速定向优化,支持从 10M 到 1B 不同规模
*排名截至2021年7月30日
排名 | 1 | 2 | 3 | |
---|---|---|---|---|
模型 | 孟子 | Motian | BETRTSG | 人类水平 |
规模 | 十亿 | 十亿 | 百亿 | |
总分 | 82.90 | 82.15 | 81.80 | 86.68 |
AFQMC | 79.82 | 78.30 | 79.85 | 81.00 |
TNEWS | 64.68 | 57.42 | 57.42 | 71.00 |
IFLYTEK | 65.08 | 65.46 | 64.54 | 80.30 |
OCNLI | 81.87 | 84.97 | 85.93 | 90.30 |
WSC2020 | 96.55 | 94.83 | 95.17 | 98.00 |
CSL | 89.87 | 90.17 | 89.00 | 84.00 |
CMRC2018 | 82.25 | 85.30 | 83.80 | 92.40 |
CHID | 96.00 | 94.43 | 93.06 | 87.10 |
C3 | 89.98 | 88.49 | 87.44 | 96.00 |
排名 | 模型 | 规模 | 总分 | AFQMC | TNEWS | IFLYTEK | OCNLI | WSC2020 | CSL | CMRC2018 | CHID | C3 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 孟子 | 十亿 | 82.90 | 79.82 | 64.68 | 65.08 | 81.87 | 96.55 | 89.87 | 82.25 | 96.00 | 89.98 |
2 | Motian | 十亿 | 82.15 | 78.30 | 57.42 | 65.46 | 84.97 | 94.83 | 90.17 | 85.30 | 94.43 | 88.49 |
3 | BETRTSG | 百亿 | 81.80 | 79.85 | 57.42 | 64.54 | 85.93 | 95.17 | 89.00 | 83.80 | 93.06 | 87.44 |
人类水平 | 86.68 | 81.00 | 71.00 | 80.30 | 90.30 | 98.00 | 84.00 | 92.40 | 87.10 | 96.00 |