孟子预训练语言模型

孟子预训练模型是基于团队自研技术研发的大规模预训练语言模型。可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,能快速满足不同领域、不同应用场景的需求。孟子模型基于Transformer架构,仅包含十亿参数量,基于数百G级别涵盖互联网网页、社区、新闻、电子商务、金融等领域的高质量语料训练。

发展历程

2021.1

启动预训练语言模型研发

2021.4

孟子通用预训练模型问世

2021.5

孟子营销文案生成模型商业试点落地

2021.6

孟子金融领域预训练语言模型投入使用

2021.7

孟子预训练模型在 CLUE 中文 NLP 权威排行榜战胜百亿、千亿参数规模级模型取得冠军

2021.10

澜舟科技开源孟子中文预训练系列模型

技术特点

支持多种模型架构

  • 自回归模型:如 GPT
  • 自编码模型:如 BERT
  • Encoder-Decoder 模型:T5

轻量模型性能强化

  • Prompts 模版构造
  • SMART 对抗训练
  • 知识蒸馏

基于知识图谱增强

  • 基于实体抽取的增强
  • 知识图谱增强(isa 关系)
  • 知识图谱转文字

基于语言学知识增强

  • 基于成分句法融合增强的 Mask 机制
  • 基于语义角色 Embedding 融合增强
  • 基于依存关系的注意力权重约束剪枝

数据增强

  • 领域知识增强
  • 任务数据增强
  • 跨语言高资源增强

优化微调效果

  • 使用领域相关数据增强
  • 基于 Teacher-Student 自蒸馏
  • 结合课程学习思想迁移训练

模型性能

基于轻量级、高效训练的研究路线,致力于构建十亿级别的小模型,充分发挥已有参数下的模型潜力,有利于快速、低成本地落地现实业务场景。孟子预训练模型性能比肩甚至超越千亿大模型,在包含文本分类、阅读理解等各类任务上表现惊艳。相对已有的中文语言模型,孟子模型实现了多项突破性进展:

坚持“小而精”的训练策略

实现在同等模型规模下,远超公开模型的性能。作为精巧的小模型,对标“巨无霸”,小模型性能超越千亿规模模型。

使用知识图谱增强模型

孟子模型具备顶尖的语言理解能力,在权威 CLUE 中文理解评测的总排行榜,以及分类排行榜和阅读理解排行榜均位列第一,刷新三项榜单世界纪录。

灵活的领域和场景适应能力

基于 T5-style 的端到端生成的训练范式,同步适配 BERT-style 的判定式架构,既能理解也能生成。便于适配行业应用,覆盖广泛业务场景。

CLUE 排行榜

排名模型规模总分AFQMCTNEWSIFLYTEKOCNLIWSC2020CSLCMRC2018CHIDC3
1孟子十亿82.9079.8264.6865.0881.8796.5589.8782.2596.0089.98
2Motian十亿82.1578.3057.4265.4684.9794.8390.1785.3094.4388.49
3BERTSG百亿81.8079.8557.4264.5485.9395.1789.0083.8093.0687.44
4Pangu千亿81.1878.1157.4265.1983.3095.5287.7384.4593.2585.64
人类水平86.6881.0071.0080.3090.3098.0084.0092.4087.1096.00

排名截至2021年7月30日

垂直领域适应

通过大规模的泛金融领域语料,将通用孟子模型迁移到金融领域。 金融版孟子模型已经应用于多个金融行业细分领域头部合作企业。 在金融知识图谱搭建、研报脱水、公告抽取等多个任务上获得了超过常规模型的表现。 通过大规模的营销领域语料,将通用孟子模型迁移到数字营销领域。 在与多个世界500强企业的合作当中,完成了营销文案生成、新闻摘要等多项任务。

孟子预训练模型开源项目

澜舟科技已将孟子中文预训练系列模型开源!全面覆盖文本理解、文本生成、金融、多模态等不同技术应用领域。 希望与开源社区一起让新一代文本智能技术落地各行各业,推动下一波认知智能生产力进化的浪潮。

孟子中文预训练模型开源社区

扫码加入孟子开源社区微信群

核心技术

预训练语言模型

认知智能平台

机器翻译

开发者社区

© 2021 澜舟科技
langboat
京公网安备 11010802035393号京ICP备2021021087号