孟子预训练模型是基于团队自研技术研发的大规模预训练语言模型。可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,能快速满足不同领域、不同应用场景的需求。孟子模型基于Transformer架构,仅包含十亿参数量,基于数百G级别涵盖互联网网页、社区、新闻、电子商务、金融等领域的高质量语料训练。
启动预训练语言模型研发
孟子通用预训练模型问世
孟子营销文案生成模型商业试点落地
孟子金融领域预训练语言模型投入使用
孟子预训练模型在 CLUE 中文 NLP 权威排行榜战胜百亿、千亿参数规模级模型取得冠军
澜舟科技开源孟子中文预训练系列模型
基于轻量级、高效训练的研究路线,致力于构建十亿级别的小模型,充分发挥已有参数下的模型潜力,有利于快速、低成本地落地现实业务场景。孟子预训练模型性能比肩甚至超越千亿大模型,在包含文本分类、阅读理解等各类任务上表现惊艳。相对已有的中文语言模型,孟子模型实现了多项突破性进展:
实现在同等模型规模下,远超公开模型的性能。作为精巧的小模型,对标“巨无霸”,小模型性能超越千亿规模模型。
孟子模型具备顶尖的语言理解能力,在权威 CLUE 中文理解评测的总排行榜,以及分类排行榜和阅读理解排行榜均位列第一,刷新三项榜单世界纪录。
基于 T5-style 的端到端生成的训练范式,同步适配 BERT-style 的判定式架构,既能理解也能生成。便于适配行业应用,覆盖广泛业务场景。
排名 | 模型 | 规模 | 总分 | AFQMC | TNEWS | IFLYTEK | OCNLI | WSC2020 | CSL | CMRC2018 | CHID | C3 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 孟子 | 十亿 | 82.90 | 79.82 | 64.68 | 65.08 | 81.87 | 96.55 | 89.87 | 82.25 | 96.00 | 89.98 |
2 | Motian | 十亿 | 82.15 | 78.30 | 57.42 | 65.46 | 84.97 | 94.83 | 90.17 | 85.30 | 94.43 | 88.49 |
3 | BERTSG | 百亿 | 81.80 | 79.85 | 57.42 | 64.54 | 85.93 | 95.17 | 89.00 | 83.80 | 93.06 | 87.44 |
4 | Pangu | 千亿 | 81.18 | 78.11 | 57.42 | 65.19 | 83.30 | 95.52 | 87.73 | 84.45 | 93.25 | 85.64 |
人类水平 | 86.68 | 81.00 | 71.00 | 80.30 | 90.30 | 98.00 | 84.00 | 92.40 | 87.10 | 96.00 |
排名截至2021年7月30日
通过大规模的泛金融领域语料,将通用孟子模型迁移到金融领域。 金融版孟子模型已经应用于多个金融行业细分领域头部合作企业。 在金融知识图谱搭建、研报脱水、公告抽取等多个任务上获得了超过常规模型的表现。 通过大规模的营销领域语料,将通用孟子模型迁移到数字营销领域。 在与多个世界500强企业的合作当中,完成了营销文案生成、新闻摘要等多项任务。
澜舟科技已将孟子中文预训练系列模型开源!全面覆盖文本理解、文本生成、金融、多模态等不同技术应用领域。 希望与开源社区一起让新一代文本智能技术落地各行各业,推动下一波认知智能生产力进化的浪潮。
扫码加入孟子开源社区微信群