编组
ConsoleUser Center

Customized Information Extraction Platform

Document Center

Customized Information Extraction Platform

用户指南

产品简介#

澜舟金融自定义信息抽取平台可以抽取文本中具有特定意义的实体。例如整理处罚公告的场景中,需要抽取执法机构、处罚对象、处罚金额等实体信息,并快速将大量文本结构化,以提高效率。

本平台支持用户根据自身需求建立实体类型,定制个性化信息抽取模型。区别于需要人工标注数百、数千条样本数据的传统AI模型创建方法,在澜舟金融自定义信息抽取平台,只需简单三步,即可实现信息抽取模型定制只需简单三步,实现模型定制

概念介绍#

字段#

字段是信息抽取任务中需要输出的实体信息。

例如,需要从“A公司于1月1日收购了B公司”中抽取“1月1日”、“A公司”,那么您可以新建“时间”、“购买方”2个字段。

测试样例#

为了更加准确地完成信息抽取任务,您需要提供一些与其业务场景高度相关的文本用于检测信息的抽取效果。推荐录入3到5条即可。

参考答案#

参考答案是您对测试样例的预期抽取效果。 例如,需要从“泗水的砭石受到追捧,价格突然上涨。”中抽取“地点”,您可以输入参考答案为“泗水”。 平台会根据您输入的参考答案为您评估模型效果,帮助您提高模型准确率。

模型提示语#

模型提示语是在输入待抽取文本时,帮助模型定位到关键信息的附加语;通俗来讲,就是向模型提出的“问题”。

例如,需要从“A公司于1月1日收购了B公司”中抽取“时间”,您可以输入模型提示语“上文中提到的时间是什么?

针对不同的字段,不同的模型提示语对抽取效果也存在差异。您可以为每个字段选择最合适的模型提示语,以保证模型的准确性。

操作步骤#

创建信息抽取任务#

  1. 登录平台后并进入信息抽取任务列表。

  2. 点击新建任务,在弹窗中输入任务名称,点击确认后生成新的任务。

创建字段#

  1. 打开已创建的信息抽取任务,点击表格右上角的“+”号

创建字段

  1. 打开创建弹窗,输入字段名,点击保存完成创建。
  • 字段名不得超过15个字。
  • 一个任务下的字段名称不能重复。
  1. 点击字段右侧的倒三角按钮,下拉选项,可以对字段进行删除/重命名

字段删除/重命名

输入文本样例、抽取答案#

1 打开已创建的信息抽取任务,点击表格下方的“+”号

输入文本样例、抽取答案

2 打开创建弹窗,输入文本样例,点击保存完成创建。

  • 文本样例不可超过450个字。
  • 一个任务下的文本样例不能重复。

3 点击空白单元格打开弹窗,输入文本样例对应字段的参考答案

  • 参考答案不可超过15个字。

输入参考答案

配置模型提示语#

  1. 打开已创建的信息抽取模型,点击导航栏上的配置字段提示

  2. 点击标题下的标签,进入对应字段的配置栏目。

  3. 在文本框中,输入模型提示语,点击应用查看抽取结果。

配置模型提示语

  1. 可以尝试不同的模型提示语,找到抽取效果最佳的模型提示语。
  • 可以在“历史记录”,查看当前字段的模型提示语使用历史及其正确率
  • 点击历史记录里的内容,可以切换当前字段配置的模型提示语。

历史记录及正确率

测试信息抽取模型效果#

  1. 打开已创建的信息抽取模型,点击导航栏上的抽取效果预览

  2. 输入新的待抽取文本样例,点击抽取,测试当前信息抽取模型的抽取效果。

发布任务#

配置完样例、字段及模型提示语后,点击汇总模块或导航栏右侧的“发布”,即可发布任务。

发布任务

在任务管理页面,点击任务发布开关右侧的“详情”,可访问任务的发布详情、使用状况、调用方法等信息。

任务详情

示例1-配置信息抽取任务#

分析要处理的文本#

以罚款相关新闻为例:

  • 新闻一 : 江苏银行徐州分行被罚70万:个人消费贷贷后监督不力

  • 新闻二 : 以公益性资产为租赁物_江苏租赁被罚50万元

  • 新闻三 : 国家市场监管总局对长安福特实施纵向垄断协议依法处罚1.628亿元

  • 新闻四 : 中国经济网北京10月16日讯_中国人民银行重庆营管部网站近日公布的人民银行重庆营业管理部行政处罚信息公示表(渝银处罚公示〔2019〕3号,渝银罚〔2019〕6号)显示,新华信托股份有限公司(以下简称“新华信托”)违反《金融统计管理规定》(中国人民银行令〔2002〕第9号颁布)第三十八条规定,中国人民银行重庆营业管理部依法对其给予警告并处以人民币3万元罚款。

  • 新闻五 : 建信信托三宗违法遭罚90万_资金用于缴土地出让价款

希望从上述四则新闻中,抽取到被处罚金的公司及处罚金额,则待抽取字段为“罚款对象”、“处罚金额”。

配置信息抽取模型#

  1. 新建信息抽取任务:处罚新闻
  2. 新建字段:罚款对象、处罚金额
  3. 新建文本样例及参考答案
文本样例罚款对象处罚金额
江苏银行徐州分行被罚70万:个人消费贷贷后监督不力江苏银行徐州分行70万
以公益性资产为租赁物_江苏租赁被罚50万元江苏租赁50万
国家市场监管总局对长安福特实施纵向垄断协议依法处罚1.628亿元长安福特1.628亿元
中国经济网北京10月16日讯_中国人民银行重庆营管部网站近日公布的人民银行重庆营业管理部行政处罚信息公示表(渝银处罚公示2019〕3号,渝银罚〔2019〕6号)显示,新华信托股份有限公司(以下简称“新华信托”)违反《金融统计管理规定》(中国人民银行令〔2002〕第9号颁布)第三十八条规定,中国人民银行重庆营业管理部依法对其给予警告并处以人民币3万元罚款。新华信托3万元
建信信托三宗违法遭罚90万_资金用于缴土地出让价款建信信托90万
  1. 配置模型提示语
  • 点击“处罚对象”标签,输入模型提示语“请从上文抽取出名为‘罚款对象’的实体”,点击应用查看结果。

  • 点击“罚款金额”标签,输入模型提示语“上文提到的罚款金额是多少?”,点击应用查看结果。

  1. 抽取效果预览

模板配置完成后,可以在下方快速预览模型的抽取效果。输入新的测试文本,点击“抽取”,查看信息抽取的结果。

发布模型#

抽取效果符合预期后,可点击导航栏右侧“发布”,进行任务发布。 您也在返回任务管理页,通过发布开关管理所有任务模型的发布状态。

Products

Business Cooperation Email

bd@langboat.com

ewm

Address

Floor 16, Fangzheng International Building, No. 52 Beisihuan West Road, Haidian District, Beijing, China.


© 2023, Langboat Co., Limited. All rights reserved.

Business Cooperation:

bd@langboat.com

Address:

Floor 16, Fangzheng International Building, No. 52 Beisihuan West Road, Haidian District, Beijing, China.

Official Accounts:

ewm

© 2023, Langboat Co., Limited. All rights reserved.
support
business