CN113468891A

CN113468891A - 文本处理方法以及装置

Info

Publication number: CN113468891A
Application number: CN202110853255.2A
Authority: CN
Inventors: 顾大中; 梁建增; 周梦迪; 王洪彬; 李楠; 乔建伟; 乔莉
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Ant Shengxin Shanghai Information Technology Co ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-10-01
Anticipated expiration: 2041-07-27
Also published as: CN113468891B; CN120524951A

Abstract

本说明书实施例提供文本处理方法以及装置，其中所述文本处理方法包括：接收待处理文本，将所述待处理文本输入实体识别模型，获得带有实体识别标签的候选文本；将所述带有实体识别标签的候选文本输入实体判别模型，获得所述候选文本的候选实体，并基于所述候选实体确定备选文本；基于所述候选实体与所述备选文本构建关系知识图，基于所述关系知识图计算每个关系知识图节点之间的相似度，确定目标实体关系；基于所述目标实体关系在预设知识库中，确定目标实体文本。

Description

文本处理方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种文本处理方法。本说明书一个或者多个实施例同时涉及一种文本处理装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着数据处理技术的进步以及移动互联网的快速普及，计算机技术被广泛地运用到社会的各个领域，其中，在理赔项目中，记录人员通过面访与用户沟通时，笔录问询环节将花费大量时间，记录人员将收集到的信息需要反复向用户确认后，再手工填写到理赔作业系统的表单中，不仅使得人工记录成本较高，处理项目的耗时也较长，极大影响项目处理效率。

发明内容

有鉴于此，本说明书施例提供了一种文本处理方法。本说明书一个或者多个实施例同时涉及一种文本处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种文本处理方法，包括：

接收待处理文本，将所述待处理文本输入实体识别模型，获得带有实体识别标签的候选文本；

将所述带有实体识别标签的候选文本输入实体判别模型，获得所述候选文本的候选实体，并基于所述候选实体确定备选文本；

基于所述候选实体与所述备选文本构建关系知识图，基于所述关系知识图计算每个关系知识图节点之间的相似度，确定目标实体关系；

基于所述目标实体关系在预设知识库中，确定目标实体文本。

根据本说明书实施例的第二方面，提供了一种文本处理装置，包括：

实体识别模块，被配置为接收待处理文本，将所述待处理文本输入实体识别模型，获得带有实体识别标签的候选文本；

实体判别模块，被配置为将所述带有实体识别标签的候选文本输入实体判别模型，获得所述候选文本的候选实体，并基于所述候选实体确定备选文本；

实体关系确定模块，被配置为基于所述候选实体与所述备选文本构建关系知识图，基于所述关系知识图计算每个关系知识图节点之间的相似度，确定目标实体关系；

目标实体确定模块，被配置为基于所述目标实体关系在预设知识库中，确定目标实体文本。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现任意一项所述文本处理方法的步骤。

本说明书一个实施例通过接收待处理文本，将所述待处理文本输入实体识别模型，获得带有实体识别标签的候选文本；将所述带有实体识别标签的候选文本输入实体判别模型，获得所述候选文本的候选实体，并基于所述候选实体确定备选文本；基于所述候选实体与所述备选文本构建关系知识图，基于所述关系知识图计算每个关系知识图节点之间的相似度，确定目标实体关系；基于所述目标实体关系在预设知识库中，确定目标实体文本。

具体的，通过将待处理文本输入实体识别模型确定候选文本，并将候选文本输入实体判别模型中确定候选实体，以增加待处理文本中实体的相似性高的实体，通过构建关系知识图在该知识图中确定目标实体关系，进而实现了解决语音识别错误与长文本依赖的问题，将处理后的关键词信息回显到问询笔录的表单浮窗，减少手工填写的成本，提升整体视频面访的效率。

附图说明

图1是本说明书一个实施例提供的一种文本处理方法应用于线上理赔系统的记录人员填写表单的界面示意图；

图2是本说明书一个实施例提供的一种文本处理方法的流程示意图；

图3是本说明书一个实施例提供的一种文本处理方法的流程图；

图4是本说明书一个实施例提供的一种文本处理方法的实体识别模型的处理过程示意图；

图5是本说明书一个实施例提供的一种文本处理方法对待评分文本进行评分示意图；

图6是本说明书一个实施例提供的一种文本处理方法的待处理文本与实体之间的关系知识图；

图7是本说明书一个实施例提供的一种文本处理装置的结构示意图；

图8是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

保险公估：保险公估是指接受保险当事人委托，独立地对保险事故所涉及的保险标的进行评估、勘验、鉴定、估损、理算等活动的行为。

面访调查：调查者直接走访被调查者，当面听取被调查者的意见。

视频面访：通过远程视频对话的形式完成面访过程。

保险视频面访：应用于保险领域的视频面访，调查者为保险公估员，被调查者为保险投保人。

智能纪要：智能纪要会自动提取出视频面访会话过程中的关键词信息，来帮助提高整个线上公估流程的效率。

ASR(Automatic Speech Recognition，自动语音识别技术)：可以将声音信号转化为文本信号。

NER(Named Entity Recognition，命名实体识别技术)：可以识别出一段文本中的实体名词(地址、时间、疾病、医院、检查等)。

实体链指(Entity Linking)：将NER识别出来的实体和已有知识库中对应的实体进行关联。

关系抽取：可识别出一段文本中实体之间的关系(治疗、位于等)。

文本纠错：将一段有噪文本(由于图像识别或语音识别产生的噪声)恢复为正确文本的技术。

本说明书实施例提供的文本处理方法可应用于保险理赔场景、安全机构问询笔录场景、或者是医院问诊场景中，本说明书实施例对应用场景不做任何限定，以保险理赔场景对问询笔录的文本处理为例，对文本处理方法进行详细说明。

在投保人申请理赔的场景中，传统的面访通过线下进行，需要记录人员前往理赔用户所在地开展，成本高，效率低。为了降低成本提高效率，记录人员可以是通过视频面访的方式对用户的病情信息进行回访，以降低线下公估调查的成本和提升整体理赔效率。然而，由于理赔项目本身的复杂性，一次远程视频面访的流程耗时较长，经过记录人员对用户的沟通和信息收集，发现整个面访过程中笔录问询环节花费了大量时间，记录人员需要经常和用户确认时间、地点、医院、疾病、检查方式等详细信息，确认后再手工填写到理赔作业系统的表单中。

但由于用户方言和网络质量的原因，整个视频面访接收的语音信息在最前端的语音识别模块中会产生大量的噪声，生成文本会有一定的错误，把一些词误识别为读音相近的词(像“医院”和“音乐”)。例如：用户说“我在协和医院看的病”，被ASR模块识别为“我在协和音乐看的病”，从而对后续步骤产生不良影响。进一步地，业务所需的有效原子信息可能分布在多轮对话中。例如：A-“我去**看的病。”；B-“您去的哪家医院啊？”；A-“人民医院”；B-“第几人民医院呢？”；A-“第一”。在该例子中，“**市第一人民医院”是业务需要的有效原子信息，单单识别出“**等信息对业务没有价值”。但是，该信息不单独存在于任何一句对话中，必须结合5句对话的信息，才能拼接出该信息。

本说明书实施例提供的文本处理方法是基于一种具有ASR纠错能力和长文本解析能力的视频面访智能纪要系统，从视频面访的实时对话文本中自动识别出关键词信息，并对关键词信息进行处理，解决语音识别错误与长文本依赖的问题，将处理后的关键词信息回显到问询笔录的表单浮窗，减少手工填写的成本，提升整体视频面访的效率。

基于此，在本说明书中，提供了一种文本处理方法，本说明书同时涉及一种文本处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

下面以记录人员填写保险理赔面访过程中，填写关键词的客户端显示界面的示意图，参见图1，图1示出了本说明书一实施例提供的文本处理方法应用于线上理赔系统的记录人员填写表单的界面示意图。

图1为记录人员与用户进行视频面访过程中，记录人员记录笔录的示意图，图1中左侧的A部分为视频面访过程中需要完成的理赔表单(包含用户说的一些与保险理赔相关的信息)，图1中右上侧B部分为视频面访过程中需要完成的理赔表单(包含用户说的一些与保险理赔相关的信息)，以及经过ASR语音转文本之后的会话，图1中右下侧C部分为智能纪要关键词部分，展示了从当前视频面访会话文本中识别出来的关键词信息(可以半自动回填到左侧的理赔表单中)。

在上述线上理赔作业系统中记录人员需要填写的表单信息的过程中，为了解决ASR语音转换文本的语音识别错误与长文本依赖的问题，本说明书优化了有噪文本NER模块，并增加了ASR文本纠错模块以及长文本解析模块，对语音转换后的文本内容进行处理，以提高识别出关键词信息的准确性，参见图2，图2示出了本说明书实施例提供的文本处理方法的流程示意图。

步骤202：服务器将语音信号输入ASR模块转换为文本信息(包括角色信息)。

步骤204：服务器将转换后的文本信息展示对话记录，并将对话记录进行问题识别与话题检测。

具体的，记录人员所说的文本输入到问题识别模型中，若问题识别模型判断当前文本是一个有效问题，则会调用话题检测模块，其中，话题检测模块可以判断当前会话进行到了哪个阶段，比如是在询问生活轨迹还是工作轨迹，若判断当前文本是不是一个有效问题，则停止服务器的后续流程。

步骤206：服务器将文本信息输入有噪文本NER模块，识别出文本信息中的实体信息。

具体的，文本信息会通过有噪文本NER模型，可以在存在一定程度文本错误的情况下，识别出文本中的实体信息，比如，包括医院、疾病、地址、时间、检查五大类型。

步骤208：服务器将实体信息通过ASR文本纠错模块，对错误文本进行一定程度的纠错。

步骤210：服务器将文本和实体信息通过长文本解析模块、关系抽取模型，获得实体信息之间的关联关系，然后利用知识图谱筛选出正确的关联实体组。

步骤212：服务器将关联实体组和已有的知识库中的实体进行关联，确定目标实体信息。

具体的，该过程为实体链指过程，将NER识别出来的实体(或长文本解析模块拼接出的实体)和已有的知识库中的实体进行关联。

步骤214：服务器将确定的目标实体信息在面访界面展示，并基于识别出的问题或者话题显示在待填写的文本框中。

具体的，智能纪要系统一方面会在记录人员填写表单的界面的右下侧展示识别出来实体关键词信息，另一个方面会在记录人员准备填写对应不同话题表单时进行关键词信息提示(随着问题检测模型检测出不同话题下的问题，随之对应话题下表单中提示的关键词也会不一样)。

本说明书实施例提供的文本处理方法，通过对文本信息进行识别出的实体进行纠错，确定正确的实体，并对多轮对话的语义信息抽出实体之间的关系，不仅解决了ASR识别错误的问题，而且也解决了长文本依赖的问题。

下述结合附图3，以本说明书提供的文本处理方法在面访记录的应用为例，对所述文本处理方法进行进一步说明。其中，图3示出了根据本说明书一个实施例提供的一种文本处理方法的流程图，具体包括以下步骤。

步骤302：接收待处理文本，将所述待处理文本输入实体识别模型，获得带有实体识别标签的候选文本。

实际应用中，在服务器接收到待处理文本之后，需要识别出待处理文本中的实体信息，因此将该待处理文本输入实体识别模型中，识别待处理文本中的实体，并对识别出的实体进行标记，确定带有实体识别标签的候选文本。

为了获得待处理文本，可以将记录人员与用户视频面访过程中的对话信息进行处理；具体的，所述接收待处理文本之前，还包括：

接收语音对话信息，将所述语音对话信息通过语音识别模块进行识别，确定待处理文本。

其中，待处理文本可以理解为带有角色信息以及对话内容的文本信息，

实际应用中，服务器在接收到记录人员与用户通过客户端之间的通信连接，获取的语音对话信息之后，将该语音对话信息输入语音识别模块进行识别，获得记录人员与用户之间语音对话信息对应的文本信息，将该文本信息作为待处理文本，便于后续对待处理文本进行再次处理，增强文本识别的准确性。

需要说明的是，语音识别模型为能够识别语音信息，获得语音信息对应的文本内容的模型，比如，ASR语音识别模型，本说明书对该语音识别模型不做任何限制。

本说明书实施例提供的文本处理方法，通过将语音对话信息输入至语音识别模型进行识别，便于后续根据识别出的文本内容进行处理，实现从文本内容中获取实体关键词，可快速地填写至记录人员面访过程的面访记录中。

在服务器获得通过语音识别模块识别出的待处理文本之后，可根据对待处理文本中的问题识别与话题检测，确定待处理文本的话题类型，便于后续根据不同的话题类型识别出不同的实体关键词信息；具体的，所述将所述待处理文本输入实体识别模型之前，还包括：

将所述待处理文本输入问题识别模型，在确定所述待处理文本中的问题文本有效的情况下，将所述待处理文本输入话题检测模型，确定所述待处理文本对应的话题类型。

实际应用中，服务器将待处理文本输入问题识别模型中，在确定待处理文本中的记录人员询问的问题文本有效的情况下，可调用话题检测模型，对待处理文本进行话题检测，基于话题检测的结果确定待处理文本对应的话题类型，话题检测模型会判断待处理文本的当前会话进行到了面访记录单的哪个阶段，比如是在询问生活轨迹还是工作轨迹，进而确定出待处理文本的话题类型。

需要说明的是，由于服务器一次处理的待处理文本并不是记录人员与用户之间的所有对话记录，是在每个阶段中获取一定时间段内的文本信息，比如，在记录人员填写就医地点的问题时，待处理文本可能截取的是记录人员与用户之间对话的五轮对话文本，进行后续识别就医地点的关键词，因此，确定待处理文本的话题类型，便于后续将识别出的关键词信息显示在哪个阶段或者是哪个待输入文本框的候选框中。

本说明书实施例提供的文本处理方法，通过对待处理文本进行问题识别与话题检测，可以确定待处理文本所需要识别出的实体关系词类型，便于后续在记录人员与用户面访过程中，快速地显示出面访问题对应的关键词信息，提高面访效率。

本说明书实施例提供的文本处理方法，对实体识别模型进行有噪文本处理，进而增强实体识别模型的识别准确率；具体的，所述实体识别模型通过如下方式训练获得：

接收待处理样本文本，基于所述待处理样本文本随机确定对比样本文本，将所述待处理样本文本以及所述对比样本文本确定为训练样本集；

基于所述训练样本集训练实体识别模型。

实际应用中，为了使得实体识别模型能够从有噪文本中获得目标实体，即从一些错误的文本中确定出目标实体，比如，“我去协和音乐看的病”中，需要让实体识别模型学习到“协和音乐”是一个医院实体。若在所有训练数据中，目标实体都以正确的文本形式出现(比如“协和医院”)，则实体识别模型不可能将有噪文本识别出目标实体。基于上述思路，本实施例提出的文本处理方法，通过主动构造一些有噪文本，并为实体识别模型指明这些有噪文本中目标实体的位置，才会使得实体识别模型学习到从有噪文本中抽取实体的方法，可基于待处理样本文本随机在知识库中确定对比样本文本，将待处理样本文本以及对比样本文本作为训练样本集，训练实体识别模型。

例如，对“我去协和医院看的病”这句话做有噪增强数据的构建过程，首先，将上述话分为两部分，一部分为实体文本“协和医院”，另一部分为不属于任何实体的文本“我去看的病”，对于不属于任何实体的文本“我去看的病”，我们不做任何操作，对于属于实体文本“协和医院”进行分词处理，将“协和医院”分解为“协和”和“医院”；然后利用Dimsim开源工具，随机寻找一个和上次分词语音相近的关键词，比如，“医院”的相近词是“音乐”、“协和”的相近词是“鞋盒”；接着，用上述相近词替换原句中的文本，得到“我去鞋盒音乐看的病”，而对于原句中的实体位置，依然保留，并且“鞋盒音乐”仍然是一个实体，完成了一次数据增强的过程，在实际应用的过程中，对训练数据中的每句话都做一次增强，将增强后的数据和原训练数据混在一起，作为经过有噪增强的训练数据集。

本说明书实施例提供的文本处理方法，通过对实体识别模型的训练数据进行有噪数据增强，训练实体识别模型，该实体识别模型可以自动学习到语义特征与目标实体的对应关系，以加强实体识别模型对文本实体识别的准确度。

在训练好实体识别模型之后，可利用实体识别模型对待处理文本进行识别，确定带有实体识别标签的候选文本；具体的，所述接收待处理文本，将所述待处理文本输入实体识别模型，获得带有实体识别标签的候选文本，包括：

接收待处理文本，将所述待处理文本输入所述实体识别模型的语义识别模块，获得所述待处理文本的语义向量；

基于所述待处理文本的语义向量确定所述待处理文本的拼音向量，将所述语义向量以及所述拼音向量输入所述实体识别模型的全连接层计算损失函数，获得所述待处理文本的损失值；

将所述待处理文本的损失值输入所述实体识别模型的概率网络层，获得带有实体识别标签的候选文本。

具体的，服务器在接收到待处理文本之后，将待处理文本输入训练好的实体识别模型中，先通过实体识别模型的第一层语义识别模块，获得待处理文本的语义向量，然后基于该待处理文本的语义向量确定待处理文本的拼音向量，并将语义向量和拼音向量一起输入至实体识别模型的第二层全连接层，进行损失函数计算，获得待处理文本的损失值；最后，将待处理文本的损失值输入实体识别模型的第三层概率网络层，对待处理文本的文字打标签，并对每个标签的概率分布进行计算，以确定针对待处理文本的正确的标签内容，进而确定准确无误的带有实体识别标签的候选文本。

实际应用中，可参见图4，图4示出了本说明书实施例提供的文本处理方法的实体识别模型的处理过程示意图。

图4中的待处理文本通过语义识别模型，获得待处理文本的语义向量，其中，语音识别模型可以为BERT模型进行特征提取，在获得的语义向量的基础上，增加待处理文本的拼音向量，然后，再将语义向量和拼音向量输入至全连接层，进行损失值计算，最后在将计算后的值输入至概率网络层，对待处理文本识别出的实体进行打标，并确定待处理文本中的每个字对应的实体标签，比如，不属于实体范围的字，打标为“O”，属于实体范围的第一个字，打标为“B”，实体范围的中间字直到最后一个实体字，打标为“I”，若待处理文本为“去协和医院看病”，则打标为“O B I I I O O”，因此，得到带有实体识别标签的候选文本。

需要说明的是，拼音向量来自于开源项目，提供的拼音的2位编码，读音相近的拼音，在二维空间上的距离更接近。

本说明书实施例提供的文本处理方法，通过在待处理文本的语义向量中增加拼音向量，从而发现ASR错误与真实文本之间的语义相似性(例如“音乐”和“医院”在语音上比较接近)，进而可以将其他模型不认为是实体词的文本，通过本实施例提供的实体识别模型识别出对应的实体(例如可以将“协和医院”识别为一个医院的实体)。

步骤304：将所述带有实体识别标签的候选文本输入实体判别模型，获得所述候选文本的候选实体，并基于所述候选实体确定备选文本。

其中，候选实体可以理解为与候选文本中的实体标签对应的实体，相似的实体。

其中，备选文本可以理解为将确定的候选实体嵌入至待处理文本中，所形成的文本。

实际应用中，在服务器获得带有实体识别标签的候选文本的情况下，服务器可以确定出在待处理文本的实体有哪些，但是可能出现确定的实体有误，因此，需要将带有实体识别标签的候选文本输入实体判别模型中，确定候选文本的候选实体，并再根据候选实体确定备选文本。

需要说明的是，实体判别模型可以理解为ASR文本纠错模块，主要通过两个部分组成，一是召回和关键实体存在模糊音相似的实体，并构建图谱；二是使用深度模型结合知识图谱对关键实体进行纠错。

进一步地，所述将所述带有实体识别标签的候选文本输入实体判别模型，获得所述候选文本的候选实体，包括：

基于带有实体识别标签的候选文本输入实体判别模型确定初始实体，将所述初始实体转换为初始实体拼音，并基于所述初始实体拼音在预设知识库中搜索与所述初始实体拼音相似的备选实体拼音；

计算所述初始实体拼音与所述备选实体拼音的相似性，并基于所述相似性与文本属性进行排序，确定实体序列；

根据预设序列阈值确定所述候选文本的候选实体。

其中，初始实体可以理解为根据实体识别模型识别出的候选文本中实体标签对应的实体。

其中，候选拼音实体可以理解为与初始实体的拼音相似的实体拼音。

需要说明的是，传统的纠错方案一般通过语言模型对单字进行纠错，其对长短方式变化的错误、以及垂直领域相关的专业知识纠错效果较差，而本实施例中引入了垂直域的实体作为额外知识库，在实体粒度上进行纠错，进而对多字/少字、特定实体相关的错误鲁棒性更好。

具体实施时，服务器根据带有实体识别标签的候选文本输入实体判别模型中确定初始实体，由于确定的初始实体的准确度不高，则基于该初始实体确定初始实体拼音，并根据该初始实体拼音在预设知识库中搜索与该初始实体拼音相似的备选实体拼音，再计算初始实体拼音与备选实体拼音的相似性，此外，还要基于文本属性和相似性对实体进行排序，确定实体序列，根据预设序列阈值确定候选文本的候选实体。

实际应用中，服务器可使用全文检索工具(solr)对预设知识库中的实体的拼音先构建索引，(如“荆门”-jing men)，用于后续模糊音实体召回，同样使用该方法对初始实体进行拼音转换，并调用检索接口进行搜索，并召回读音相似的实体，进而再通过读音相似性和上下文属性相关性重排，其中，部分实体可能会召回很多候选项，因此，服务器会根据初始实体的读音相似程度和其上下文属性与对话上下文的重叠程度进行排序，并筛选出一定序列阈值的候选实体。

本说明书实施例提供的文本处理方法，通过确定初始实体拼音在预设知识库中与其相似的备选实体拼音，通过拼音的相似度计算以及上下文属性，在预设知识库中确定出与初始实体相似度较高的候选实体，通过确定候选实体便于后续对初始实体构建关系图，实现对初始实体进行纠错。

为了实现精准地对初始实体进行纠错处理，则可对确定的候选实体与初始实体建立关联关系，进而确定对实体进行纠错处理后的文本；具体的，所述基于所述候选实体确定备选文本，包括：

获取所述候选文本的初始实体，并确定所述初始实体与所述候选实体的实体关联关系；

基于所述初始实体、所述候选实体以及所述实体关联关系构造关系图；

将所述关系图的节点实体嵌入所述待处理文本的初始实体之后，确定待评分文本，并基于所述待评分文本确定备选文本。

其中，关系图可以理解为实体之间的知识图谱。

实际应用中，服务器在获取到候选文本的初始实体之后，可确定出初始实体与候选实体之间的关联属性，并将初始实体、候选实体作为实体节点，二者的关联关系作为实体边，构建一张关系图，实体边可以为实体之间的关系类型(读音相似、所在省、所在市等)，在该关系图中有至少两个实体节点，并将关系图中对应的节点实体嵌入至待处理文本的初始实体之后，确定多个待评分文本，在多个待评分文本中确定备选文本。

进一步地，所述基于所述待评分文本确定备选文本，包括：

将所述待评分文本输入语义识别模型进行编码，获得所述待处理文本的初始实体向量以及所述关系图的节点实体向量；

计算所述初始实体向量以及所述节点实体向量的相似性，确定备选文本。

实际应用中，使用预训练语言模型对修改后的对话进行编码，在编码过程中获得待纠错实体的向量表达(取模型中[CLS]位的输出)，或者是各个候选实体的向量表达(取实体中所有字符的词向量平均值)，通过计算各个候选实体向量和待纠错实体向量的余弦相似性，并取得分最大的实体作为纠正结果，确定备选文本。

参见图5，图5示出了本说明书实施例提供的文本处理方法对待评分文本进行评分示意图。

图5中以“钱江”、“黔江区”为例进行说明，待评分文本为“钱江，嗯嗯，然后去了A市(区域-黔江区)第附属……。在钱江(相似音-黔江区)有住院”，进行评分，确定“钱江”这个实体在待评分文本中的句子评分为0.1，“黔江区”这个实体在待评分文本中的句子评分为0.9，因此，可确定待评分文本中，“黔江区”实体在待评分文本中体现的准确性要相对大一些，因此，对实体纠错的处理就是将“黔江”替换“钱江”。

步骤306：基于所述候选实体与所述备选文本构建关系知识图，基于所述关系知识图计算每个关系知识图节点之间的相似度，确定目标实体关系。

实际应用中，在服务器确定待处理文本的备选文本之后，可基于候选实体与备选文本构建关系知识图，并基于关系知识图计算每个关系知识图节点之间的相似度，进而确定出目标实体关系。

下述参见图6，图6示出了本说明书实施例提供的文本处理方法的待处理文本与实体之间的关系知识图。

以待处理文本中的具有五个句子，实体分别为“A地”、“第一医院”、“人民医院”、“协和医院”为例，构建的关系知识图，其中，五个句子之间均具有实体关系连接，“句子1”与“A地”具有实体关系连接，“句子5”与“第一医院”具有实体关系连接，“句子3”与“人民医院”具有实体关系连接，“句子4”与“协和医院”具有实体关系连接，需要说明的是，上述图6的关系为初始化的实体关联关系，在后续计算关系知识图节点之间的相似度上，会不断地增加其他实体之间的实体关系连接，比如，“A地”与“句子3”或者“句子2”的实体关联关系，以便于后续确定每个实体节点之间的关联权重，进而确定两个实体节点之间的相似程度，最终确定出目标实体关系。

为了进一步地确定实体之间的关联关系，可对实体节点进行计算相似度，进而确定待处理文本的目标实体关系；具体的，所述基于所述关系知识图计算每个关系知识图节点之间的相似度，确定目标实体关系，包括：

将所述关系知识图中的所述候选实体与所述备选文本，输入语义识别模型进行编码，获得候选实体向量以及备选文本向量；

基于所述候选实体向量以及所述备选文本向量输入卷积算法模型进行特征提取，确定候选实体节点向量以及备选文本节点向量；

计算所述候选实体节点向量以及所述备选文本节点向量的相似度，基于预设相似度阈值确定目标实体关系。

实际应用中，每个句子和实体都可视为一个节点，每一个句子和每一个实体都可用BERT模型进行编码，作为节点的向量表示，任意两个句子节点间，即可连接一条边，如果一个实体属于一个句子，则可确定该实体和该句子间连接一条边。在关系知识图构建好之后，可基于图卷积(GCN)算法，获得经过特征提取的节点向量。对于每一对节点，计算其节点向量之间的相似度，如果其相似度高于门限值(具体门限值有人工根据经验设定)，则认为两个实体间存在关联关系，进而确定为目标实体关系。

步骤308：基于所述目标实体关系在预设知识库中，确定目标实体文本。

其中，预设知识库可以理解为根据不同的应用场景所积累的知识实体库，本说明书对此不做过多限制。

具体实施时，服务器基于在关系知识图中确定的目标实体关系，在预设知识库中筛选出与目标实体关系相匹配的实体文本，进而将匹配的实体文本确定为目标实体文本，便于后续将该目标实体文本作为待处理文本处理的关键词信息。

例如，在关系知识图中确定一组实体关系串为“A地-人民医院-第一医院”，会将其实体关系串拼接成一个字符串“上海人民医院第一医院”。然后，用这个字符串在关系知识图中进行搜索。假设我们可以搜索到“A地交通大学第一附属人民医院”。同时根据关系知识图的知识，可以得到地理位置信息关系串(中国-A地-**区-A地交通大学第一附属人民医院)。之后，将原关系串中(上海-人民医院-第一医院)的每个实体，都和地理位置信息中的关系串进行比较，如果每一个实体都能找到匹配实体(例如“A地-A地”，“人民医院-A地交通大学第一附属人民医院”，“第一医院-A地交通大学第一附属人民医院”)，则我们认为(A地-人民医院-第一医院)是一个可以接受的关系串。否则我们认为该关系串是一个抽取错误的关系串不会输出给后续模块，其中匹配方式可以自由选择合适的方式(例如字符串相似度、最长公共子序列长度等)。

更进一步地，所述基于所述目标实体关系在预设知识库中，确定目标实体文本之后，还包括：

基于所述待处理文本对应的话题类型确定用户待输入框，并将所述目标实体文本显示在所述用户待输入框中。

实际应用中，服务器在对待处理文本识别出对应的话题类型之后，可以确定出记录人员在面访记录中的用户待输入框，并将服务器获得的目标实体文本显示在用户待输入框中。

综上，本说明书实施例提供的文本处理方法通过有噪文本NER模块，通过数据增强和增加拼音特征，获得了在有噪文本上进行实体识别的能力，可以容忍一定程度的文本识别错误，然后对于ASR模块识别错误问题，通过ASR文本纠错模块可以恢复一些ASR模块的错误，使得处理后的文本，更接近真实文本。通过两者相结合，大大增加了系统对于ASR识别错误的鲁棒性。进一步，对于长文本依赖问题，通过长文本解析模块，可以同时分析多段对话的语义信息并抽取出实体之间的关系，再结合知识图谱的信息，该模块可以将属于同一原子信息的实体拼接在一起，从而将分散在多段对话中的原子信息重新拼接了起来，解决了长文本依赖问题。

与上述方法实施例相对应，本说明书还提供了文本处理装置实施例，图7示出了本说明书一个实施例提供的一种文本处理装置的结构示意图。如图7所示，该装置包括：

实体识别模块702，被配置为接收待处理文本，将所述待处理文本输入实体识别模型，获得带有实体识别标签的候选文本；

实体判别模块704，被配置为将所述带有实体识别标签的候选文本输入实体判别模型，获得所述候选文本的候选实体，并基于所述候选实体确定备选文本；

实体关系确定模块706，被配置为基于所述候选实体与所述备选文本构建关系知识图，基于所述关系知识图计算每个关系知识图节点之间的相似度，确定目标实体关系；

目标实体确定模块708，被配置为基于所述目标实体关系在预设知识库中，确定目标实体文本。

可选地，所述实体识别模型通过如下方式训练获得：

基于所述训练样本集训练实体识别模型。

可选地，所述实体识别模型702，进一步被配置为：

可选地，所述实体判别模型704，进一步被配置为：

根据预设序列阈值确定所述候选文本的候选实体。

可选地，所述实体判别模型704，进一步被配置为：

可选地，所述实体关系确定模块706，进一步被配置为：

可选地，所述目标实体确定模块708，进一步被配置为：

基于目标实体关系在所述关系知识图中确定目标实体，并对所述目标实体进行拼接，获得实体字符串；

基于所述实体字符串在所述关系知识图中搜索，获得匹配实体文本，并基于实体字符串在预设关系知识图中搜索，获得比对实体文本；

在确定所述匹配实体文本以及所述比对实体文本相匹配的情况下，将所述匹配实体文本确定为待选实体文本；

将所述待选实体文本在预设知识库中进行关联，将关联后的文本作为目标实体文本。

可选地，所述装置，还包括：

本说明书实施例提供的文本处理装置，通过将待处理文本输入实体识别模型确定候选文本，并将候选文本输入实体判别模型中确定候选实体，以增加待处理文本中实体的相似性高的实体，通过构建关系知识图在该知识图中确定目标实体关系，进而实现了解决语音识别错误与长文本依赖的问题，将处理后的关键词信息回显到问询笔录的表单浮窗，减少手工填写的成本，提升整体视频面访的效率。

上述为本实施例的一种文本处理装置的示意性方案。需要说明的是，该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思，文本处理装置的技术方案未详细描述的细节内容，均可以参见上述文本处理方法的技术方案的描述。

图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。

计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。

其中，处理器820用于执行如下计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文本处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文本处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现所述文本处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文本处理方法，包括：

2.根据权利要求1所述的文本处理方法，所述实体识别模型通过如下方式训练获得：

基于所述训练样本集训练实体识别模型。

3.根据权利要求2所述的文本处理方法，所述接收待处理文本，将所述待处理文本输入实体识别模型，获得带有实体识别标签的候选文本，包括：

4.根据权利要求3所述的文本处理方法，所述将所述带有实体识别标签的候选文本输入实体判别模型，获得所述候选文本的候选实体，包括：

根据预设序列阈值确定所述候选文本的候选实体。

5.根据权利要求1-4任意一项所述的文本处理方法，所述基于所述候选实体确定备选文本，包括：

6.根据权利要求5所述的文本处理方法，所述基于所述待评分文本确定备选文本，包括：

7.根据权利要求6所述的文本处理方法，所述基于所述关系知识图计算每个关系知识图节点之间的相似度，确定目标实体关系，包括：

8.根据权利要求7所述的文本处理方法，所述基于所述目标实体关系在预设知识库中，确定目标实体文本，包括：

9.根据权利要求1所述的文本处理方法，所述接收待处理文本之前，还包括：

10.根据权利要求9所述的文本处理方法，所述将所述待处理文本输入实体识别模型之前，还包括：

11.根据权利要求10所述的文本处理方法，所述基于所述目标实体关系在预设知识库中，确定目标实体文本之后，还包括：

12.一种文本处理装置，包括：

13.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现权利要求1-11任意一项所述文本处理方法的步骤。

14.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1-11任意一项所述文本处理方法的步骤。