CN116881465A - 一种企业关系图谱生成方法、装置、存储介质及电子设备 - Google Patents
一种企业关系图谱生成方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116881465A CN116881465A CN202310581825.6A CN202310581825A CN116881465A CN 116881465 A CN116881465 A CN 116881465A CN 202310581825 A CN202310581825 A CN 202310581825A CN 116881465 A CN116881465 A CN 116881465A
- Authority
- CN
- China
- Prior art keywords
- entity
- target
- relationship
- enterprise
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书公开了一种企业关系图谱生成方法、装置、存储介质及电子设备,其中,方法通过在预处理信息中抽取多个类型不限于企业的实体的目标实体名称,然后确定各实体的实体类型,再根据目标实体名称和对应的实体类型,再预处理信息中抽取各实体之间的关系,最后据目标实体名称、目标关系以及实体类型生成企业关系图谱,该企业关系图谱包括多个维度的实体,实体间的关系也是多元的,数据覆盖率大大提升。
Description
技术领域
本说明书涉及计算机技术领域,尤其涉及一种企业关系图谱生成方法、装置、存储介质及电子设备。
背景技术
随着计算机技术的发展,企业关系图谱越来越多地应用于各种企业事务中。企业关系图谱提供了企业多维度信息查询,通过呈现企业与企业、企业与个人关系链路,帮助事务人员有效透视企业关系,实现企业客户价值及风险的洞察。
然而,现有的企业关系图谱应用于中小微企业时,由于中小微企业间关系的复杂时变,导致生成的企业关系图谱数据覆盖有限,无法为后续事务提供精准的信息。
发明内容
本说明书提供了一种企业关系图谱生成方法、装置、存储介质及电子设备,所述技术方案如下:
第一方面,本说明书提供了一种企业关系图谱生成方法,所述企业关系图谱生成方法包括:
在预处理信息中抽取多个实体的目标实体名称;
根据所述预处理信息和所述实体的目标实体名称确定每个所述实体的实体类型,所述实体类型包括企业、自然人、行业以及地理位置;
根据每两所述实体的实体类型和目标实体名称,在所述预处理信息中抽取目标关系,所述目标关系为两所述实体之间的关系;
根据所述目标实体名称、所述目标关系以及所述实体类型生成企业关系图谱。第二方面,本说明书提供了一种企业关系图谱生成装置,所述企业关系图谱生成装置包括:
实体抽取模块,用于在预处理信息中抽取多个实体的目标实体名称;
类型确定模块,用于根据所述预处理信息和所述实体的目标实体名称确定每个所述实体的实体类型,所述实体类型包括企业、自然人、行业以及地理位置;
关系抽取模块,用于根据每两所述实体的实体类型和目标实体名称,在所述预处理信息中抽取目标关系,所述目标关系为两所述实体之间的关系;
图谱生成模块,用于根据所述目标实体名称、所述目标关系以及所述实体类型生成企业关系图谱。
第三方面,本说明书提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本说明书提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
本说明书一些实施例提供的技术方案带来的有益效果至少包括:
在本说明书一个或多个实施例中,通过在预处理信息中抽取多个类型不限于企业的实体的目标实体名称,然后确定各实体的实体类型,再根据目标实体名称和对应的实体类型,再预处理信息中抽取各实体之间的关系,最后据目标实体名称、目标关系以及实体类型生成企业关系图谱,该企业关系图谱包括多个维度的实体,实体间的关系也是多元的,其数据覆盖率大大提升,解决了现有的企业关系图谱数据覆盖有限,无法为后续事务提供精准的信息的问题。
附图说明
为了更清楚地说明本说明书或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书提供的一种企业关系图谱生成系统的场景示意图。
图2是本说明书提供的一种企业关系图谱生成方法的流程示意图。
图3是本说明书提供的又一种企业关系图谱生成方法的流程示意图。
图4是根据图2对应实施例示出的企业关系图谱的骨架结构示意图。
图5是根据图2对应实施例示出的企业关系图谱生成方法中步骤S600的一种具体实现流程图。
图6为本说明书提供的一种企业关系图谱生成装置的结构示意图。
图7是本说明书提供的一种电子设备的结构示意图;
图8是本说明书提供的操作系统和用户空间的结构示意图;
图9是图8中安卓操作系统的架构图;
图10是图8中IOS操作系统的架构图。
具体实施方式
下面将结合本说明书中的附图,对本说明书中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
在本说明书的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本说明书的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本说明书中的具体含义。此外,在本说明书的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面结合具体的实施例对本说明书进行详细说明。
请参见图1,为本说明书提供的一种企业关系图谱生成系统的场景示意图。如图1所示,所述企业关系图谱生成系统至少可以包括客户端集群和服务平台100。
所述客户端集群可以包括至少一个客户端,如图1所示,具体包括用户1对应的客户端1、用户2对应的客户端2、…、用户n对应的客户端n,n为大于0的整数。
客户端集群中的各客户端可以是具备通信功能的电子设备,该电子设备包括但不限于:可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中电子设备可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、5G网络或未来演进网络中的电子设备等。
所述服务平台100可以是单独的服务器设备,例如:机架式、刀片、塔式、或者机柜式的服务器设备,或采用工作站、大型计算机等具备较强计算能力硬件设备;也可以是采用多个服务器组成的服务器集群,所述服务集群中的各服务器可以是以对称方式组成的,其中每台服务器在事务链路中功能等价、地位等价,各服务器均可单独对外提供服务,所述单独提供服务可以理解为无需另外的服务器的辅助。
在本说明书的一个或多个实施例中,服务平台100与客户端集群中的至少一个客户端可建立通信连接,基于该通信连接完成企业关系图谱生成过程中数据的交互,诸如线上事务数据交互,事务数据包括但不限于各种类型的企业关系图谱数据交互,具体事务服务类型基于实际应用情况确定。
如服务平台100可基于本说明书的企业关系图谱生成方法得到的企业关系图谱可实现向客户端进行数据分析、关系预测、数据挖掘、关系识别等;又如,服务平台100可从客户端上获取各种日志信息和公开信息。
需要说明的是,服务平台100与客户端集群中的至少一个客户端通过网络建立通信连接进行交互通信,其中,网络可以是无线网络,也可以是有线网络,无线网络包括但不限于蜂窝网络、无线局域网、红外网络或蓝牙网络,有线网络包括但不限于以太网、通用串行总线(universal serial bus,USB)或控制器局域网络。在说明书一个或多个实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)等的技术和/或格式来代表通过网络交换的数据(如目标压缩包)。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet Protocol Security,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
本说明书所提供的企业关系图谱生成系统实施例与一个或多个实施例中的所述企业关系图谱生成方法属于同一构思,在说明书一个或多个实施例涉及的所述企业关系图谱生成方法对应的执行主体可以是上述服务平台100;在说明书一个或多个实施例涉及的所述企业关系图谱生成方法对应的执行主体也可以是客户端所对应的电子设备,具体基于实际应用环境确定。企业关系图谱生成系统实施例其体现实现过程可详见下述的方法实施例,这里不再赘述。
基于图1所示的场景示意图,下面对本说明书一个或多个实施例提供的企业关系图谱生成方法进行详细介绍。
请参见图2,为本说明书一个或多个实施例提供了一种企业关系图谱生成方法的流程示意图,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的企业关系图谱生成装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。所述企业关系图谱生成装置可以为服务平台。
具体的,该企业关系图谱生成方法包括:
步骤S300,在预处理信息中抽取多个实体的目标实体名称。
步骤S400,根据所述预处理信息和所述实体的目标实体名称确定每个所述实体的实体类型,所述实体类型包括企业、自然人、行业以及地理位置。
步骤S500,根据每两所述实体的实体类型和目标实体名称,在所述预处理信息中抽取目标关系,所述目标关系为两所述实体之间的关系。
步骤S600,根据所述目标实体名称、所述目标关系以及所述实体类型生成企业关系图谱。
在本说明书的实施例中,通过在预处理信息中抽取多个类型不限于企业的实体的目标实体名称,然后确定各实体的实体类型,再根据目标实体名称和对应的实体类型,再预处理信息中抽取各实体之间的关系,最后据目标实体名称、目标关系以及实体类型生成企业关系图谱,该企业关系图谱包括多个维度的实体,实体间的关系也是多元的,其数据覆盖率大大提升,解决了现有的企业关系图谱数据覆盖有限,无法为后续事务提供精准的信息的问题。
在步骤S300中,先在经过预处理后的预处理信息中抽取实体,确定其目标实体名称。
预处理信息为经过预处理的信息,以便进行实体和关系的抽取操作,预处理信息的获取方式可以参考如下实施例。
在一些实施例中,如图3所示,在步骤S300之前,所述企业关系图谱生成方法还包括:
步骤S100,对交易日志信息和公开获取信息进行整合,得到整合信息;
步骤S200,对所述整合信息进行过滤,得到预处理信息。
在本说明书的实施例中,预处理信息来自交易日志信息和公开获取信息。交易日志信息和公开获取信息经过整合和过滤之后,即得到预处理信息。公开获取信息即公开获取的各种信息,交易日志信息即历史交易日志其包括例如发票等包含历史交易记录的信息。
在步骤S100中,整合的具体方式可以是取所有交易日志信息和所有公开获取信息的并集。
具体的,在一些实施例中,步骤S100的具体实施方式可以参阅如下实施例。本实施例是根据图3对应实施例示出的企业关系图谱生成方法中步骤S100的细节描述,所述企业关系图谱生成方法中,所述交易日志信息包括结构化数据、半结构化数据以及结构化数据,步骤S100可以包括以下步骤:
对所述半结构化数据和非结构化数据进行信息提取,得到结构化数据;
对所述结构化数据以及公开获取信息进行整合,得到整合信息。
在本说明书的实施例中,交易日志信息有结构化的数据,也有非结构化的数据和半结构化的数据,在本说明书的实施例中,信息整合是基于结构化数据进行的,所有需要将非结构化的数据和半结构化的数据先进行结构化处理,得到结构化数据,其具体方式为对半结构化数据和非结构化数据进行信息提取,将重要信息提取出来,然后将这些重要信息整理后,即得到结构化数据。
具体地,上述信息提取采用的方法可以是基于人工专家规则提取与基于模型预测的提取相结合的信息提取方法。
本说明书中所提及的公开获取信息是经过结构化处理后的公开获取信息,其结构化处理的流程和交易日志信息类型,本说明书在此不再赘述。
得到结构化的交易日志信息和结构化的公开获取信息后,即可以对信息进行整合,得到整合信息,整合的具体方式可以是对比所有的结构化的交易日志信息和所有的结构化的公开获取信息,将重复的信息合并,即得到整合信息。
在步骤S200中,对整合信息进行过滤,即得到预处理信息。
对整合信息进行过滤具体包括对整合信息进行重复值处理、缺失值处理、一致化处理以及异常值处理等。
具体的,在一些实施例中,步骤S300的具体实施方式可以参阅如下实施例。本实施例是根据图2对应实施例示出的企业关系图谱生成方法中步骤S300的细节描述,所述企业关系图谱生成方法中,步骤S300可以包括以下步骤:
将所述预处理信息输入实体抽取模型,得到所述预处理信息中包含的所有实体的目标实体名称。
在本说明书的实施例中,目标实体名称的抽取方式为将预处理信息输入实体抽取模型,由实体抽取模型从预处理信息中抽取预处理信息中所有实体的目标实体名称。
具体地,实体抽取模型可以采用卷积神经网络、深度神经网络以及BERT等文本处理神经网络和条件随机场网络结合的方式抽取实体。其具体方式为,先将预处理信息输入文本处理神经网络,文本处理神经网络对预处理信息进行对应的神经网络处理,例如卷积、注意力以及长短记忆等处理,得到对应的文本向量,将该文本向量输入条件随机场网络,即可得到对应的实体名称。
该实体抽取模型的训练方式可以是,将带有实体标签的预处理信息样本输入该实体抽取模型,该实体抽取模型抽取对应的目标实体名称,然后根据实体抽取模型抽取的实体名称和实体标签,确定实体损失,根据实体损失对实体抽取模型进行参数更新,亦即对文本处理神经网络和条件随机场网络进行参数更新,直至实体损失收敛或者小于预定实体损失阈值(一般小于0.001)。
在步骤S400中,请参阅图4,抽取到预处理信息中的实体后,即根据实体的名称,即目标实体名称确定实体的对应类型,实体类型包括企业、自然人、行业以及地理位置。不同类型实体之间的关系类型也不一样,故在抽取关系之前,需要先分别确定两个实体的实体类型,以便进行关系的抽取。
具体地,实体类型的识别可以通过类型判定模型实现。具体地,将目标实体名称输入类型判定模型,由类别判断模型输出目标实体名称对应的类型,即为实体类型。
具体地,上述的类型判定模型的训练步骤具体包括:获取目标实体名称样本集,所述目标实体名称样本集中包含多个目标实体名称样本,每个所述目标实体名称样本均包含对应的实体类型标签;将所述目标实体名称样本集中的目标实体名称样本输入所述类型判定模型中,得到所述类型判定模型输出的实体类型;如果所述目标实体名称样本集中只有不超过预定比例的目标实体名称样本输入所述类型判定模型后,得到的实体类型与对应的标签一致,则调整所述类型判定模型的系数;如果所述目标实体名称样本集中有超过预定比例的目标实体名称样本输入所述类型判定模型后,得到的实体类型与对应的标签一致,训练结束。
在步骤S500中,不同是实体类型组合抽取到的实体关系的类型也不一定相同,故需要同时根据实体的名称和实体的类型(即目标实体名称和实体类型)进行实体关系的抽取。
目标关系按照类型主要可以分为企业与企业之间的关系、企业与自然人之间的关系、企业与行业之间的关系、企业与地理位置之间的关系、自然人与自然人之间的关系、自然人与地理位置之间的关系、行业与行业之间的关系、地理位置与地理位置之间的关系等关系。
具体地,请继续参阅图4,企业与企业之间的关系具体包括招投标关系、债务关系、持股关系等;企业与自然人之间的关系具体包括关键人物关系等;企业与行业之间的关系具体包括行业关系等;企业与地理位置之间的关系具体包括第一位置关系等;自然人与自然人之间的关系具体包括伙伴关系、交易关系等;自然人与地理位置之间的关系具体包括第二位置关系等;行业与行业之间的关系具体包括行业上下游关系、行业从属关系等;地理位置与地理位置之间的关系具体包括位置归属关系等。
招投标关系,例如,M企业曾经中标了R企业的项目,那么它们就具有招投标关系。债务关系,例如,D企业曾经向B企业的贷款,那么它们就具有债务关系。持股关系,例如,C企业为T企业的子公司、S企业有持股C企业部分股票,那么C企业和T企业之间,S企业和C企业之间都可以看作是有持股关系。关键人物关系即该自然人实体任职该目标实体名称的董监高等关键职务,例如自然人Y为Z企业的法人,那么它们就具有关键人物关系。行业关系即该目标实体名称所在行业属于或为该行业实体,例如C企业属于公路运输业,则C企业和公路运输业之间就存在行业关系,同时,C企业也和公路运输业所属的交通运输业之间存在行业关系。第一位置关系即该目标实体名称的地址属于该地理位置的范围内,例如H企业位于云南省昆明市东川区兴玉路123号,则兴玉路、铜都街道、东川区、昆明市、云南省以及中国等都与H企业具有第一位置关系。朋友关系,例如,自然人Y和自然人L是合作伙伴,则其具有伙伴关系。交易关系,例如,自然人N和自然人L之间有商贸往来,则其具有交易关系。第二位置关系即该自然人实体的常用地址属于该地理位置的范围内,例如K自然人的常用地址为黑龙江省哈尔滨市道里区友谊路123号,则友谊路、斯大林街道、道里区、哈尔滨市、黑龙江省以及中国等都与K自然人具有第二位置关系。行业上下游关系,例如,采矿业是冶金业的上游行业,汽车制造业是冶金业的下游行业,采矿业和冶金业之间,冶金业和汽车制造业之间均存在行业上下游关系。行业从属关系,例如,公路运输业是交通运输业的细分行业,公路运输业和交通运输业存在行业从属关系。位置归属关系,例如,萧山属于绍兴,绍兴属于浙江,萧山和绍兴之间、绍兴与浙江之间、萧山与浙江之间都有位置归属关系;又如,卢湾、南汇和闸北都属于上海,则卢湾、南汇以及闸北和上海之间都有位置归属关系;还如,萧山、卢湾、南汇和闸北都属于长江三角洲地区,则其和长江三角洲地区之间都有位置归属关系。
具体的,在一些实施例中,步骤S500的具体实施方式可以参阅如下实施例。本实施例是根据图2对应实施例示出的企业关系图谱生成方法中步骤S500的细节描述,所述企业关系图谱生成方法中,步骤S500可以包括以下步骤:
将所述实体每两个一组形成实体对,每个实体对均包含对应实体的目标实体名称和实体类型。
将所述实体对和所述预处理信息输入关系抽取模型,所述关系抽取模型根据所述实体对中实体的目标实体名称和实体类型,在所述预处理信息中抽取所述目标关系。
在本说明书的实施例中,先将实体每两个一组形成实体对,然后输入关系抽取模型,关系抽取模型根据两个实体各自的目标实体名称和实体类型,在预处理信息中抽取所述目标关系。
具体地,上述的关系抽取模型的训练步骤具体包括:获取实体样本对集,该实体样本对集中包含多个实体样本对,每个实体样本对均包括两个目标实体名称。每个实体样本对上的两个目标实体名称都标记有其实体类型,每个实体样本对也均标记有标签关系,该标签关系即两个目标实体名称之间的关系。将所述实体样本对输入关系抽取模型,关系抽取模型执行图2所示实施例的方法得到目标关系。如果该实体样本对集中只有不超过预定比例的实体样本对输入到关系抽取模型后得到的目标关系和标签关系一致,则调整所述关系抽取模型的系数。如果该实体样本对集中有超过预定比例的实体样本对输入到关系抽取模型后得到的目标关系和标签关系一致,则训练结束。
可以理解的是,上述的实体抽取模型和上述的关系抽取模型可以打包视为一个事实抽取模型,上述的实体抽取模型和上述的关系抽取模型均可以作为该事实抽取模型的一个子模型,即实体抽取子模型和的关系抽取子模型,其所使用到的各种神经网络可以共用,具体地,其可以包括文本处理神经网络、条件随机场网络、分类网络以及分析网络,其中,文本处理神经网络和条件随机场网络共同构成实体抽取子模型,分类网络构成分类子模型,文本处理神经网络和分析网络构成关系抽取子模型,事实抽取模型的执行步骤为:
将预处理信息输入文本处理神经网络,得到文本词向量和句子向量。
将文本词向量输入条件随机场网络,得到目标实体名称。
将目标实体名称输入分类网络,得到目标实体名称对应的实体类型。
将目标实体名称、实体类型以及句子向量输入分析网络,分析网络抽取目标实体名称之间的目标关系,目标关系和对应的两目标实体名称共同构成事实。
该事实抽取模型的训练方法可以包括:
获取预处理信息样本,每个预处理信息样本均标注有对应的事实,每个事实均包括两个目标实体名称、其对应的实体类型以及其之间的目标关系。
将预处理信息样本输入文本处理神经网络,得到文本词向量和句子向量。
将文本词向量输入条件随机场网络,得到目标实体名称。
将目标实体名称输入分类网络,得到目标实体名称对应的实体类型。
将目标实体名称、实体类型以及句子向量输入分析网络,分析网络抽取目标实体名称之间的目标关系,目标关系和对应的两目标实体名称共同构成事实。
将事实抽取模型输出的事实和标注的事实进行对比,得到事实损失,根据事实损失对事实抽取模型进行参数更新,直至事实损失收敛,或者事实损失小于预定事实损失阈值(一般为0.001)。
具体地,事实损失包括第一事实损失、第二事实损失和第三事实损失。
在计算事实损失时,根据输出的目标实体名称和标注的目标实体名称确定第一事实损失;根据输出的实体类型和标注的实体类型确定第二事实损失;根据输出的目标关系和标注的目标关系确定第三事实损失。
在进行参数更新时,根据第一事实损失,对文本处理神经网络和条件随机场进行参数更新,直至第一事实损失收敛,或者第一事实损失小于第一预定事实损失阈值(一般为0.001);根据第二事实损失,对分类网络进行参数更新,直至第二事实损失收敛,或者第二事实损失小于第二预定事实损失阈值(一般为0.001);根据第三事实损失,对文本处理神经网络和分析网络进行参数更新,直至第三事实损失收敛,或者第三事实损失小于第三预定事实损失阈值(一般为0.001)。
在步骤S600中,可以直接以实体为节点、各实体之间的关系为边生成企业关系图谱,实体节点除了有实体的名称外,还有实体的类型。
具体的,在一些实施例中,步骤S600的具体实施方式可以参阅如下实施例。本实施例是根据图2对应实施例示出的企业关系图谱生成方法中步骤S600的细节描述,所述企业关系图谱生成方法中,所述目标关系带有时间戳,步骤S600可以包括以下步骤:
根据所述时间戳,生成多个事实集合,每个所述事实集合均对应一个时间段,包含所有位于其对应时间段的所述事实;
根据每个所述事实集合以及所述事实集合中对应实体的目标实体名称以及目标关系,生成所述时间段对应的图谱切片;
将所有所述图谱切片按照时间轴排列,生成所述企业关系图谱。
在本说明书的实施例中,在提取目标关系的时候,也会提取两实体具有该关系的时间,即事实存在的时间,形成时间戳与目标关系以及两目标实体名称关联。在生成企业关系图谱时,可以先根据时间戳将不同时间的事实分门别类,得到多个对应不同时间的事实集合,在根据每个事实集合生成对应的图谱切片,一个事实集合对应一个图谱切片,最后将生成的图谱切片按照时间轴排列,即生成所述企业关系图谱。该企业关系图谱包括时间信息和空间信息,为时空图谱。该时空图谱针对中国数以百万计的中小企业和数以亿计的自然人之间的金融相关事实构建,规模庞大,数据覆盖面广,可以实现对中小微企业金融事务的更有针对性的支持。
同时,该时空图谱通过时间轴的加入对中小微企业间关系的复杂时变特性做了优化,也针对企业地理位置与其经营、供应链等重要链路间的相互影响进行了处理,具体地,该时空图谱通过设计引入地理位置实体,并建立其与企业、法人等实体类型中实体的关系,实现空间位置信息的有效引入;此外,通过建立日数据更新和存储机制,建立并长期存储中小微企业间的动态关联关系,实现了知识图谱在时间维度上的有效扩展。
具体的,在一些实施例中,步骤S600的具体实施方式可以参阅图5。图5是根据图2对应实施例示出的企业关系图谱生成方法中步骤S600的细节描述,所述企业关系图谱生成方法中,步骤S600可以包括以下步骤:
步骤S610,对所述目标实体名称进行语义消歧处理,得到消歧实体名称。
步骤S620,对所述目标关系进行语义消歧处理,得到消歧关系。
步骤S630,以每个所述消歧实体名称为节点,以所述消歧关系为边,生成所述企业关系图谱,所述企业关系图谱中的每一个实体名称节点均标注有对应的实体类型。
在本说明书的实施例中,在生成企业关系图谱之前,还对目标实体名称和目标关系进行语义消歧处理,然后根据消歧结果生成企业关系图谱。
在步骤S610中,对于目标实体名称的消歧,例如是,卡特汽车公司和卡特石油公司都可以被称为卡特公司,但这两个企业明显不是一个实体。因此,对于目标实体名称卡特公司,我们需要确认其是卡特汽车公司还是卡特石油公司,确定其实际是哪个实体的过程就可以认为是消歧处理。
具体的,在一些实施例中,步骤S610的具体实施方式可以参阅如下实施例。本实施例是根据图2对应实施例示出的企业关系图谱生成方法中步骤S610的细节描述,所述企业关系图谱生成方法中,步骤S610可以包括以下步骤:
在所述预处理信息中获取所述目标实体名称对应的文本句子;
将所述文本句子和预定意思描述句子进行对比,得到句子相似度;
将与所述文本句子相似度最高的预定意思描述句子对应的意思描述作为所述目标实体名称对应的意思描述,得到消歧实体名称。
在实施例中,会预先建立描述库,描述库中包含有各种预定意思描述句子。实体消歧处理的具体步骤为,先根据目标实体名称在预处理信息中截取相关句子,然后将相关句子和预定意思描述做对比,得到对应的句子相似度,求相似度的方法可以通过余弦相似度算法得到,最后选择句子相似度最高的一个预定意思描述句子对应的意思描述作为该目标实体名称对应的意思描述,即得到消歧实体名称。
上述实体语义消歧处理可以看作是由一个实体消歧模型进行的处理,消歧模型的训练方法可以是,将带有意思描述的实体名称样本输入该实体消歧模型,该实体消歧模型执行上述实体消歧步骤,得到带有意思描述的消歧实体名称,根据消歧实体名称的意思描述和样本带有的意思描述计算描述损失,根据描述损失对实体消歧模型进行参数更新,具体地,可以对描述库进行更新,直到描述损失收敛或者小于预定描述损失阈值(一般为0.001)。
具体的,在另一些实施例中,步骤S610的具体实施方式可以参阅如下实施例。本实施例是根据图2对应实施例示出的企业关系图谱生成方法中步骤S610的细节描述,所述企业关系图谱生成方法中,步骤S610可以包括以下步骤:
将所述目标实体名称输入bert预训练模型,得到所述消歧实体名称。
具体地,bert预训练模型的训练方法具体包括:获取目标实体名称样本集,所述目标实体名称样本集中包含多个目标实体名称样本,每个所述目标实体名称样本均包含对应的消歧实体名称标签;将所述目标实体名称样本集中的目标实体名称样本输入所述bert预训练模型中,得到所述bert预训练模型输出的消歧实体名称;如果所述目标实体名称样本集中不超过预定比例的目标实体名称样本输入所述bert预训练模型后,得到的消歧实体名称与对应的标签一致,则调整所述bert预训练模型的系数;如果所述目标实体名称样本集中超过预定比例的目标实体名称样本输入所述bert预训练模型后,得到的消歧实体名称与对应的标签一致,训练结束。
在步骤S620中,对于目标关系的消歧与对目标实体名称的消歧类似,即确定该目标关系的实际意思。
具体的,在另一些实施例中,步骤S620的具体实施方式可以参阅如下实施例。本实施例是根据图2对应实施例示出的企业关系图谱生成方法中步骤S620的细节描述,所述企业关系图谱生成方法中,步骤S620可以包括以下步骤:
将所述目标关系输入bert预训练模型,得到所述消歧关系。
在本说明书的实施例中,bert预训练模型的具体训练方法包括:获取目标关系样本集,所述目标关系样本集中包含多个目标关系样本,每个所述目标关系样本均包含对应的消歧关系标签;将所述目标关系样本集中的目标关系样本输入所述bert预训练模型中,得到所述bert预训练模型输出的消歧关系;如果所述目标关系样本集中不超过预定比例的目标关系样本输入所述bert预训练模型后,得到的消歧关系与对应的标签一致,则调整所述bert预训练模型的系数;如果所述目标关系样本集中超过预定比例的目标关系样本输入所述bert预训练模型后,得到的消歧关系与对应的标签一致,训练结束。
在步骤S630中,以每个消歧实体名称为节点,以消歧关系为边,即得到企业关系图谱,每个实体节点均带有实体名称,实体名称可以看作是一个索引,其可以关联有消歧的意思描述、对应的实体类型等。
具体的,在一些实施例中,步骤S630的具体实施方式可以参阅如下实施例。本实施例是根据图2对应实施例示出的企业关系图谱生成方法中步骤S630的细节描述,所述企业关系图谱生成方法中,步骤S630可以包括以下步骤:
根据每两所述实体的所述消歧实体名称和所述两实体对应的所述消歧关系,生成对应的三元组;
根据所述实体的消歧实体名称和实体类型生成名称类型关系表;
根据所述名称类型关系表和每个所述三元组,得到所述企业关系图谱。
在本说明书的实施例中,企业关系图谱的每条知识将以三元组的形式保存,三元组的形式为(h,r,t),其中h表示头实体、r表示关系、t表示尾实体,其共同构成一个事实。该三元组中,h和t处填入的均为实体名称,每个实体名称均可以作为索引与名称类型关系表、消歧意思表等关联,以方便确定该实体名称的具体指向以及该实体的类型等。同时一个三元组构成一个事实,故其也可以与时间关联,以显示两实体之间关系的存续时间。
下面将结合图6,对本说明书提供的企业关系图谱生成装置进行详细介绍。需要说明的是,图6所示的企业关系图谱生成装置,用于执行本说明书图1~图5所示实施例的方法,为了便于说明,仅示出了与本说明书相关的部分,具体技术细节未揭示的,请参照本说明书图1~图5所示的实施例。
请参见图6,其示出本说明书的企业关系图谱生成装置的结构示意图。该企业关系图谱生成装置600可以通过软件、硬件或者两者的结合实现成为用户终端的全部或一部分。根据一些实施例,该企业关系图谱生成装置600包括实体抽取模块610、类型确定模块620、关系抽取模块630、图谱生成模块640,具体用于:
实体抽取模块610,用于在预处理信息中抽取多个实体的目标实体名称;
类型确定模块620,用于根据所述预处理信息和所述实体的目标实体名称确定每个所述实体的实体类型,所述实体类型包括企业、自然人、行业以及地理位置;
关系抽取模块630,用于根据每两所述实体的实体类型和目标实体名称,在所述预处理信息中抽取目标关系,所述目标关系为两所述实体之间的关系;
图谱生成模块640,用于根据所述目标实体名称、目标关系以及所述实体类型生成企业关系图谱。
可选地,所述目标关系对应的两所示目标实体名称共同构成事实,所述事实带有时间戳,图谱生成模块640具体包括:事实集合子模块,用于根据所述时间戳,生成多个事实集合,每个所述事实集合均对应一个时间段,包含所有位于其对应时间段的所述事实;图谱切片子模块,用于根据每个所述事实集合以及所述事实集合中对应实体的目标实体名称以及目标关系,生成所述时间段对应的图谱切片;时间排列子模块,用于将所有所述图谱切片按照时间轴排列,生成所述企业关系图谱。
可选地,图谱生成模块640具体包括:实体消歧子模块,用于对所述目标实体名称进行语义消歧处理,得到消歧实体名称;关系消歧子模块,对所述目标关系进行语义消歧处理,得到消歧关系;图谱生成子模块,用于以每个所述消歧实体名称为节点,以所述消歧关系为边,生成所述企业关系图谱,所述企业关系图谱中的每一个实体名称节点均标注有对应的实体类型。
可选地,所述实体消歧子模块具体包括:句子获取单元,用于在所述预处理信息中获取所述目标实体名称对应的文本句子;句子对比单元,用于将所述文本句子和预定意思描述句子进行对比,得到句子相似度;名称消歧单元,用于将与所述文本句子相似度最高的预定意思描述句子对应的意思描述作为所述目标实体名称对应的意思描述,得到消歧实体名称。
可选地,所述关系消歧子模块具体执行:将所述目标关系输入bert预训练模型,得到所述消歧关系。
可选地,所述图谱生成子模块具体包括:三元组单元,用于根据每两所述实体的所述消歧实体名称和所述两实体对应的所述消歧关系,生成对应的三元组;关系表单元,用于根据所述实体的消歧实体名称和实体类型生成名称类型关系表;关系图谱单元,用于根据所述名称类型关系表和每个所述三元组,得到所述企业关系图谱。
可选地,实体抽取模块610具体用于执行:将所述预处理信息输入实体抽取模型,得到所述预处理信息中包含的所有实体的目标实体名称。
可选地,所述关系抽取模块630具体包括:实体组对子模块,用于将所述实体每两个一组形成实体对,每个实体对均包含对应实体的目标实体名称和实体类型;关系抽取子模块,用于将所述实体对和所述预处理信息输入关系抽取模型,所述关系抽取模型根据所述实体对中实体的目标实体名称和实体类型,在所述预处理信息中抽取所述目标关系。
可选地,所述企业关系图谱生成装置还包括:信息整合模块,用于对交易日志信息和公开获取信息进行整合,得到整合信息;信息过滤模块,用于对所述整合信息进行过滤,得到预处理信息。
可选地,所述交易日志信息包括结构化数据、半结构化数据以及结构化数据;所述信息整合模块具体包括:结构化子模块,用于对所述半结构化数据和非结构化数据进行信息提取,得到结构化数据;整合子模块,用于对所述结构化数据以及公开获取信息进行整合,得到整合信息。
需要说明的是,上述实施例提供的企业关系图谱生成装置在执行企业关系图谱生成方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的企业关系图谱生成装置与企业关系图谱生成方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本说明书序号仅仅为了描述,不代表实施例的优劣。
在本说明书的实施例中,通过在预处理信息中抽取多个类型不限于企业的实体的目标实体名称,然后确定各实体的实体类型,再根据目标实体名称和对应的实体类型,再预处理信息中抽取各实体之间的关系,最后据目标实体名称、目标关系以及实体类型生成企业关系图谱,该企业关系图谱包括多个维度的实体,实体间的关系也是多元的,其数据覆盖率大大提升,解决了现有的企业关系图谱数据覆盖有限,无法为后续事务提供精准的信息的问题。
本说明书还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1~图5所示实施例的所述企业关系图谱生成方法,具体执行过程可以参见图1~图5所示实施例的具体说明,在此不进行赘述。
本说明书还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图1~图5所示实施例的所述企业关系图谱生成方法,具体执行过程可以参见图1~图5所示实施例的具体说明,在此不进行赘述。
请参考图7,其示出了本说明书一个示例性实施例提供的电子设备的结构方框图。本说明书中的电子设备可以包括一个或多个如下部件:处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。
处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(digital signal processing,DSP)、现场可编程门阵列(field-programmable gate array,FPGA)、可编程逻辑阵列(programmable logicArray,PLA)中的至少一种硬件形式来实现。处理器110可集成中心处理器(centralprocessing unit,CPU)、图像处理器(graphics processing unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(random Access Memory,RAM),也可以包括只读存储器(read-only memory,ROM)。可选地,该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等,该操作系统可以是安卓(Android)系统,包括基于Android系统深度开发的系统、苹果公司开发的IOS系统,包括基于IOS系统深度开发的系统或其它系统。存储数据区还可以存储电子设备在使用中所创建的数据比如电话本、音视频数据、聊天记录数据,等。
参见图8所示,存储器120可分为操作系统空间和用户空间,操作系统即运行于操作系统空间,原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果,操作系统针对不同第三方应用程序为其分配相应的系统资源。然而,同一第三方应用程序中不同应用场景对系统资源的需求也存在差异,比如,在本地资源加载场景下,第三方应用程序对磁盘读取速度的要求较高;在动画渲染场景下,第三方应用程序则对GPU性能的要求较高。而操作系统与第三方应用程序之间相互独立,操作系统往往不能及时感知第三方应用程序当前的应用场景,导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。
为了使操作系统能够区分第三方应用程序的具体应用场景,需要打通第三方应用程序与操作系统之间的数据通信,使得操作系统能够随时获取第三方应用程序当前的场景信息,进而基于当前场景进行针对性的系统资源适配。
以操作系统为Android系统为例,存储器120中存储的程序和数据如图9所示,存储器120中可存储有Linux内核层320、系统运行时库层340、应用框架层360和应用层380,其中,Linux内核层320、系统运行库层340和应用框架层360属于操作系统空间,应用层380属于用户空间。Linux内核层320为电子设备的各种硬件提供了底层的驱动,如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、Wi-Fi驱动、电源管理等。系统运行库层340通过一些C/C++库来为Android系统提供了主要的特性支持。如SQLite库提供了数据库的支持,OpenGL/ES库提供了3D绘图的支持,Webkit库提供了浏览器内核的支持等。在系统运行时库层340中还提供有安卓运行时库(Android runtime),它主要提供了一些核心库,能够允许开发者使用Java语言来编写Android应用。应用框架层360提供了构建应用程序时可能用到的各种API,开发者也可以通过使用这些API来构建自己的应用程序,比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层380中运行有至少一个应用程序,这些应用程序可以是操作系统自带的原生应用程序,比如联系人程序、短信程序、时钟程序、相机应用等;也可以是第三方开发者所开发的第三方应用程序,比如游戏类应用程序、即时通信程序、相片美化程序等。
以操作系统为IOS系统为例,存储器120中存储的程序和数据如图10所示,IOS系统包括:核心操作系统层420(Core OS layer)、核心服务层440(Core Services layer)、媒体层460(Media layer)、可触摸层480(Cocoa Touch Layer)。核心操作系统层420包括了操作系统内核、驱动程序以及底层程序框架,这些底层程序框架提供更接近硬件的功能,以供位于核心服务层440的程序框架所使用。核心服务层440提供给应用程序所需要的系统服务和/或程序框架,比如基础(Foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层460为应用程序提供有关视听方面的接口,如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(AirPlay)接口等。可触摸层480为应用程序开发提供了各种常用的界面相关的框架,可触摸层480负责用户在电子设备上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(User Interface,UI)框架、用户界面UIKit框架、地图框架等等。
在图10所示出的框架中,与大部分应用程序有关的框架包括但不限于:核心服务层440中的基础框架和可触摸层480中的UIKit框架。基础框架提供许多基本的对象类和数据类型,为所有应用程序提供最基本的系统服务,和UI无关。而UIKit框架提供的类是基础的UI类库,用于创建基于触摸的用户界面,iOS应用程序可以基于UIKit框架来提供UI,所以它提供了应用程序的基础架构,用于构建用户界面,绘图、处理和用户交互事件,响应手势等等。
其中,在IOS系统中实现第三方应用程序与操作系统数据通信的方式以及原理可参考Android系统,本说明书在此不再赘述。
其中,输入装置130用于接收输入的指令或数据,输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据,输出装置140包括但不限于显示设备和扬声器等。在一个示例中,输入装置130和输出装置140可以合设,输入装置130和输出装置140为触摸显示屏,该触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作,以及显示各个应用程序的用户界面。触摸显示屏通常设置在电子设备的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合,异型屏与曲面屏的结合,本说明书对此不加以限定。
除此之外,本领域技术人员可以理解,上述附图所示出的电子设备的结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(wireless fidelity,WiFi)模块、电源、蓝牙模块等部件,在此不再赘述。
在本说明书中,各步骤的执行主体可以是上文介绍的电子设备。可选地,各步骤的执行主体为电子设备的操作系统。操作系统可以是安卓系统,也可以是IOS系统,或者其它操作系统,本说明书对此不作限定。
本说明书的电子设备,其上还可以安装有显示设备,显示设备可以是各种能实现显示功能的设备,例如:阴极射线管显示器(cathode ray tubedisplay,简称CR)、发光二极管显示器(light-emitting diode display,简称LED)、电子墨水屏、液晶显示屏(liquidcrystal display,简称LCD)、等离子显示面板(plasma display panel,简称PDP)等。用户可以利用电子设备101上的显示设备,来查看显示的文字、图像、视频等信息。所述电子设备可以是智能手机、平板电脑、游戏设备、AR(Augmented Reality,增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。
在图7所示的电子设备中,其中电子设备可以是一种终端,处理器110可以用于调用存储器120中存储的网络优化应用程序,并具体执行以下操作:在预处理信息中抽取多个实体的目标实体名称;根据所述预处理信息和所述实体的目标实体名称确定每个所述实体的实体类型,所述实体类型包括企业、自然人、行业以及地理位置;根据每两所述实体的实体类型和目标实体名称,在所述预处理信息中抽取目标关系,所述目标关系为两所述实体之间的关系;根据所述目标实体名称、所述目标关系以及所述实体类型生成企业关系图谱。
在一个实施例中,所述目标关系对应的两所示目标实体名称共同构成事实,所述事实带有时间戳,处理器110在执行根据所述目标实体名称、目标关系以及所述实体类型生成企业关系图谱时,具体执行以下操作:根据所述时间戳,生成多个事实集合,每个所述事实集合均对应一个时间段,包含所有位于其对应时间段的所述事实;根据每个所述事实集合以及所述事实集合中对应实体的目标实体名称以及目标关系,生成所述时间段对应的图谱切片;将所有所述图谱切片按照时间轴排列,生成所述企业关系图谱。
在一个实施例中,处理器110在执行根据所述目标实体名称、目标关系以及所述实体类型生成企业关系图谱时,具体执行以下操作:对所述目标实体名称进行语义消歧处理,得到消歧实体名称;对所述目标关系进行语义消歧处理,得到消歧关系;以每个所述消歧实体名称为节点,以所述消歧关系为边,生成所述企业关系图谱,所述企业关系图谱中的每一个实体名称节点均标注有对应的实体类型。
在一个实施例中,处理器110在执行对所述目标实体名称进行语义消歧处理,得到消歧实体名称时,具体执行以下操作:在所述预处理信息中获取所述目标实体名称对应的文本句子;将所述文本句子和预定意思描述句子进行对比,得到句子相似度;将与所述文本句子相似度最高的预定意思描述句子对应的意思描述作为所述目标实体名称对应的意思描述,得到消歧实体名称。
在一个实施例中,处理器110在执行对所述目标关系进行语义消歧处理,得到消歧关系时,具体执行以下操作:将所述目标关系输入bert预训练模型,得到所述消歧关系。
在一个实施例中,处理器110在执行以每个所述消歧实体名称为节点,以所述消歧关系为边,生成所述企业关系图谱时,具体执行以下操作:根据每两所述实体的所述消歧实体名称和所述两实体对应的所述消歧关系,生成对应的三元组;根据所述实体的消歧实体名称和实体类型生成名称类型关系表;根据所述名称类型关系表和每个所述三元组,得到所述企业关系图谱。
在一个实施例中,处理器110在执行在预处理信息中抽取多个实体的目标实体名称时,具体执行以下操作:将所述预处理信息输入实体抽取模型,得到所述预处理信息中包含的所有实体的目标实体名称。
在一个实施例中,处理器110在执行根据每两所述实体的实体类型和目标实体名称,在所述预处理信息中抽取目标关系,具体包括:将所述实体每两个一组形成实体对,每个实体对均包含对应实体的目标实体名称和实体类型;将所述实体对和所述预处理信息输入关系抽取模型,所述关系抽取模型根据所述实体对中实体的目标实体名称和实体类型,在所述预处理信息中抽取所述目标关系。
在一个实施例中,处理器110在执行所述在预处理信息中抽取多个实体的目标实体名称之前,还执行以下操作:对交易日志信息和公开获取信息进行整合,得到整合信息;对所述整合信息进行过滤,得到预处理信息。
在一个实施例中,所述交易日志信息包括结构化数据、半结构化数据以及结构化数据;处理器110在执行对交易日志信息和公开获取信息进行整合,得到整合信息时,具体执行以下操作:对所述半结构化数据和非结构化数据进行信息提取,得到结构化数据;对所述结构化数据以及公开获取信息进行整合,得到整合信息。
在本说明书的实施例中,通过在预处理信息中抽取多个类型不限于企业的实体的目标实体名称,然后确定各实体的实体类型,再根据目标实体名称和对应的实体类型,再预处理信息中抽取各实体之间的关系,最后据目标实体名称、目标关系以及实体类型生成企业关系图谱,该企业关系图谱包括多个维度的实体,实体间的关系也是多元的,其数据覆盖率大大提升,解决了现有的企业关系图谱数据覆盖有限,无法为后续事务提供精准的信息的问题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
需要说明的是,本说明书实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本说明书中涉及的对象特征、交互行为特征以及用户信息等都是在充分授权的情况下获取的。
以上所揭露的仅为本说明书较佳实施例而已,当然不能以此来限定本说明书之权利范围,因此依本说明书权利要求所作的等同变化,仍属本说明书所涵盖的范围。
Claims (14)
1.一种企业关系图谱生成方法,所述企业关系图谱生成方法包括:
在预处理信息中抽取多个实体的目标实体名称;
根据所述预处理信息和所述实体的目标实体名称确定每个所述实体的实体类型,所述实体类型包括企业、自然人、行业以及地理位置;
根据每两所述实体的实体类型和目标实体名称,在所述预处理信息中抽取目标关系,所述目标关系为两所述实体之间的关系;
根据所述目标实体名称、所述目标关系以及所述实体类型生成企业关系图谱。
2.根据权利要求1所述的企业关系图谱生成方法,所述目标关系对应的两所示目标实体名称共同构成事实,所述事实带有时间戳,所述根据所述目标实体名称、目标关系以及所述实体类型生成企业关系图谱,具体包括:
根据所述时间戳,生成多个事实集合,每个所述事实集合均对应一个时间段,包含所有位于其对应时间段的所述事实;
根据每个所述事实集合以及所述事实集合中对应实体的目标实体名称以及目标关系,生成所述时间段对应的图谱切片;
将所有所述图谱切片按照时间轴排列,生成所述企业关系图谱。
3.根据权利要求1所述的企业关系图谱生成方法,所述根据所述目标实体名称、目标关系以及所述实体类型生成企业关系图谱,具体包括:
对所述目标实体名称进行语义消歧处理,得到消歧实体名称;
对所述目标关系进行语义消歧处理,得到消歧关系;
以每个所述消歧实体名称为节点,以所述消歧关系为边,生成所述企业关系图谱,所述企业关系图谱中的每一个实体名称节点均标注有对应的实体类型。
4.根据权利要求3所述的企业关系图谱生成方法,所述对所述目标实体名称进行语义消歧处理,得到消歧实体名称,具体包括:
在所述预处理信息中获取所述目标实体名称对应的文本句子;
将所述文本句子和预定意思描述句子进行对比,得到句子相似度;
将与所述文本句子相似度最高的预定意思描述句子对应的意思描述作为所述目标实体名称对应的意思描述,得到消歧实体名称。
5.根据权利要求3所述的企业关系图谱生成方法,所述对所述目标关系进行语义消歧处理,得到消歧关系,具体包括:
将所述目标关系输入bert预训练模型,得到所述消歧关系。
6.根据权利要求3所述的企业关系图谱生成方法,所述以每个所述消歧实体名称为节点,以所述消歧关系为边,生成所述企业关系图谱,具体包括:
根据每两所述实体的所述消歧实体名称和所述两实体对应的所述消歧关系,生成对应的三元组;
根据所述实体的消歧实体名称和实体类型生成名称类型关系表;
根据所述名称类型关系表和每个所述三元组,得到所述企业关系图谱。
7.根据权利要求1所述的企业关系图谱生成方法,所述在预处理信息中抽取多个实体的目标实体名称,具体包括:
将所述预处理信息输入实体抽取模型,得到所述预处理信息中包含的所有实体的目标实体名称。
8.根据权利要求1所述的企业关系图谱生成方法,所述根据每两所述实体的实体类型和目标实体名称,在所述预处理信息中抽取目标关系,具体包括:
将所述实体每两个一组形成实体对,每个实体对均包含对应实体的目标实体名称和实体类型;
将所述实体对和所述预处理信息输入关系抽取模型,所述关系抽取模型根据所述实体对中实体的目标实体名称和实体类型,在所述预处理信息中抽取所述目标关系。
9.根据权利要求1所述的企业关系图谱生成方法,在所述在预处理信息中抽取多个实体的目标实体名称之前,所述企业关系图谱生成方法还包括:
对交易日志信息和公开获取信息进行整合,得到整合信息;
对所述整合信息进行过滤,得到预处理信息。
10.根据权利要求9所述的企业关系图谱生成方法,所述交易日志信息包括结构化数据、半结构化数据以及结构化数据;
所述对交易日志信息和公开获取信息进行整合,得到整合信息,具体包括:
对所述半结构化数据和非结构化数据进行信息提取,得到结构化数据;
对所述结构化数据以及公开获取信息进行整合,得到整合信息。
11.一种企业关系图谱生成装置,所述企业关系图谱生成装置包括:
实体抽取模块,用于在预处理信息中抽取多个实体的目标实体名称;
类型确定模块,用于根据所述预处理信息和所述实体的目标实体名称确定每个所述实体的实体类型,所述实体类型包括企业、自然人、行业以及地理位置;
关系抽取模块,用于根据每两所述实体的实体类型和目标实体名称,在所述预处理信息中抽取目标关系,所述目标关系为两所述实体之间的关系;
图谱生成模块,用于根据所述目标实体名称、目标关系以及所述实体类型生成企业关系图谱。
12.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~10任意一项的方法步骤。
13.一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由处理器加载并执行如权利要求1~10任意一项的方法步骤。
14.一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~10任意一项的方法步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310581825.6A CN116881465A (zh) | 2023-05-22 | 2023-05-22 | 一种企业关系图谱生成方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310581825.6A CN116881465A (zh) | 2023-05-22 | 2023-05-22 | 一种企业关系图谱生成方法、装置、存储介质及电子设备 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN116881465A true CN116881465A (zh) | 2023-10-13 |
Family
ID=88265004
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202310581825.6A Pending CN116881465A (zh) | 2023-05-22 | 2023-05-22 | 一种企业关系图谱生成方法、装置、存储介质及电子设备 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN116881465A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119250186A (zh) * | 2024-12-06 | 2025-01-03 | 北京银行股份有限公司 | 数据处理方法及装置、非易失性存储介质、电子设备 |
-
2023
- 2023-05-22 CN CN202310581825.6A patent/CN116881465A/zh active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119250186A (zh) * | 2024-12-06 | 2025-01-03 | 北京银行股份有限公司 | 数据处理方法及装置、非易失性存储介质、电子设备 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10891327B1 (en) | Computer-based systems and methods configured to utilize automating deployment of predictive models for machine learning tasks | |
| CN116304007A (zh) | 一种信息推荐方法、装置、存储介质及电子设备 | |
| CN115049068B (zh) | 一种模型处理方法、装置、存储介质及电子设备 | |
| CN114240339A (zh) | 背景调查方法、装置、存储介质及电子设备 | |
| CN116071527B (zh) | 一种对象处理方法、装置、存储介质及电子设备 | |
| WO2025171816A1 (zh) | 文本意图识别模型训练、文本意图识别 | |
| WO2025201472A1 (zh) | 事实评估模型训练、事实评估 | |
| CN116881465A (zh) | 一种企业关系图谱生成方法、装置、存储介质及电子设备 | |
| CN115379005A (zh) | 一种消息处理方法、装置、存储介质及电子设备 | |
| CN117472782A (zh) | 事务测试方法、装置、存储介质及电子设备 | |
| CN112308678A (zh) | 基于图像识别的价格信息处理方法、装置、设备和介质 | |
| CN116228391A (zh) | 一种风险识别方法、装置、存储介质及电子设备 | |
| CN113849249A (zh) | 文本信息显示方法、装置、存储介质及电子设备 | |
| CN115827833A (zh) | 一种对话结构处理方法、装置、存储介质及电子设备 | |
| CN117056507A (zh) | 长文本分析方法、长文本分析模型训练方法及相关设备 | |
| CN115858608A (zh) | 一种数据处理方法、装置、存储介质及电子设备 | |
| CN116343350A (zh) | 一种活体检测方法、装置、存储介质及电子设备 | |
| CN119150834B (zh) | 一种内容模板生成方法、装置、存储介质及电子设备 | |
| CN117725219A (zh) | 企业实体间关系预测方法、装置、存储介质及电子设备 | |
| CN119150821B (zh) | 一种多维表格处理方法、装置、存储介质及电子设备 | |
| CN120011955A (zh) | 预测模型的训练方法、数据预测方法、装置及电子设备 | |
| CN116934395A (zh) | 一种特征处理方法、装置、存储介质及电子设备 | |
| CN116522996A (zh) | 一种推荐模型的训练方法、推荐方法以及相关装置 | |
| CN116974684B (zh) | 地图页面布局方法、装置、电子设备与计算机可读介质 | |
| CN116152403B (zh) | 一种形象生成方法、装置、存储介质及电子设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |