+

CN112101280A - 人脸图像的识别方法、装置 - Google Patents

人脸图像的识别方法、装置 Download PDF

Info

Publication number
CN112101280A
CN112101280A CN202011021820.0A CN202011021820A CN112101280A CN 112101280 A CN112101280 A CN 112101280A CN 202011021820 A CN202011021820 A CN 202011021820A CN 112101280 A CN112101280 A CN 112101280A
Authority
CN
China
Prior art keywords
face image
information
neural network
layer
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011021820.0A
Other languages
English (en)
Other versions
CN112101280B (zh
Inventor
王珂尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Hanma Wisdom Information Technology Co ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011021820.0A priority Critical patent/CN112101280B/zh
Publication of CN112101280A publication Critical patent/CN112101280A/zh
Application granted granted Critical
Publication of CN112101280B publication Critical patent/CN112101280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了人脸图像的识别方法、装置、电子设备及计算机可读存储介质,涉及人工智能领域、计算机视觉技术领域、深度学习技术领域,可用于人脸识别方面。具体实现方案为:获取预处理后的待识别人脸图像后,将该待识别人脸图像输入特征识别神经网络,得到该特征识别神经网络输出的特征识别信息;其中,该特征识别神经网络中包括添加层;基于得到的特征识别信息,生成该待识别人脸图像的特征识别结果,通过包含有添加层的特征识别神经网络对人脸图像进行特征识别,可以提高针对人脸图像进行特征识别的结果准确性。

Description

人脸图像的识别方法、装置
技术领域
本申请涉及人工智能领域,具体涉及计算机视觉技术领域、深度学习技术领域,尤其涉及人可用于人脸识别方面的人脸图像的识别方法、装置、电子设备及计算机可读存储介质。
背景技术
当前为了更好的制定用户服务策略,往往需要了解用户的特征信息,以了解用户的特征状态。
现有技术中通常使用神经网络或者模型对用户的面部表情进行识别,人脸表情识别一般使用传统方法或使用单模型卷积神经网络,将用户的人脸表情图像作为输入,经过卷积神经网络或者人工提取表情特征,再通过分类器输出即为表情识别分类结果。
发明内容
本申请提供了一种人脸图像的识别方法、装置、电子设备以及存储介质。
第一方面,本申请的实施例提供了一种人脸图像的识别方法,获取预处理后的待识别人脸图像;将该待识别人脸图像输入特征识别神经网络,得到该特征识别神经网络输出的特征识别信息;其中,该特征识别神经网络中包括添加层;基于该特征识别信息,生成该待识别人脸图像的特征识别结果。
第二方面,本申请的实施例提供了一种人脸图像的识别装置,包括:图像获取单元,被配置成获取预处理后的待识别人脸图像;特征识别单元,被配置成将该待识别人脸图像输入特征识别神经网络,得到该特征识别神经网络输出的特征识别信息;其中,该特征识别神经网络中包括添加层;识别结果生成单元,被配置成基于该特征识别信息,生成该待识别人脸图像的特征识别结果。
第三方面,本申请的实施例提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,该存储器存储有可被上述至少一个处理器执行的指令,该指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行任一实现方式描述的人脸图像的识别方法。
第四方面,本申请的实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,包括:该计算机指令用于使该计算机执行任一实现方式描述的人脸图像的识别方法。
本申请在获取预处理后的待识别人脸图像后,将该待识别人脸图像输入特征识别神经网络,得到该特征识别神经网络输出的特征识别信息;其中,该特征识别神经网络中包括添加层;基于得到的特征识别信息,生成该待识别人脸图像的特征识别结果,通过包含有添加层的特征识别神经网络对人脸图像进行特征识别,可以提高针对人脸图像进行特征识别的结果准确性。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请的实施例可以应用于其中的示例性系统架构;
图2是根据本申请的人脸图像的识别方法的一个实施例的流程图;
图3是根据本申请的人脸图像的识别方法的中得到预处理后的待识别人脸图像的一个实施例的流程图;
图4是根据本申请的人脸图像的识别方法中确定合成图像识别神经网络的一个实施例的流程图;
图5是根据本申请的人脸图像的识别装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的人脸图像的识别方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的人脸图像的识别方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以发送待识别人脸图像等目的。终端设备101、102、103上可以安装有各种与人脸特征识别有关的应用,例如情感分析类应用、社交类应用、图像识别类应用等。
终端设备101、102、103可以是硬件,也可以是软件。硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如发送待识别人脸图像等),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103提供人脸图像的识别的服务器。例如:获取预处理后的待识别人脸图像后,将该待识别人脸图像输入特征识别神经网络,得到该特征识别神经网络输出的特征识别信息;其中,该特征识别神经网络中包括添加层;基于得到的特征识别信息,生成该待识别人脸图像的特征识别结果,通过包含有添加层的特征识别神经网络对人脸图像进行特征识别。
需要说明的是,本申请的实施例所提供的人脸图像的识别方法一般由服务器105执行,相应地,人脸图像的识别装置一般设置于服务器105中。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
此外,人脸图像的识别方法也可以由终端设备101、102、103执行,相应地,人脸图像的识别装置也可以设置于终端设备101、102、103中。此时,示例性系统架构100也可以不包括服务器105和网络104。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,其示出了根据本申请的人脸图像的识别方法的一个实施例流程200。该人脸图像的识别方法,包括以下步骤:
步骤201,获取预处理后的待识别人脸图像。
在本实施例中,人脸图像的识别方法的执行主体(例如图1所示的服务器105)可以从本地或非本地人机交互设备(例如图1所示的终端设备101、102、103)获取待识别人脸图像,本申请对此不做限定。
应当理解的是,获取图像后,可以由上述执行主体进行预处理以得到预处理后的待识别人脸图像,也可以直接从本地或者非本地的存储设备中,获取经由其他执行主体完成预处理工作后得到的预处理后的待识别人脸图像。
在本实施例的一些可选实现方式中,预处理后的待识别人脸图像经由以下步骤确定:获取原始图像,采用人脸检测模型确定该原始图像中的人脸图像区域;使用关键点标注模型为该人脸图像区域添加第一关键点标记信息;基于该关键点坐标信息调整该人脸图像区域中的人脸图像,得到调整后人脸图像区域;使用该关键点标注模型重新为该调整后人脸图像区域添加第二关键点标记信息;基于该第二关键点信息去除非人脸图像部分,得到该预处理后的待识别人脸图像。
具体的,参考图3,其中示出了一种人脸图像的识别方法中预处理后的待识别人脸图像的确定步骤的一种实现方式的流程300,具体包括:
步骤301,获取原始图像,采用人脸检测模型确定该原始图像中的人脸图像区域。
具体的,在获取到原始图像后,采用人脸检测模型确定该原始图像中包含人脸的区域,人脸检测模型可以采用残差网络检测模型,语义分割检测模型和vgg检测模型等人脸检测模型。
步骤302,使用关键点标注模型为人脸图像区域添加第一关键点标记信息。
具体的,首先可以根据特征识别的目的,基于历史数据中的人脸图像来分析并确定预设数量的关键点,然后通过关键点标注模型,例如装配模块(Active Shape Model,简称ASM)、主动外观模型(Active Appearnce Model,简称AAM)或级联形状回归模型(Cascaded pose regression,CPR)等,为上述步骤201中确定得到的原始图像中的人脸区域添加第一关键点标记信息。
示例性的,在例如在希望获取待识别人脸图像的情感特征时,可以基于将人脸图像中表达出的人脸情绪分类7个类别的基本情绪:生气(Angry)、厌恶(Disgust)、恐惧(Fear)、高兴(Happiness)、悲伤(Sadness)、惊讶(Surprise)和中性(Neutral),然后根据历史数据中的人脸图像中,在图像中的人物呈现出上述表情时产生的面部肌肉变化,确定预设的确定关键点数量为72个,以便于后续根据该72个关键点来对待识别的人脸图像中的人脸表情进行分析。
步骤303,基于第一关键点标记信息调整该人脸图像区域中的人脸图像,得到调整后人脸图像区域。
具体的,基于上述步骤302中确定到的第一关键点的标记信息,建立坐标系,为各个第一关键点添加对应的坐标值,然后根据各个第一关键点的坐标值调整该人脸区域中的人脸图像,进行人脸对齐操作,使得该人脸图像趋近于正向状态,以便于尽可能准确的获取到人脸特征。
其中,应当理解的是,在进行人脸对齐操作后,还可以将调整后的人脸区域进行单独提取,并放大该人脸区域至原始图像的尺寸,以便于后续可以更清晰的对人脸区域中的特征进行识别。
步骤304,使用该关键点标注模型重新为调整后人脸图像区域添加第二关键点标记信息。
具体的,再次使用上述步骤302中使用的关键点标注模型来对基于人脸图像调整后的人脸区域进行重新标记,并添加第二关键点标记信息。
应当理解的是,再次使用上述的关键点标注模型对该人脸区域进行标记后,同样基于上述步骤303中确定的坐标系,为第二关键点信息生成新的坐标。
步骤305,基于该第二关键点信息去除非人脸图像部分,得到预处理后的待识别人脸图像。
具体的,确定人脸图像区域中人脸图像部分对应的外轮廓对应的第二关键点,即确定人脸图像区域中人脸图像的轮廓,基于确定到的第二关键点信息的坐标来删除掉人脸图像之外部分的内容,得到预处理后的待识别人脸图像。
在本实现方式中,对获取到的原始图像基于人脸检测模型和关键点标注模型进行预处理,以提取出原始图像中包含有用于人脸识别特征的关键点的人脸区域的图像,作为后续的待识别人脸图像,以提高使用该待识别人脸图像进行识别的准确率。
此外,在一些实施例中,在上述步骤305中,还可以包括:基于该第二关键点信息去除非人脸图像部分后,将得到的该人脸图像区域,进行归一化处理;对该归一化处理后的人脸图像区域进行随机数据增强处理,得到该待识别人脸图像。
具体的,图像归一化处理,是图像中的每一个像素依次进行归一化处理,以使得图像中的每个像素都可以被顺利识别,避免因像素的像素值差距多大导致的像素漏识别,影响最终的检测效果,然后对归一化后得到的结果进行随机数据增强处理,以实现根据单一图像获取多个训练素材,提高模型训练的质量。
示例性的,归一化处理的方法为,将每个像素的像素值减128再除以256,使每个像素的像素值在[-0.5,0.5]之间,以避免因图像之间的像素值差值差异过大,影响后续检测的效果。
步骤202,将该待识别人脸图像输入特征识别神经网络,得到该特征识别神经网络输出的特征识别信息。
在本实施例中,将上述步骤201中获得的预处理后的待识别人脸图像输入至特征识别神经网络中,将该合成特征识别神经网络中包含有添加层,可以基于其中包括的添加层,进一步对待识别人脸图像进行分析,得到该待检测人脸图像的特征信息,以便于后续判断待检测人脸图像中包含的特征信息,其中,特征信息的具体表现形式与添加层的内容有关。
例如基于不同的添加层的得到的待检测人脸图像的特征矩阵信息、特征向量信息以及特征值信息等,以便于后续根据得到的特征信息来实现不同的人脸图像的识别目的。
其中,添加层可以包括为实现各种功能的添加卷积层、添加最大池化层、添加全连接层、添加中心熵监督层等,以实现根据添加层中的内容来对特征提取神经网络中的内容进行扩展,以单独实现添加层中对应的功能或,联合使用添加层和原有特征提取神经网络中的功能,以实现对原有的特征提取神经网络中的功能进行优化和提升。
示例性的,在例如在希望获取待识别人脸图像的情感特征时,最终得到的是与预先确定的人脸情绪分类7个类别的基本情绪:生气(Angry)、厌恶(Disgust)、恐惧(Fear)、高兴(Happiness)、悲伤(Sadness)、惊讶(Surprise)和中性(Neutral),有关的情感特征向量,以便于根据得到的情感特征向量来对人脸图像的情感特征进行识别、分类。
其中,特征识别神经网络通常为可实现从图像中进行特征提取的卷积神经网络,例如,LeNet神经网络、AlexNet神经网络和VGG(Visual Geometry Group Network)神经网络等。
优选地,采用VGG神经网络,该神经网络中使用了1×1和3×3的小卷积核和池化核2x2的小池化核,因卷积核专注于扩大通道数、池化专注于缩小宽和高,所以使得VGG神经网络的模型架构上更深更宽的同时,计算量的增加放缓层数更深特征图更宽,并且因VGG神经网络的网络测试阶段将训练阶段的三个全连接替换为三个卷积,测试重用训练时的参数,使得测试得到的全卷积网络因为没有全连接的限制,因而可以接收任意宽或高为的输入。
步骤203,基于该特征识别信息,生成待识别人脸图像的特征识别结果。
在本实施例中,具体结合步骤202中得到的特征识别信息的形式来确定待识别人脸图像的识别结果,例如在步骤202得到的图像识别信息为特征向量,后续使用该特征向量来得到待识别人脸图像的识别结果。
本申请实施例提供的人脸图像的识别方法,首先获取预处理后的待识别人脸图像后,将该待识别人脸图像输入特征识别神经网络,得到该特征识别神经网络输出的特征识别信息;其中,该特征识别神经网络中包括添加层;基于得到的特征识别信息,生成该待识别人脸图像的特征识别结果,通过包含有添加层的特征识别神经网络对人脸图像进行特征识别,可以提高针对人脸图像进行特征识别的结果准确性。
继续参考图4,其示出了根据本申请的人脸图像的识别方法中,生成特征识别神经网络的一个实施例流程400。具体包括以下步骤:
步骤401,获取特征提取神经网络。
在本实施例中,上述执行主体(例如图1所示的服务器105)可以从本地或非本地人机交互设备(例如图1所示的终端设备101、102、103)获取特征提取神经网络,本申请对此不做限定。
步骤402,获取特征提取神经网络的结构信息。
在本实施例中,依据特征提取神经网络中各部分的功能对特征提取神经网络的结构进行解析,得到特征提取神经网络的结构信息,该结构信息中至少包括有该特征提取神经网络的卷积层的位置信息,以指明特征提取神经网络中包含的卷积层的数量、各个卷积层之间的连接关系和各个卷积层的位置关系,便于后续基于卷积层的位置信息来生成特征识别神经网络。
步骤403,响应于接收到针对特征识别神经网络的生成请求,获取结构信息和该生成请求中的添加层信息。
在本实施例中,在接收到针对特征识别神经网络的生成请求时,即接收到基于特征提取神经网络生成特征识别神经网络的请求时,获取用于生成特征识别神经网络采用的特征提取神经网络的结构信息,以及生成请求中对应的添加层,添加层中至少包括中心熵监督层的数量信息和连接结构信息,以便于后续根据中心熵监督层的数量信息和连接结构信息在该特征提取神经网络中对应加入中心熵监督层。
其中,中心熵监督层中包含有中心损失函数(center loss):
Figure BDA0002700874910000091
其中,cyi表示第yi个类别的特征中心,xi表示全连接层之前的特征,m表示当前批中处理数据的样本个数。通过该中心损失函数,可以增加每一个特征类别的特征差异,为每一个类别提供一个类别中心,最小化每一批数据中每个样本与对应类别中心的距离,以可以达到缩小类内距离的目的。
在本实施例的一些可选实现方式中,添加层包括:一个中心熵监督层,该中心熵监督层单独连接于特征提取神经网络的最后一个卷积层之后。
具体的,在特征提取神经网络的最后一个卷积层连接一个中心熵监督层,以通过该中心熵监督层对提取的特征更好的进行聚类,拉近处理过程中每个样本于对应的样本中心的距离,缩小类内距离。
步骤404,基于该结构信息和该添加层信息,调整该特征提取神经网络,生成特征识别神经网络。
在本实施例中,上述执行主体在获取到特征提取神经网络的结构信息和添加层信息后,基于该添加层信息中的指示和特征提取神经网络的结构信息,将添加层添加至图像分割神经网络的对应的结构中,得到特征识别神经网络。
本实施例提供的特征识别神经网络的生成方式,获取特征提取神经网络后,根据该特征提取神经网络的结构信息加入中心熵监督层,生成特征识别神经网络,该特征识别神经网络不仅在训练时具有较高的收敛速度,仅依靠少量训练素材便可完成训练,提高了神经网络的训练时效率,并且在后续使用该特征识别神经网络实现特征识别的过程中,具有提升了的识别泛化适用性和识别质量。
在本实施例的一些可选实现方式中,结构信息中还包括:特征提取神经网络的全连接层位置信息。
具体的,还可以获取特征提取神经网络的全连接层的位置信息,以便于根据该全连接层的位置信息添加与全连接层相连的添加层,进一步提升得到的特征识别神经网络的质量。
在本实施例的一些可选实现方式中,添加层信息还包括:一个交叉熵损失层,交叉熵损失层单独连接于特征提取神经网络的全连接层之后。
具体的,在获取到特征提取神经网络的全连接层之后,还可以在该全连接层后面添加一个交叉熵损失层,交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值,因此,可以基于一个交叉熵损失函数来确定交叉熵损失层,以实现数据聚合、得到最终的特征分类结果。
为加深理解,本申请还结合一个具体应用场景,给出了一种具体的实现方案。在该具体应用场景下,为识别人脸图像中的情感特征,采用VGG11神经网络作为特征提取神经网络生成特征识别神经网络,添加层包括数量信息为依次连接在VGG11神经网络最后一个卷积层后的中心熵监督层,以及连接在VGG11神经网络的全连接层之后的交叉熵损失层。
获取尺寸大小为128x128的原始图像A,采用人脸检测模型确定该原始图像中的人脸区域,基于历史数据中的人脸图像,将人脸表情根据人脸肌肉的变化分为7类基本表情,生气、厌恶、恐惧、高兴、悲伤、惊讶和中性。并定义人脸包含72个关键点,然后采用关键点标注模型为人脸区域添加第一关键点信息,分别为(x1,y1)…(x72,y72)。
基于第一关键点信息确定坐标系,并生成第一关键点信息对应的坐标信息,然后根据第一关键点信息中各个关键点的坐标值对人脸区域中的人脸图像进行人脸对齐,同时通过仿射变换截取该人脸区域,并调整到与原始图像尺寸128x128的相同尺寸的大小。
使用上述关键点标注模型重新为调整后人脸图像区域添加第二关键点标记信息,并根据上述基于第一关键点信息确定坐标系确定第二关键点标记信息的坐标,并基于第二关键点信息的坐标信息,确定人脸图像区域中人脸图像的轮廓,基于确定到的第二关键点信息的坐标来删除掉人脸图像之外部分的内容。
然后将人脸图像部分的内容的每个像素的像素值减128再除以256,使每个像素的像素值在[-0.5,0.5]之间,然后将得到的人脸图像区域进行随机数据增强处理,得到待识别人脸图像A1。
获取特征提取神经网络为VGG11神经网络,并解析该VGG11神经网络的结构信息,得到该VGG11神经网络最后一个卷积层的位置信息和全连接层的位置信息。
接收到特征识别神经网络的生成请求,获取到添加层信息为单独连接于VGG1神经网络的最后一个卷积层之后的一个中心熵监督层和单独连接于VGG1神经网络的全连接层之后的一个交叉熵损失层,基于该添加层信息和VGG11神经网络的结构信息,为VGG11神经网络的最后一个卷积层之后添加一个中心熵监督层,以及为VGG11神经网络的全连接层之后添加一个交叉熵损失层,得到特征识别神经网络B。
将待识别图像A1输入至特征识别神经网络B中,最终得到人脸图像的情感特征识别结果。
通过本应用场景可以看出,本申请实施例提供的人脸图像的识别方法,获取预处理后的待识别人脸图像后,将该待识别人脸图像输入特征识别神经网络,得到该特征识别神经网络输出的特征识别信息;其中,该特征识别神经网络中包括添加层;基于得到的特征识别信息,生成该待识别人脸图像的特征识别结果,通过包含有添加层的特征识别神经网络对人脸图像进行特征识别,可以提高针对人脸图像进行特征识别的结果准确性。
如图5所示,本实施例的人脸图像的识别装置500可以包括:图像获取单元501,被配置成获取预处理后的待识别人脸图像;特征识别单元502,被配置成将该待识别人脸图像输入特征识别神经网络,得到该特征识别神经网络输出的特征识别信息;其中,该特征识别神经网络中包括添加层;识别结果生成单元503,被配置成基于该特征识别信息,生成该待识别人脸图像的特征识别结果。
在本实施例的一些可选的实现方式中,上述人脸图像的识别装置中还包括:特征提取神经网络获取单元,被配置成获取特征提取神经网络;特征提取神经网络结构分析单元,被配置成获取该特征提取神经网络的结构信息;其中,该结构信息中至少包括卷积层位置信息;添加层信息获取单元,被配置成响应于接收到针对特征识别神经网络的生成请求,获取该结构信息和该生成请求中的添加层信息;其中,该添加层信息中至少包括中心熵监督层的数量信息和连接结构信息;特征识别网络生成单元,被配置成基于该结构信息和该添加层信息,调整该特征提取生成网络,生成该特征识别神经网络。
在本实施例的一些可选的实现方式中,该添加层信息获取单元中添加层信息包括:一个中心熵监督层,该中心熵监督层单独连接于该特征提取神经网络的最后一个卷积层之后。
在本实施例的一些可选的实现方式中,该特征提取神经网络结构分析单元中结构信息中还包括:该特征提取神经网络的全连接层位置信息。
在本实施例的一些可选的实现方式中,该添加层信息获取单元中添加层信息中还包括:一个交叉熵损失层,该交叉熵损失层单独连接于该特征提取神经网络的全连接层之后。
在本实施例的一些可选的实现方式中,上述人脸图像的识别装置还包括:图像预处理单元504,被配置成成获取原始图像,采用人脸检测模型确定该原始图像中的人脸图像区域;使用关键点标注模型为该人脸图像区域添加第一关键点标记信息;基于该第一关键点标记信息调整该人脸图像区域中的人脸图像,得到调整后人脸图像区域;使用该关键点标注模型重新为该调整后人脸图像区域添加第二关键点标记信息;基于该第二关键点信息去除非人脸图像部分,得到该预处理后的待识别人脸图像。
在本实施例的一些可选的实现方式中,图像预处理单元504中基于该第二关键点信息去除非人脸图像部分,得到该预处理后的待识别人脸图像还包括:基于该第二关键点信息去除非人脸图像部分后,将得到的该人脸图像区域,进行归一化处理;对该归一化处理后的人脸图像区域进行随机数据增强处理,得到该待识别人脸图像。
本实施例作为对应于上述方法实施例的装置实施例存在,相同内容参考对于上述方法实施例的说明,对此不再赘述。通过本申请实施例提供的人脸图像的识别装置,通过包含有添加层的特征识别神经网络对人脸图像进行特征识别,可以提高针对人脸图像进行特征识别的结果准确性。
如图6所示,是根据本申请实施例的人脸图像的识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,该存储器存储有可由至少一个处理器执行的指令,以使上述至少一个处理器执行本申请所提供的人脸图像的识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的人脸图像的识别方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的人脸特征的识别方法对应的程序指令/模块(例如,图5所示的图像获取单元501、特征识别单元502、识别结果生成单元503和图像预处理单元504)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的人脸图像的识别方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据人脸图像的识别电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接人脸图像的识别电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
用于执行人脸图像的识别方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与人脸图像的识别电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至上述存储系统、上述至少一个输入装置、和上述至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,获取预处理后的待识别人脸图像后,将该待识别人脸图像输入特征识别神经网络,得到该特征识别神经网络输出的特征识别信息;其中,该特征识别神经网络中包括添加层;基于得到的特征识别信息,生成该待识别人脸图像的特征识别结果,通过包含有添加层的特征识别神经网络对人脸图像进行特征识别,可以提高针对人脸图像进行特征识别的结果准确性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (16)

1.一种人脸图像的识别方法,包括:
获取预处理后的待识别人脸图像;
将所述待识别人脸图像输入特征识别神经网络,得到所述特征识别神经网络输出的特征识别信息;其中,所述特征识别神经网络中包括添加层;
基于所述特征识别信息,生成所述待识别人脸图像的特征识别结果。
2.根据权利要求1所述的方法,其中,所述特征识别神经网络的生成步骤包括:
获取特征提取神经网络;
获取所述特征提取神经网络的结构信息;其中,所述结构信息中至少包括卷积层位置信息;
响应于接收到针对特征识别神经网络的生成请求,获取所述结构信息和所述生成请求中的添加层信息;其中,所述添加层信息中至少包括中心熵监督层的数量信息和连接结构信息;
基于所述结构信息和所述添加层信息,调整所述特征提取生成网络,生成所述特征识别神经网络。
3.根据权利要求2所述的方法,其中,所述添加层信息包括:
一个中心熵监督层,所述中心熵监督层单独连接于所述特征提取神经网络的最后一个卷积层之后。
4.根据权利要求1-3中任一项所述的方法,其中,所述结构信息中还包括:
所述特征提取神经网络的全连接层位置信息。
5.根据权利要求4所述的方法,其中,所述添加层信息中还包括:
一个交叉熵损失层,所述交叉熵损失层单独连接于所述特征提取神经网络的全连接层之后。
6.根据权利要求1所述的方法,其中,所述预处理后的待识别人脸图像经由以下步骤确定:
获取原始图像,采用人脸检测模型确定所述原始图像中的人脸图像区域;
使用关键点标注模型为所述人脸图像区域添加第一关键点标记信息;
基于所述第一关键点标记信息调整所述人脸图像区域中的人脸图像,得到调整后人脸图像区域;
使用所述关键点标注模型重新为所述调整后人脸图像区域添加第二关键点标记信息;
基于所述第二关键点信息去除非人脸图像部分,得到所述预处理后的待识别人脸图像。
7.根据权利要求6所述的方法,其中,所述基于所述第二关键点信息去除非人脸图像部分,得到所述预处理后的待识别人脸图像还包括:
基于所述第二关键点信息去除非人脸图像部分后,将得到的所述人脸图像区域,进行归一化处理;
对所述归一化处理后的人脸图像区域进行随机数据增强处理,得到所述待识别人脸图像。
8.一种人脸图像的识别装置,包括:
图像获取单元,被配置成获取预处理后的待识别人脸图像;
特征识别单元,被配置成将所述待识别人脸图像输入特征识别神经网络,得到所述特征识别神经网络输出的特征识别信息;其中,所述特征识别神经网络中包括添加层;
识别结果生成单元,被配置成基于所述特征识别信息,生成所述待识别人脸图像的特征识别结果。
9.根据权利要求8所述的装置,还包括:
特征提取神经网络获取单元,被配置成获取特征提取神经网络;
特征提取神经网络结构分析单元,被配置成获取所述特征提取神经网络的结构信息;其中,所述结构信息中至少包括卷积层位置信息;
添加层信息获取单元,被配置成响应于接收到针对特征识别神经网络的生成请求,获取所述结构信息和所述生成请求中的添加层信息;其中,所述添加层信息中至少包括中心熵监督层的数量信息和连接结构信息;
特征识别网络生成单元,被配置成基于所述结构信息和所述添加层信息,调整所述特征提取生成网络,生成所述特征识别神经网络。
10.根据权利要求8所述的装置,其中,所述添加层信息获取单元中所述添加层信息包括:
一个中心熵监督层,所述中心熵监督层单独连接于所述特征提取神经网络的最后一个卷积层之后。
11.根据权利要求8-10中任一项所述的装置,其中,所述特征提取神经网络结构分析单元中所述结构信息中还包括:
所述特征提取神经网络的全连接层位置信息。
12.根据权利要求11所述的装置,其中,所述添加层信息获取单元中添加层信息中还包括:
一个交叉熵损失层,所述交叉熵损失层单独连接于所述特征提取神经网络的全连接层之后。
13.根据权利要求8所述的装置,还包括:
图像预处理单元,被配置成获取原始图像,采用人脸检测模型确定所述原始图像中的人脸图像区域;
使用关键点标注模型为所述人脸图像区域添加第一关键点标记信息;
基于所述第一关键点标记信息调整所述人脸图像区域中的人脸图像,得到调整后人脸图像区域;
使用所述关键点标注模型重新为所述调整后人脸图像区域添加第二关键点标记信息;
基于所述第二关键点信息去除非人脸图像部分,得到所述预处理后的待识别人脸图像。
14.根据权利要求13所述的装置,其中,所述图像预处理单元中所述基于所述第二关键点信息去除非人脸图像部分,得到所述预处理后的待识别人脸图像还包括:
基于所述第二关键点信息去除非人脸图像部分后,将得到的所述人脸图像区域,进行归一化处理;
对所述归一化处理后的人脸图像区域进行随机数据增强处理,得到所述待识别人脸图像。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的人脸图像的识别方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,包括:所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的人脸图像的识别方法。
CN202011021820.0A 2020-09-25 2020-09-25 人脸图像的识别方法、装置 Active CN112101280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011021820.0A CN112101280B (zh) 2020-09-25 2020-09-25 人脸图像的识别方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011021820.0A CN112101280B (zh) 2020-09-25 2020-09-25 人脸图像的识别方法、装置

Publications (2)

Publication Number Publication Date
CN112101280A true CN112101280A (zh) 2020-12-18
CN112101280B CN112101280B (zh) 2024-11-26

Family

ID=73755288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011021820.0A Active CN112101280B (zh) 2020-09-25 2020-09-25 人脸图像的识别方法、装置

Country Status (1)

Country Link
CN (1) CN112101280B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326762A (zh) * 2021-05-26 2021-08-31 清华大学 人脸图像的情绪确定方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996017309A1 (en) * 1994-11-29 1996-06-06 The Salk Institute For Biological Studies Blind signal processing system employing information maximization to recover unknown signals through unsupervised minimization of output redundancy
CN109712144A (zh) * 2018-10-29 2019-05-03 百度在线网络技术(北京)有限公司 面部图像的处理方法、训练方法、设备和存储介质
CN110135318A (zh) * 2019-05-08 2019-08-16 佳都新太科技股份有限公司 过车记录的确定方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996017309A1 (en) * 1994-11-29 1996-06-06 The Salk Institute For Biological Studies Blind signal processing system employing information maximization to recover unknown signals through unsupervised minimization of output redundancy
CN109712144A (zh) * 2018-10-29 2019-05-03 百度在线网络技术(北京)有限公司 面部图像的处理方法、训练方法、设备和存储介质
CN110135318A (zh) * 2019-05-08 2019-08-16 佳都新太科技股份有限公司 过车记录的确定方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONG LIU; WEI SHI; WEIPENG HUANG; QIAO GUAN: "A Discriminatively Learned Feature Embedding Based on Multi-Loss Fusion For Person Search", IEEE, 13 September 2018 (2018-09-13) *
王珂尧: "基于深度学习的视频人脸表情识别", 《中国知网 信息科技辑》, no. 2020 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326762A (zh) * 2021-05-26 2021-08-31 清华大学 人脸图像的情绪确定方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112101280B (zh) 2024-11-26

Similar Documents

Publication Publication Date Title
US11687779B2 (en) Image recognition method and apparatus, device, and computer storage medium
CN111259671B (zh) 文本实体的语义描述处理方法、装置及设备
CN111783620B (zh) 表情识别方法、装置、设备及存储介质
CN113627439B (zh) 文本结构化处理方法、处理装置、电子设备以及存储介质
CN112241715A (zh) 模型训练方法、表情识别方法、装置、设备及存储介质
CN111767729B (zh) 文本分类方法、装置、设备以及存储介质
CN111860362A (zh) 生成人脸图像校正模型及校正人脸图像的方法和装置
CN111738910A (zh) 一种图像处理方法、装置、电子设备和存储介质
CN117197904B (zh) 人脸活体检测模型的训练方法、人脸活体检测方法及装置
CN111611990B (zh) 用于识别图像中表格的方法和装置
CN112418320A (zh) 一种企业关联关系识别方法、装置及存储介质
Krishnan et al. Detection of alphabets for machine translation of sign language using deep neural net
EP4057283A2 (en) Method for detecting voice, method for training, apparatuses and smart speaker
CN114494784A (zh) 深度学习模型的训练方法、图像处理方法和对象识别方法
CN112101552A (zh) 用于训练模型的方法、装置、设备以及存储介质
CN111862031A (zh) 一种人脸合成图检测方法、装置、电子设备及存储介质
EP3942459A1 (en) Object detection and segmentation for inking applications
CN110738261B (zh) 图像分类和模型训练方法、装置、电子设备及存储介质
CN112528682B (zh) 语种检测方法、装置、电子设备和存储介质
CN112101280A (zh) 人脸图像的识别方法、装置
CN112560679A (zh) 表情识别方法、装置、设备及计算机存储介质
CN115880506B (zh) 图像生成方法、模型的训练方法、装置及电子设备
CN116994319A (zh) 训练模型的方法和人脸识别方法、设备、介质
CN112528027A (zh) 文本分类方法、装置、设备、存储介质和程序产品
CN112560848B (zh) 兴趣点poi预训练模型的训练方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20250228

Address after: 203, Building 5, No. 728, Shibei Industrial Road, Dashi Street, Panyu District, Guangzhou, Guangdong, 510000

Patentee after: GUANGZHOU HANMA WISDOM INFORMATION TECHNOLOGY Co.,Ltd.

Country or region after: China

Address before: 2 / F, baidu building, 10 Shangdi 10th Street, Haidian District, Beijing 100085

Patentee before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Country or region before: China

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for facial image recognition

Granted publication date: 20241126

Pledgee: Bank of China Limited by Share Ltd. Guangzhou Panyu branch

Pledgor: GUANGZHOU HANMA WISDOM INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2025980008884

点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载