WO2018170663A1

WO2018170663A1 - 图像标注方法、装置及电子设备

Info

Publication number: WO2018170663A1
Application number: PCT/CN2017/077253
Authority: WO
Inventors: 廉士国; 刘兆祥; 王宁; 南一冰
Original assignee: 深圳前海达闼云端智能科技有限公司
Priority date: 2017-03-20
Filing date: 2017-03-20
Publication date: 2018-09-27
Also published as: JP2020509504A; US20200012888A1; US11321583B2; CN107223246B; CN107223246A; JP6893606B2

Abstract

本申请实施例公开了一种图像标注方法、装置及电子设备。该方法包括：获取在终端处采集的图像；获取与所述图像关联的语音信息；根据所述语音信息对所述图像进行标注，并存储所述图像的标注结果。本申请实施例的实施方式能够对接收到的图像进行实时交互式标注，缩短了图像标注的时间周期，提升了移动状态下进行图像标注的便利性，从而提升了进行图像标注时的工作效率和便捷性。

Description

图像标注方法、装置及电子设备

技术领域

本申请涉及图像管理和图像识别技术领域，特别是涉及一种图像标注方法、装置及电子设备。

背景技术

在图像识别过程中，关键的一步就是对数据样本进行标注。例如，为了训练出一个智能识别器来识别狗，则需要大量已经标注好的狗的数据样本，包括狗的图片以及文字标注“狗”等。

当前常用的数据标注方法是，基于人工和计算机设备对已采集的大量图像和文字进行标注。获取标注好的数据样本后，再根据该标注好的数据样本进行相应的图像识别训练，然而，这种实现方式存在标注时间长、效率低，耗费人力成本高等问题。

日常生活中，有些情况需要移动状态下(甚至通过穿戴式设备)实时采集图像样本(例如通过手机、AR眼镜、导盲头盔、机器人等)，如果能在采集样本的同时做数据标注，这将降低后续离线标注的复杂度。但是，如何在移动状态下实时标注，这是需要解决的问题。例如，在移动/穿戴设备情况下，较难进行文字标注的输入、图像子区域的选择。以前的标注工具大多针对台式电脑，没有考虑这种移动/穿戴设备情况，不适合移动状态下的实时数据标注，即标注的便利性不足。

发明内容

本申请实施例提供一种图像标注方法、装置及电子设备，主要用于解决进行图像标注时效率低、便利性不足的问题。

为解决上述技术问题，本申请实施例采用的一个技术方案是：提供一种图像标注方法，包括：获取在终端处采集的图像；获取与所述图像关联的语音信息；根据所述语音信息对所述图像进行标注，并存储所述图像的标注结果。

为解决上述技术问题，本申请实施例采用的另一个技术方案是：提供一种图像标注装置，包括：第一获取模块，用于获取在终端处采集的图像；第二获取模块，用于获取与所述图像关联的语音信息；第一标注模块，用于根据所述语音信息对所述图像进行标注，并存储所述图像的标注结果。

为解决上述技术问题，本申请实施例采用的又一个技术方案是：提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令程序，所述指令程序被所述至少一个处理器执行，以使所述至少一个处理器执行如上所述的方法。

为解决上述技术问题，本申请实施例采用的再一个技术方案是：提供一种计算机程序产品，所述计算机程序产品包括：非易失性计算机可读存储介质以及内嵌于所述非易失性计算机可读存储介质的计算机程序指令；所述计算机程序指令包括用以使处理器执行如上所述的方法的指令。

为解决上述技术问题，本申请实施例采用的还一个技术方案是：提供一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上所述的方法。

在本申请实施例中，通过对获取到的语音信息进行分析，根据该语音信息的分析结果对获取到的图像进行图像标注，本申请实施例的实施方式能够对接收到的图像进行实时标注，缩短了图像标注的时间周期，从而提升了进行图像识别时的工作效率。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本申请实施例提供的图像标注方法的运行环境的示意图；

图2是本申请实施例提供的一种图像标注方法的流程示意图；

图3是本申请另一实施例提供的一种图像标注方法的流程示意图；

图4是本申请再一实施例提供的一种图像标注方法的流程示意图；

图5(a)-(d)是本申请实施例提供的一种图像标注方法的示例示意图；

图6是本申请又一实施例提供的一种图像标注方法的流程示意图；

图7是本申请还一实施例提供的一种图像标注方法的流程示意图；

图8是本申请实施例提供的一种图像标注装置的结构示意图；

图9是本申请另一实施例提供的一种图像标注装置的结构示意图；

图10是本申请再一实施例提供的一种图像标注装置的结构示意图；

图11是本申请又一实施例提供的一种图像标注装置的结构示意图；

图12是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

请参照图1，图1为本申请实施例提供的图像标注方法的运行环境的示意图。如图1所示，该应用环境包括：用户10、终端20以及云端30。

用户10可以为具有任何数量的，具有相同或者相近操作行为的群体，例如机器人用户群体、手机用户群体、AR眼镜用户群体以及导盲头盔用户群体等。用户10也可以为单独的个体。不同的用户10具有不同的个性化要求、使用习惯、使用需求等，因此每个用户都有其特定的用户数据。

终端20可以为任何合适类型的，具有一定逻辑运算能力，提供一个或者多个能够满足用户意图的功能的电子设备，其具备图像采集、声音采集、声音识别、显示播放等功能。终端20包括：机器人、智能手机、AR眼镜、智能头盔等多种智能终端设备。用户10可以通过任何合适的类型的，一种或者多种用户交互设备(比如鼠标、键盘、遥控器、触摸屏、体感摄像头以及音频采集装置等)与智能终端20进行交互，输入指令或者控制智能终端20执行一种或者多种操作。

云端30具有数据存储和数据处理功能，其能够与终端20进行数据通信，包括接收数据和发送数据。云端30接收终端20发送的数据，并对该数据进行数据处理，具体是根据接收到的图像数据和语音数据对图像进行图像标注，云端30还能够存储数据。

需要说明的是，本申请实施例提供的图像标注方法的还可以进一步的拓展到其他合适的应用环境中，而不限于图1中所示的应用环境。虽然图1中仅显示了三个用户、三个终端和一个云服务器，但本领域技术人员可以理解的是，在实际应用过程中，该应用环境还可以包括更多或者更少的用户、终端及云服务器。

结合上述运行环境，下述内容给出了基于终端20和云端30进行图像标注的具体实施方式。

请参考图2，图2是本申请实施例提供的一种图像标注方法的流程示意图。该方法应用于云端，如图2所示，该方法包括：

步骤101、获取在终端处采集的图像；

步骤102、获取与所述图像关联的语音信息；

步骤103、根据所述语音信息对所述图像进行标注，并存储所述图像的标注结果。

在本申请实施例中，根据终端所处的实际场景，由终端通过摄像头等设备实时的采集预设范围内要标注的物体的画面图像，在采集图像过程中，终端可以处于静止状态或移动状态，采集到待标注物体的图像之后，终端将该图像发送至云端，该发送的图像可以是在终端经过压缩处理后的图像，从而提升图像上传至云端的速度。

终端向云端发送图像的同时还向云端上传与该图像关联的语音信息，当云端不能自动对获取到的图像进行标注时，云端可以基于该语音信息对该图像进行标注，并存储图像的标注结果。

例如，当终端采集的图像中只有一种待标注物时，用户可以通过语音输入的方式告诉终端采集的图像是“狗”，终端采集用户的语音信息，并将该语音信息发送至云端，云端通过语音识别模块提取该语音信息中的关键特征，再根据该关键特征对该图像进行标注。此外，用户也可以通过文字输入的方式告诉终端采集的图像是“狗”。

其中，该终端包括手机、AR眼镜、智能头盔、机器人等。该手机、AR眼镜、智能头盔及机器人均可以拍摄图像并采集声音。

其中，用户可以只用一次语音输入来标注多幅图像，比如根据图像上传的顺序来按顺序的输入语音，从而使语音与图像对应。用户还可以只用一次语音输入来标注一个连续的图像序列，比如一段针对狗的不同视角的视频。

当云端已存储大量的图像标注文件之后，终端再次采集到相同待标注物的图像画面时，可以利用云端来智能识别出图像画面中的物品，从而节省终端侧的人工标注过程。

需要说明的是，如果遇到无法识别的物体时，终端可以通过自身的语音模块发出“这是什么？”的语音，通知其旁边或云端后台的人工，人工在本地通过终端自带的智能设备来进行图像标注(比如通过语音标注或者通过触屏进行标注等)，或者在云端通过后台操控设备(比如计算机)进行标注，并存储标注的结果至云端。

本申请实施例提供了一种图像标注方法，该方法利用云端的智能工具分析获取到的语音信息，并根据分析结果对获取到的包含待标注物的图像进行标注，并在云端存储图像的标注结果。该方法能够对获取到的图像进行实时交互式标注，提升了图像标注的效率、便利性。

当采集的图像中包含多种待标注物，例如一幅图片里同时包含狗和猫，此时为了更准确的标注出图像中的物体，下述实施例提供了一种图像标注方法。

请参考图3，图3是本申请另一实施例提供的一种图像标注方法的流程示意图。如图3所示，该方法包括：

步骤201、获取在终端处采集的图像。

步骤202、采用区域提取算法提取所述图像中的待标注物的区域信息。

从图像中获取目标区域是多种图像处理应用的重要步骤，该区域提取算法即用于提取图像中待标注物的区域，现有技术中相关的研究有很多，例如，基于内容的图像检索，基于感兴趣区域的图像压缩与编码，基于内容的图像认证以及图像自适应显示等。

在本申请实施例中，采用区域提取算法提取图像中待标注物的区域信息，例如，该图像中的待标注物为一只狗和一只猫，此时，提取“狗”和“猫”的区域信息，即提取“狗”和“猫”的图像在该画面图像中所占据的范围。图像中每一待标注物都有其对应的区域信息，提取出的区域信息可以用数学表达式表示，比如通过[a1,a2]分别表示“狗”和“猫”的区域信息。该区域提取算法包括：基于特征点的提取方法，基于视觉注意机制的提取方法(比如Itti显著图模型、频谱残差模型等)等。在相关技术中，对该相关的区域提取算法均有详细的介绍，在此不再赘述。

步骤203、根据所述区域信息对所述图像中的待标注物进行子区域划分。

提取图像中待标注物的区域信息后，本步骤中基于该区域信息对图像中的待标注物进行了区域划分，划分出多个子区域，该子区域划分过程实际就是在获取到每个子区域对应的区域信息后，区别出每个待标注物所对应的区域范围。例如，可以使用不同颜色的框图来明确每个待标注物的子区域，比如“狗”对应的子区域表示是“绿色框区域”，“猫”对应的子区域表示是“红色框区域”。还可以使用不同的颜色来明确每个待标注物的子区域，比如“狗”的子区域示出灰色，“猫”的子区域示出黑色。还可以通过其他方式来区别出图像中待标注物的区域。需要说明的是，图像中包含的待标注物的种类越多时，准确的进行子区域划分能够有效的提高对该图像进行标注的准确率。

步骤204、发送所述子区域划分的结果或者进行子区域划分后的图像。

在云端完成对该图像的子区域划分之后，云端可以将子区域的划分结果发送至终端，终端将该划分结果叠加至已采集到的所述图像上，从而为终端用户展示出划分子区域后的图像。云端还可以将进行子区域划分后的图像直接发送至终端，终端只需显示该划分后的图像。

步骤206、获取与所述图像中的子区域关联的语音信息。

在终端接收云端发送的子区域划分的结果或者进行子区域划分后的图像之后，终端能够获取到包含子区域的图像，此时，针对图像上的每个子区域，终端获取与该子区域相关的关键信息，再将该关键信息发送至云端。

例如，用户通过触屏等方式选择终端显示的图像中的一个子区域，并通过语音输入“这是狗”，此时，该子区域的关键信息即这条语音信息，终端将该语音信息发送至云端。

例如，用户直接通过终端输入“红色区域的是狗”，“绿色区域的是猫”的语音信息，此时，该关键信息即这两条语音信息，终端将采集到的语音信息发送至云端。

步骤207、根据所述语音信息对所述图像进行标注，并存储所述图像的标注结果。

可以理解的是，该语音信息是与所述图像中的子区域对应的语音信息，云端可以通过语音识别模块基于语音识别提取该语音信息中的关键词，并建立该关键词与子区域的映射关系表，例如，<a1,t1>，<a2,t2>，<a3,t3>，…。从而根据该映射关系表对所述子区域进行标注，并存储标注结果，例如，<a1,t1>＝<红色区域,“狗”>；<a2,t2>＝<绿色区域,“猫”>。其中，该关键词对应子区域，每一个子区域可以包含一个或多个关键词，当一个子区域包含多个关键词时，可以用该多个关键词对该子区域进行标注，例如，<a1,t1>＝<红色区域,“狗”“萨摩”“白色”>。

在本申请实施例中，针对图像中包含多种待标注物的情况，首先对图像进行子区域划分，然后基于划分的子区域，采取人与终端互动的方式获取每一子区域的语音信息，再将该语音信息发送至云端，由云端根据该语音信息对图像中的子区域进行标注。通过这种实施方式，能够提高图像标注的准确率，而且划分子区域后再标注，提升了图像标注的效率。

可以理解的是，在云端进行子区域划分的过程中，由于图像的噪声等原因造成图像的子区域的划分存在错误，比如将两种待标注物划分至一个子区域内，或者将不是待标注物的区域划分出了一个子区域，或者是一些待标注物没有被划入子区域范围内。为了避免影响图像标注的准确性和完整性，下述实施例给出了一种图像标注方法。

请参考图4，图4是本申请再一实施例提供的一种图像标注方法的流程示意图。图4与图3的主要区别在于，当云端发送进行子区域划分后的结果或者进行子区域划分后的图像至终端之后，该方法还包括：

步骤205、获取在终端处对所述子区域划分的结果或者进行子区域划分后的图像进行调整操作后的图像。

在本申请实施例中，云端向终端发送所述子区域的划分结果或者进行子区域划分的图像之后，终端可以对该图像进行调整操作，以确认在云端划分的子区域是准确且合适的。例如，终端可以接受用户通过触屏方式微调颜色框的位置和尺寸以适配其中的待标注物，终端可以接受用户删除图像中的多余的框，比如该框中没有待标注物，终端还可以接受用户增加图像中缺少的框，等。

需要说明的是，终端对划分后的子区域进行调整操作后，基于子区域采集语音信息时，是基于被调整后的图像的子区域来采集语音信息的，并且云端是根据所述语音信息对进行调整操作后的图像进行标注的。

在本申请实施例中，通过终端对划分的子区域进行调整，并将调整后的图像发送至云端，云端根据该确认的图像以及该确认图像的子区域的语音信息对图像的子区域进行标注。保证了图像中待标注物在被标注时的准确性和完整性。

基于上述实施例，举例说明，在终端处采集的图像中包含多种待标注物，该图像可如图5(a)所示，该图像中包含“狗”和“猫”两种待标注物，通过上述区域提取算法对该图像中的待标注物进行子区域划分，划分的结果如图5(b)或图5(c)所示，在用户终端侧可以发现图5(b)或图5(c)中待标注物的子区域划分结果不够完整或者存在错误，此时，可以由终端用户对子区域划分的结果或者进行子区域划分后的图像进行调整，调整后的图像如图5(d)所示，终端将该调整后的图像发送至云端，并发送与调整后的图像的子区域关联的语音信息，从而，云端可以根据接收到的语音信息对子区域调整后的图像进行标注。

请参考图6，图6是本申请又一实施例提供的一种图像标注方法的流程示意图。如图6所示，该方法包括：

步骤301、获取在终端处采集的图像；

步骤302、通过图像识别对所述图像进行自动标注；

步骤303、在对所述图像进行自动标注后，将自动标注的结果在终端处展示；

步骤304、获取与所述图像关联的语音信息；

步骤305、在所述语音信息指示自动标注的结果正确时，存储自动标注的结果；和/或，在所述语音信息指示自动标注的结果不正确时，根据语音信息对所述图像进行标注。

本申请实施例的图像标注方法可以由云端自动完成，不需要接收终端侧采集的语音信息。

具体地，云端获取该图像之后，基于图像识别方法对该图像进行自动标注。例如，首先云端对接收到的图像进行子区域划分，然后利用物体识别方法来自动的标注各个子区域，其包括对图像中的一种待标注物进行标注，以及对图像中的多种待标注物进行标注，从而完成该图像的标注。其中，云端可以采用区域提取算法来对图像进行子区域划分，具体的过程可参考上述实施例中的叙述。

其中，物体识别方法是基于计算机视觉领域，主要用于解决对物体进行准确的检测识别的问题，其包括选取有效的图像特征点，降低在物体识别过程中出现的遮挡、图像噪声带来的影响，以及达到较好的物体识别精度等。

需要说明的是，物体识别方法除了识别图像中的物体之外，还可以识别文字，即通过识别物体上的文字来作为该物体的备选标注项，例如，识别出一盒子上的“牛奶”字样，此时该盒子的标注项里包括“牛奶”。

进一步地，云端基于物体识别方法对图像进行自动标注之后，也可以将图像的标注结果发送至终端并在终端处展示，可以由终端用户进行确认是否存在错误的标注结果，若自动标注的结果存在错误，则可以对标注结果进行修改。例如，可以通过语音修改自动标注结果，比如通过触屏删除红色区域对应的标注“猪”，再通过语音“这是狗”来给红色区域生成标注“狗”。还可以通过语音来添加自动标注结果中缺少的标注，比如触屏选中待标注物“猫”，然后输入语音“这是猫”，以生成新的标注，该过程也可以通过输入文字的方式进行添加。还可以通过语音删除自动标注结果中多余的标注，等等。

若自动标注的结果正确，则存储该自动标注的结果。

本申请实施例提供了一种图像标注方法，该方法由云端对获取的图像进行自动标注，并在终端处判断该自动标注的结果是否正确，若标注正确则存储该标注结果，若存在错误标注，则根据语音信息对标注结果进行调整。该实施方式不仅能够缩短图像标注的时间周期，而且能够明显地提高图像标注结果的正确性和图像识别的准确率。

请参考图7，图7是本申请还一实施例提供的一种图像标注方法的流程示意图。如图7所示，该方法包括：

步骤401、获取在终端处采集的图像；

步骤402、通过图像识别对所述图像进行自动标注；

步骤403、获取与所述图像关联的语音信息；

步骤404、在所述自动标注失败时，根据所述语音信息对所述图像进行标注。

本申请实施例的图像标注方法是针对云端图像自动标注失败时的情况，此时，根据获取的语音信息来对图像再次进行标注。

其中，云端对该图像进行自动标注的过程，以及根据语音信息对该图像再次进行标注的过程，可参考上述实施例中的叙述，在此不再赘述。

其中，可以由云端来判断自动标注是否成功，也可以由终端来反馈自动标注是否成功，还可以通过其他方式来判断，在此不做限定。

本申请实施例提供的图像标注方法，能够在云端对图像进行自动标注，并且在自动标注失败时，由获取的语音信息来对图像进行标注。该实施方式能够保证图像被成功标注，并且标注时间缩短，标注方式更方便。

需要说明的是，以上的各个实施例的方法，可以是指由云端服务器中相应的功能模块来独立执行的方法，也可以是指由包含云端中的功能模块和终端中的功能模块的系统来共同执行的方法。当由云端中的功能模块单独进行标注时，步骤101、102中的获取可以是指接收终端发送的图像以及语音信息；在终端处展示标注结果，可以是指将标注结果发送给终端，由终端进行显示。当由云端和终端共同构成的系统共同执行时，上述的获取可以是指，终端处的功能模块调用终端的硬件进行图像和语音的采集，以及在终端处显示相应的内容。可以理解的是，不管是哪种方式，都可以达到本申请的目的，相应的，也应该落入本申请的保护范围。

请参考图8，图8是本申请实施例提供的一种图像标注装置的结构示意图。如图8所示，该装置40包括：第一获取模块41、第二获取模块42以及第一标注模块43。

其中，第一获取模块41，用于获取在终端处采集的图像；第一获取模块42，用于获取与所述图像关联的语音信息；第一标注模块43，用于根据所述语音信息对所述图像进行标注，并存储所述图像的标注结果。

在本申请实施例中，该第一获取模块41和第二获取模块42均分别连接第一标注模块43，由第一标注模块43根据接收到的图像和语音信息，对该图像进行图像标注。

值得说明的是，上述装置内的模块之间的信息交互、执行过程等内容，由于与本申请的方法实施例基于同一构思，具体内容可参见本申请方法实施例中的叙述，此处不再赘述。

本申请实施例提供了一种图像标注装置，该装置利用云端的智能工具分析获取到的语音信息，并根据分析结果对获取到的包含待标注物的图像进行标注，并在云端存储图像的标注结果。该装置能够对获取到的图像进行实时标注，提升了图像标注的效率。

请参考图9，图9是本申请另一实施例提供的一种图像标注装置的结构示意图。本申请实施例是针对接收的图像中包含多种待标注物的一种实现方式。如图9所示，该装置50包括：第一获取模块51、第一提取模块52、第一划分模块53、第一发送模块54、第二获取模块55、第一标注模块56。

其中，第一获取模块51，用于获取在终端处采集的图像；第一提取模块52，用于采用区域提取算法提取所述图像中的待标注物的区域信息；第一划分模块53，用于根据所述区域信息对所述图像中的待标注物进行子区域划分；第一发送模块54，用于发送所述子区域划分的结果或者进行子区域划分后的图像；第二获取模块55，用于获取与所述图像中的子区域关联的语音信息；第一标注模块56，用于根据所述语音信息对所述图像进行标注，并存储所述图像的标注结果。

其中，该第一标注模块56包括：提取单元561和标注单元562。提取单元561，用于基于语音识别提取所述语音信息中的关键词，所述关键词对应所述子区域；标注单元562，用于建立所述关键词与所述子区域的映射关系表，并根据所述映射关系表对所述子区域进行标注，并存储标注结果。

在一些实施例中，该装置还包括第三获取模块，该第三获取模块用于获取在终端处对所述子区域划分的结果或者进行子区域划分后的图像进行调整操作后的图像。此时，所述第一标注模块56具体用于根据所述语音信息对所述进行调整操作后的图像进行标注，并存储所述图像的标注结果。

请参考图10，图10是本申请再一实施例提供的一种图像标注装置的结构示意图。如图10所示，该装置60包括：第一获取模块61、第二标注模块62、展示模块63、第二获取模块64以及第一标注模块65。

该第一获取模块61，用于获取在终端处采集的图像；该第二标注模块62，用于通过图像识别对所述图像进行自动标注；该展示模块63，用于在对所述图像进行自动标注后，将自动标注的结果在终端处展示；该第二获取模块64，用于获取与所述图像关联的语音信息；该第一标注模块65，用于在所述语音信息指示自动标注的结果正确时，存储自动标注的结果；和/或，在所述语音信息指示自动标注的结果不正确时，根据语音信息对所述图像进行标注。

本申请实施例提供了一种图像标注装置，通过云端对获取的图像进行自动标注，并在终端处判断该自动标注的结果是否正确，若标注正确则存储该标注结果，若存在错误标注，则根据语音信息对标注结果进行调整。该实施方式不仅能够缩短图像标注的时间周期，而且能够明显地提高图像标注结果的正确性和图像识别的准确率。

请参考图11，图11是本申请又一实施例提供的一种图像标注装置的结构示意图。如图11所示，该装置70包括：第一获取模块71、第三标注模块72、第二获取模块73以及第一标注模块74。

该第一获取模块71，用于获取在终端处采集的图像；该第三标注模块72，用于通过图像识别对所述图像进行自动标注；该第二获取模块73，用于获取与所述图像关联的语音信息；该第一标注模块74，用于在自动标注失败时，根据所述语音信息对所述图像进行标注。

本申请实施例提供的图像标注装置，能够在云端对图像进行自动标注，并且在自动标注失败时，由获取的语音信息来对图像进行标注。该实施方式能够保证图像被成功标注，并且标注时间缩短，标注方式更方便。

请参考图12，图12是本申请实施例提供的电子设备的硬件结构示意图，该电子设备80能够执行如上所述的图像标注方法。该电子设备可以是一个云端服务器，也可以是一个包含终端和云端服务器的系统。

如图12所示，该电子设备80包括：一个或多个处理器81以及存储器82，图12中以一个处理器81为例。

处理器81、存储器82可以通过总线或者其他方式连接，图12中以通过总线连接为例。

存储器81作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的图像标注方法对应的程序指令/模块(例如，附图8所示的第一获取模块41、第二获取模块42以及第一标注模块43)。处理器81通过运行存储在存储器82中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例图像标注方法。

存储器82可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据图像标注装置的使用所创建的数据等。此外，存储器82可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器82可以包括相对于处理器81 远程设置的存储器，这些远程存储器可以通过网络连接至用图像标注装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器82中，当被所述一个或者多个处理器81执行时，执行上述任意方法实施例中的图像标注方法。

本发明实施例提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被电子设备执行上述任意方法实施例中的图像标注方法，例如，执行以上描述的图2中的方法步骤101至步骤103，图3中的方法步骤201至步骤204，以及步骤206、207，图4中的方法步骤201至步骤207，图6中的方法步骤301至步骤305，图7中的方法步骤401至步骤404，实现图8中的模块41-43，图9中的模块51-56，单元561-562，图10中的模块61-65，图11中的模块71-74的功能。

本申请实施例还提供了一种计算机程序产品，包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任意方法实施例中的图像标注方法，例如，执行以上描述的图2中的方法步骤101至步骤103，图3中的方法步骤201至步骤204，以及步骤206、207，图4中的方法步骤201至步骤207，图6中的方法步骤301至步骤305，图7中的方法步骤401至步骤404，实现图8中的模块41-43，图9中的模块51-56，单元561-562，图10中的模块61-65，图11中的模块71-74的功能。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。所述的计算机软件可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

一种图像标注方法，其特征在于，包括：

获取在终端处采集的图像；

获取与所述图像关联的语音信息；

根据所述语音信息对所述图像进行标注，并存储所述图像的标注结果。
根据权利要求1所述的方法，其特征在于，所述图像包含多种待标注物，所述获取与所述图像关联的语音信息之前，所述方法还包括：

采用区域提取算法提取所述图像中的待标注物的区域信息；

根据所述区域信息对所述图像中的待标注物进行子区域划分；

发送所述子区域划分的结果或者进行子区域划分后的图像；

所述获取与所述图像关联的语音信息包括：获取与所述图像中的子区域关联的语音信息。
根据权利要求2所述的方法，其特征在于，所述发送所述子区域划分的结果或者进行子区域划分后的图像之后，所述方法还包括：

获取在终端处对所述子区域划分的结果或者进行子区域划分后的图像进行调整操作后的图像；

所述根据所述语音信息对所述图像进行标注具体包括：根据所述语音信息对所述进行调整操作后的图像进行标注。
根据权利要求1至3任一项所述的方法，所述根据所述语音信息对所述图像进行标注，并存储所述图像的标注结果包括：

基于语音识别提取所述语音信息中的关键词，所述关键词对应所述子区域；

建立所述关键词与所述子区域的映射关系表，并根据所述映射关系表对所述子区域进行标注，并存储标注结果。
根据权利要求1所述的方法，其特征在于，获取与所述图像关联的语音信息之前，所述方法还包括：

通过图像识别对所述图像进行自动标注；

在对所述图像进行自动标注后，将自动标注的结果在终端处展示；

所述根据所述语音信息对所述图像进行标注，包括：

在所述语音信息指示自动标注的结果正确时，存储自动标注的结果；和/或，在所述语音信息指示自动标注的结果不正确时，根据语音信息对所述图像进行标注。
根据权利要求1所述的方法，其特征在于，获取与所述图像关联的语音信息之前，所述方法还包括：

通过图像识别对所述图像进行自动标注；

所述根据所述语音信息对所述图像进行标注，包括：

在所述自动标注失败时，根据所述语音信息对所述图像进行标注。
一种图像标注装置，其特征在于，包括：

第一获取模块，用于获取在终端处采集的图像；

第二获取模块，用于获取与所述图像关联的语音信息；

第一标注模块，用于根据所述语音信息对所述图像进行标注，并存储所述图像的标注结果。
根据权利要求7所述的装置，其特征在于，所述图像包含多种待标注物，所述装置还包括：

第一提取模块，用于采用区域提取算法提取所述图像中的待标注物的区域信息；

第一划分模块，用于根据所述区域信息对所述图像中的待标注物进行子区域划分；

第一发送模块，用于发送所述子区域划分的结果或者进行子区域划分后的图像；

所述第二获取模块具体用于获取与所述图像中的子区域关联的语音信息。
根据权利要求8所述的装置，其特征在于，所述装置还包括：

第三获取模块，用于获取在终端处对所述子区域划分的结果或者进行子区域划分后的图像进行调整操作后的图像；

所述第一标注模块具体用于根据所述语音信息对所述进行调整操作后的图像进行标注，并存储所述图像的标注结果。
根据权利要求7至9任一项所述的装置，所述第一标注模块包括：

提取单元，用于基于语音识别提取所述语音信息中的关键词，所述关键词对应所述子区域；

标注单元，用于建立所述关键词与所述子区域的映射关系表，并根据所述映射关系表对所述子区域进行标注，并存储标注结果。
根据权利要求7所述的装置，其特征在于，所述装置还包括：

第二标注模块，用于通过图像识别对所述图像进行自动标注；

展示模块，用于在对所述图像进行自动标注后，将自动标注的结果在终端处展示；

所述第一标注模块具体用于在所述语音信息指示自动标注的结果正确时，存储自动标注的结果；和/或，在所述语音信息指示自动标注的结果不正确时，根据语音信息对所述图像进行标注。
根据权利要求7所述的装置，其特征在于，所述装置还包括：

第三标注模块，用于通过图像识别对所述图像进行自动标注；

所述第一标注模块具体用于在所述自动标注失败时，根据所述语音信息对所述图像进行标注。
一种电子设备，其特征在于，包括：至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令程序，所述指令程序被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1至6任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括：非易失性计算机可读存储介质以及内嵌于所述非易失性计算机可读存储介质的计算机程序指令；所述计算机程序指令包括用以使处理器执行权利要求1至6任一项所述的方法的指令。
一种非易失性计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权力要求1至6任一项所述的方法。