CN110225285B

CN110225285B - 音视频通信方法、装置、计算机装置、及可读存储介质

Info

Publication number: CN110225285B
Application number: CN201910305621.3A
Authority: CN
Inventors: 齐燕
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2022-09-02
Anticipated expiration: 2039-04-16
Also published as: CN110225285A

Abstract

本发明提供一种音视频通信方法，包括：当与外部设备进行音视频通信时，获取待传输的音视频数据，从所述待传输的音视频数据中提取音视频相关参数；调用预先训练生成的场景识别模型，根据所获取的音视频相关参数识别用户当前所处场景；根据用户当前所处场景确定对所述待传输的音视频数据的处理方式；及根据所述确定的处理方式对所述待传输的音视频数据进行处理，并将处理后的所述音视频数据传输给所述外部设备。本发明还提供实现所述音视频通信方法的装置、计算机装置、及可读存储介质。本发明可解决用户音视频通信体验不佳的技术问题。

Description

音视频通信方法、装置、计算机装置、及可读存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种音视频通信方法、装置、计算机装置、及可读存储介质。

背景技术

在音视频通信过程中，用户当前所处环境对音视频通信体验的影响很大。例如，嘈杂的环境会使得通信对方听不清用户说话。

发明内容

鉴于以上内容，有必要提出一种音视频通信方法、装置、计算机装置、及可读存储介质，用以解决用户音视频通信体验不佳的技术问题。

本发明的第一方面提供一种音视频通信方法，所述方法包括：

当与外部设备进行音视频通信时，获取待传输的音视频数据，从所述待传输的音视频数据中提取音视频相关参数；

调用预先训练生成的场景识别模型，根据所获取的音视频相关参数识别用户当前所处场景；

根据用户当前所处场景确定对所述待传输的音视频数据的处理方式；及

根据所述确定的处理方式对所述待传输的音视频数据进行处理，并将处理后的所述音视频数据传输给所述外部设备。

优选地，训练所述场景识别模型的方法包括：

获取预设数量的与不同的场景分别对应的音视频相关参数，并对与每种场景所对应的音视频相关参数标注类别，使得与所述每种场景所对应的音视频相关参数携带类别标签；

分别将与所述不同场景对应的音视频相关参数随机分成第一预设比例的训练集和第二预设比例的验证集，利用所述训练集训练所述场景识别模型，并利用所述验证集验证训练后的所述场景识别模型的准确率；及

若所述准确率大于或者等于预设准确率时，则结束训练；若所述准确率小于所述预设准确率时，则增加样本数量以重新训练所述场景识别模型直至所述准确率大于或者等于预设准确率。

优选地，所述根据用户当前所处场景确定对所述待传输的音视频数据的处理方式包括：

当用户当前所处场景为室外时，确定对所述待传输的音视频数据的处理方式为第一方式，其中，所述第一方式是指对所述待传输的音视频数据的处理至少包括降噪处理；

当用户当前所处场景为室内时，确定对所述待传输的音视频数据的处理方式为第二方式，其中，所述第二方式是指根据室内面积和室内墙壁的材质处理所述待传输的音视频数据。

优选地，所述根据室内面积和室内墙壁的材质处理所述待传输的音视频数据包括步骤：

估算室内面积的大小；

从所述待传输的音视频数据中截取一帧包括墙壁的图像；

利用图像识别算法将所截取的墙壁的图像与预先存储的多张不同材质的图像进行匹配以确定所述墙壁的材质；根据所述墙壁的材质确定吸声系数；

将所述室内面积乘以所确定的吸声系数估算吸声量；及

根据所估算获得的吸声量处理所述待传输的音视频数据，其中，当所估算获得的吸声量大于一个预设的吸声量值时，对所述待传输的音视频数据的处理至少包括去混响处理，当所估算获得的吸声量小于或者等于所述预设的吸声量值时，对所述待传输的音视频数据的处理不包括去混响处理。

优选地，所述估算室内面积的大小包括：

从所述音视频数据中截取一帧包括用户的头像的图像；

计算所述用户的头像所包括的第一像素点总数，以及计算所述截取的图像所包括的第二像素点总数；

根据所述第一像素点总数和第二像素点总数之间的比值估算所述室内面积的大小，其中，所述室内面积的大小等于一个预设值除以所述比值。

优选地，所述根据所述确定的处理方式对所述待传输的音视频数据进行处理后，所述方法还包括：

确定所述待传输的音视频数据所包括的视频图像中是否存在多个人像；

当确定所述视频图像中存在多个人像时，识别所述视频图像中正对镜头的人像，当所述视频图像中不存在多个人像时，则不对所述视频图像中正对镜头的人像进行识别；及

将所述视频图像中，除所述正对镜头的人像之外的其他人像作虚化处理。

获取所述待传输的音视频数据中的视频图像的平均亮度；

判断视频图像的平均亮度是否小于预设的亮度阈值；及

当视频图像的平均亮度小于所述预设的亮度阈值，对视频图像进行亮度增强，当视频图像的平均亮度大于或者等于所述预设的亮度阈值，则不对视频图像进行亮度增强处理。

本发明第二方面提供一种计算机装置，所述计算机装置包括存储器和处理器，所述存储器用于存储至少一个指令，所述处理器用于执行所述至少一个指令时实现所述音视频通信方法。

本发明第三方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现所述音视频通信方法。

本发明第四方面提供一种音视频通信装置，所述装置包括：

获取模块，用于当与外部设备进行音视频通信时，获取待传输的音视频数据，从所述待传输的音视频数据中提取音视频相关参数；

执行模块，用于调用预先训练生成的场景识别模型，根据所获取的音视频相关参数识别用户当前所处场景；

所述执行模块，还用于根据用户当前所处场景确定对所述待传输的音视频数据的处理方式；及

所述执行模块，还用于根据所述确定的处理方式对所述待传输的音视频数据进行处理，并将处理后的所述音视频数据传输给所述外部设备。

本发明实施例中所述的音视频通信方法、装置、计算机装置、及可读存储介质，通过于计算机装置与外部设备进行音视频通信时，获取待传输的音视频数据，从所述待传输的音视频数据中提取音视频相关参数；调用预先训练生成的场景识别模型，根据所获取的音视频相关参数识别用户当前所处场景；根据用户当前所处场景确定对所述待传输的音视频数据的处理方式；及根据所述确定的处理方式对所述待传输的音视频数据进行处理，并将处理后的所述音视频数据传输给所述外部设备，可改善用户音视频通信体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的音视频通信方法的流程图。

图2是本发明实施例二提供的音视频通信装置的结构图。

图3是本发明实施例三提供的计算机装置的示意图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

图1是本发明实施例一提供的音视频通信方法的流程图。

在本实施例中，所述音视频通信方法可以应用于计算机装置中，对于需要进行音视频通信的计算机装置，可以直接在计算机装置上集成本发明的方法所提供的用于音视频通信的功能，或者以软件开发工具包(Software Development Kit，SDK)的形式运行在计算机装置上。

如图1所示，所述音视频通信方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

步骤S1、于计算机装置与外部设备进行音视频通信时，获取待传输的音视频数据，从所述待传输的音视频数据中提取音视频相关参数。

本实施例中，所述音视频相关参数包括，但不限于，音频频谱特征、音量大小、频率分布，视频图像所包括人像以及人像的数目、地面、背景。

在一个实施例中，所述音视频数据是指利用麦克风所采集的音频数据和利用摄像头同步所捕捉的视频数据。

在一个实施例中，可以首先对音频数据进行加窗分帧。例如，可以采用汉宁窗将音频数据分为多个帧长例如为10-30ms(毫秒)的帧，帧移可以取10ms，从而可以将音频数据分为多帧。对音频数据进行加窗分帧后，然后对加窗分帧后的音频数据进行快速傅里叶转换，由此得到音频数据的频谱。接着根据音频数据的频谱提取出音频数据对应的频谱特征。

在一个实施例中，所述音视频相关参数所包括音量大小可以是指音量的平均值。

在一个实施例中，可以利用图像识别算法从音视频数据中识别视频图像所包括人像以及人像的数目、地面、背景。

在一个实施例中，所述麦克风和摄像头可以内置于所述计算机装置，或者以有线/无线的方式外接于所述计算机装置。

举例而言，可以利用USB数据线将所述麦克风和摄像头与所述计算机装置建立通信连接。

在一个实施例中，计算机装置和外部设备可以是智能手机、平板电脑、笔记本电脑、台式电脑、智能电视等设备。

在一个实施例中，所述计算机装置和外部设备可以通过任何传统的有线网络及/或无线网络通信连接。所述有线网络可以为传统有线通信的任何类型，例如因特网、局域网。所述无线网络可以为传统无线通信的任何类型，例如无线电、无线保真(WirelessFidelity,WIFI)、蜂窝、卫星、广播等。无线通信技术可以包括，但不限于，全球移动通信系统(Global System for Mobile Communications，GSM)、通用分组无线业务(GeneralPacket Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)，宽带码分多址(W-CDMA)、CDMA2000、IMT单载波(IMT Single Carrier)、增强型数据速率GSM演进(Enhanced Data Rates for GSM Evolution，EDGE)、长期演进技术(Long-TermEvolution，LTE)、高级长期演进技术、时分长期演进技术(Time-Division LTE，TD-LTE)、高性能无线电局域网(High Performance Radio Local Area Network，HiperLAN)、高性能无线电广域网(High Performance Radio Wide Area Network，HiperWAN)、本地多点派发业务(Local Multipoint Distribution Service，LMDS)、全微波存取全球互通(WorldwideInteroperability for Microwave Access，WiMAX)、紫蜂协议(ZigBee)、蓝牙、正交频分复用技术(Flash Orthogonal Frequency-Division Multiplexing，Flash-OFDM)、大容量空分多路存取(High Capacity Spatial Division Multiple Access，HC-SDMA)、通用移动电信系统(Universal Mobile Telecommunications System，UMTS)、通用移动电信系统时分双工(UMTS Time-Division Duplexing，UMTS-TDD)、演进式高速分组接入(Evolved HighSpeed Packet Access，HSPA+)、时分同步码分多址(Time Division Synchronous CodeDivision Multiple Access，TD-SCDMA)、演进数据最优化(Evolution-Data Optimized，EV-DO)、数字增强无绳通信(Digital Enhanced Cordless Telecommunications，DECT)及其他。

步骤S2、调用预先训练生成的场景识别模型，根据所获取的音视频相关参数识别用户当前所处场景。

具体地，将所获取的音视频相关参数输入至所述预先训练生成的场景识别模型，得到用户当前所处场景。

本实施例中，所述场景可以分为室内和室外。不同的场景对应不同的音视频相关参数。

优先的，训练所述场景识别模型的方法包括：

1)获取预设数量的与所述不同的场景分别对应的音视频相关参数，并对与每种场景所对应的音视频相关参数标注类别，使得与所述每种场景所对应的音视频相关参数携带类别标签。

例如，选取与室内所对应的音视频相关参数共1000笔，并对该1000笔记录分别标注为“1”，即以“1”作为标签。类似地，选取与室外所对应的音视频相关参数1000笔，并对该1000笔记录分别标注为“2”，即以“2”作为标签。

2)分别将与所述不同场景对应的音视频相关参数随机分成第一预设比例的训练集和第二预设比例的验证集，利用所述训练集训练所述场景识别模型，并利用所述验证集验证训练后的所述场景识别模型的准确率。

举例而言，可以首先将与不同场景对应的训练样本(即音视频相关参数)分发到不同的文件夹里。例如，将与室内所对应的训练样本分发到第一文件夹里，将与室外所对应的训练样本分发到第二文件夹里。然后从不同的文件夹里分别提取第一预设比例(例如，70％)的训练样本作为总的训练样本进行场景识别模型的训练，从不同的文件夹里分别取剩余第二预设比例(例如，30％)的训练样本作为总的测试样本对训练完成的所述场景识别模型进行准确性验证。

3)若所述准确率大于或者等于预设准确率时，则结束训练，以训练后的所述场景识别模型作为分类器识别所述用户当前所处环境；若所述准确率小于所述预设准确率时，则增加样本数量以重新训练所述场景识别模型直至所述准确率大于或者等于预设准确率。

步骤S3、根据用户当前所处场景确定对所述待传输的音视频数据的处理方式，其中，不同的场景对应不同的处理方式。

本实施例中，所述根据用户当前所处场景确定对所述待传输的音视频数据的处理方式包括：

当用户当前所处场景为室外时，确定对所述待传输的音视频数据的处理方式为第一方式；及

当用户当前所处场景为室内时，确定对所述待传输的音视频数据的处理方式为第二方式。

在一个实施例中，所述第一方式是指对所述待传输的音视频数据的处理至少包括降噪(noise reduction)处理。在一个实施例中，还可以进一步包括语音增强。

在一个实施例中，所述第二方式是指根据室内面积和室内墙壁的材质处理所述待传输的音视频数据。

在一个实施例中，所述根据室内面积和室内墙壁的材质处理所述待传输的音视频数据包括步骤(a1)-(a4)：

(a1)估算室内面积的大小。

在一个实施例中，所述估算室内面积的大小包括步骤(a11)-(a13)：

(a11)从所述音视频数据中截取一帧包括用户的头像的图像；

(a12)计算所述用户的头像所包括的像素点总数(为方便描述，简称为“第一像素点总数”)，以及计算所述截取的图像所包括的像素点总数(为方便描述，简称为“第二像素点总数”)；

(a13)根据所述第一像素点总数和第二像素点总数之间的比值估算所述室内面积的大小。

在一个实施例中，所述室内面积的大小等于一个预设值除以所述比值。

(a2)确定室内墙壁的材质，并根据墙壁的材质确定吸声系数。

具体地，所述确定室内墙壁的材质包括步骤(a21)-(a22)：

(a21)从所述音视频数据中截取一帧包括墙壁的图像。

在一个实施例中，可根据用户的操作从所述音视频数据中截取所述包括墙壁的图像。

(a22)利用图像识别算法将所截取的图像与预先存储的多张不同材质的图像进行匹配以确定所述墙壁的材质。

具体地，当所截取的图像与预先存储的其中某种材质的图像的相似度大于预设的相似度值时，则确定所述墙壁的材质为所述某种材质。

不同的材质对应不同的吸声系数。因此，一旦确定了墙壁的材质，则可确定吸声系数。

(a3)将所述室内面积乘以所确定的吸声系数估算吸声量。

(a4)根据所估算获得的吸声量处理所述待传输的音视频数据。

在一个实施例中，当所估算获得的吸声量大于一个预设的吸声量值时，对所述待传输的音视频数据的处理至少包括去混响(dereverberation)处理。当所估算获得的吸声量小于或者等于所述预设的吸声量值时，对所述待传输的音视频数据的处理可以不包括去混响处理。

在一个实施例中，所述根据所估算获得的吸声量处理所述待传输的音视频数据还可以进一步包括回声消除、语音增强。

步骤S4、根据所述确定的处理方式对所述待传输的音视频数据进行处理，并将处理后的所述音视频数据传输给所述外部设备。

举例而言，假设所确定的处理方式为所述第一方式，则对所述待传输的音视频数据至少作降噪处理。

在一个实施例中，无论采用所述第一方式还是所述第二方式处理所述待传输的音视频数据，均还进一步包括对所述待传输的音视频数据作如下处理，包括步骤(b1)-(b3)：

(b1)确定所述待传输的音视频数据所包括的视频图像中是否存在多个人像(例如人像的数目大于或等于2)；

(b2)当确定所述视频图像中存在多个人像时，识别所述视频图像中正对镜头的人像，当所述视频图像中不存在多个人像时，则不对所述视频图像中正对镜头的人像进行识别；

(b3)将所述视频图像中，除所述正对镜头的人像之外的其他人像作虚化处理，从而突显所述正对镜头的人像。

在一个实施例中，无论采用所述第一方式还是所述第二方式处理所述待传输的音视频数据，均还进一步包括对所述待传输的音视频数据作如下处理，包括步骤(c1)-(c3)：

(c1)获取所述待传输的音视频数据中的视频图像的平均亮度。

具体地，可通过图像亮度检测算法获取视频图像的平均亮度。

具体而言，在本申请的实施例中，获取视频图像的平均亮度的具体实现过程可包括：获取视频图像的分辨率，并根据分辨率确定对应的采样间隔，以及根据采样间隔对上述视频图像中的像素点的亮度进行采样以生成平均亮度。

在一个实施例中，图像亮度检测算法可包括平均算法、直方图算法等。

在一个实施例中，可根据用户当前所处场景选择相应的亮度检测算法以获取视频图像的平均亮度。

在一个实施例中，以平均算法为例，可根据视频图像的分辨率，进行采样计算。

举例而言，可首先获取视频图像的分辨率，然后根据该视频图像的分辨率的大小确定对应的采样间隔。例如当该视频图像的分辨率小于预设的分辨率时，确定采样间隔为1，即计算整个视频图像；当视频图像的分辨率为所述预设的分辨率的1～4倍时，确定水平与垂直方向的采样间隔为2，即在视频图像中每两个像素点选取一个像素点；当视频图像的分辨率为所述预设的分辨率的4～8倍时，确定水平与垂直方向的采样间隔为4，即在视频图像中每四个像素点选取一个像素点；当视频图像的分辨率大于所述预设的分辨率的8倍时，确定水平与垂直方向的采样间隔为8，即在视频图像中每八个像素点选取一个像素点。依次类推，对更大分辨率的视频图像确定采样间隔。在确定采样间隔之后，对视频图像中根据该采样间隔所采样的像素点进行亮度值计算，并将所采样的所有像素点的亮度值相加后求平均，将计算得到的值作为整个视频图像的平均亮度。

(c2)判断视频图像的平均亮度是否小于预设的亮度阈值。

其中，预设亮度阈值可根据用户当前所处场景来选择合适的亮度阈值，即不同的场景需使用不同的阈值。

在一个实施例中，用户当前所处场景为室外时所对应的亮度阀值大于用户当前所处场景为室内时所对应的亮度阀值。

(c3)如果视频图像的平均亮度小于所述预设的亮度阈值，则对视频图像进行亮度增强。如果视频图像的平均亮度大于或者等于所述预设的亮度阈值，则不对视频图像进行亮度增强处理。

在一个实施例中，当视频图像的平均亮度小于所述预设的亮度阈值时，可采用线性亮度增强算法对视频图像进行亮度增强。

综上所述，本发明实施例中所述的音视频通信方法，通过于计算机装置与外部设备进行音视频通信时，获取待传输的音视频数据，从所述待传输的音视频数据中提取音视频相关参数；调用预先训练生成的场景识别模型，根据所获取的音视频相关参数识别用户当前所处场景；根据用户当前所处场景确定对所述待传输的音视频数据的处理方式；及根据所述确定的处理方式对所述待传输的音视频数据进行处理，并将处理后的所述音视频数据传输给所述外部设备，可改善用户音视频通信体验。

上述图1详细介绍了本发明的音视频通信方法，下面结合图2和图3，对实现所述音视频通信方法的软件装置的功能模块以及实现所述音视频通信方法的硬件装置架构进行介绍。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

实施例二

参阅图2所示，是本发明实施例二提供的音视频通信装置的结构图。

在一些实施例中，所述音视频通信装置30运行于计算机装置中。所述计算机装置通过网络连接了外部设备。所述音视频通信装置30可以包括多个由程序代码段所组成的功能模块。所述音视频通信装置30中的各个程序段的程序代码可以存储于计算机装置的存储器中，并由所述至少一个处理器所执行，以实现(详见图2描述)音视频通信功能。

本实施例中，所述音视频通信装置30根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：获取模块301、执行模块302。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

获取模块301于计算机装置与外部设备进行音视频通信时，获取待传输的音视频数据，从所述待传输的音视频数据中提取音视频相关参数。

执行模块302调用预先训练生成的场景识别模型，根据所获取的音视频相关参数识别用户当前所处场景。

具体地，执行模块302将所获取的音视频相关参数输入至所述预先训练生成的场景识别模型，得到用户当前所处场景。

优先的，训练所述场景识别模型的方法包括：

执行模块302根据用户当前所处场景确定对所述待传输的音视频数据的处理方式，其中，不同的场景对应不同的处理方式。

(a1)估算室内面积的大小。

(a11)从所述音视频数据中截取一帧包括用户的头像的图像；

(a2)确定室内墙壁的材质，并根据墙壁的材质确定吸声系数。

具体地，所述确定室内墙壁的材质包括步骤(a21)-(a22)：

(a21)从所述音视频数据中截取一帧包括墙壁的图像。

(a3)将所述室内面积乘以所确定的吸声系数估算吸声量。

(a4)根据所估算获得的吸声量处理所述待传输的音视频数据。

执行模块302根据所述确定的处理方式对所述待传输的音视频数据进行处理，并将处理后的所述音视频数据传输给所述外部设备。

(c1)获取所述待传输的音视频数据中的视频图像的平均亮度。

(c2)判断视频图像的平均亮度是否小于预设的亮度阈值。

综上所述，本发明实施例中所述的音视频通信装置，通过于计算机装置与外部设备进行音视频通信时，获取待传输的音视频数据，从所述待传输的音视频数据中提取音视频相关参数；调用预先训练生成的场景识别模型，根据所获取的音视频相关参数识别用户当前所处场景；根据用户当前所处场景确定对所述待传输的音视频数据的处理方式，其中，不同的场景对应不同的处理方式；及根据所述确定的处理方式对所述待传输的音视频数据进行处理，并将处理后的所述音视频数据传输给所述外部设备，可改善用户音视频通信体验。

实施例三

参阅图3所示，为本发明实施例三提供的计算机装置的结构示意图。在本发明较佳实施例中，所述计算机装置3包括存储器31、至少一个处理器32、至少一条通信总线33。本领域技术人员应该了解，图3示出的计算机装置的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述计算机装置3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述计算机装置3包括一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的终端，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。

需要说明的是，所述计算机装置3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31用于存储程序代码和各种数据，例如安装在所述计算机装置3中的音视频通信装置30，并在计算机装置3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他存储介质。

在一些实施例中，所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述计算机装置3的控制核心(Control Unit)，利用各种接口和线路连接整个计算机装置3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行计算机装置3的各种功能和处理数据，例如执行音视频通信的功能。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述计算机装置3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机装置3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是服务器、个人电脑等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在进一步的实施例中，结合图2，所述至少一个处理器32可执行所述计算机装置3的操作装置以及安装的各类应用程序(如所述的音视频通信装置30)、程序代码等，例如，上述的各个模块。

所述存储器31中存储有程序代码，且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如，图2中所述的各个模块是存储在所述存储器31中的程序代码，并由所述至少一个处理器32所执行，从而实现所述各个模块的功能以达到音视频通信的目的。

在本发明的一个实施例中，所述存储器31存储一个或多个指令(即至少一个指令)，所述一个或多个指令被所述至少一个处理器32所执行以实现音视频通信的目的。

具体地，所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种音视频通信方法，其特征在于，所述方法包括：

根据用户当前所处场景确定对所述待传输的音视频数据的处理方式，当用户当前所处场景为室外时，确定对所述待传输的音视频数据的处理方式为第一方式，其中，所述第一方式是指对所述待传输的音视频数据的处理至少包括降噪处理；当用户当前所处场景为室内时，确定对所述待传输的音视频数据的处理方式为第二方式，其中，所述第二方式是指根据室内面积和室内墙壁的材质处理所述待传输的音视频数据；及

2.如权利要求1所述的音视频通信方法，其特征在于，训练所述场景识别模型的方法包括：

3.如权利要求1所述的音视频通信方法，其特征在于，所述根据室内面积和室内墙壁的材质处理所述待传输的音视频数据包括步骤：

估算室内面积的大小；

从所述待传输的音视频数据中截取一帧包括墙壁的图像；

将所述室内面积乘以所确定的吸声系数估算吸声量；及

4.如权利要求3所述的音视频通信方法，其特征在于，所述估算室内面积的大小包括：

从所述音视频数据中截取一帧包括用户的头像的图像；

5.如权利要求1所述的音视频通信方法，其特征在于，所述根据所述确定的处理方式对所述待传输的音视频数据进行处理后，所述方法还包括：

6.如权利要求1所述的音视频通信方法，其特征在于，所述根据所述确定的处理方式对所述待传输的音视频数据进行处理后，所述方法还包括：

获取所述待传输的音视频数据中的视频图像的平均亮度；

判断视频图像的平均亮度是否小于预设的亮度阈值；及

7.一种计算机装置，其特征在于，所述计算机装置包括存储器和处理器，所述存储器用于存储至少一个指令，所述处理器用于执行所述至少一个指令时实现如权利要求1至6中任意一项所述音视频通信方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现如权利要求1至6中任意一项所述音视频通信方法。

9.一种音视频通信装置，其特征在于，所述装置包括：

所述执行模块，还用于根据用户当前所处场景确定对所述待传输的音视频数据的处理方式，当用户当前所处场景为室外时，确定对所述待传输的音视频数据的处理方式为第一方式，其中，所述第一方式是指对所述待传输的音视频数据的处理至少包括降噪处理；当用户当前所处场景为室内时，确定对所述待传输的音视频数据的处理方式为第二方式，其中，所述第二方式是指根据室内面积和室内墙壁的材质处理所述待传输的音视频数据；及