+

CN114610500A - 一种基于模型蒸馏的边缘缓存方法 - Google Patents

一种基于模型蒸馏的边缘缓存方法 Download PDF

Info

Publication number
CN114610500A
CN114610500A CN202210286001.1A CN202210286001A CN114610500A CN 114610500 A CN114610500 A CN 114610500A CN 202210286001 A CN202210286001 A CN 202210286001A CN 114610500 A CN114610500 A CN 114610500A
Authority
CN
China
Prior art keywords
model
user
distillation
training
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210286001.1A
Other languages
English (en)
Other versions
CN114610500B (zh
Inventor
吕翊
李富祥
李职杜
吴大鹏
钟艾玲
王汝言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210286001.1A priority Critical patent/CN114610500B/zh
Publication of CN114610500A publication Critical patent/CN114610500A/zh
Application granted granted Critical
Publication of CN114610500B publication Critical patent/CN114610500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于模型蒸馏的边缘缓存方法,属于无线通信领域,首先将边缘服务器采集到的用户端数据汇聚到云中心,对数据进行预处理并设计教师模型训练预测用户对内容的偏好;然后,在边缘服务器端部署学生模型,通过共享教师模型的参数学习该基站覆盖下的局部用户偏好。最后,根据得到的用户偏好,结合群组用户的活跃度,制定群组缓存策略,优化缓存命中率。本发明可以节约无线通信的链路资源,提高边缘服务器的资源利用率,提升用户服务质量。

Description

一种基于模型蒸馏的边缘缓存方法
技术领域
本发明属于无线通信领域,涉及一种基于模型蒸馏的边缘缓存方法。
背景技术
随着通讯技术的迅猛发展,电影、直播、短视频等娱乐活动逐渐成为人们日常生活中不可或缺的一部分,这也使得移动数据流量的使用逐年递增。传统方法将所有资源集中存储在云中心,用户端请求的内容从云中心经边缘基站分发给用户,但这种方式在电影和短视频等点播场景中会大幅增加网络响应时延和链路拥塞。为了解决上述困难,边缘缓存技术应运而生。边缘缓存技术即将云中心的一部分内容提前缓存在具有存储能力的边缘基站、用户设备或者车辆上,这样不仅可以减少回程链路的流量负载,降低费用,而且可以降低传输时延,提升用户体验。
在大数据海量内容的前提下,提前从云中心大量的资源中筛选出一部分内容缓存在边缘基站是边缘缓存技术面临的巨大挑战。边缘缓存技术面向的服务对象是用户,根据边缘基站覆盖下用户的群组特征进行缓存成为研究的一个热点。但显然,面对无时无刻不在变化的用户群体和用户请求,挖掘群组用户的特征显得尤为困难。边缘服务器缓存的对象是内容,根据内容的一系列特征,如内容的更新时间、点击率、观看时长等进行缓存也能在一定程度上减轻云中心的负载压力。因此,不少研究者从内容入手,着重于分析和挖掘群组中内容的特点进而进行缓存策略的设计。
但是相比于云中心,边缘服务器的数据量较少、计算能力较弱,并不能像云中心一样对大量的数据和复杂的模型进行训练。另一方面,用户的兴趣是在不断变化的,在云中心分析用户兴趣则需要大量的时间,而在边缘基站部署一个轻量级的模型则可以快速分析该基站覆盖下的个性化用户偏好。最后,对于个性化的用户偏好,如何融合成群组的兴趣偏好也是一大挑战。
所以,亟需在边缘服务器部署轻量级模型预测对用户的动态兴趣进行分析和预测,再根据用户的个性化偏好得到用户的群组偏好,优化缓存内容,提升边缘服务器的服务质量。
发明内容
有鉴于此,本发明的目的在于针对短视频的边缘缓存场景中,由于边缘服务器的计算能力较弱、数据量较少导致缓存命中率较低的问题,提供一种基于模型蒸馏的边缘缓存方法,在云中心端训练教师模型,再利用模型蒸馏技术训练边缘服务器端的学生模型,预测用户偏好,提高边缘服务器的命中率和服务质量。
为达到上述目的,本发明提供如下技术方案:
一种基于模型蒸馏的边缘缓存方法,首先将边缘服务器采集到的用户端数据汇聚到云中心,对数据进行预处理并设计教师模型训练预测用户对内容的偏好;然后,在边缘服务器端部署学生模型,通过共享教师模型的参数学习该基站覆盖下的局部用户偏好。最后,根据得到的用户偏好,结合群组用户的活跃度,制定群组缓存策略,优化缓存命中率。具体包括以下步骤:
S1:输入数据采集与预处理:用户端采集到的数据通常是杂乱无章的,对数据进行清洗后,主要是由两部分特征组成,即连续特征和离散特征,在边缘服务器和云中心分别对这两类特征使用不同的编码方式编码,方便后续教师模型和学生模型的训练;
S2:教师模型训练:将步骤S1输出的云中心预处理后的数据输入云中心部署的教师模型进行训练;
S3:学生模型训练:将步骤S1输出的边缘基站预处理的数据输入学生模型进行训练,结合教师模型共享的全连接网络层加快训练速度,使用教师模型和学生模型的蒸馏损失加速学生模型的收敛;
S4:群组缓存策略:根据步骤S3中学生模型预测得到的用户的个性化偏好,结合群组用户的活跃度融合成群组用户兴趣偏好,根据边缘服务器的缓存容量选取用户偏好最高的Top-k的内容进行缓存;
S5:优化缓存结果:根据缓存策略,优化缓存的命中率。
进一步,所述步骤S1具体包括以下步骤:
S11:从输入层输入的用户特征EU和内容特征EC会包含很多离散特征,如用户的性别、职业、设备型号、内容的类别,包括预测目标用户的个性化偏好TB等,可以使用独热编码对离散特征进行编码,假设任一经过独热编码的离散特征记为fd
fd=[d1,d2,...,di,d||D||]
Figure BDA0003558262880000021
其中
Figure BDA0003558262880000022
D表示离散特征fd的类别集合,从而将一个一维的离散特征编码成一个只含有0和1的||D||维向量;输入层经过独热编码后的特征记为Fd
Fd=f(EU,EC,TB)
其中f(·)表示离散特征的独热编码;
S12:对于采集到的连续特征,如年龄、观看时长、观看完整性、用户行为序列等,使用特征嵌入进行编码,得到低维稠密嵌入特征Y=[y1,y2,y3...,yk];
Figure BDA0003558262880000031
其中,
Figure BDA0003558262880000032
表示过度矩阵的参数,
Figure BDA0003558262880000033
表示输入的稀疏特征,k和m表示参数矩阵的大小,且k<m,
Figure BDA0003558262880000034
表示偏置向量,从而将高维的稀疏特征转化成低维的稠密向量;输入层经过嵌入编码后的特征记为Fy
Fy=g(EU,EC,TC)
其中g(·)表示连续特征的嵌入编码。
进一步,所述步骤S2具体包括以下步骤:
S21:门控循环单元GRU:由于用户在一段时间内的兴趣是随时间动态变化的,使用GRU来来对用户的行为序列进行建模。相比于循环神经网络,GRU在用户行为长序列建模中表现更好。GRU模型由更新门和重置门组成,更新门决定用户行为序列中有多少以前的信息需要保留并传递给下一层,重置门确定应忽略多少以前的信息;GRU模型表示如下:
zt=σ(Wz(Fd+Fy)+Nzht-1+bz)
rt=σ(Wr(Fd+Fy)+Nrht-1+br)
Figure BDA0003558262880000035
Figure BDA0003558262880000036
其中,zt,rt
Figure BDA0003558262880000037
ht分别表示更新门、重置门、候选隐藏状态向量、当前时间步长的隐藏状态向量,σ是sigmoid激活函数,Wz,Wr,Wh和Nz,Nr,Nh是训练参数,bz,br,bh表示偏差,⊙表示哈达玛乘积;
S22:多头自注意力机制:用户的请求是多种多样的,为了从用户行为序列中提取出用户的主要兴趣,使用多头自注意力机制对用户长序列进行分析。传统的注意力机制在分析用户重要兴趣时可能会因为序列的其他噪声信息,进而对用户重要性去提取产生误差。多头自注意力机制则是对目标序列进行多次分析和信息提取,再将输出的不同结果进行集成,增加对用户主要兴趣定位的准确度:
headi=Attention(QWi Q,KWi K,VWi V)
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)WO
其中Q=[h1,h2,…,ht]表示LSTM的输出序列,K=V分别表示输出序列的键和值,headi表示多头自注意力中的第i个头,Concat(·)表示拼接操作,Wi Q,Wi K,Wi V和WO表示过度矩阵的训练参数,MultiHeadt(Q,K,V)表示教师模型多头自注意力的输出;
S23:全连接神经网络:由于多头自注意力输出的矩阵属于高维稀疏矩阵,且为了将教师模型的训练参数与学生模型进行共享,因此在多头自注意力输出后加入全连接的神经网络层,并且教师模型的全连接神经网络和学生模型的全连接神经网络是相同结构的:
Figure BDA0003558262880000041
Figure BDA0003558262880000042
……
Figure BDA0003558262880000043
其中
Figure BDA0003558262880000044
表示教师模型第j层神经网络的训练参数,
Figure BDA0003558262880000045
表示教师模型第j层神经网络的偏置项,
Figure BDA0003558262880000046
表示教师模型第j层神经网络的输出;
S24:损失函数设置:对于教师模型,因为预测的用户偏好属于分类问题,因此使用对数交叉熵损失函数进行拟合:
Figure BDA0003558262880000047
Figure BDA0003558262880000048
其中yt是教师模型的输出,σ表示激活函数,用户偏好是分类问题,使用softmax激活函数,N表示训练集的数据量,
Figure BDA0003558262880000049
表示训练集的数据,ft(·)表示教师模型。
进一步,所述步骤S3具体包括:
S31:教师模型参数共享:边缘服务器端和云中心端相比,数据量较小且计算能力较弱,为了加快学生模型的训练,将教师模型的全连接神经网络层的参数与学生模型共享,这样不仅可以加快学生模型的训练速度,而且可以结合教师模型的特征,使学生模型的训练效果更好。
Figure BDA0003558262880000051
……
Figure BDA0003558262880000052
其中
Figure BDA0003558262880000053
表示学生模型第j层神经网络的训练参数,
Figure BDA0003558262880000054
表示学生模型第j层神经网络的偏置项,MultiHeads(Q,K,V)表示学生模型的多头自注意力的输出,
Figure BDA0003558262880000055
表示学生模型第j层神经网络的输出;
S32:模型蒸馏:相比于复杂的教师模型,轻量级的学生模型更适合部署在计算能力较弱的边缘基站。模型蒸馏主要通过教师模型和学生模型之间的参数共享和损失蒸馏,缩短学生模型的训练时间;学生模型预测模型预测的仍然是群组用户的个性化偏好,因此使用的损失函数仍然是对数交叉熵损失。模型蒸馏在学生模型的损失蒸馏函数如下:
Figure BDA0003558262880000056
Figure BDA0003558262880000057
Figure BDA0003558262880000058
其中ys表示学生模型的预测输出,fs(·)表示学生模型,Ls表示学生模型的对数交叉熵损失,Lt/s表示学生模型的损失蒸馏。
进一步,所述步骤S4具体包括:
S41:根据模型蒸馏得到每个基站覆盖下学生模型输出的用户偏好;
S42:结合群组用户的活跃度制定缓存标准并排序,选择Top-k的内容进行缓存。
本发明的有益效果在于:本发明针对边缘缓存场景中,由于边缘服务器的计算能力较弱、数据量较少导致缓存命中率较低的问题,提供一种基于模型蒸馏的边缘缓存方法,在云中心端训练教师模型,再利用模型蒸馏技术训练边缘服务器端的学生模型,预测用户偏好,提高边缘服务器的命中率和服务质量。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明的场景图;
图2为本发明的系统流程图;
图3中(a)为本发明中模型蒸馏中教师模型图,(b)为本发明中模型蒸馏中学生模型图;
图4为本发明中模型蒸馏训练流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图4,本发明所述的基于多任务训练的边缘缓存优化算法,具体包含以下步骤:
步骤1:输入数据采集与预处理:用户端采集到的数据通常是杂乱无章的,对数据进行清洗后,主要是由两部分特征组成,即连续特征和离散特征,在边缘服务器和云中心分别对这两类特种使用不同的编码方式编码,方便后续教师模型和学生模型的训练。所述步骤1具体包括以下步骤:
步骤1.1:首先,从输入层输入的用户特征EU和内容特征EC会包含很多离散特征,如用户的性别、职业、设备型号、内容的类别,包括预测目标用户的个性化偏好TB等,可以使用独热编码对离散特征进行编码。假设任一经过独热编码的离散特征记为fd
fd=[d1,d2,...,di,d||D||]
Figure BDA0003558262880000071
其中
Figure BDA0003558262880000072
D表示离散特征fd的类别集合。这样就将一个一维的离散特征编码成了一个只含有0和1的||D||维向量。输入层经过独热编码后的特征记为Fd
Fd=f(EU,EC,TB)
其中f(·)表示离散特征的独热编码。
步骤1.2:对于采集到的连续特征,如年龄、观看时长、观看完整性、用户行为序列等,使用特征嵌入进行编码,得到的低维稠密嵌入特征Y=[y1,y2,y3...,yk]。
Figure BDA0003558262880000073
其中,
Figure BDA0003558262880000074
表示过度矩阵的参数,
Figure BDA0003558262880000075
表示输入的稀疏特征,k和m表示参数矩阵的大小,且k<m,
Figure BDA0003558262880000076
表示偏置向量,这样,就将高维的稀疏特征转化成了低维的稠密向量。输入层经过嵌入编码后的特征记为Fy
Fy=g(EU,EC,TC)
其中g(·)表示连续特征的嵌入编码。
步骤2:教师模型训练:将步骤1输出的云中心预处理后的数据输入云中心部署的教师模型进行训练。所述步骤2具体包括以下步骤:
步骤2.1:门控循环单元(GRU):由于用户在一段时间内的兴趣是随时间动态变化的,我们使用GRU来来对用户的行为序列进行建模。相比于循环神经网络,GRU在用户行为长序列建模中表现更好,。GRU模型由更新门和重置门组成。更新门决定用户行为序列中有多少以前的信息需要保留并传递给下一层。重置门确定应忽略多少以前的信息。GRU模型可表示如下:
zt=σ(Wz(Fd+Fy)+Nzht-1+bz)
rt=σ(Wr(Fd+Fy)+Nrht-1+br)
Figure BDA0003558262880000081
Figure BDA0003558262880000082
其中,zt,rt
Figure BDA0003558262880000083
ht分别表示更新门、重置门、候选隐藏状态向量、当前时间步长的隐藏状态向量,σ是sigmoid激活函数,Wz,Wr,Wh和Nz,Nr,Nh是训练参数,,bz,br,bh表示偏差,⊙表示哈达玛乘积。
步骤2.2:多头自注意力机制:用户的请求是多种多样的,为了从用户行为序列中提取出用户的主要兴趣,我们使用多头自注意力机制对用户长序列进行分析。传统的注意力机制在分析用户重要兴趣时可能会因为序列的其他噪声信息,进而对用户重要性去提取产生误差。多头自注意力机制则是对目标序列进行多次分析和信息提取,再将输出的不同结果进行集成,增加对用户主要兴趣定位的准确度。
headi=Attention(QWi Q,KWi K,VWi V)
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)WO
其中Q=[h1,h2,…,ht]表示LSTM的输出序列,K=V分别表示输出序列的键和值,headi表示多头自注意力中的第i个头,Concat(·)表示拼接操作,Wi Q,Wi K,Wi V和WO表示过度矩阵的训练参数,MultiHeadt(Q,K,V)表示教师模型多头自注意力的输出。
步骤2.3:全连接神经网络:由于多头自注意力输出的矩阵属于高维稀疏矩阵,且为了将教师模型的训练参数与学生模型进行共享,因此在多头自注意力输出后加入了全连接的神经网络层,并且教师模型的全连接神经网络和学生模型的全连接神经网络是相同结构的。
Figure BDA0003558262880000084
……
Figure BDA0003558262880000091
其中
Figure BDA0003558262880000092
表示教师模型第j层神经网络的训练参数,
Figure BDA0003558262880000093
表示教师模型第j层神经网络的偏置项,
Figure BDA0003558262880000094
表示教师模型第j层神经网络的输出。
步骤2.4:损失函数设置:对于教师模型,因为预测的用户偏好属于分类问题,因此使用对数交叉熵损失函数进行拟合。
Figure BDA0003558262880000095
Figure BDA0003558262880000096
其中yt是教师模型的输出,σ表示激活函数,用户偏好是分类问题,使用softmax激活函数,N表示训练集的数据量,
Figure BDA0003558262880000097
表示训练集的数据,ft(·)表示教师模型。
S3:学生模型训练:将S1输出的边缘基站预处理的数据输入学生模型进行训练,结合教师模型共享的全连接网络层加快训练速度,使用教师模型和学生模型的蒸馏损失加速学生模型的收敛。所述步骤3具体包括:
步骤3.1:教师模型参数共享:边缘服务器端和云中心端相比,数据量较小且计算能力较弱,为了加快学生模型的训练,我们将教师模型的全连接神经网络层的参数与学生模型共享,这样不仅可以加快学生模型的训练速度,而且可以结合教师模型的特征,使学生模型的训练效果更好。
Figure BDA00035582628800000912
Figure BDA00035582628800000913
……
Figure BDA0003558262880000098
其中
Figure BDA0003558262880000099
表示学生模型第j层神经网络的训练参数,
Figure BDA00035582628800000910
表示学生模型第j层神经网络的偏置项,MultiHeads(Q,K,V)表示学生模型的多头自注意力的输出,
Figure BDA00035582628800000911
表示学生模型第j层神经网络的输出。
步骤3.2:模型蒸馏:相比于复杂的教师模型,轻量级的学生模型更适合部署在计算能力较弱的边缘基站。模型蒸馏主要通过教师模型和学生模型之间的参数共享和损失蒸馏,缩短学生模型的训练时间。学生模型预测模型预测的仍然是群组用户的个性化偏好,因此使用的损失函数仍然是对数交叉熵损失。模型蒸馏在学生模型的损失蒸馏函数如下:
Figure BDA0003558262880000101
Figure BDA0003558262880000102
Figure BDA0003558262880000103
其中ys表示学生模型的预测输出,fs(·)表示学生模型,Ls表示学生模型的对数交叉熵损失,Lt/s表示学生模型的损失蒸馏。
步骤4:群组缓存策略:根据步骤3中学生模型预测得到的用户的个性化偏好之后,群组活跃度和群组偏好融合指标作为内容缓存的依据并进行排序,即可求解内容放置策略β:
Figure BDA0003558262880000104
Figure BDA0003558262880000105
其中Acu表示群组用户中用户u的活跃度,U表示基站覆盖下的群组用户,
Figure BDA0003558262880000106
表示训练集中用户u的数据量,将β降序排列并选取Top-k的内容进行缓存
步骤5:优化缓存结果:根据缓存策略,优化缓存的命中率。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种基于模型蒸馏的边缘缓存方法,其特征在于:包括以下步骤:
S1:输入数据采集与预处理:用户端采集到的数据连续特征和离散特征,在边缘服务器和云中心分别对这两类特征使用不同的编码方式编码;
S2:教师模型训练:将步骤S1输出的云中心预处理后的数据输入云中心部署的教师模型进行训练;
S3:学生模型训练:将步骤S1输出的边缘基站预处理的数据输入学生模型进行训练,结合教师模型共享的全连接网络层加快训练速度,使用教师模型和学生模型的蒸馏损失加速学生模型的收敛;
S4:群组缓存策略:根据步骤S3中学生模型预测得到的用户的个性化偏好,结合群组用户的活跃度融合成群组用户兴趣偏好,根据边缘服务器的缓存容量选取用户偏好最高的Top-k的内容进行缓存;
S5:优化缓存结果:根据缓存策略,优化缓存的命中率。
2.根据权利要求1所述的基于模型蒸馏的边缘缓存方法,其特征在于:所述步骤S1具体包括以下步骤:
S11:使用独热编码对输入层输入的用户特征EU和内容特征EC中的离散特征进行编码,假设任一经过独热编码的离散特征记为fd
fd=[d1,d2,...,di,d||D||]
Figure FDA0003558262870000011
其中
Figure FDA0003558262870000012
D表示离散特征fd的类别集合,从而将一个一维的离散特征编码成一个只含有0和1的||D||维向量;输入层经过独热编码后的特征记为Fd
Fd=f(EU,EC,TB)
其中f(·)表示离散特征的独热编码;
S12:对采集到的连续特征使用特征嵌入进行编码,得到低维稠密嵌入特征Y=[y1,y2,y3...,yk]:
Figure FDA0003558262870000021
其中,
Figure FDA0003558262870000022
表示过度矩阵的参数,
Figure FDA0003558262870000023
表示输入的稀疏特征,k和m表示参数矩阵的大小,且k<m,
Figure FDA0003558262870000024
表示偏置向量,从而将高维的稀疏特征转化成低维的稠密向量;输入层经过嵌入编码后的特征记为Fy
Fy=g(EU,EC,TC)
其中g(·)表示连续特征的嵌入编码。
3.根据权利要求1所述的基于模型蒸馏的边缘缓存方法,其特征在于:所述步骤S2具体包括以下步骤:
S21:使用GRU来来对用户的行为序列进行建模,GRU模型由更新门和重置门组成,更新门决定用户行为序列中有多少以前的信息需要保留并传递给下一层,重置门确定应忽略多少以前的信息;GRU模型表示如下:
zt=σ(Wz(Fd+Fy)+Nzht-1+bz)
rt=σ(Wr(Fd+Fy)+Nrht-1+br)
Figure FDA0003558262870000025
Figure FDA0003558262870000026
其中,zt,rt
Figure FDA0003558262870000027
ht分别表示更新门、重置门、候选隐藏状态向量、当前时间步长的隐藏状态向量,σ是sigmoid激活函数,Wz,Wr,Wh和Nz,Nr,Nh是训练参数,bz,br,bh表示偏差,⊙表示哈达玛乘积;
S22:使用多头自注意力机制对用户长序列进行分析,对目标序列进行多次分析和信息提取,再将输出的不同结果进行集成,增加对用户主要兴趣定位的准确度:
headi=Attention(QWi Q,KWi K,VWi V)
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)WO
其中Q=[h1,h2,…,ht]表示LSTM的输出序列,K=V分别表示输出序列的键和值,headi表示多头自注意力中的第i个头,Concat(·)表示拼接操作,Wi Q,Wi K,Wi V和WO表示过度矩阵的训练参数,MultiHeadt(Q,K,V)表示教师模型多头自注意力的输出;
S23:在多头自注意力输出后加入全连接的神经网络层,并且教师模型的全连接神经网络和学生模型的全连接神经网络是相同结构的:
Figure FDA0003558262870000031
Figure FDA0003558262870000032
……
Figure FDA0003558262870000033
其中
Figure FDA0003558262870000034
表示教师模型第j层神经网络的训练参数,
Figure FDA0003558262870000035
表示教师模型第j层神经网络的偏置项,
Figure FDA0003558262870000036
表示教师模型第j层神经网络的输出;
S24:使用对数交叉熵损失函数进行拟合:
Figure FDA0003558262870000037
Figure FDA0003558262870000038
其中yt是教师模型的输出,σ表示激活函数,用户偏好是分类问题,使用softmax激活函数,N表示训练集的数据量,
Figure FDA0003558262870000039
表示训练集的数据,ft(·)表示教师模型。
4.根据权利要求1所述的基于模型蒸馏的边缘缓存方法,其特征在于:所述步骤S3具体包括:
S31:教师模型参数共享:将教师模型的全连接神经网络层的参数与学生模型共享:
Figure FDA00035582628700000310
Figure FDA00035582628700000311
……
Figure FDA00035582628700000312
其中
Figure FDA00035582628700000313
表示学生模型第j层神经网络的训练参数,
Figure FDA00035582628700000314
表示学生模型第j层神经网络的偏置项,MultiHeads(Q,K,V)表示学生模型的多头自注意力的输出,
Figure FDA00035582628700000315
表示学生模型第j层神经网络的输出;
S32:模型蒸馏:通过教师模型和学生模型之间的参数共享和损失蒸馏,模型蒸馏在学生模型的损失蒸馏函数如下:
Figure FDA0003558262870000041
Figure FDA0003558262870000042
Figure FDA0003558262870000043
其中ys表示学生模型的预测输出,fs(·)表示学生模型,Ls表示学生模型的对数交叉熵损失,Lt/s表示学生模型的损失蒸馏。
5.根据权利要求1所述的基于模型蒸馏的边缘缓存方法,其特征在于:所述步骤S4具体包括:
S41:根据模型蒸馏得到每个基站覆盖下学生模型输出的用户偏好;
S42:结合群组用户的活跃度制定缓存标准并排序,选择Top-k的内容进行缓存。
CN202210286001.1A 2022-03-22 2022-03-22 一种基于模型蒸馏的边缘缓存方法 Active CN114610500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210286001.1A CN114610500B (zh) 2022-03-22 2022-03-22 一种基于模型蒸馏的边缘缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210286001.1A CN114610500B (zh) 2022-03-22 2022-03-22 一种基于模型蒸馏的边缘缓存方法

Publications (2)

Publication Number Publication Date
CN114610500A true CN114610500A (zh) 2022-06-10
CN114610500B CN114610500B (zh) 2024-04-30

Family

ID=81865137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210286001.1A Active CN114610500B (zh) 2022-03-22 2022-03-22 一种基于模型蒸馏的边缘缓存方法

Country Status (1)

Country Link
CN (1) CN114610500B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117194970A (zh) * 2023-06-29 2023-12-08 北京经开综合智慧能源有限公司 一种数据蒸馏的机动平台模型更新方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200090000A1 (en) * 2018-09-18 2020-03-19 Microsoft Technology Licensing, Llc Progress Portal for Synthetic Data Tasks
CN112508169A (zh) * 2020-11-13 2021-03-16 华为技术有限公司 知识蒸馏方法和系统
CN112819155A (zh) * 2021-01-22 2021-05-18 中国人民解放军国防科技大学 应用于边缘设备的深度神经网络模型分级压缩方法及装置
CN113850362A (zh) * 2021-08-20 2021-12-28 华为技术有限公司 一种模型蒸馏方法及相关设备
CN113849641A (zh) * 2021-09-26 2021-12-28 中山大学 一种跨领域层次关系的知识蒸馏方法和系统
CN113988263A (zh) * 2021-10-29 2022-01-28 内蒙古大学 工业物联网边缘设备中基于知识蒸馏的空时预测方法
WO2022022274A1 (zh) * 2020-07-31 2022-02-03 华为技术有限公司 一种模型训练方法及装置
CN114490447A (zh) * 2022-01-24 2022-05-13 重庆邮电大学 一种多任务优化的智能缓存方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200090000A1 (en) * 2018-09-18 2020-03-19 Microsoft Technology Licensing, Llc Progress Portal for Synthetic Data Tasks
WO2022022274A1 (zh) * 2020-07-31 2022-02-03 华为技术有限公司 一种模型训练方法及装置
CN112508169A (zh) * 2020-11-13 2021-03-16 华为技术有限公司 知识蒸馏方法和系统
CN112819155A (zh) * 2021-01-22 2021-05-18 中国人民解放军国防科技大学 应用于边缘设备的深度神经网络模型分级压缩方法及装置
CN113850362A (zh) * 2021-08-20 2021-12-28 华为技术有限公司 一种模型蒸馏方法及相关设备
CN113849641A (zh) * 2021-09-26 2021-12-28 中山大学 一种跨领域层次关系的知识蒸馏方法和系统
CN113988263A (zh) * 2021-10-29 2022-01-28 内蒙古大学 工业物联网边缘设备中基于知识蒸馏的空时预测方法
CN114490447A (zh) * 2022-01-24 2022-05-13 重庆邮电大学 一种多任务优化的智能缓存方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AIWALKER-HAPPY: ""IAKD | 给你的知识蒸馏加上交互的翅膀"", Retrieved from the Internet <URL:《https://zhuanlan.zhihu.com/p/158186335》> *
YOSHITOMO MATSUBARA: ""Head Network Distillation : Splitting Distilled Deep Neural Networks for Resource-Constrained Edge Computing Systems"", 《IEEE ACCESS》, vol. 8, 20 November 2020 (2020-11-20), pages 212177 - 212193, XP011824945, DOI: 10.1109/ACCESS.2020.3039714 *
朱倩倩: ""基于高精度深度学习的模型简化的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2022, 15 January 2022 (2022-01-15), pages 140 - 533 *
李富祥: ""推荐系统使能的边缘缓存策略研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2023, 15 October 2023 (2023-10-15), pages 138 - 388 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117194970A (zh) * 2023-06-29 2023-12-08 北京经开综合智慧能源有限公司 一种数据蒸馏的机动平台模型更新方法及系统

Also Published As

Publication number Publication date
CN114610500B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN111339433A (zh) 基于人工智能的信息推荐方法、装置、电子设备
CN117436724B (zh) 一种基于智慧城市的多源数据可视化分析方法及系统
Wang et al. Deep joint source-channel coding for multi-task network
CN114490447B (zh) 一种多任务优化的智能缓存方法
CN113064968A (zh) 一种基于张量融合网络的社交媒体情感分析方法及系统
CN111310041A (zh) 图文发布的方法、模型的训练方法、装置及存储介质
Shen et al. The analysis of intelligent real-time image recognition technology based on mobile edge computing and deep learning
Liu et al. Cross-modal generative semantic communications for mobile AIGC: Joint semantic encoding and prompt engineering
CN116362325A (zh) 一种基于模型压缩的电力图像识别模型轻量化应用方法
CN115730631A (zh) 联邦学习的方法和装置
CN114861817A (zh) 一种基于联邦学习的多源异构数据融合方法
CN115080795A (zh) 一种多充电站协同负荷预测方法及装置
CN116383494A (zh) 一种基于实景元宇宙的信息资源推送方法、装置及系统
WO2023246343A1 (zh) 数据处理方法、装置、计算机设备、存储介质及产品
CN114706984A (zh) 文本处理模型的训练方法及装置
CN114610500A (zh) 一种基于模型蒸馏的边缘缓存方法
CN113949880B (zh) 一种极低码率人机协同图像编码训练方法及编解码方法
CN115114461A (zh) 多媒体数据的推荐方法、设备以及计算机可读存储介质
CN118656712A (zh) 基于云平台和大数据的电力数据管理系统及方法
CN118798320A (zh) 一种基于集合函数的用电个性化用电负荷预测方法
Ji et al. Semantic-Based Resource Management Based on D2D Multicast Content Delivery: A Game-Theoretic Approach
CN118075715A (zh) 车路协同通信方法、装置、设备及介质
Lin et al. Meta-networking: Beyond the Shannon limit with multi-faceted information, semantic communication, IoV, multi-faceted inforamtion
Luo et al. STAGNN: a spatial-temporal attention graph neural network for network traffic prediction
Zhao et al. MapReduce enabling content analysis architecture for information-centric networks using CNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载