+

JP7742677B2 - A method for reconstructing fine-grained tactile signals for audiovisual aids - Google Patents

A method for reconstructing fine-grained tactile signals for audiovisual aids

Info

Publication number
JP7742677B2
JP7742677B2 JP2024568338A JP2024568338A JP7742677B2 JP 7742677 B2 JP7742677 B2 JP 7742677B2 JP 2024568338 A JP2024568338 A JP 2024568338A JP 2024568338 A JP2024568338 A JP 2024568338A JP 7742677 B2 JP7742677 B2 JP 7742677B2
Authority
JP
Japan
Prior art keywords
haptic
features
audio
image
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024568338A
Other languages
Japanese (ja)
Other versions
JP2025515925A (en
Inventor
亮 周
▲シン▼ 魏
▲ジョー▼ 張
▲イン▼▲イン▼ 石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Publication of JP2025515925A publication Critical patent/JP2025515925A/en
Application granted granted Critical
Publication of JP7742677B2 publication Critical patent/JP7742677B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は触覚信号を生成する技術分野に関し、特に視聴覚補助用の細粒度触覚信号の再構築方法に関する。 The present invention relates to the technical field of generating haptic signals, and in particular to a method for reconstructing fine-grained haptic signals for audiovisual aids.

従来のマルチメディアアプリケーションの関連技術が成熟するにつれて、人々は視聴覚ニーズが大きく満たされるとともに、一層多くの次元、一層高い階層の知覚体験を追求し始める。そして、触覚情報が徐々に既存のオーディオ/ビデオマルチメディアサービスに統合されて、マルチモーダルサービスを形成することになって、より極めて豊富なインタラクティブ体験をもたらすことが望まれている。クロスモーダル通信技術は、クロスモーダルサービスをサポートするために提案されており、マルチモーダルストリームの品質を確保する面で一定の有効性を有するが、クロスモーダル通信を、触覚を主とするマルチモーダルサービスに適用する場合、依然としていくつかの技術的挑戦に直面している。まず、触覚ストリームが無線リンクにおける干渉及び騒音に非常に敏感であり、その結果、受信端で触覚信号が劣化ひいては失い、特に遠隔操作例えば遠隔工業制御、遠隔手術などの応用シーンにおいて、この問題は深刻で避けられない。次に、サービスプロバイダは触覚収集装置を持っていないが、ユーザーは触覚を感知する必要があり、特にオンライン没入型ショッピング、ホログラフィックミュージアムガイド、バーチャルインタラクティブムービーなどのバーチャルインタラクティブ応用シーンにおいて、触覚知覚に対するユーザーのニーズは極めて高く、従って、ビデオ及びオーディオ信号に基づいて「バーチャル」タッチ感覚又は触覚信号を生成することができるように求めている。 As traditional multimedia application technologies mature, people's audiovisual needs are largely met, and they are beginning to pursue more dimensional and higher-level perceptual experiences. Haptic information is gradually being integrated into existing audio/video multimedia services to form multimodal services, providing a richer interactive experience. Cross-modal communication technologies have been proposed to support cross-modal services and have demonstrated some effectiveness in ensuring the quality of multimodal streams. However, applying cross-modal communication to haptic-based multimodal services still faces several technical challenges. First, haptic streams are highly sensitive to interference and noise in wireless links, resulting in degradation or even loss of haptic signals at the receiving end. This problem is particularly serious and unavoidable in remote control applications, such as remote industrial control and remote surgery. Secondly, service providers do not have tactile collection devices, but users need to sense touch. Particularly in virtual interactive application scenarios such as online immersive shopping, holographic museum guides, and virtual interactive movies, users have a very high need for tactile perception, and therefore require the ability to generate "virtual" touch sensations or tactile signals based on video and audio signals.

現在、無線通信の不信頼性及び通信騒音干渉により破損したり部分的に欠損したりした触覚信号は、2つの面で自己回復し得る。第1としては、従来の信号処理技術に基づくものである。それはスパース表現を用いることで最も類似した構造を有する特定の信号を検索し、次に該特定の信号を用いて破損した信号の欠損部分を推定する。第2としては、信号自身の時空相関性をマイニング及び利用して、モーダル内の自己修復及び再構築を実現するものである。しかし、触覚信号がひどく破壊され、ひいては存在しない場合、モーダル内に基づく再構築スキームが失敗してしまう。 Currently, tactile signals that are corrupted or partially lost due to unreliable wireless communication and communication noise interference can self-recover in two ways. The first is based on traditional signal processing techniques, which use sparse representations to search for a specific signal with the most similar structure, and then use this specific signal to estimate the missing parts of the corrupted signal. The second is to mine and utilize the spatiotemporal correlations of the signal itself to achieve intra-modal self-recovery and reconstruction. However, when the tactile signal is severely corrupted or even non-existent, intra-modal reconstruction schemes fail.

近年以来、いくつかの研究は異なるモーダル間の相関性に注目しており、且つこれによりクロスモーダル再構築を実現した。Liらは文献「Learning cross-modal visual-tactile representation using ensembled generative adversarial networks」において、画像特徴を利用して必要なカテゴリ情報を取得し、次に、該情報を騒音とともに敵対的生成ネットワークの入力として対応するカテゴリの触覚スペクトルマップを生成することを提案した。該方法では各モーダル間の意味的相関、カテゴリをマイニングして取得した情報が限られるため、生成される結果は多くの場合不正確である。Kuniyuki Takahashiらは文献「Deep Visuo-Tactile Learning:Estimation of Tactile Properties from Images」において1つのエンコーダ-デコーダネットワークを拡張し、視覚及び触覚属性をいずれも潜在空間に埋め込み、重点的に潜在変数で示される材料の触覚属性の程度に注目している。更に、Matthew Purrらは文献「Teaching Cameras to Feel:Estimating Tactile Physical Properties of Surfaces From Images」において、1つの敵対的学習及びクロスドメイン連合分類付きのクロスモーダル学習フレームワークが単一の画像から触覚の物理特性を推定することを提案した。このような方法は、モーダルの意味情報を利用したが、完全な触覚信号を生成しないため、クロスモーダルサービスにとって実際の意味がない。 In recent years, several studies have focused on the correlation between different modalities and achieved cross-modal reconstruction. In their paper "Learning cross-modal visual-tactile representation using ensembled generative adversarial networks," Li et al. proposed using image features to obtain the necessary category information, and then using this information along with noise as input to a generative adversarial network to generate a tactile spectral map of the corresponding category. However, due to the limited information obtained by mining the semantic correlation and categories between each modality, the results generated are often inaccurate. In their paper "Deep Visuo-Tactile Learning: Estimation of Tactile Properties from Images," Kuniyuki Takahashi et al. extend a single encoder-decoder network to embed both visual and tactile attributes into a latent space, focusing on the degree of tactile properties of materials represented by latent variables. Furthermore, in the paper "Teaching Cameras to Feel: Estimating Tactile Physical Properties of Surfaces from Images," Matthew Purr et al. proposed a cross-modal learning framework with adversarial learning and cross-domain associative classification to estimate tactile physical properties from a single image. While this method utilizes modal semantic information, it does not generate a complete tactile signal, making it of no practical value for cross-modal services.

上記既存のクロスモーダル生成方法には、次の欠陥もある。そのモデルの訓練はいずれも大規模な訓練データに依存してモデルの効果を確保し、また、それらはいずれも単一モーダルの情報のみを利用したが、実際に単一モーダルの優位性が十分多くの情報量をもたらすことができず、異なるモーダルが同じ意味を共同で記述する場合、不均等な量の情報を含む可能性があり、モーダル間の情報の相補及び強化が生成効果の向上に寄与する。実際の応用シーンにおいて、大規模なデータセットのアノテーションコストが膨大であり、粗粒度の大分類カテゴリをより容易に取得する場合が多く、細粒度カテゴリが明確でない。また、異なるモーダルのサンプル同士に直接的な対応関係がなく、弱監督及び弱マッチングの難題がある。 The above-mentioned existing cross-modal generation methods also suffer from the following shortcomings: The training of these models all relies on large-scale training data to ensure the effectiveness of the models, and they all only use information from a single modality. However, in reality, the advantages of a single modality cannot provide a sufficient amount of information. When different modalities jointly describe the same meaning, they may contain unequal amounts of information. Complementary and enhanced information between modalities contributes to improved generation effectiveness. In practical applications, the annotation costs for large datasets are enormous, and coarse-grained, broad classification categories are often more easily obtained, while fine-grained categories are unclear. Furthermore, there is no direct correspondence between samples from different modalities, posing challenges in weak supervision and weak matching.

本発明が解決しようとする技術的問題は、従来技術の欠点を克服して視聴覚補助用の細粒度触覚信号の再構築方法を提供することである。まず、粗粒度カテゴリの内部でクラスタ分析を行ってサンプルの細粒度分類を取得する。次に、細粒度カテゴリにおけるモーダル共通意味制約を行い、その目的はカテゴリ内の差異を最小化してカテゴリ間の差異を最大化することである。最後に、細粒度サブカテゴリにおいて触覚信号にポジティブマッチする視聴覚サンプルを検索して相関性制約を行い、触覚信号の高品質で細粒度の再構築を実現する。 The technical problem that the present invention aims to solve is to provide a method for reconstructing fine-grained haptic signals for audiovisual assistance that overcomes the shortcomings of the prior art. First, cluster analysis is performed within coarse-grained categories to obtain fine-grained classifications of samples. Next, modal co-semantic constraints are performed in the fine-grained categories, with the goal of minimizing intra-category differences and maximizing inter-category differences. Finally, correlation constraints are performed by searching for audiovisual samples that positively match the haptic signal in the fine-grained subcategories, thereby achieving high-quality, fine-grained reconstruction of the haptic signal.

上記技術的問題を解決するために、本発明は視聴覚補助用の細粒度触覚信号の再構築方法を提供し、
触覚信号を触覚オートエンコーダに入力し、クラスタリングタスクにより触覚信号を特徴抽出するステップと、
クロスモーダル転移学習方法によって触覚オートエンコーダの特徴抽出能力をオーディオ特徴抽出ネットワーク及び画像特徴抽出ネットワークに転移して最適化するステップと、
クラスタリング制約、中心制約、及びソート制約を共同で考慮して抽出された触覚、オーディオ、及び画像のモーダル特徴を制約することで、同じ意味に属する各モーダル特徴を接近させるが、同じ意味に属しない各モーダル特徴を分離させ、細粒度分類を有する触覚、オーディオ、及び画像のモーダル特徴を取得するステップと、
触覚、オーディオ、及び画像のモーダル特徴に基づいてトリプレット集合を構築し、トリプレット制約の共有意味学習を行い、マルチモーダル融合マッピング関数を最適化し、共有意味情報を含む融合特徴を取得するステップと、
触覚生成ネットワークを事前設定し、融合特徴を触覚生成ネットワークに入力して触覚信号を再構築するステップと、を含む。
In order to solve the above technical problems, the present invention provides a method for reconstructing fine-grained tactile signals for audiovisual assistance,
inputting a haptic signal into a haptic autoencoder and extracting features from the haptic signal through a clustering task;
transferring and optimizing the feature extraction ability of the haptic autoencoder to the audio feature extraction network and the image feature extraction network by a cross-modal transfer learning method;
Constraining the extracted tactile, audio, and image modal features by jointly considering clustering constraints, centrality constraints, and sorting constraints to bring modal features belonging to the same meaning closer together but separate modal features that do not belong to the same meaning, thereby obtaining tactile, audio, and image modal features with fine-grained classification;
Constructing a triplet set based on tactile, audio and image modal features, performing shared semantic learning of triplet constraints, optimizing a multimodal fusion mapping function, and obtaining fusion features containing shared semantic information;
and preconfiguring a haptic generation network and inputting the fused features into the haptic generation network to reconstruct a haptic signal.

更に、触覚生成ネットワークを事前設定し、融合特徴を触覚生成ネットワークに入力して触覚信号を再構築する前記ステップは、
触覚オートエンコーダ、オーディオ特徴抽出ネットワーク、及び画像特徴抽出ネットワークのパラメータを事前設定することと、
マルチモーダル融合マッピング関数のパラメータ及び触覚生成ネットワークのパラメータを事前設定することと、
触覚オートエンコーダ、オーディオ特徴抽出ネットワーク、画像特徴抽出ネットワーク、マルチモーダル融合マッピング関数、及び触覚生成ネットワークを訓練することと、
受信したばかりの画像信号及びオーディオ信号をそれぞれ訓練済みの画像特徴抽出ネットワーク及びオーディオ特徴ネットワークに入力し、それぞれ画像特徴及びオーディオ特徴を取得し、次に、上記特徴をマルチモーダル融合マッピング関数に入力し、融合特徴を取得し、最後に、融合特徴を訓練済みの触覚生成ネットワークに入力し、再構築された触覚信号を取得することと、を含む。
Furthermore, the step of preconfiguring a haptic generation network and inputting the fused features into the haptic generation network to reconstruct a haptic signal includes:
Presetting parameters of a haptic autoencoder, an audio feature extraction network, and an image feature extraction network;
Presetting parameters of a multimodal fusion mapping function and parameters of a haptic generation network;
training a haptic autoencoder, an audio feature extraction network, an image feature extraction network, a multimodal fusion mapping function, and a haptic generation network;
The method includes inputting the just-received image signal and audio signal into a trained image feature extraction network and an audio feature network, respectively, to obtain image features and audio features, then inputting the features into a multimodal fusion mapping function to obtain fusion features, and finally inputting the fusion features into a trained haptic generation network to obtain a reconstructed haptic signal.

更に、触覚信号を触覚オートエンコーダに入力し、クラスタリングタスクにより触覚信号を特徴抽出することは、
触覚信号を触覚オートエンコーダに入力して学習し、対応する触覚特徴を抽出し、触覚特徴に基づいて触覚信号に対してK-meansアルゴリズムに基づくクラスタリングを実施し、即ち、
hが入力された触覚信号であり、h={hi=1,…,Nであり、iが入力触覚信号のソート下付き文字を示し、Nが入力された触覚信号の総量であり、オートエンコーダの符号化モジュールE(・)を通過した後、f =E(hhe)が触覚信号hの特徴表現であり、f={f i=1,…,Nであり、θheが符号化モジュールのパラメータであり、f を復号モジュールD(・)に入力し、出力触覚信号
を取得し、ここで、θhdが復号モジュールのパラメータであり、また、特徴f に対してK-meansアルゴリズムに基づくクラスタリングを実施し、対応するカテゴリタグs を出力し、上記過程におけるパラメータを共同で推計し、損失関数
(ただし、
はエンコーダの再構築誤差であり、Nは触覚信号の数であり、
はK-meansのクラスタリング誤差であり、MはK-meansアルゴリズムにより触覚データを取得するクラスタ中心ベクトル行列であり、M行列における第c列のmはc番目のクラスタの質量中心を示し、θ=[θhehd]はエンコーダモジュール及びデコーダモジュールのパラメータであり、sj,i はs のj番目の要素であり、その中の要素のsj,i が1、他の要素がいずれも0であれば、s に対応するオリジナルの触覚信号hが第jカテゴリに属することを示し、lは最小二乗損失
であり、λは正則化パラメータであり、λ≧0である)を設計することと、
clu を最小化することで、θを推計し、f 及びs を取得することと、を含む。
Furthermore, inputting tactile signals into a tactile autoencoder and extracting features from the tactile signals through a clustering task is
The haptic signal is input to a haptic autoencoder for learning, and the corresponding haptic features are extracted. Then, the haptic signal is clustered based on the K-means algorithm according to the haptic features, i.e.,
h is the input haptic signal, h = {h i } i = 1, ..., N , where i indicates the sort subscript of the input haptic signal, and N is the total amount of the input haptic signal. After passing through the encoding module E h (·) of the autoencoder, f i h = E h (h i ; θ he ) is the feature representation of the haptic signal h i , where f h = {f i h } i = 1, ..., N , where θ he is the parameter of the encoding module. f i h is input to the decoding module D h (·), and the output haptic signal
where θ hd is the parameter of the decoding module, and performs clustering based on the K-means algorithm on the features f i h to output the corresponding category tags s i h . The parameters in the above process are jointly estimated, and the loss function
(however,
is the reconstruction error of the encoder, N is the number of haptic signals,
is the clustering error of K-means, M is the cluster center vector matrix for obtaining tactile data using the K-means algorithm, m c in the c-th column of the M matrix indicates the center of mass of the c-th cluster, θ h = [θ he , θ hd ] is the parameter of the encoder module and the decoder module, s j,i h is the j-th element of s i h , and if the element s j,i h is 1 and the other elements are all 0, it indicates that the original tactile signal h i corresponding to s i h belongs to the j-th category, and l is the least squares loss.
where λ is a regularization parameter, λ≧0;
Minimizing L clu h to estimate θ h and obtain f i h and s i h .

更に、クロスモーダル転移学習方法によって触覚オートエンコーダの特徴抽出能力をオーディオ特徴抽出ネットワーク及び画像特徴抽出ネットワークに転移することは、
特徴自己適応方法で触覚領域と視聴覚領域との間の最大平均差異準則を最小化して転移を実現し、即ち、
触覚、オーディオ、及び画像信号セットの分布がそれぞれP、Q、及びRであり、触覚信号とオーディオ信号との間のMMDをMMD(P,Q)として示し、触覚信号と視覚信号との間のMMDがMMD(P,R)であり、再生カーネルHibert空間Hにおいて、Hが非空集合に定義された関数セットfを含み、MMDの2乗が、
であり、
ただし、触覚、オーディオ、及び画像信号にそれぞれの特徴抽出ネットワークφを通過させ、抽出された特徴ベクトルを取得し、触覚特徴ベクトルがφ(h;θhe)として示され、即ちオートエンコーダの符号化モジュールの出力であり、オーディオ及び画像の特徴ベクトルがφ(a;θ)=f、φ(v;θ)=fであり、3つのモーダルの特徴集合が(f,f,f)として示され、θ及びθがそれぞれオーディオ及び画像特徴抽出ネットワークのパラメータであり、θheが符号化モジュールのパラメータであり、任意の関数f∈H且つ任意のX∈Pであり、
であり、μ(P)がPのHにおける平均埋め込みであり、即ち分布PのH空間における1つの要素表現であり、f(X)はXが関数fによりH空間にマッピングすることを示し、<・,・>Hkが内積演算であり、同様に、
であり、μ(Q)がQのHにおける平均埋め込みであり、
であり、μ(R)がRのHにおける平均埋め込みであることと、
対応する
の値をクロスモーダル転移の損失関数として計算し、具体的な公式が、
であることと、
CTを最適化することで、触覚特徴抽出オートエンコーダモデルとオーディオ・画像特徴抽出ネットワークとの間の情報が流れるように案内し、触覚モーダルのためのオートエンコーダの特徴抽出能力をオーディオ・画像の特徴抽出ネットワークに効果的に転移し、即ちθ及びθを推計することと、を含む。
Furthermore, transferring the feature extraction ability of a haptic autoencoder to an audio feature extraction network and an image feature extraction network through a cross-modal transfer learning method is
The feature self-adaptation method minimizes the maximum average difference criterion between the tactile and audiovisual areas to achieve the transition, i.e.,
Let the distributions of the haptic, audio, and image signal sets be P, Q, and R, respectively, denote the MMD between the haptic and audio signals as MMD k (P,Q), the MMD between the haptic and visual signals as MMD k (P,R), and in the reproduction kernel Hilbert space H k , H k contains a function set f defined on a non-empty set, and the square of the MMD is
and
where haptic, audio, and image signals are passed through respective feature extraction networks φ to obtain extracted feature vectors, the haptic feature vector is denoted as φh (h; θhe ), i.e., it is the output of the encoding module of the autoencoder, the audio and image feature vectors are φa (a; θa )= fa , φv (v; θv )= fv , the three modal feature set is denoted as ( fh , fa , fv ), θa and θv are the parameters of the audio and image feature extraction networks respectively, θhe is the parameter of the encoding module, and for any function f∈Hk and any X∈P ,
where μ k (P) is the mean embedding of P in H k , i.e., one element representation in H k space of the distribution P, f(X) denotes the mapping of X to H k space by function f, <·,·> H k is the dot product operation, and similarly,
and μ k (Q) is the mean embedding of Q in H k ,
and μ k (R) is the mean embedding of R in H k ;
handle
The value of is calculated as the loss function of cross-modal transfer, and the specific formula is
And,
By optimizing the LCT , we guide the information flow between the haptic feature extraction autoencoder model and the audio-visual feature extraction network, effectively transferring the feature extraction capabilities of the autoencoder for the haptic modality to the audio-visual feature extraction network, i.e., estimating θ a and θ v .

更に、オーディオ特徴抽出ネットワーク及び画像特徴抽出ネットワークを更に最適化することは、
分類損失関数が、
(ただし、s 及びs はそれぞれオーディオ信号及び画像信号のカテゴリタグであり、Lclu avを最小化することで、θ及びθの最適値を更に取得し、p(f )の意味はオーディオ特徴抽出ネットワーク入力がf 、ネットワークパラメータがθである場合にオーディオ信号カテゴリs を取得する確率であり、p(f )の意味は画像特徴抽出ネットワーク入力がf 、ネットワークパラメータがθである場合に画像信号カテゴリs を取得する確率であり、f={f i=1,・・・,N、f={f i=1,・・・,Nである)であることと、 Lclu 、LCT及びLclu av
を組み合わせ、
総目的関数Lclu=Lclu +LCT+Lclu avを取得することと、 Lcluを最小化することで、最適なθ、θ、及びθを取得することができ、パラメータを決定した後に、触覚信号、オーディオ信号、及び画像信号に対応する特徴f、f、fを取得することができることと、を含む。
Further optimizing the audio feature extraction network and the image feature extraction network may include:
The classification loss function is
(where s i a and s i v are the category tags of the audio signal and the image signal, respectively; by minimizing L clu av , the optimal values of θ a and θ v are further obtained; p(f i a ; θ a ) means the probability of obtaining the audio signal category s i a when the audio feature extraction network input is f i a and the network parameter is θ a ; p(f i v ; θ v ) means the probability of obtaining the image signal category s i v when the image feature extraction network input is f i v and the network parameter is θ v ; f a = {f i a } i = 1, ... , N , f v = {f i v } i = 1, ... , N ); and L clu h , L CT and L clu av
Combined,
Obtaining the overall objective function L clu = L clu h + L CT + L clu av ; and by minimizing L clu , the optimal θ h , θ a , and θ v can be obtained, and after determining the parameters, the features f h , fa , f v corresponding to the tactile signal, audio signal, and image signal can be obtained.

更に、クラスタリング制約、中心制約、及びソート制約を共同で考慮して抽出された触覚、オーディオ、及び画像のモーダル特徴を制約することで、同じ意味に属する各モーダル特徴を接近させるが、同じ意味に属しない各モーダル特徴を分離させ、細粒度分類を有する触覚、オーディオ、及び画像のモーダル特徴を取得することは、
同じ細粒度サブカテゴリの特徴間のコンパクト性を確保するために、3種類のモーダル信号に対して中心制約におけるクラスタリング学習を行い、より良い細粒度の分類性能を実現するために、同じサブカテゴリの特徴が共通空間において隣接すべきであり、この目的がカテゴリ内分散を最小化することであり、特徴からそのサブカテゴリ中心までの距離を最小化することでクラスタリング学習を駆動し、触覚信号のサブカテゴリ中心をクロスモーダル信号の共通サブカテゴリ中心とすることで同じカテゴリのクロスモーダル信号意味特徴間のコンパクト性を確保し、中心制約におけるクラスタリング学習の損失関数が、
として定義され、
ただし、Nが触覚、オーディオ、及び画像信号の数であり、s 、s 、及びs がそれぞれ触覚信号、オーディオ信号、及び画像信号のカテゴリを示し、オーディオ信号と画像信号が触覚信号のクラスタ中心ベクトル行列Mを共有し、上記過程によって類似意味を持つ各モーダル特徴f 、f 、及びf を互いに接近させることを含む。
Furthermore, by constraining the extracted tactile, audio, and image modal features by jointly considering the clustering constraint, the centrality constraint, and the sorting constraint, the modal features belonging to the same meaning are brought close to each other, but the modal features not belonging to the same meaning are separated, thereby obtaining tactile, audio, and image modal features with fine-grained classification.
To ensure compactness between features of the same fine-grained subcategory, clustering learning under center constraints is performed on three types of modal signals. To achieve better fine-grained classification performance, features of the same subcategory should be adjacent in a common space, with the goal of minimizing intra-category variance. Clustering learning is driven by minimizing the distance from a feature to its subcategory center. The subcategory center of the tactile signal is set as the common subcategory center of the cross-modal signal to ensure compactness between semantic features of the same category of cross-modal signals. The loss function of clustering learning under center constraints is:
is defined as
where N is the number of haptic, audio, and image signals, s i h , s i a , and s i v indicate the categories of haptic signals, audio signals, and image signals, respectively, the audio signals and image signals share the cluster center vector matrix M of the haptic signals, and the above process includes bringing each modal feature f i a , f i v , and f i h with similar meaning closer to each other.

更に、異なる細粒度サブカテゴリの特徴が一定のスパース性を備えるように確保するために、3種類のモーダル信号に対してソート制約におけるクラスタリング学習を行い、中心制約の目標はカテゴリ内分散を最小化することであるが、ソート制約の目標はカテゴリ間分散を最大化することであり、それにより異なるサブカテゴリの特徴出力が同じサブカテゴリの特徴出力よりも類似しないようにし、ソート制約は、
として定義され、
ただし、Cは触覚信号がK-meansアルゴリズムによりクラスタリングした後の総カテゴリ数であり、上記過程によって類似意味を持つ各モーダル特徴f 、f 、及びf を更に接近させるが、異なる意味を持つ各モーダル特徴をできる限り分離させる。
Furthermore, to ensure that the features of different fine-grained subcategories have a certain sparsity, we perform clustering learning under sorting constraints on the three types of modal signals. The goal of the centrality constraint is to minimize the intra-category variance, while the goal of the sorting constraint is to maximize the inter-category variance, so that the feature outputs of different subcategories are less similar than the feature outputs of the same subcategory. The sorting constraint is:
is defined as
where C is the total number of categories after the tactile signals are clustered using the K-means algorithm, and the above process brings modal features f i a , f i v , and f i h with similar meanings closer together, while separating modal features with different meanings as much as possible.

更に、触覚、オーディオ、及び画像のモーダル特徴に基づいてトリプレット集合を構築し、トリプレット制約の共有意味学習を行い、マルチモーダル融合マッピング関数を最適化し、共有意味情報を含む融合特徴を取得することは、
ある細粒度サブカテゴリから1つの触覚信号サンプルhをランダムに選択し、該サンプルをアンカーとすることと、
画像データセットからhと同じカテゴリに属し且つ意味特徴がf に最も近いサンプルv をポジティブマッチサンプルとして選択し、hと同じカテゴリに属せず且つ意味特徴がf に最も近いサンプルv をネガティブマッチサンプルとして選択することと、
これによりデータセット内のサンプルのためにトリプレット集合{(h,v ,v )}を構成することと、
同様に触覚信号サンプルとオーディオ信号サンプルとで構成されるトリプレット集合{(h,a ,a )}を取得することと、
アンカー点hの意味特徴f とオーディオ・画像モーダルにおける対応する小分類内のポジティブマッチの意味特徴
との距離を最小化し、且つf とネガティブマッチの意味特徴
と間の意味特徴を最大化し、且つ1つの最小の間隔δがあることで、取得した2つのトリプレット損失関数が、
であり、
統合パラダイムを導入し、マルチモーダル特徴を高度融合し、即ち、
とfを融合し、過程が、
=F(f,f
(ただし、fは共有意味部分空間におけるマルチモーダル融合の出力即ち融合特徴であり、F(・)はパラメータがθのマルチモーダル融合マッピング関数であり、F(・)はf及びfの線形重み付けを取る)であることと、
とf をf に融合し、f とf をf に融合することと、
トリプレット損失を利用して融合特徴を制約し、即ち、
であり、
共有意味学習の目的関数が3つの損失関数を組み合わせることでモデリングし、
syn=Lsyn +Lsyn +Lsyn として示されることと、
Synを最小化することで、最適なθを取得することと、を含む。
Furthermore, constructing a triplet set based on the modal features of tactile, audio, and image, conducting shared semantic learning of triplet constraints, optimizing the multimodal fusion mapping function, and obtaining fusion features containing shared semantic information is
Randomly selecting one haptic signal sample h i from a fine-grained subcategory and setting the sample as an anchor;
Selecting a sample v i + from the image dataset that belongs to the same category as h i and whose semantic features are closest to f i h as a positive match sample, and selecting a sample v j that does not belong to the same category as h i and whose semantic features are closest to f i h as a negative match sample;
thereby constructing a set of triplets {(h i ,v i + ,v j )} for the samples in the dataset;
Similarly, obtaining a set of triplets {(h i , a i + , a j )} consisting of haptic signal samples and audio signal samples;
Semantic features f i h of anchor point h i and positive match semantic features in the corresponding subclass in the audio-visual modal
and minimize the distance between f i h and the semantic feature of negative match
By maximizing the semantic feature between and and having a minimum interval δ, the two triplet loss functions obtained are
and
We introduce an integration paradigm to achieve high-level fusion of multimodal features, i.e.,
By fusing f a and f v , the process becomes
f m =F m (f a ,f vm )
where f m is the output of multimodal fusion in the shared semantic subspace, i.e., the fusion feature, F m (·) is the multimodal fusion mapping function with parameter θ m , and F m (·) takes a linear weighting of f a and f v ;
fusing f + a and f + v into f + m , and f - a and f - v into f - m ;
The triplet loss is used to constrain the fused features, i.e.,
and
The objective function of shared semantic learning is modeled by combining three loss functions.
It can be shown that L syn =L syn a +L syn v +L syn m ;
and minimizing L Syn to obtain the optimal θ m .

更に、触覚生成ネットワークを構築し、即ち、触覚生成ネットワークG(・)を構築し、その構造がD(・)と同じであり、且つそのネットワークパラメータθhdをG(・)のパラメータθの初期値とし、
必要な意味情報を含む融合特徴を触覚生成ネットワークG(・)に入力して所望の触覚信号h′を取得し、且つ生成された触覚信号h′をE(・)により触覚特徴fh′に再マッピングし、カテゴリ中心を選択して該触覚特徴fh′に対して意味制約を行い、最終的な損失関数が、
として示され、
ただし、
であり、
が特徴fとfh′との類似度を示し、
がfh′のクラスタリング損失であり、それらが一緒に損失関数の正則化項とされ、該損失関数を最適化することで、θの最適値を取得し、即ちG(・)を決定する。
Furthermore, a haptic generation network is constructed, that is, a haptic generation network G(·) is constructed, and its structure is the same as D h (·), and its network parameter θ hd is set as the initial value of the parameter θ G of G(·);
The fused features containing the required semantic information are input into a haptic generation network G(·) to obtain the desired haptic signal h′, and the generated haptic signal h′ is remapped to a haptic feature f h′ by E h (·), and a category center is selected to perform semantic constraints on the haptic feature f h′ , so that the final loss function is
is shown as
however,
and
indicates the similarity between features f h and f h′ ,
is the clustering loss of f h′ , and these are used together as the regularization terms of the loss function. By optimizing the loss function, the optimal value of θ G is obtained, i.e., G(·) is determined.

更に、触覚オートエンコーダ、オーディオ特徴抽出ネットワーク、及び画像特徴抽出ネットワークのパラメータを事前設定し、
マルチモーダル融合マッピング関数のパラメータ及び触覚生成ネットワークのパラメータを事前設定し、
触覚オートエンコーダ、オーディオ特徴抽出ネットワーク、画像特徴抽出ネットワーク、マルチモーダル融合マッピング関数、及び触覚生成ネットワークを訓練することは、ステップ1及びステップ2を含み、
前記ステップ1において、θ、θ、θhe、θhd、及びMを事前設定し、且つ{s }、{s }、{s }を最適化し、前記ステップ1は、
ネットワークパラメータθ、θ、θhe、θhd、ノード系タグ{s }、{s }、{s }、及びカテゴリ中心行列Mを初期化し、クラスタ数C、学習率μ、及び反復回数Tを設定するステップ11と、
{s }、{s }、{s }、及びMを固定し、確率的勾配降下法に基づいてθ、θ、θhe、θhdを最適化し、即ち、
であり、
ただし、∇が各損失関数を偏微分することであるステップ12と、
θ、θ、θhe、θhd、及びMを固定し、{s }、{s }、{s }を最適化し、即ち、
であるステップ13と、
θ、θ、θhe、θhd、及び{s }、{s }、{s }を固定し、Mを最適化し、即ち、
であるステップ14と、
t<Tの場合、ステップ412にジャンプし、t=t+1の場合、次回の反復を継続し、そうでない場合、反復を終了するステップ15と、
T回反復した後、最適なオーディオ特徴抽出ネットワークのパラメータθ、画像特徴抽出ネットワークのパラメータθ、触覚オートエンコーダのパラメータθhe、θhd、ノード系タグ{s }、{s }、{s }、及び触覚データのクラスタ中心ベクトル行列Mを取得するステップ16と、を含み、
前記ステップ2において、確率的勾配降下法に基づいてθ及びθを推計し、前記ステップ2は、
θ、学習率μ、μ、反復回数nを初期化するステップ21と、
Synに基づいて確率的勾配降下法を利用してθを推定し、即ち、
であるステップ22と、
Genに基づいて確率的勾配降下法を利用してθを更新し、即ち、
であるステップ23と、
n<nの場合、ステップ22にジャンプし、n=n+1の場合、次回の反復を継続し、そうでない場合、反復を終了するステップ24と、
回反復した後、最適なθ及びθを取得するステップ25と、を含む。
Furthermore, we pre-set the parameters of the haptic autoencoder, audio feature extraction network, and image feature extraction network.
Presetting the parameters of the multimodal fusion mapping function and the parameters of the haptic generation network;
Training the haptic autoencoder, the audio feature extraction network, the image feature extraction network, the multimodal fusion mapping function, and the haptic generation network includes step 1 and step 2;
In the step 1, θ v , θ a , θ he , θ hd , and M are preset, and {s i h }, {s i a }, and {s i v } are optimized.
Step 11: initializing network parameters θ v , θ a , θ he , θ hd , node system tags {s i h }, { s ia } , {s i v }, and category center matrix M, and setting the number of clusters C, learning rate μ 1 , and number of iterations T;
{s i h }, {s i a }, {s i v }, and M are fixed, and θ v , θ a , θ he , and θ hd are optimized based on stochastic gradient descent, i.e.,
and
where step 12 is where ∇ is the partial derivative of each loss function;
Fix θ v , θ a , θ he , θ hd , and M, and optimize {s i h }, {s i a }, {s i v }, i.e.,
Step 13, where
Fix θ v , θ a , θ he , θ hd , and {s i h }, {s i a }, {s i v } and optimize M, i.e.,
Step 14, where
If t<T, jump to step 412; if t=t+1, continue with the next iteration; otherwise, end the iteration;
and step 16, after T iterations, obtaining optimal audio feature extraction network parameters θ a , image feature extraction network parameters θ v , haptic autoencoder parameters θ he , θ hd , node system tags {s i h }, {s i a } , {s i v }, and a cluster center vector matrix M of the haptic data;
In the step 2, θ m and θ G are estimated based on a stochastic gradient descent method, and the step 2 includes the following steps:
Step 21 of initializing θ m , learning rates μ 2 , μ 3 , and number of iterations n 1 ;
Based on L Syn, θ m is estimated using stochastic gradient descent, i.e.,
Step 22, where
Based on L Gen , θ G is updated using stochastic gradient descent, i.e.,
Step 23, where
If n< n1 , jump to step 22; if n=n+1, continue with the next iteration; otherwise, step 24 to end the iteration;
and step 25 of obtaining the optimal θ m and θ G after one n iteration.

従来技術に比べて、本発明は以上の技術的解決手段を用いることにより、以下の技術的効果を有する。 Compared to the prior art, the present invention has the following technical advantages by using the above technical solutions:

本発明は、クロスモーダル転移の深層クラスタリングアルゴリズムによって3種類のモーダルサンプルの細粒度分類を学習した後、共有意味学習を行い、マルチモーダル特徴融合の優位性を十分に発揮し、最終的にクラスタリング制約に基づく細粒度触覚信号の生成を実現し、既存の弱監督及び弱マッチングの問題のあるデータセットを最大限に利用し、これにより高品質で細粒度の触覚信号を生成し、それによりクロスモーダルサービスの要件に一層合致する。 This invention uses a deep clustering algorithm for cross-modal transfer to learn fine-grained classification of three types of modal samples, then performs shared semantic learning, fully utilizing the advantages of multi-modal feature fusion, ultimately realizing the generation of fine-grained haptic signals based on clustering constraints, making full use of existing datasets with weak supervision and weak matching problems, thereby generating high-quality fine-grained haptic signals that better meet the requirements of cross-modal services.

本発明に係る視聴覚補助用の細粒度触覚信号の再構築方法のフローチャートである。1 is a flowchart of a method for reconstructing fine-grained haptic signals for audiovisual aids according to the present invention; 本発明に係る完全なネットワークの構造模式図である。1 is a structural schematic diagram of a complete network according to the present invention; 本発明に係るクロスモーダル転移に基づく深層クラスタリングモデルのアーキテクチャ模式図である。FIG. 1 is a schematic diagram of the architecture of a deep clustering model based on cross-modal transfer according to the present invention. 本発明及び他の比較方法の触覚信号の再構築結果を示す図である。10A and 10B show the reconstruction results of tactile signals of the present invention and other comparative methods.

本発明の目的、技術的解決手段、及び利点をより明確にするために、以下に図面及び具体的な実施例を参照しながら本発明を詳しく説明する。 To make the objectives, technical solutions, and advantages of the present invention clearer, the present invention will be described in detail below with reference to the drawings and specific embodiments.

本発明は視聴覚補助用の細粒度触覚信号の再構築方法を提供し、そのフローチャートは図1に示され、該方法は以下のステップ1~ステップ5を含む。 The present invention provides a method for reconstructing fine-grained tactile signals for audiovisual assistance, the flowchart of which is shown in Figure 1, and the method includes the following steps 1 to 5.

ステップ1では、まず、触覚信号を触覚オートエンコーダに入力し、クラスタリングによって触覚信号の特徴抽出を実現し、次に、クロスモーダル転移学習技術を利用し、触覚オートエンコーダの特徴抽出能力をそれぞれオーディオ特徴抽出ネットワーク及び画像特徴抽出ネットワークに転移して最適化し、その後、クラスタリング制約、中心制約、及びソート制約を共同で考慮して抽出された触覚、オーディオ、及び画像のモーダル特徴を更に制約することで、同じ意味に属する各モーダル特徴を接近させるが、同じ意味に属しない各モーダル特徴を分離させ、細粒度分類を有する触覚、オーディオ、及び画像のモーダル特徴を取得する。 In step 1, haptic signals are first input into a haptic autoencoder, and feature extraction of the haptic signals is achieved through clustering. Next, cross-modal transfer learning technology is used to transfer and optimize the feature extraction capabilities of the haptic autoencoder to an audio feature extraction network and an image feature extraction network, respectively. The extracted haptic, audio, and image modal features are then further constrained by jointly considering clustering constraints, centrality constraints, and sorting constraints, thereby approximating modal features that belong to the same meaning and separating modal features that do not belong to the same meaning, thereby obtaining haptic, audio, and image modal features with fine-grained classification.

(1-1)、まず、触覚、画像、及びオーディオの3種類のモーダル信号に対してクラスタリング制約の特徴学習を行い、細粒度サブカテゴリを有する区分特徴を取得する。これについて以下の3つのステップ即ちステップ(1-1-1)~ステップ(1-1-3)に分けられてもよい。 (1-1) First, clustering-constrained feature learning is performed on three types of modal signals: haptic, image, and audio, to obtain segmental features with fine-grained subcategories. This can be divided into the following three steps: Step (1-1-1) to Step (1-1-3).

(1-1-1)、第1ステップとしては、まず、触覚信号をオートエンコーダに入力して学習し、対応する触覚特徴を抽出し、触覚特徴に基づいて触覚信号に対してK-meansアルゴリズムに基づくクラスタリングを実施し、即ち、
具体的に、hが入力された触覚信号であり、h={hi=1,・・・,Nであり、iが入力触覚信号のソート下付き文字を示し、Nが入力された触覚信号の総量であり、オートエンコーダの符号化モジュールE(・)を通過した後、f =E(hhe)が触覚信号hの特徴表現であり、f={f i=1,・・・,Nであり、θheが符号化モジュールのパラメータであると仮定し、f を復号モジュールD(・)に入力し、出力触覚信号
を取得し、ここで、θhdが復号モジュールのパラメータであり、また、特徴f に対してK-meansアルゴリズムに基づくクラスタリングを実施し、対応するカテゴリタグs を出力し、上記過程におけるパラメータを共同で推計し、損失関数
(ただし、
はエンコーダの再構築誤差であり、Nは触覚信号の数であり、
はK-meansのクラスタリング誤差であり、MはK-meansアルゴリズムにより触覚データを取得するクラスタ中心ベクトル行列であり、M行列における第c列のmはc番目のクラスタの質量中心を示し、θ=[θhehd]はエンコーダモジュール及びデコーダモジュールのパラメータであり、sj,i はs のj番目の要素であり、その中の要素のsj,i 値が1、他の要素がいずれも0であれば、s に対応するオリジナルの触覚信号hは第jカテゴリに属することを示し、lは最小二乗損失
であり、λ≧0は正則化パラメータである)を設計し、
clu を最小化することで、θを推計し、f 及びs を取得することができる。
(1-1-1) In the first step, the tactile signal is input to an autoencoder for learning, and the corresponding tactile features are extracted. Then, the tactile signal is clustered based on the K-means algorithm according to the tactile features, i.e.,
Specifically, suppose h i is the input haptic signal, h = {h i } i = 1, ..., N, where i indicates the sort subscript of the input haptic signal, and N is the total amount of the input haptic signal. After passing through the encoding module E h (·) of the autoencoder, f i h = E h (h i ; θ he ) is the feature representation of the haptic signal h i , where f h = {f i h } i = 1, ..., N , and θ he is the parameter of the encoding module. Then, f i h is input to the decoding module D h (·), and the output haptic signal
where θ hd is the parameter of the decoding module, and performs clustering based on the K-means algorithm on the features f i h to output the corresponding category tags s i h . The parameters in the above process are jointly estimated, and the loss function
(however,
is the reconstruction error of the encoder, N is the number of haptic signals,
is the clustering error of K-means, M is the cluster center vector matrix for obtaining tactile data using the K-means algorithm, m c in the c-th column of the M matrix indicates the center of mass of the c-th cluster, θ h = [θ he , θ hd ] is the parameter of the encoder module and the decoder module, s j,i h is the j-th element of s i h , and if the s j,i h value of the element is 1 and the other elements are all 0, it indicates that the original tactile signal h i corresponding to s i h belongs to the j-th category, and l is the least squares loss.
where λ≧0 is a regularization parameter),
By minimizing L clu h , θ h can be estimated and f i h and s i h can be obtained.

(1-1-2)、第2ステップとしては、クロスモーダル転移学習技術によって、取得された触覚特徴を画像信号及びオーディオ信号の特徴抽出過程に転移する。即ち、特徴自己適応方法で触覚領域と視聴覚領域との間の最大平均差異(MMD)準則を最小化して転移を実現する。 (1-1-2) In the second step, the acquired tactile features are transferred to the feature extraction process of the image and audio signals using cross-modal transfer learning technology. That is, the transfer is achieved by minimizing the maximum mean difference (MMD) criterion between the tactile and audiovisual domains using a feature self-adaptation method.

具体的に、触覚、オーディオ、及び画像信号セットの分布をそれぞれP、Q、及びRとする。触覚信号とオーディオ信号との間のMMDをMMD(P,Q)として示し、触覚信号と視覚信号との間のMMDがMMD(P,R)である。再生カーネルHibert空間Hにおいて、Hが非空集合に定義された関数セットfを含み、MMDの2乗が、
であり、
ただし、触覚、オーディオ、及び画像信号にそれぞれの特徴抽出ネットワークφを通過させ、抽出された特徴ベクトルを取得し、触覚特徴ベクトルがφ(h;θhe)として示されてもよく、即ち前のステップにおけるオートエンコーダの符号化モジュールの出力であり、オーディオ及び画像の特徴ベクトルがφ(a;θ)=f、φ(v;θ)=fであり、3つのモーダルの特徴集合が(f,f,f)として示されてもよい。θ及びθがそれぞれオーディオ及び画像特徴抽出ネットワークのパラメータであり、θheが符号化モジュールのパラメータである。任意の関数f∈H且つ任意のX∈Pであり、
であり、μ(P)がPのHにおける平均埋め込みであり、即ち分布PのH空間における1つの要素表現であり、f(X)はXが関数fによりH空間にマッピングすることを示し、<・,・>Hkが内積演算であり、同様に、
であり、μ(Q)がQのHにおける平均埋め込みであり、
であり、μ(R)がRのHにおける平均埋め込みである。
Specifically, let the distributions of the haptic, audio, and image signal sets be P, Q, and R, respectively. The MMD between the haptic signal and the audio signal is denoted as MMDk (P,Q), and the MMD between the haptic signal and the visual signal is MMDk (P,R). In the reproduction kernel Hibert space Hk , Hk contains a function set f defined on a non-empty set, and the square of the MMD is
and
where haptic, audio, and image signals are passed through respective feature extraction networks φ to obtain extracted feature vectors, and the haptic feature vector may be denoted as φh (h; θhe ), i.e., the output of the encoding module of the autoencoder in the previous step, the audio and image feature vectors are φa (a; θa )= fa , φv (v; θv )= fv , and the three-modal feature set may be denoted as ( fh , fa , fv ). θa and θv are the parameters of the audio and image feature extraction networks, respectively, and θhe is the parameter of the encoding module. For any function f∈Hk and any X∈P,
where μ k (P) is the mean embedding of P in H k , i.e., one element representation in H k space of the distribution P, f(X) denotes the mapping of X to H k space by function f, <·,·> H k is the dot product operation, and similarly,
and μ k (Q) is the mean embedding of Q in H k ,
and μ k (R) is the mean embedding of R in H k .

対応する
の値をクロスモーダル転移の損失関数として計算し、具体的な公式は、
である。
handle
The value of is calculated as the loss function of cross-modal transfer, and the specific formula is
is.

CTを最適化することで、触覚特徴抽出オートエンコーダモデルとオーディオ・画像特徴抽出ネットワークとの間の情報が流れるように案内することができ、それにより触覚モーダルのためのオートエンコーダの特徴抽出能力をオーディオ・画像の特徴抽出ネットワークに効果的に転移し、即ちθ及びθを推計することができる。 By optimizing LCT , we can guide the information flow between the haptic feature extraction autoencoder model and the audio-visual feature extraction network, thereby effectively transferring the feature extraction capabilities of the autoencoder for the haptic modality to the audio-visual feature extraction network, i.e., estimating θ a and θ v .

(1-1-3)、第3ステップとしては、オーディオ・画像の特徴抽出ネットワークを更に最適化し、ここで、ビデオ特徴抽出ネットワークはVGGネットワークの設計スタイルを選択し、即ち3×3の畳み込みフィルタ及びステップ幅が2である充填なしの2×2の最大プーリング層を有し、ネットワークは4つのブロックに分けられ、各ブロックに2つの畳み込み層及び1つのプーリング層が含まれ、連続ブロックの間に倍になるフィルタ数を有し、最後に、全ての空間位置に最大プーリングを実行することで単一の512次元の意味特徴ベクトルを生成する。次に、該意味特徴ベクトルを、1つの3層の完全接続ニューラルネットワーク(256-128-32)、及びK個のノードとsoftmax関数付きの1つの完全接続層に入力し、32次元ベクトルは視覚信号の特徴ベクトルであり、更に後続のトリプレット制約に基づく共有意味学習の訓練を受けることとなり、Kが各粗粒度カテゴリにおける細粒度サブカテゴリの個数であり、本実験のデータセットにおいてKが3である。オーディオ信号の関連するネットワーク構造は設定が視覚信号と同様であり、視覚信号と分類器を共有する。 (1-1-3) In the third step, the audio and image feature extraction network is further optimized. Here, the video feature extraction network uses a VGG network design style, i.e., a 3x3 convolutional filter and a 2x2 max pooling layer with a step width of 2 and no padding. The network is divided into four blocks, each containing two convolutional layers and one pooling layer, with the number of filters doubling between successive blocks. Finally, max pooling is performed at all spatial locations to generate a single 512-dimensional semantic feature vector. This semantic feature vector is then input to a three-layer fully connected neural network (256-128-32) with K nodes and one fully connected layer with a softmax function. The 32-dimensional vector is the visual signal feature vector, which is then further trained through subsequent shared semantic learning based on triplet constraints. K is the number of fine-grained subcategories in each coarse-grained category, and K is 3 in this experimental dataset. The associated network architecture for audio signals is similar in configuration to visual signals and shares classifiers with visual signals.

設計された分類損失関数は、
(ただし、s 及びs はそれぞれオーディオ信号及び画像信号のカテゴリタグであり、Lclu avを最小化することで、θ及びθの最適値を更に取得することができ、p(f )の意味はオーディオ特徴抽出ネットワーク入力がf 、ネットワークパラメータがθである場合にオーディオ信号カテゴリs を取得する確率であり、p(f )の意味は画像特徴抽出ネットワーク入力がf 、ネットワークパラメータがθである場合に画像信号カテゴリs を取得する確率である)である。
The designed classification loss function is
(where s i a and s i v are the category tags of the audio signal and the image signal, respectively; by minimizing L clu av , the optimal values of θ a and θ v can further be obtained; p(f i a ; θ a ) means the probability of obtaining the audio signal category s i a when the audio feature extraction network input is f i a and the network parameter is θ a ; and p(f i v ; θ v ) means the probability of obtaining the image signal category s i v when the image feature extraction network input is f i v and the network parameter is θ v ).

特に説明すべきなのは、該タグの取得は以下の漸進ポリシーを採用することである。まず、データに疑似タグを付け、これらのデータを利用してモデルを最適化し、最適化されたモデルによる視聴覚信号の分類能力が強化される。更に、訓練後のモデルを利用して疑似タグ操作を実行し、それにより疑似タグを更新する。このような漸進的最適化方法によって、ネットワークの細粒度分類能力を徐々に向上させる。 Notably, the tags are obtained using the following incremental policy: First, pseudo-tags are added to the data, and then these data are used to optimize the model, enhancing the model's ability to classify audiovisual signals. Then, the trained model is used to perform pseudo-tag operations, thereby updating the pseudo-tags. This incremental optimization method gradually improves the network's fine-grained classification ability.

要するに、ステップ(1-1)における総目的関数は上記3つの損失関数の組合せであり、
clu=Lclu +LCT+Lclu avとして示されてもよく、
cluを最小化することで、最適なθ、θ、及びθを取得することができ、パラメータを決定した後に、触覚信号、オーディオ信号、及び画像信号に対応する特徴f、f、fを取得することができ、
(1-2)、同じ細粒度サブカテゴリの特徴間のコンパクト性を確保するために、3種類のモーダル信号に対して中心制約におけるクラスタリング学習を行う。より良い細粒度の分類性能を実現するために、同じサブカテゴリの特徴が共通空間において隣接すべきであり、この目的はカテゴリ内分散を最小化することである。具体的に、特徴からそのサブカテゴリ中心までの距離を最小化することでクラスタリング学習を駆動する。触覚信号のサブカテゴリ中心をクロスモーダル信号の共通サブカテゴリ中心とすることで、同じカテゴリのクロスモーダル信号意味特徴間のコンパクト性を確保する。中心制約におけるクラスタリング学習の損失関数は、
として定義され、
ただし、Nが触覚、オーディオ、及び画像信号の数であり、s 、s 、及びs がそれぞれ触覚信号、オーディオ信号、及び画像信号のカテゴリを示し、なお、オーディオデータと画像データが触覚データのクラスタ中心ベクトル行列Mを共有する。Lcenを最小化することで、細粒度分類におけるカテゴリ内差異が大きい問題を効果的に解決することができる。上記過程によって、類似意味を持つ各モーダル特徴f 、f 、及びf を互いに接近させる。
In short, the total objective function in step (1-1) is a combination of the above three loss functions,
It may be shown as L clu =L clu h +L CT +L clu av ,
By minimizing L clu , the optimal θ h , θ a , and θ v can be obtained, and after determining the parameters, the features f h , f a , and f v corresponding to the haptic signal, audio signal, and image signal can be obtained;
(1-2) To ensure compactness between features of the same fine-grained subcategory, clustering learning under center constraints is performed on three types of modal signals. To achieve better fine-grained classification performance, features of the same subcategory should be adjacent in a common space, with the goal of minimizing intra-category variance. Specifically, clustering learning is driven by minimizing the distance from a feature to its subcategory center. By setting the subcategory center of the tactile signal as the common subcategory center of the cross-modal signal, compactness between semantic features of cross-modal signals of the same category is ensured. The loss function for clustering learning under center constraints is:
is defined as
where N is the number of haptic, audio, and image signals, s i h , s i a , and s i v respectively indicate the categories of haptic signals, audio signals, and image signals, and audio data and image data share the cluster center vector matrix M of haptic data. Minimizing L cen can effectively solve the problem of large intra-category discrepancies in fine-grained classification. Through the above process, modal features f i a , f i v , and f i h with similar meanings are made closer to each other.

(1-3)、異なる細粒度サブカテゴリの特徴が一定のスパース性を備えるように確保するために、3種類のモーダルデータに対してソート制約におけるクラスタリング学習を行う。中心制約の目標はカテゴリ内分散を最小化することであるが、ソート制約の目標はカテゴリ間分散を最大化することであり、それにより異なるサブカテゴリの特徴出力が同じサブカテゴリの特徴出力よりも類似しないようにする。ソート制約は、
として定義され、
ただし、Cは触覚信号がK-meansアルゴリズムによりクラスタリングした後の総カテゴリ数、即ちクラスタ数である。Lrankを最小化することで、細粒度分類におけるカテゴリ間差異が小さい問題を効果的に解決することができる。上記過程によって、類似意味を持つ各モーダル特徴f 、f 、及びf を更に接近させるが、異なる意味を持つ各モーダル特徴をできる限り分離させる。
(1-3) To ensure that the features of different fine-grained subcategories have a certain sparsity, we perform clustering learning under sorting constraints on three types of modal data. The goal of the centrality constraint is to minimize the within-category variance, while the goal of the sorting constraint is to maximize the between-category variance, so that the feature outputs of different subcategories are less similar than the feature outputs of the same subcategory. The sorting constraint is:
is defined as
where C is the total number of categories, i.e., the number of clusters, after the tactile signals are clustered using the K-means algorithm. Minimizing L rank can effectively solve the problem of small inter-category differences in fine-grained classification. Through the above process, modal features f i a , f i v , and f i h with similar meanings are brought closer together, while modal features with different meanings are separated as much as possible.

ステップ2では、細粒度分類を有する触覚、オーディオ、及び画像特徴を取得した後、3種類のモーダル特徴をトリプレット集合に構築し、トリプレット制約の共有意味学習を行い、マルチモーダル融合マッピング関数を最適化し、共有意味情報を含む融合特徴を取得し、触覚信号の生成に基礎を築く。 In step 2, after obtaining tactile, audio, and image features with fine-grained classification, the three modal features are constructed into a triplet set, triplet-constrained shared semantic learning is performed, a multimodal fusion mapping function is optimized, and fusion features containing shared semantic information are obtained, laying the foundation for generating tactile signals.

ステップ2は具体的に以下のとおりである。 Step 2 specifically includes the following:

(2-1)、ある細粒度サブカテゴリから1つの触覚信号サンプルhをランダムに選択し、該サンプルをアンカー(Anchor)とし、次に、画像データセットからhと同じカテゴリに属し且つ意味特徴がf に最も近いサンプルv をポジティブマッチサンプルとして選択し、その後、hと同じカテゴリに属せず且つ意味特徴がf に最も近いサンプルv をネガティブマッチサンプルとして選択する。これにより、データセット内のすべてのサンプルのためにトリプレット集合{(h,v ,v )}を構成する。同様に触覚信号サンプルとオーディオ信号サンプルとで構成されるトリプレット集合{(h,a ,a )}を取得することができる。アンカー点hの意味特徴f とオーディオ・画像モーダルにおける対応する小分類内のポジティブマッチの意味特徴
との距離を最小化し、且つf とネガティブマッチの意味特徴
との間の意味特徴を最大化し、且つ1つの最小の間隔δがある。ここで、δが1である。これにより取得した2つのトリプレット損失関数は、
である。
(2-1), one haptic signal sample h i is randomly selected from a certain fine-grained subcategory and this sample is designated as the anchor. Next, a sample v i + belonging to the same category as h i and whose semantic features are closest to f i h is selected from the image dataset as a positive match sample. After that, a sample v j not belonging to the same category as h i and whose semantic features are closest to f i h is selected as a negative match sample. This constructs a triplet set {(h i , v i + , v j )} for all samples in the dataset. Similarly, a triplet set {(h i , a i + , a j )} consisting of haptic signal samples and audio signal samples can be obtained. The semantic features f i h of the anchor point h i and the positive match semantic features in the corresponding subcategory in the audio-image modal are
and minimize the distance between f i h and the semantic feature of negative match
and there is one minimum interval δ, where δ is 1. The two triplet loss functions obtained are
is.

(2-2)、上記に基づいて、統合パラダイムを導入し、マルチモーダル特徴を高度融合する。具体的には、まず、視聴覚データがそれぞれオーディオ特徴抽出ネットワーク及び画像特徴抽出ネットワークを通過して特徴f及びfを取得し、その後でfとfを融合し、過程は、
=F(f,f
(ただし、fは共有意味部分空間におけるマルチモーダル融合の出力即ち融合特徴であり、F(・)はパラメータがθのマッピング関数であり、一般的には、F(・)はf及びfの線形重み付けを取る)である。
(2-2) Based on the above, we introduce an integration paradigm to achieve advanced multimodal feature fusion. Specifically, audiovisual data first passes through an audio feature extraction network and an image feature extraction network to obtain features f a and f v , respectively, and then f a and f v are fused. The process is as follows:
f m =F m (f a ,f vm )
(where f m is the output of multimodal fusion in the shared semantic subspace, i.e., the fusion feature, and F m (·) is a mapping function with parameter θ m ; in general, F m (·) takes a linear weighting of f a and f v ).

とf をf に融合し、f とf をf に融合する。同様にトリプレット損失を利用して融合特徴を制約し、即ち、
である。
We fuse f + a and f + v into f + m , and f a and f v into f m . Similarly, we use triplet loss to constrain the fused features, i.e.,
is.

(2-3)、共有意味学習の目的関数は3つの損失関数を組み合わせることでモデリングしてもよく、
Syn=Lsyn +Lsyn +Lsyn として示されてもよい。
(2-3) The objective function of shared semantic learning may be modeled by combining three loss functions:
It may be shown as L syn =L syn a +L syn v +L syn m .

Synを最小化することで、最適なθを取得し、それにより次の段階の触覚信号の生成に基礎を築く。 By minimizing L Syn , the optimal θ m is obtained, which lays the foundation for the next stage of haptic signal generation.

ステップ3では、融合特徴を触覚生成ネットワークに入力して所望の触覚信号h′を生成する。 In step 3, the fused features are input into a haptic generation network to generate the desired haptic signal h'.

ステップ3は具体的に以下のとおりである。 Step 3 specifically includes the following:

まず、触覚生成ネットワークを構築しており、触覚デコーダD(・)がステップ(1)において完全なオートエンコーダの一部として訓練されるため、ここで1つの触覚生成ネットワークG(・)を別に構築し、その構造がD(・)と同様(32-128-256-Z)であり、且つそのネットワークパラメータθhdをG(・)のパラメータθの初期値とする。必要な意味情報を含む融合特徴を触覚生成ネットワークG(・)に入力して所望の触覚信号h′を取得し、且つ生成された触覚信号h′をE(・)により32次元の触覚特徴fh′に再マッピングし、カテゴリ中心を選択して該触覚特徴fh′に対して意味制約を行う。明らかに、該触覚特徴fh′と対応するカテゴリのカテゴリ中心との距離をできる限り小さくするが、他のカテゴリ中心との距離をできる限り大きくする。最終的な損失関数は、
として示されてもよく、
ただし、
であり、
が特徴fとfh′との類似度を示し、
がfh′のクラスタリング損失であり、それらが一緒に損失関数の正則化項とされる。該損失関数を最適化することで、θの最適値を取得し、即ちG(・)を決定することができる。
First, a haptic generation network is constructed. Since the haptic decoder D h (·) is trained as part of the complete autoencoder in step (1), here we construct another haptic generation network G(·), whose structure is the same as D h (·) (32-128-256-Z), and whose network parameters θ hd are the initial values of the parameters θ G of G(·). The fused features containing the required semantic information are input into the haptic generation network G(·) to obtain the desired haptic signal h′, and the generated haptic signal h′ is remapped to a 32-dimensional haptic feature f h′ by E h (·), and a category center is selected to impose semantic constraints on the haptic feature f h′ . Obviously, the distance between the haptic feature f h′ and the category center of the corresponding category should be as small as possible, but the distance between the haptic feature f h′ and other category centers should be as large as possible. The final loss function is
may be shown as
however,
and
indicates the similarity between features f h and f h′ ,
is the clustering loss of f h′ , and they are jointly used as the regularization term of the loss function. By optimizing the loss function, the optimal value of θ G can be obtained, i.e., G(·) can be determined.

ステップ4では、上記モデルの訓練を行い、即ち、モデル訓練を2つのステップに分け、第1ステップとしては、触覚オートエンコーダ、オーディオ特徴抽出ネットワーク、及び画像特徴抽出ネットワークにおけるパラメータを推定し、第2ステップとしては、マルチモーダル融合マッピング関数のパラメータ及び触覚生成ネットワークのパラメータを推定する。該ステップによって、触覚オートエンコーダ、オーディオ特徴抽出ネットワーク、画像特徴抽出ネットワーク、マルチモーダル融合マッピング関数、及び触覚生成ネットワークを訓練する。 In step 4, the model is trained. That is, model training is divided into two steps. In the first step, parameters in the haptic autoencoder, audio feature extraction network, and image feature extraction network are estimated. In the second step, parameters of the multimodal fusion mapping function and the haptic generation network are estimated. Through these steps, the haptic autoencoder, audio feature extraction network, image feature extraction network, multimodal fusion mapping function, and haptic generation network are trained.

ステップ4は具体的には、以下のとおりである。 Specifically, Step 4 is as follows:

θ、θ、θhe、θhd、及びMの推定を完了し、且つ{s }、{s }、{s }を最適化する。 Estimation of θ v , θ a , θ he , θ hd , and M is completed, and {s i h }, {s i a }, {s i v } are optimized.

ステップ411、ネットワークパラメータθ、θ、θhe、θhd、ノード系タグ{s }、{s }、{s }、及びカテゴリ中心行列Mを初期化し、クラスタ数Cを設定し、学習率μ=0.0001、反復回数T=600である。 In step 411, the network parameters θ v , θ a , θ he , θ hd , the node system tags {s i h }, {s i a }, {s i v }, and the category center matrix M are initialized, the number of clusters C is set, the learning rate μ 1 = 0.0001, and the number of iterations T = 600.

ステップ412、{s }、{s }、{s }、及びMを固定し、θ、θ、θhe、θhdを最適化し、即ち、
であり、
ただし、∇が各損失関数を偏微分することである。
Step 412, {s i h }, {s i a }, {s i v }, and M are fixed, and θ v , θ a , θ he , θ hd are optimized, i.e.,
and
where ∇ is the partial derivative of each loss function.

ステップ413、θ、θ、θhe、θhd、及びMを固定し、{s }、{s }、{s }を最適化し、即ち、
である。
Step 413, fix θ v , θ a , θ he , θ hd , and M, and optimize {s i h }, {s i a }, {s i v }, i.e.,
is.

ステップ414、θ、θ、θhe、θhd、及び{s }、{s }、{s }を固定し、Mを最適化し、即ち、
である。
Step 414: Fix θ v , θ a , θ he , θ hd , and {s i h }, {s i a }, {s i v } and optimize M, i.e.,
is.

ステップ415、t<Tの場合、ステップ412にジャンプし、t=t+1の場合、次回の反復を継続し、そうでない場合、反復を終了する。 In step 415, if t < T, jump to step 412; if t = t + 1, continue with the next iteration; otherwise, end the iteration.

ステップ416、T回反復した後、最適なオーディオ特徴抽出ネットワークのパラメータθ、画像特徴抽出ネットワークのパラメータθ、触覚オートエンコーダのパラメータθhe、θhd、ノード系タグ{s }、{s }、{s }、及び触覚データのクラスタ中心ベクトル行列Mを取得する。 In step 416, after T iterations, the optimal audio feature extraction network parameters θ a , image feature extraction network parameters θ v , haptic autoencoder parameters θ he and θ hd , node system tags {s i h }, {s i a }, {s i v }, and cluster center vector matrix M of the haptic data are obtained.

特に、mを更新する際に
を簡単に使用せず、ここでc は1番目のサンプルから現在のサンプルまでクラスタkに割り当てられたインデックスセットであるが、既に出現した履歴データは全体のクラスタ構造状況を表すには不十分であり、且つs が正しくない恐れがある。このため、本アルゴリズムは、各クラスタに含まれるデータサンプルの数がほぼバランスするという前提を仮定し、これに基づいて、上記勾配更新ステップを設計してmを更新し、1/c を用いて学習速度を制御し、c はアルゴリズムによってi番目のサンプルを処理する前にサンプルをクラスタkに割り当てる回数である。このようにして、Mの更新はSGDステップとして見なされてもよい。
In particular, when updating m k
where c k i is the set of indexes assigned to cluster k from the first sample to the current sample, but the historical data that has already appeared is insufficient to represent the overall cluster structure, and s i h may be incorrect. Therefore, this algorithm assumes that the number of data samples contained in each cluster is approximately balanced, and based on this, the gradient update step is designed to update m k , and 1/c k i is used to control the learning rate, where c k i is the number of times a sample is assigned to cluster k before the i-th sample is processed by the algorithm. In this way, the update of M may be regarded as an SGD step.

(4-2)、SGDに基づいて、θ及びθの推定を完了する。 (4-2) Based on SGD, the estimation of θ m and θ G is completed.

ステップ421、θを初期化し、バッチサイズbactch=64、学習率μ、μ=0.0001、反復回数n=600である。 In step 421, θ m is initialized, the batch size bactch=64, the learning rates μ 2 , μ 3 =0.0001, and the number of iterations n 1 =600.

ステップ422、LSynに基づいて確率的勾配降下法を利用してθを微調整し、即ち、
である。
Step 422: Fine-tune θ m using stochastic gradient descent based on L Syn , i.e.,
is.

ステップ423、LGenに基づいて確率的勾配降下法を利用してθを更新し、即ち、
である。
Step 423: Update θ G using stochastic gradient descent based on L Gen , i.e.,
is.

ステップ424、n<nの場合、ステップ422にジャンプし、n=n+1の場合、次回の反復を継続し、そうでない場合、反復を終了する。 Step 424, if n< n1 , jump to step 422, if n=n+1, continue next iteration, otherwise end iteration.

ステップ425、600回反復した後、最適なn=n+1を取得する。 Step 425: After 600 iterations, the optimal n = n + 1 is obtained.

ステップ5では、受信したばかりの画像信号及びオーディオ信号をそれぞれ訓練済みの画像特徴抽出ネットワーク及びオーディオ特徴ネットワークに入力し、それぞれ画像特徴及びオーディオ特徴を取得し、次に、上記特徴をマルチモーダル融合マッピング関数に入力し、融合特徴を取得し、最後に、融合特徴を訓練済みの触覚生成ネットワークに入力し、再構築された触覚信号を取得する。 In step 5, the just-received image signal and audio signal are input into the trained image feature extraction network and audio feature network, respectively, to obtain image features and audio features, respectively; then, the above features are input into the multimodal fusion mapping function to obtain fusion features; and finally, the fusion features are input into the trained haptic generation network to obtain a reconstructed haptic signal.

ステップ5は具体的に以下のとおりである。 Step 5 specifically includes the following:

受信したばかりの画像信号v及びオーディオ信号aをそれぞれ訓練済みの画像特徴抽出ネットワーク及びオーディオ特徴抽出ネットワークに入力し、画像特徴
を取得し、且つ訓練済みのマルチモーダル融合マッピング関数を入力し、融合特徴
を取得し、
を訓練済みのG(・)に入力し、最終的に再構築された触覚信号
を取得する。
The just-received image signal v and audio signal a are input to the trained image feature extraction network and audio feature extraction network, respectively, and the image features are extracted.
and input the trained multimodal fusion mapping function to obtain the fusion feature
Get
is input to the trained G(·), and the final reconstructed tactile signal is
Get.

以下の実験結果から分かるように、従来の方法に比べて、本発明はマルチモーダル意味の相補融合により触覚信号の合成を実現し、より高い生成効果を得る。 As can be seen from the experimental results below, compared to conventional methods, our invention achieves tactile signal synthesis through the complementary fusion of multimodal meanings, achieving a higher generation effect.

本実施例はLMTクロスモーダルデータセットを用いて実験を行い、該データセットは文献「Multimodal feature-based surface material classification」において提案されており、9つの意味カテゴリのサンプル、即ちグリッド、石、金属、木材、ゴム、繊維、泡沫、箔及び紙、繊維製品及び織物を含む。本実施例は5つの大分類(各大分類に3つの小分類が含まれる)を選択して実験を行う。LMTデータセットを再構築し、まず、各材料の実例における訓練セット及びテストセットを参照し、それぞれ各実例における20個の画像サンプル、20個のオーディオ信号サンプル、及び20個の触覚信号サンプルを取得する。次に、データを拡張することでニューラルネットワークを訓練し、具体的に、各画像を水平及び垂直に反転し、任意の角度でそれらを回転させ、且つ従来の方法に加えて、ランダム拡大縮小、カット、及びオフセットなどの技術を使用する。これをもって、各カテゴリのデータを100まで拡張し、従って、合計して1500個の画像があり、寸法が224224である。データセットにおいて、80%が訓練に用いられるものとして選択されるが、残りの20%がテスト及び性能評価に用いられる。本実験は細粒度カテゴリが未知のものであるように初期設定される。 This example uses the LMT cross-modal dataset proposed in the paper "Multimodal feature-based surface material classification," which includes samples from nine semantic categories: grid, stone, metal, wood, rubber, fiber, foam, foil, paper, textiles, and fabrics. This example selects five major categories (each of which contains three subcategories) for the experiment. The LMT dataset is reconstructed by first referencing the training and test sets for each material example, and obtaining 20 image samples, 20 audio signal samples, and 20 tactile signal samples for each example. Next, the neural network is trained by augmenting the data. Specifically, each image is flipped horizontally and vertically, rotated at an arbitrary angle, and, in addition to conventional methods, techniques such as random scaling, cutting, and offsetting are used. With this, we expand the data of each category to 100, so there are a total of 1500 images with a size of 224 * 224. In the dataset, 80% is selected to be used for training, while the remaining 20% is used for testing and performance evaluation. The experiment is initially set up so that the fine-grained categories are unknown.

(1)クラスタリング結果
本発明に係るクラスタリング方法の有効性を検証するために、該クラスタリング方法を複数のベースライン方法と比較し、これらの方法は以下を含む。
(1) Clustering Results To verify the effectiveness of the clustering method of the present invention, the clustering method was compared with several baseline methods, including:

K-means(KM)
K-Meansアルゴリズムによってそれぞれ画像、オーディオ、及び触覚モーダルのサンプルをクラスタリングする。
K-means (KM)
The K-Means algorithm clusters the samples of image, audio, and haptic modal, respectively.

オートエンコーダ+K-means(AE+KM、Autoencoder followed by K-means)
これは2段階の方法である。まず、異なるモーダルの信号サンプルを再構築学習することで各モーダルの特徴表現を取得し、更にK-meansを用いてクラスタリングする。
Autoencoder + K-means (AE+KM, Autoencoder followed by K-means)
This is a two-step method: first, we obtain feature representations for each modality by reconstructing and learning signal samples of different modalities, and then cluster them using K-means.

トリプル深層クラスタリングモデル(3-DCN、3-Deep Clustering Network)
異なるモーダルの信号に対してそれぞれDCNモデルを利用してクラスタリングする。
Triple deep clustering model (3-DCN, 3-Deep Clustering Network)
The DCN model is used to cluster signals of different modalities.

本発明は、本実施例の方法を用いる。 The present invention uses the method of this example.

結果を示す際に複数のサブカテゴリにおける平均値を選択し、主に3つの指標、即ち規格化相互情報(NMI)、調整ランド指数(ARI)、及びクラスタリング精度(ACC)を採用する。実験結果は表1に示される。 When presenting the results, we select average values across multiple subcategories and mainly use three indices: normalized mutual information (NMI), adjusted Rand index (ARI), and clustering accuracy (ACC). The experimental results are shown in Table 1.

表1に、本発明、3-DCN、AE+KM、及びKMをLMTデータセットに適用した結果を示す。以上から分かるように、本発明の方法はこのデータセットにおいて極めて高い競争力を示しており、結果が従来のクラスタリングアルゴリズム及び一般的な深層クラスタリングアルゴリズムよりも明らかに良い。分析したところ、他のアルゴリズムの応用シーンがいずれも単一モーダルであるため、クラスタリング結果のアンバランスをもたらしやすいためである恐れがある。理論的に、共に存在するクロスモーダルデータのあるカテゴリにおけるサンプル数が等しいべきである。それ以外に、本クラスタリング方法により学習したサブカテゴリの特徴は明らかに一層コンパクトであり、且つ異なるカテゴリ間の区別性も一層高く、これは後の触覚信号の再構築に寄与する。 Table 1 shows the results of applying the present invention, 3-DCN, AE+KM, and KM to the LMT dataset. As can be seen, the method of the present invention is highly competitive on this dataset, with results significantly better than those of traditional clustering algorithms and common deep clustering algorithms. Analysis suggests that this may be due to the fact that the application scenarios of other algorithms are all unimodal, which can easily lead to imbalances in clustering results. Theoretically, the number of samples in a given category of coexisting cross-modal data should be equal. Furthermore, the subcategory features learned by this clustering method are significantly more compact and more distinctive between different categories, which contributes to the subsequent reconstruction of tactile signals.

(2)触覚の再構築結果
細粒度カテゴリを決定した上で、提案された細粒度触覚の再構築方法を以下のいくつかの方法と比較する。
(2) Tactile Reconstruction Results After determining the fine-grained category, we compare the proposed fine-grained tactile reconstruction method with the following several methods.

既存の方法1
文献「Learning cross-modal visual-tactile representation using ensembled generative adversarial networks」(作者X.Li,H.Liu,J.Zhou,and F.Sun)におけるアンサンブル敵対的生成ネットワーク(E-GANs、Ensembled GANs)は画像特徴を利用して必要なカテゴリ情報を取得し、次に、該カテゴリ情報を騒音とともに敵対的生成ネットワークの入力として対応するカテゴリの触覚スペクトルマップを生成し、最後に触覚信号に変換する。
Existing Method 1
The ensemble generative adversarial networks (E-GANs) in the paper "Learning cross-modal visual-tactile representation using ensemble generative adversarial networks" (authors X. Li, H. Liu, J. Zhou, and F. Sun) utilize image features to obtain the necessary category information. Then, the category information, along with noise, is input to the generative adversarial network to generate a tactile spectral map of the corresponding category, which is then converted into a tactile signal.

既存の方法2
文献「Deep Visuo-Tactile Learning:Estimation of Tactile Properties from Images」(作者:Kuniyuki Takahashi and Jethro Tan)における深層視覚-触覚学習方法(DVTL、Deep visio-tactile learning)は従来の潜在変数を有するエンコーダ-デコーダネットワークを拡張し、視覚及び触覚属性を潜在空間に埋め込む。
Existing Method 2
The deep visio-tactile learning method (DVTL, Deep Visio-Tactile Learning) in the paper "Deep Visuo-Tactile Learning: Estimation of Tactile Properties from Images" (authors: Kuniyuki Takahashi and Jethro Tan) extends the traditional encoder-decoder network with latent variables to embed visual and tactile attributes into the latent space.

既存の方法3
文献「Teaching Cameras to Feel:Estimating Tactile Physical Properties of Surfaces From Images」(作者:Matthew Purri and Kristin Dana)には結合符号化分類生成ネットワーク(JEC-GAN、Joint-encoding-classification GAN)が提案されており、該結合符号化分類生成ネットワークは異なる符号化ネットワークにより各モーダルの実例を1つの共有する内部空間に符号化し、対になった制約によって埋め込んだ視覚サンプル及び触覚サンプルを潜在空間で接近させる。最後に、視覚情報を入力として、生成ネットワークによって対応する触覚信号を再構築する。
Existing Method 3
The paper "Teaching Cameras to Feel: Estimating Tactile Physical Properties of Surfaces from Images" (authors: Matthew Purri and Kristin Dana) proposes a joint-encoding-classification-generative network (JEC-GAN), which uses different encoding networks to encode each modal instance into a shared internal space, and then couples the embedded visual and tactile samples together in the latent space using paired constraints. Finally, using visual information as input, the corresponding tactile signal is reconstructed by a generative network.

本実験は定量及び定性の2つの観点から分析する。まず、表2は二乗平均平方根誤差(RMSE)、構造類似度(SIM)、及び分類精度(ACC)の複数の観点から各方法における触覚信号の再構築性能を示す。表2は本発明の実験結果を示す。 This experiment is analyzed from two perspectives: quantitative and qualitative. First, Table 2 shows the tactile signal reconstruction performance of each method from multiple perspectives: root mean square error (RMSE), structural similarity (SIM), and classification accuracy (ACC). Table 2 shows the experimental results of the present invention.

表2及び図4から分かるように、上記の最も先進的な方法に比べて、本発明に係る方法は明らかな優位性を有する。その理由は、以下のとおりである。本発明に係る触覚信号の再構築方法は、クロスモーダルクラスタリングアルゴリズムによって細粒度サブカテゴリを明確にし、且つ中心制約及びソート制約を利用して意味特徴のコンパクト性及び区別性を効果的に向上させ、(2)、視覚・聴覚・触覚サンプルの対応関係は人間が指定した場合、主観的な意識が比較的強いため、精度が十分ではなく、それとは逆に、本発明に係る視聴覚補助用の細粒度触覚信号の再構築方法は、訓練時にモデルが触覚意味特徴に最も近い視聴覚意味特徴をその生成ネットワークの入力として自己選択する。 As can be seen from Table 2 and Figure 4, the method of the present invention has clear advantages over the most advanced methods mentioned above. The reasons are as follows: (1) The tactile signal reconstruction method of the present invention uses a cross-modal clustering algorithm to clarify fine-grained subcategories and utilizes centrality and sorting constraints to effectively improve the compactness and distinctiveness of semantic features. (2) When the correspondence between visual, auditory, and tactile samples is specified by humans, it is relatively subjective and therefore not accurate enough. In contrast, in the fine-grained tactile signal reconstruction method for audiovisual assistance of the present invention, during training, the model self-selects the audiovisual semantic features that are closest to the tactile semantic features as the input of its generative network.

他の実施例では、本発明のステップ1における触覚エンコーダはフィードフォワードニューラルネットワークを用いて、1次元畳み込み(1D-CNN、One-dimensional convolutional neural networks)で代替してもよい。 In another embodiment, the haptic encoder in step 1 of the present invention may be replaced by a one-dimensional convolutional neural network (1D-CNN) using a feedforward neural network.

以上の説明は、単に本発明の具体的な実施形態であるが、本発明の保護範囲はこれに限らず、当業者が本発明に開示される技術的範囲内で容易に想到し得る変化又は置換は、いずれも本発明の保護範囲に含まれるべきである。 The above description is merely a specific embodiment of the present invention, but the scope of protection of the present invention is not limited to this. Any modifications or substitutions that a person skilled in the art can easily make within the technical scope disclosed in the present invention should be included in the scope of protection of the present invention.

Claims (10)

視聴覚補助用の細粒度触覚信号の再構築方法であって、
触覚信号を触覚オートエンコーダに入力し、クラスタリングタスクにより触覚信号を特徴抽出するステップと、
クロスモーダル転移学習方法によって触覚オートエンコーダの特徴抽出能力をオーディオ特徴抽出ネットワーク及び画像特徴抽出ネットワークに転移して最適化する、即ち、触覚領域と視聴覚領域との間の最大平均差異(MMD)準則から導かれるクロスモーダル転移の損失関数と分類損失関数を最小化することにより、オーディオ特徴抽出ネットワーク及び画像特徴抽出ネットワークのパラメータを最適化するステップと、
触覚、オーディオ、及び画像の3種類のモーダル信号に対して、クラスタリング制約の特徴学習と、中心制約及びソート制約におけるクラスタリング学習とを行うことにより、同じ意味に属する触覚、オーディオ、及び画像の各モーダル特徴を接近させるが、同じ意味に属しない各モーダル特徴を分離させ、細粒度分類を有する触覚、オーディオ、及び画像のモーダル特徴を取得するステップと、
触覚、オーディオ、及び画像のモーダル特徴に基づいてトリプレット集合を構築し、トリプレット制約の共有意味学習を行い、即ち、共有意味学習の目的関数をモデリングして最小化することにより、マルチモーダル融合マッピング関数のパラメータを最適化し、最適化されたマルチモーダル融合マッピング関数にオーディオ特徴及び画像特徴を入力して、共有意味情報を含む融合特徴を取得するステップと、
触覚生成ネットワークを事前設定し、融合特徴を触覚生成ネットワークに入力して触覚信号を再構築するステップと、を含むことを特徴とする視聴覚補助用の細粒度触覚信号の再構築方法。
1. A method for reconstructing fine-grained haptic signals for audiovisual aids, comprising:
inputting a haptic signal into a haptic autoencoder and extracting features from the haptic signal through a clustering task;
Transferring and optimizing the feature extraction ability of the haptic autoencoder to the audio feature extraction network and the image feature extraction network by a cross-modal transfer learning method , i.e., optimizing the parameters of the audio feature extraction network and the image feature extraction network by minimizing the cross-modal transfer loss function and the classification loss function derived from the maximum mean difference (MMD) criterion between the haptic domain and the audiovisual domain;
A step of performing clustering constraint feature learning and clustering learning under center constraint and sorting constraint for three types of modal signals of tactile, audio, and image , thereby approximating tactile, audio, and image modal features that belong to the same meaning but separating modal features that do not belong to the same meaning, and obtaining tactile, audio, and image modal features with fine-grained classification;
Constructing a triplet set based on tactile, audio, and image modal features, and performing triplet-constrained shared semantic learning, i.e., optimizing parameters of a multimodal fusion mapping function by modeling and minimizing the objective function of shared semantic learning, and inputting the audio features and image features into the optimized multimodal fusion mapping function to obtain fusion features containing shared semantic information;
a step of presetting a haptic generation network and inputting the fused features into the haptic generation network to reconstruct a haptic signal.
触覚生成ネットワークを事前設定し、融合特徴を触覚生成ネットワークに入力して触覚信号を再構築する前記ステップは、
触覚オートエンコーダ、オーディオ特徴抽出ネットワーク、及び画像特徴抽出ネットワークのパラメータを事前設定することと、
マルチモーダル融合マッピング関数のパラメータ及び触覚生成ネットワークのパラメータを事前設定することと、
触覚オートエンコーダ、オーディオ特徴抽出ネットワーク、画像特徴抽出ネットワーク、マルチモーダル融合マッピング関数、及び触覚生成ネットワークを訓練することと、
受信したばかりの画像信号及びオーディオ信号をそれぞれ訓練済みの画像特徴抽出ネットワーク及びオーディオ特徴ネットワークに入力し、それぞれ画像特徴及びオーディオ特徴を取得し、次に、上記特徴をマルチモーダル融合マッピング関数に入力し、融合特徴を取得し、最後に、融合特徴を訓練済みの触覚生成ネットワークに入力し、再構築された触覚信号を取得することと、を含むことを特徴とする請求項1に記載の視聴覚補助用の細粒度触覚信号の再構築方法。
The step of preconfiguring a haptic generative network and inputting the fused features into the haptic generative network to reconstruct a haptic signal includes:
Presetting parameters of a haptic autoencoder, an audio feature extraction network, and an image feature extraction network;
Presetting parameters of a multimodal fusion mapping function and parameters of a haptic generation network;
training a haptic autoencoder, an audio feature extraction network, an image feature extraction network, a multimodal fusion mapping function, and a haptic generation network;
2. The method for reconstructing fine-grained haptic signals for audiovisual assistance according to claim 1, comprising: inputting the just-received image signal and audio signal into a trained image feature extraction network and an audio feature network, respectively, to obtain image features and audio features, respectively; then inputting the features into a multimodal fusion mapping function to obtain fusion features; and finally inputting the fusion features into a trained haptic generation network to obtain a reconstructed haptic signal.
触覚信号を触覚オートエンコーダに入力し、クラスタリングタスクにより触覚信号を特徴抽出することは、
触覚信号を触覚オートエンコーダに入力して学習し、対応する触覚特徴を抽出し、触覚特徴に基づいて触覚信号に対してK-meansアルゴリズムに基づくクラスタリングを実施し、即ち、
hが入力された触覚信号であり、h={hi=1,・・・,Nであり、iが入力触覚信号のソート下付き文字を示し、Nが入力された触覚信号の総量であり、オートエンコーダの符号化モジュールE(・)を通過した後、f =E(h;θhe)が触覚信号hの特徴表現であり、f={f i=1,・・・,Nであり、θheが符号化モジュールのパラメータであり、f を復号モジュールD(・)に入力し、出力触覚信号
を取得し、ここで、θhdが復号モジュールのパラメータであり、また、特徴f に対してK-meansアルゴリズムに基づくクラスタリングを実施し、対応するカテゴリタグs を出力し、上記過程におけるパラメータを共同で推計し、損失関数
(ただし、
はエンコーダの再構築誤差であり、Nは触覚信号の数であり、
はK-meansのクラスタリング誤差であり、MはK-meansアルゴリズムにより触覚データを取得するクラスタ中心ベクトル行列であり、M行列における第c列のmはc番目のクラスタの質量中心を示し、θ=[θhehd]はエンコーダモジュール及びデコーダモジュールのパラメータであり、sj,i はs のj番目の要素であり、その中の要素のsj,i 値が1、他の要素がいずれも0であれば、s に対応するオリジナルの触覚信号hが第jカテゴリに属することを示し、lは最小二乗損失
であり、λは正則化パラメータであり、λ≧0である)を設計することと、
clu を最小化することで、θを推計し、f 及びs を取得することと、を含むことを特徴とする請求項2に記載の視聴覚補助用の細粒度触覚信号の再構築方法。
Inputting tactile signals into a tactile autoencoder and extracting features from the tactile signals through a clustering task is
The haptic signal is input to a haptic autoencoder for learning, and the corresponding haptic features are extracted. Then, the haptic signal is clustered based on the K-means algorithm according to the haptic features, i.e.,
h is the input haptic signal, h = {h i } i = 1, ..., N , where i indicates the sort subscript of the input haptic signal, and N is the total amount of the input haptic signal. After passing through the encoding module E h (·) of the autoencoder, f i h = E h (h i ; θ he ) is the feature representation of the haptic signal h i , where f h = {f i h } i = 1, ..., N , where θ he is the parameter of the encoding module. f i h is input to the decoding module D h (·), and the output haptic signal
where θ hd is the parameter of the decoding module, and performs clustering based on the K-means algorithm on the features f i h to output the corresponding category tags s i h . The parameters in the above process are jointly estimated, and the loss function
(however,
is the reconstruction error of the encoder, N is the number of haptic signals,
is the clustering error of K-means, M is the cluster center vector matrix for obtaining tactile data using the K-means algorithm, m c in the c-th column of the M matrix indicates the center of mass of the c-th cluster, θ h = [θ he , θ hd ] is the parameter of the encoder module and the decoder module, s j,i h is the j-th element of s i h , and if the s j,i h value of the element is 1 and the other elements are all 0, it indicates that the original tactile signal h i corresponding to s i h belongs to the j-th category, and l is the least squares loss.
where λ is a regularization parameter, λ≧0;
3. The method for reconstructing a fine-grained haptic signal for audiovisual assistance according to claim 2, further comprising minimizing L clu h to estimate θ h and obtain f i h and s i h .
クロスモーダル転移学習方法によって触覚オートエンコーダの特徴抽出能力をオーディオ特徴抽出ネットワーク及び画像特徴抽出ネットワークに転移することは、
特徴自己適応方法で触覚領域と視聴覚領域との間の最大平均差異準則を最小化して転移を実現し、即ち、
触覚、オーディオ、及び画像信号セットの分布がそれぞれP、Q、及びRであり、触覚信号とオーディオ信号との間のMMDをMMD(P,Q)として示し、触覚信号と視覚
信号との間のMMDがMMD(P,R)であり、再生カーネルHibert空間Hにおいて、Hが非空集合に定義された関数セットfを含み、MMDの2乗が、
であり、
ただし、触覚、オーディオ、及び画像信号にそれぞれの特徴抽出ネットワークφを通過させ、抽出された特徴ベクトルを取得し、触覚特徴ベクトルがφ(h;θhe)として示され、即ちオートエンコーダの符号化モジュールの出力であり、オーディオ及び画像の特徴ベクトルがφ(a;θ)=f、φ(v;θ)=fであり、3つのモーダルの特徴集合が(f,f,f)として示され、θ及びθがそれぞれオーディオ及び画像特徴抽出ネットワークのパラメータであり、θheが符号化モジュールのパラメータであり、任意の関数f∈H且つ任意のX∈Pであり、
であり、μ(P)がPのHにおける平均埋め込みであり、即ち分布PのH空間における1つの要素表現であり、f(X)はXが関数fによりH空間にマッピングすることを示し、<・,・>Hkが内積演算であり、同様に、
であり、μ(Q)がQのHにおける平均埋め込みであり、
であり、μ(R)がRのHにおける平均埋め込みであることと、
対応する
の値をクロスモーダル転移の損失関数として計算し、具体的な公式が、
であることと、
CTを最適化することで、触覚特徴抽出オートエンコーダモデルとオーディオ・画像特徴抽出ネットワークとの間の情報が流れるように案内し、触覚モーダルのためのオートエンコーダの特徴抽出能力をオーディオ・画像の特徴抽出ネットワークに効果的に転移し、即ちθ及びθを推計することと、を含むことを特徴とする請求項3に記載の視聴覚補助用の細粒度触覚信号の再構築方法。
Transferring the feature extraction ability of a haptic autoencoder to an audio feature extraction network and an image feature extraction network using a cross-modal transfer learning method is
The feature self-adaptation method minimizes the maximum average difference criterion between the tactile and audiovisual areas to achieve the transition, i.e.,
Let the distributions of the haptic, audio, and image signal sets be P, Q, and R, respectively, denote the MMD between the haptic and audio signals as MMD k (P,Q), the MMD between the haptic and visual signals as MMD k (P,R), and in the reproduction kernel Hilbert space H k , H k contains a function set f defined on a non-empty set, and the square of the MMD is
and
where haptic, audio, and image signals are passed through respective feature extraction networks φ to obtain extracted feature vectors, the haptic feature vector is denoted as φh (h; θhe ), i.e., it is the output of the encoding module of the autoencoder, the audio and image feature vectors are φa (a; θa )= fa , φv (v; θv )= fv , the three modal feature set is denoted as ( fh , fa , fv ), θa and θv are the parameters of the audio and image feature extraction networks respectively, θhe is the parameter of the encoding module, and for any function f∈Hk and any X∈P ,
where μ k (P) is the mean embedding of P in H k , i.e., one element representation in H k -space of the distribution P, f(X) denotes the mapping of X into H k- space by function f, <·,·> H k is the dot product operation, and similarly,
and μ k (Q) is the mean embedding of Q in H k ,
and μ k (R) is the mean embedding of R in H k ;
handle
The value of is calculated as the loss function of cross-modal transfer, and the specific formula is
And,
Optimizing the LCT guides information flow between the haptic feature extraction autoencoder model and the audio-visual feature extraction network, effectively transferring the feature extraction capability of the autoencoder for the haptic modality to the audio-visual feature extraction network, i.e., estimating θ a and θ v .
オーディオ特徴抽出ネットワーク及び画像特徴抽出ネットワークを更に最適化すること
は、
分類損失関数が、
(ただし、s 及びs はそれぞれオーディオ信号及び画像信号のカテゴリタグであり、Lclu avを最小化することで、θ及びθの最適値を更に取得し、p(f )の意味はオーディオ特徴抽出ネットワーク入力がf 、ネットワークパラメータがθである場合にオーディオ信号カテゴリs を取得する確率であり、p(f )の意味は画像特徴抽出ネットワーク入力がf 、ネットワークパラメータがθである場合に画像信号カテゴリs を取得する確率であり、f={f i=1,・・・,N、f={f i=1,・・・,Nである)であることと、
clu 、LCT、及びLclu avを組み合わせ、
総目的関数Lclu=Lclu +LCT+Lclu avを取得することと、
cluを最小化することで、最適なθ、θa、及びθを取得することができ、パラメータを決定した後に、触覚信号、オーディオ信号、及び画像信号に対応する特徴f、f、fを取得することができることと、を含むことを特徴とする請求項4に記載の視聴覚補助用の細粒度触覚信号の再構築方法。
Further optimizing the audio feature extraction network and the image feature extraction network includes:
The classification loss function is
(where s i a and s i v are the category tags of the audio signal and the image signal, respectively; by minimizing L clu av , the optimal values of θ a and θ v are further obtained; p(f i a ; θ a ) means the probability of obtaining the audio signal category s i a when the audio feature extraction network input is f i a and the network parameter is θ a ; p(f i v ; θ v ) means the probability of obtaining the image signal category s i v when the image feature extraction network input is f i v and the network parameter is θ v ; f a = {f i a } i = 1, ... , N , f v = {f i v } i = 1, ... , N );
Combining L clu h , L CT , and L clu av ;
Obtaining the total objective function L clu =L clu h +L CT +L clu av ;
The method for reconstructing fine-grained haptic signals for audiovisual assistance according to claim 4, further comprising: minimizing L clu to obtain optimal θ h , θ a , and θ v ; and after determining the parameters, obtaining features f h , fa , and f v corresponding to the haptic signal, audio signal, and image signal.
クラスタリング制約、中心制約、及びソート制約を共同で考慮して抽出された触覚、オーディオ、及び画像のモーダル特徴を制約することで、同じ意味に属する各モーダル特徴を接近させるが、同じ意味に属しない各モーダル特徴を分離させ、細粒度分類を有する触覚、オーディオ、及び画像のモーダル特徴を取得することは、
同じ細粒度サブカテゴリの特徴間のコンパクト性を確保するために、3種類のモーダル信号に対して中心制約におけるクラスタリング学習を行い、より良い細粒度の分類性能を実現するために、同じサブカテゴリの特徴が共通空間において隣接すべきであり、この目的がカテゴリ内分散を最小化することであり、特徴からそのサブカテゴリ中心までの距離を最小化することでクラスタリング学習を駆動し、触覚信号のサブカテゴリ中心をクロスモーダル信号の共通サブカテゴリ中心とすることで同じカテゴリのクロスモーダル信号意味特徴間のコンパクト性を確保し、中心制約におけるクラスタリング学習の損失関数が、
として定義され、
ただし、Nが触覚、オーディオ、及び画像信号の数であり、s 、s 、及びs がそれぞれ触覚信号、オーディオ信号、及び画像信号のカテゴリを示し、オーディオ信号と画像信号が触覚信号のクラスタ中心ベクトル行列Mを共有し、上記過程によって類似意味を持つ各モーダル特徴f 、f 、及びf を互いに接近させることを含むことを特徴とする請求項1に記載の視聴覚補助用の細粒度触覚信号の再構築方法。
By constraining the extracted tactile, audio, and image modal features by jointly considering the clustering constraint, the centrality constraint, and the sorting constraint, each modal feature belonging to the same meaning is brought close to each other, but each modal feature not belonging to the same meaning is separated, and tactile, audio, and image modal features with fine-grained classification are obtained.
To ensure compactness between features of the same fine-grained subcategory, clustering learning under center constraints is performed on three types of modal signals. To achieve better fine-grained classification performance, features of the same subcategory should be adjacent in a common space, with the goal of minimizing intra-category variance. Clustering learning is driven by minimizing the distance from a feature to its subcategory center. The subcategory center of the tactile signal is set as the common subcategory center of the cross-modal signal to ensure compactness between semantic features of the same category of cross-modal signals. The loss function of clustering learning under center constraints is:
is defined as
2. The method for reconstructing fine-grained haptic signals for audiovisual assistance according to claim 1, wherein N is the number of haptic, audio, and image signals, s i h , s i a , and s i v indicate the categories of haptic signals, audio signals, and image signals, respectively, the audio signals and image signals share a cluster center vector matrix M of haptic signals, and the above process includes bringing each modal feature f i a , f i v , and f i h with similar meaning closer to each other.
異なる細粒度サブカテゴリの特徴が一定のスパース性を備えるように確保するために、3種類のモーダル信号に対してソート制約におけるクラスタリング学習を行い、中心制約の目標はカテゴリ内分散を最小化することであるが、ソート制約の目標はカテゴリ間分散を最大化することであり、それにより異なるサブカテゴリの特徴出力が同じサブカテゴリの特徴出力よりも類似しないようにし、ソート制約は、
として定義され、
ただし、Cは触覚信号がK-meansアルゴリズムによりクラスタリングした後の総カテゴリ数であり、上記過程によって類似意味を持つ各モーダル特徴f 、f 、及びf を更に接近させるが、異なる意味を持つ各モーダル特徴をできる限り分離させることを特徴とする請求項6に記載の視聴覚補助用の細粒度触覚信号の再構築方法。
To ensure that the features of different fine-grained subcategories have a certain sparsity, we perform clustering learning under sorting constraints on three types of modal signals. The goal of the centrality constraint is to minimize the intra-category variance, while the goal of the sorting constraint is to maximize the inter-category variance, so that the feature outputs of different subcategories are less similar than the feature outputs of the same subcategory. The sorting constraint is:
is defined as
Here, C is the total number of categories after the haptic signal is clustered using the K-means algorithm, and the above process brings modal features f i a , f i v , and f i h with similar meanings closer together, while separating modal features with different meanings as much as possible.
触覚、オーディオ、及び画像のモーダル特徴に基づいてトリプレット集合を構築し、トリプレット制約の共有意味学習を行い、マルチモーダル融合マッピング関数を最適化し、共有意味情報を含む融合特徴を取得することは、
ある細粒度サブカテゴリから1つの触覚信号サンプルhをランダムに選択し、該サンプルをアンカーとすることと、
画像データセットからhと同じカテゴリに属し且つ意味特徴がf に最も近いサンプルv をポジティブマッチサンプルとして選択し、hと同じカテゴリに属せず且つ意味特徴がf に最も近いサンプルv をネガティブマッチサンプルとして選択することと、
これによりデータセット内のサンプルのためにトリプレット集合{(h,v ,v )}を構成することと、
同様に触覚信号サンプルとオーディオ信号サンプルとで構成されるトリプレット集合{(h,a ,a )}を取得することと、
アンカー点hの意味特徴f とオーディオ・画像モーダルにおける対応する小分類内のポジティブマッチの意味特徴
との距離を最小化し、且つf とネガティブマッチの意味特徴
との間の意味特徴を最大化し、且つ1つの最小の間隔δがあることで、取得した2つのトリプレット損失関数が、
であり、
統合パラダイムを導入し、マルチモーダル特徴を高度融合し、即ち、
とfを融合し、過程が、
=F(f,f;θ
(ただし、fは共有意味部分空間におけるマルチモーダル融合の出力即ち融合特徴であり、F(・)はパラメータがθのマルチモーダル融合マッピング関数であり、F(・)はf及びfの線形重み付けを取る)であることと、
とf をf に融合し、f とf をf に融合することと、
トリプレット損失を利用して融合特徴を制約し、即ち、
であり、
共有意味学習の目的関数が3つの損失関数を組み合わせることでモデリングし、
Syn=Lsyn +Lsyn +Lsyn として示されることと、
Synを最小化することで、最適なθを取得することと、を含むことを特徴とする請求項7に記載の視聴覚補助用の細粒度触覚信号の再構築方法。
Constructing a triplet set based on tactile, audio, and image modal features, performing shared semantic learning of triplet constraints, optimizing a multimodal fusion mapping function, and obtaining fusion features containing shared semantic information is
Randomly selecting one haptic signal sample h i from a fine-grained subcategory and setting the sample as an anchor;
Selecting a sample v i + from the image dataset that belongs to the same category as h i and whose semantic features are closest to f i h as a positive match sample, and selecting a sample v j that does not belong to the same category as h i and whose semantic features are closest to f i h as a negative match sample;
thereby constructing a set of triplets {(h i ,v i + ,v j )} for the samples in the dataset;
Similarly, obtaining a set of triplets {(h i , a i + , a j )} consisting of haptic signal samples and audio signal samples;
Semantic features f i h of anchor point h i and positive match semantic features in the corresponding subclass in the audio-visual modal
and minimize the distance between f i h and the semantic feature of negative match
By maximizing the semantic feature between and there is one minimum interval δ, the two triplet loss functions obtained are
and
We introduce an integration paradigm to achieve high-level fusion of multimodal features, i.e.,
By fusing f a and f v , the process becomes
f m =F m (f a ,f vm )
where f m is the output of multimodal fusion in the shared semantic subspace, i.e., the fusion feature, F m (·) is the multimodal fusion mapping function with parameter θ m , and F m (·) takes a linear weighting of f a and f v ;
fusing f + a and f + v into f + m , and f - a and f - v into f - m ;
The triplet loss is used to constrain the fused features, i.e.,
and
The objective function of shared semantic learning is modeled by combining three loss functions.
It can be shown that L Syn =L syn a +L syn v +L syn m ;
and minimizing L Syn to obtain the optimal θ m .
融合特徴を触覚生成ネットワークに入力して触覚信号を再構築することは、
触覚生成ネットワークを構築し、即ち、触覚生成ネットワークG(・)を構築し、その構造がD(・)と同じであり、且つそのネットワークパラメータθhdをG(・)のパラメータθの初期値とすることと、
必要な意味情報を含む融合特徴を触覚生成ネットワークG(・)に入力して所望の触覚信号h′を取得し、且つ生成された触覚信号h′をE(・)により触覚特徴fh′に再マッピングし、カテゴリ中心を選択して該触覚特徴fh′に対して意味制約を行い、最終的な損失関数が、
として示され、
ただし、
であり、
が特徴fとfh′との類似度を示し、
がfh′のクラスタリング損失であり、それらが一緒に損失関数の正則化項とされ、該損失関数を最適化することで、θの最適値を取得し、即ちG(・)を決定することと、を含むことを特徴とする請求項8に記載の視聴覚補助用の細粒度触覚信号の再構築方法。
Inputting the fused features into a haptic generation network to reconstruct the haptic signal is
Constructing a haptic generation network, i.e., constructing a haptic generation network G(·), whose structure is the same as D h (·), and whose network parameters θ hd are set as the initial values of parameters θ G of G(·);
The fused features containing the required semantic information are input into a haptic generation network G(·) to obtain the desired haptic signal h′, and the generated haptic signal h′ is remapped to a haptic feature f h′ by E h (·), and a category center is selected to perform semantic constraints on the haptic feature f h′ , so that the final loss function is
is shown as
however,
and
indicates the similarity between features f h and f h′ ,
is the clustering loss of f h' , and they are used together as regularization terms of a loss function, and by optimizing the loss function, an optimal value of θ G is obtained, i.e., G(·) is determined.
触覚オートエンコーダ、オーディオ特徴抽出ネットワーク、及び画像特徴抽出ネットワークのパラメータを事前設定し、
マルチモーダル融合マッピング関数のパラメータ及び触覚生成ネットワークのパラメータを事前設定し、
触覚オートエンコーダ、オーディオ特徴抽出ネットワーク、画像特徴抽出ネットワーク、マルチモーダル融合マッピング関数、及び触覚生成ネットワークを訓練することは、ステップ1及びステップ2を含み、
前記ステップ1において、θ、θ、θhe、θhd、及びMを事前設定し、且つ{s }、{s }、{s }を最適化し、前記ステップ1は、
ネットワークパラメータθ、θ、θhe、θhd、ノード系タグ{s }、{s }、{s }、及びカテゴリ中心行列Mを初期化し、クラスタ数C、学習率μ1、及び反復回数Tを設定するステップ11と、
{s }、{s }、{s }、及びMを固定し、確率的勾配降下法に基づいてθ、θ、θhe、θhdを最適化し、即ち、
であり、
ただし、∇が各損失関数を偏微分することであるステップ12と、
θ、θ、θhe、θhd、及びMを固定し、{s }、{s }、{s }を最適化し、即ち、
であるステップ13と、
θ、θ、θhe、θhd、及び{s }、{s }、{s }を固定し、Mを最適化し、即ち、
であるステップ14と、
t<Tの場合、ステップ412にジャンプし、t=t+1の場合、次回の反復を継続し、そうでない場合、反復を終了するステップ15と、
T回反復した後、最適なオーディオ特徴抽出ネットワークのパラメータθ、画像特徴抽出ネットワークのパラメータθ、触覚オートエンコーダのパラメータθhe、θhd、ノード系タグ{s }、{s }、{s }、及び触覚データのクラスタ中心ベクトル行列Mを取得するステップ16と、を含み、
前記ステップ2において、確率的勾配降下法に基づいてθ及びθを推計し、前記ステップ2は、
θ、学習率μ、μ、反復回数nを初期化するステップ21と、
Synに基づいて確率的勾配降下法を利用してθを推定し、即ち、
であるステップ22と、
Genに基づいて確率的勾配降下法を利用してθを更新し、即ち、
であるステップ23と、
n<nの場合、ステップ22にジャンプし、n=n+1の場合、次回の反復を継続し、そうでない場合、反復を終了するステップ24と、
回反復した後、最適なθ及びθを取得するステップ25と、を含むことを特徴とする請求項9に記載の視聴覚補助用の細粒度触覚信号の再構築方法。
Pre-configure the parameters of the haptic autoencoder, audio feature extraction network, and image feature extraction network.
Presetting the parameters of the multimodal fusion mapping function and the parameters of the haptic generation network;
Training the haptic autoencoder, the audio feature extraction network, the image feature extraction network, the multimodal fusion mapping function, and the haptic generation network includes step 1 and step 2;
In the step 1, θ v , θ a , θ he , θ hd , and M are preset, and {s i h }, {s i a }, and {s i v } are optimized.
Step 11: Initialize network parameters θ v , θ a , θ he , θ hd , node system tags {s i h }, { s ia } , {s i v }, and category center matrix M, and set the number of clusters C, learning rate μ 1, and number of iterations T;
{s i h }, {s i a }, {s i v }, and M are fixed, and θ v , θ a , θ he , and θ hd are optimized based on stochastic gradient descent, i.e.,
and
where step 12 is where ∇ is the partial derivative of each loss function;
Fix θ v , θ a , θ he , θ hd , and M, and optimize {s i h }, {s i a }, {s i v }, i.e.,
Step 13, where
Fix θ v , θ a , θ he , θ hd , and {s i h }, {s i a }, {s i v } and optimize M, i.e.,
Step 14, where
If t<T, jump to step 412; if t=t+1, continue with the next iteration; otherwise, end the iteration;
and step 16, after T iterations, obtaining optimal audio feature extraction network parameters θ a , image feature extraction network parameters θ v , haptic autoencoder parameters θ he , θ hd , node system tags {s i h }, {s i a } , {s i v }, and a cluster center vector matrix M of the haptic data;
In the step 2, θ m and θ G are estimated based on a stochastic gradient descent method, and the step 2 includes the following steps:
Step 21 of initializing θ m , learning rates μ 2 , μ 3 , and number of iterations n 1 ;
Based on L Syn, θ m is estimated using stochastic gradient descent, i.e.,
Step 22, where
Based on L Gen , θ G is updated using stochastic gradient descent, i.e.,
Step 23, where
If n< n1 , jump to step 22; if n=n+1, continue with the next iteration; otherwise, step 24 to end the iteration;
and (25) obtaining optimal θ m and θ G after n iterations.
JP2024568338A 2022-11-18 2023-11-15 A method for reconstructing fine-grained tactile signals for audiovisual aids Active JP7742677B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202211446581.2A CN115905838B (en) 2022-11-18 2022-11-18 Audio-visual auxiliary fine granularity tactile signal reconstruction method
CN202211446581.2 2022-11-18
PCT/CN2023/131760 WO2024104376A1 (en) 2022-11-18 2023-11-15 Audio-visual assisted fine-grained tactile signal reconstruction method

Publications (2)

Publication Number Publication Date
JP2025515925A JP2025515925A (en) 2025-05-20
JP7742677B2 true JP7742677B2 (en) 2025-09-22

Family

ID=86476231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024568338A Active JP7742677B2 (en) 2022-11-18 2023-11-15 A method for reconstructing fine-grained tactile signals for audiovisual aids

Country Status (3)

Country Link
JP (1) JP7742677B2 (en)
CN (1) CN115905838B (en)
WO (1) WO2024104376A1 (en)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905838B (en) * 2022-11-18 2025-06-27 南京邮电大学 Audio-visual auxiliary fine granularity tactile signal reconstruction method
CN117288294B (en) * 2023-11-03 2024-06-04 北京科技大学 A method and device for detecting water level in a water cup based on hearing and touch
CN118334473B (en) * 2024-06-13 2024-08-23 南昌大学 Deep fake image detection method based on semantic entanglement
CN118888072B (en) * 2024-07-08 2025-01-14 一览数字科技(江苏)有限公司 A trusted medical data secure circulation system and method based on privacy computing
CN118897902A (en) * 2024-07-19 2024-11-05 芜湖辛巴网络科技有限公司 An audio-visual matching method based on relation-aware rectified attention network
CN119011844A (en) * 2024-08-07 2024-11-22 南京邮电大学 Cross-modal source channel joint coding and decoding method for coping with changeable scenes
CN119011843A (en) * 2024-08-07 2024-11-22 南京邮电大学 Information source channel joint coding and decoding method based on cross-mode communication system
CN119011084A (en) * 2024-08-07 2024-11-22 南京邮电大学 Haptic signal reconstruction method based on information source channel joint coding
CN119094082A (en) * 2024-08-07 2024-12-06 南京邮电大学 A tactile signal reconstruction method based on adaptive signal-to-noise ratio joint optimization of source channel
CN119132331B (en) * 2024-08-18 2025-07-08 四川大学 A method and device for audio classification based on feature decoupling and contrastive learning
CN118779776B (en) * 2024-09-10 2025-02-14 杭州觅睿科技股份有限公司 A fall action detection method and system based on multi-diffusion model
CN119625817A (en) * 2024-09-26 2025-03-14 西安电子科技大学 Action spatiotemporal perception quality assessment method based on text rule prompt learning
CN118918520B (en) * 2024-10-11 2025-02-14 泉州桐兴科技有限公司 Short video automatic labeling method based on modal diversity
CN119652069B (en) * 2024-11-07 2025-08-05 天津市合派电气技术有限公司 A voltage control method for a high-reliability high-voltage power supply
CN119150235B (en) * 2024-11-13 2025-02-11 合肥工业大学 Motion gesture generation method based on cross-modal semantic association learning
CN119474926B (en) * 2024-11-25 2025-06-03 四川大学 Multi-view contrast clustering method based on pellets
CN119205795A (en) * 2024-11-29 2024-12-27 青岛领军智能建造新材料科技有限公司 Inorganic panel quality classification system and method
CN119444943B (en) * 2024-12-16 2025-04-11 浙江大学 Gesture action video generation method and device based on fine granularity semantic description
CN119942284B (en) * 2025-01-08 2025-07-18 镜像视界(浙江)科技有限公司 An image processing method based on multi-source data fusion
CN119655720B (en) * 2025-02-20 2025-04-18 湖南艾媞爱医疗设备有限公司 Vagina detection and evaluation system and method based on tactile imaging
CN120146051B (en) * 2025-02-25 2025-09-02 延边大学 Multimodal entity and relationship extraction method and system based on cross-modal alignment and fusion
CN120071445B (en) * 2025-04-28 2025-07-01 浙江工业大学 A learnable low-rank bilinear behavior perception method
CN120086634B (en) * 2025-05-08 2025-07-18 中国人民解放军国防科技大学 Large-scale federated multi-view clustering method, system, device and medium
CN120234617B (en) * 2025-05-28 2025-09-16 国网浙江省电力有限公司营销服务中心 A multimodal prompt learning method and system for modality missing problem

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020079984A (en) 2018-11-12 2020-05-28 富士通株式会社 Learning data generation program, learning data generation device, and learning data generation method
CN113627482A (en) 2021-07-09 2021-11-09 南京邮电大学 Cross-mode image generation method and device based on audio-tactile signal fusion
CN113642604A (en) 2021-07-09 2021-11-12 南京邮电大学 Audio and video auxiliary tactile signal reconstruction method based on cloud edge cooperation

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN114830168B (en) * 2020-11-16 2024-07-23 京东方科技集团股份有限公司 Image reconstruction method, electronic device, and computer-readable storage medium
CN113971735B (en) * 2021-09-16 2025-02-14 西安电子科技大学 A deep image clustering method, system, device, medium and terminal
CN114595739B (en) * 2022-01-12 2024-07-02 南京邮电大学 Image-tactile signal mutual reconstruction method and device
CN114660934B (en) * 2022-03-03 2024-03-01 西北工业大学 Mechanical arm autonomous operation strategy learning method based on vision-touch fusion
CN114842384B (en) * 2022-04-30 2024-05-31 南京邮电大学 6G-oriented haptic mode signal reconstruction method
CN115905838B (en) * 2022-11-18 2025-06-27 南京邮电大学 Audio-visual auxiliary fine granularity tactile signal reconstruction method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020079984A (en) 2018-11-12 2020-05-28 富士通株式会社 Learning data generation program, learning data generation device, and learning data generation method
CN113627482A (en) 2021-07-09 2021-11-09 南京邮电大学 Cross-mode image generation method and device based on audio-tactile signal fusion
CN113642604A (en) 2021-07-09 2021-11-12 南京邮电大学 Audio and video auxiliary tactile signal reconstruction method based on cloud edge cooperation

Also Published As

Publication number Publication date
CN115905838B (en) 2025-06-27
WO2024104376A1 (en) 2024-05-23
JP2025515925A (en) 2025-05-20
CN115905838A (en) 2023-04-04

Similar Documents

Publication Publication Date Title
JP7742677B2 (en) A method for reconstructing fine-grained tactile signals for audiovisual aids
CN113642604B (en) Audio-video auxiliary touch signal reconstruction method based on cloud edge cooperation
CN109523463B (en) Face aging method for generating confrontation network based on conditions
JP7213358B2 (en) Identity verification method, identity verification device, computer equipment, and computer program
Li et al. Linestofacephoto: Face photo generation from lines with conditional self-attention generative adversarial networks
CN114692741B (en) Generalized face counterfeiting detection method based on domain invariant features
CN113628294A (en) Image reconstruction method and device for cross-modal communication system
CN113160032B (en) Unsupervised multi-mode image conversion method based on generation countermeasure network
CN112634438A (en) Single-frame depth image three-dimensional model reconstruction method and device based on countermeasure network
CN116912727B (en) Video human behavior recognition method based on space-time characteristic enhancement network
CN112541131A (en) Recommendation method based on multiple interest influences of neighbor users
Wang et al. Generative partial multi-view clustering
Liu et al. Ultra-high resolution image segmentation via locality-aware context fusion and alternating local enhancement
CN104036482B (en) Facial image super-resolution method based on dictionary asymptotic updating
CN116958613A (en) Deep multi-view clustering method, device, electronic device and readable storage medium
CN114595739A (en) Image-touch signal mutual reconstruction method and device
Wu et al. Face aging with pixel-level alignment GAN
CN116030077A (en) Video salient region detection method based on multi-dataset collaborative learning
CN115984911A (en) Attribute generation countermeasure network and face image continuous transformation method based on same
Cheng et al. Geometry-entangled visual semantic transformer for image captioning
Hu et al. Latent Style: multi-style image transfer via latent style coding and skip connection
CN112926517A (en) Artificial intelligence monitoring method
Im et al. Generating face images using vqgan and sparse transformer
Zhang Generative Adversarial Networks for Image Synthesis
Jeong et al. Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20241115

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20241203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250902

点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载