Multi-Modal Knowledge Representation Learning

The difference with previous work:

Fig.1 Illustration the difference of conventional textual KRL, visual KRL and the proposed MM-KRL.

Textual KRL: textual knowledge representation learning.
Visual KRL: visual knowledge representation learning.
MM-KRL: multi-modal knowledge representation learning.

Framework

Fig.2 Proposed framework for multi-modal knowledge learning.

Proposed Bi-enhanced DNN method

Fig.3 Bi-enhanced cross-modal knowledge representation.

Dataset

Training data 115.0 GB
Training data includes 597299 instances.

Test data 17.6 GB
Test data includes 90690 instances.

list of all relationships

#Multi-modal relationships	#Textual relationship instances	#Visual relationship instances
20726	20726	687784

Source Code

tripletRelationship.py
Source code for textual knowledge representation learning based on Triplet Relationship strategy.

caffe-multilabel.zip solver.prototxt train_val.prototxt
Source code for visual knowledge representation learning based on deep multivariate regression strategy.
caffe-multilabel.zip: Modify the Caffe code to make it support deep multivariate regression which only need one LMDB file.
solver.prototxt & train_val.prototxt : parameters on visual knowledge representation learning stage.

Training Log Files
Training log files (iteration and training loss) in multi-modal knowledge representation learning strategy.

Results

Text-Text Retrieval 910 KB
Results of zero-shot text-text retrieval.

Image-Image Retrieval 3.10 MB
Results of zero-shot image-image retrieval.

Text-Image Retrieval 2.93 MB
Results of zero-shot text-image cross modal retrieval.

Last updated on 2017/03/29

Multi-Modal Knowledge Representation Learning
via Webly-Supervised Relationships Mining

Introduction

Motivation

The difference with previous work:

Framework

Proposed Bi-enhanced DNN method

Dataset

Source Code

Results

Multi-Modal Knowledge Representation Learning via Webly-Supervised Relationships Mining

Introduction

Motivation

The difference with previous work:

Framework

Proposed Bi-enhanced DNN method

Dataset

Source Code

Results

Multi-Modal Knowledge Representation Learning
via Webly-Supervised Relationships Mining