首页出版说明中文期刊中文图书环宇英文官网付款页面

基于多模态特征融合的图像文本检索

李 松泽, 吴 钰茹, 王 俊杰, 何 劲仪, 曾 雨琪, 但 松健
重庆第二师范学院

摘要


随着智能终端和多媒体社交网络的快速发展,多模态数据(如文本和图像)呈现爆炸式增长,导致对不同模态数
据互相检索的需求日益增加。然而,模态之间的语义鸿沟限制了对海量多模态数据的有效分析和信息挖掘。因此,实现精
准的跨模态信息检索成为学术界的重要挑战,尤其是在文本生成图像和图像生成文本的应用场景中。本文研究了基于 5000
条文本信息和 50000 张图片的文本生成图像检索,以及基于 50000 条文本信息和 5000 张图片的图像生成文本检索。通过计
算归一化特征之间的余弦相似度,找出相似度排名前五的图像或文本。研究采用深度学习方法,特别是 CN-CLIP 模型,
促进文本与图像的多模态特征融合,实现双向生成,提升用户的检索体验。CN-CLIP模型在多模态表征学习中具有重要意义,
采用对比学习方式在大规模图像 - 文本对数据集上进行预训练,成功建立视觉与语言之间的联系。该模型在视觉语言检索
中表现优异,并在零镜头图像分类中展现出色性能。其简单有效的方法论推动了多模态表征学习和计算机视觉的研究进展,
为跨模态信息检索、图像标注和视觉问答等应用提供了强大支持。随着技术的不断进步,CN-CLIP模型将继续在多模态学习、
图像标注、视觉问答等领域发挥重要作用,引领新的研究方向。

关键词


文本生成图像;图像生成文本;多模态特征融合;CN-CLIP 模型

全文:

PDF


参考


[1] 李源凡 , 张丽红 . 基于 CLIP 模型和文本重建的人脸

图像生成方法研究 [J]. 测试技术学报 ,2024,38(02):154-160.

[2] 肖佳涛 . 基于深度学习的中文文本生成国画图案方

法研究 [D]. 景德镇陶瓷大学 ,2023.

[3] 张佳 . 基于深度学习的文本生成图像方法研究 [D].

山西大学 ,2024.




DOI: http://dx.doi.org/10.12361/2661-3727-06-01-168366

Refbacks

  • 当前没有refback。