【联盟提案01】智慧图书馆图像匹配搜索

【联盟提案-01】智慧图书馆图像匹配搜索

项目名称

智慧图书馆-图像匹配搜索

提案时间

2023年6月30日

提案人

孙岩

单位

阿依瓦（北京）技术有限公司

项目详情

一、项目目的
本项目开发的主要目标是开发一种基于深度学习的视觉识别以图搜图，解决图片、碑帖、书法、古籍、视频等内容通过图片的方式进行检索。
1、通过深度图像特征学习的技术，对采集到的图像数据进行学习和提取图像特征，特征可以保存在数据库中，便于电子化管理；
2、以图搜图的方式能够解决文字搜索难以解决的难点，例如古籍文献、碑帖、书法作品、视频材料等无具体文字描述资料，可以通过识别图片方式搜索；
3、可视化搜索，可见即可搜，搜索速度快，结果精准；
4、支持通过图片搜索其电子资源，便于更加详细的了解文献、碑帖等材料；
5、支持建立起通过作品内容建立起音视频、图文、3D模型等更富有科技性的动态产品，提升用户阅读兴趣，使用户能更直观、具体的了解。
二、项目意义
Content-Based Image Search （CBIS），也就是基于内容的图像搜索，是一种通过比对图像内容（例如色彩、纹理、形状等）来寻找相似图像的搜索技术。这种搜索方法通常基于机器学习或深度学习模型，这些模型可以提取并理解图像中的特征，然后根据这些特征比对和搜索相似的图像。”以图搜图”（Reverse Image Search）也就是反向图像搜索，是CBIS的实际应用，其背后的技术是基于机器学习的图像识别和相似性匹配技术。
1、解决古籍文献、碑帖、书法作品、视频材料等通过图像识别的方式进行搜索的问题，提高读者用户检索满意度；
2、对于只有图像特征的图书，利用深度学习的以图搜图技术，可以大大提高管理的效率和准确性；
3、丰富图书查询方式，提供一种全新的查询方式，丰富读者查询体验，提高图书馆的服务质量；
4、文献估计、碑帖、书法作品等珍贵程度较高，不可被随意翻阅和借阅，没有互动性，内容也不易被创博。通过以图搜图系统，可以在手机端查看电子版本，满足读者深入了解的需求，也可提成古籍作品的传播度；
5、以估计文献、碑帖、书法等作为媒介，用户可以分享、评论等，增加用户之间的交流互动；
6、通过AR方式将传统静态产品变为集音视频、图文、3D模型等于一体的富媒体动态产品，以AR可视化方式使用户对产品内容认识更直观、更深刻。
三、项目建设内容
1主要建设内容
(1)建设图像存储数据库、图像特征数据库，将采集到的图像以及图像特征进行汇总；
(2)建设资源管理系统，对图像以及数字资源做统一管理；
(3)建设以图搜图检索小程序，用于图像、古籍、碑帖、视频、书法等产品的识别检索，以及资源阅读，并提供分享等功能；
(4)建设数据分析系统，分析使用效果。
2项目建设可实施性分析
“以图搜图”的技术发展历程大致可以分为以下几个阶段：
(1)早期阶段（2001-2007年）：早在21世纪初，就有了一些初步的图像搜索技术。这些技术主要依赖于图像的元数据（例如图像的名称、图像的标签、图像的描述等）进行搜索。然而，这种方法的效果有限，因为它依赖于元数据的准确性和完整性。
(2)内容提取和匹配阶段（2008-2012年）：在这个阶段，研究者开始尝试从图像内容中提取特征，然后基于这些特征进行搜索。这种方法能够更准确地匹配和搜索图像，因为它直接依赖于图像内容，而不是元数据。这个阶段的技术主要是基于手工制定的特征和简单的机器学习模型。
(3)深度学习阶段（2013年至今）：近年来，深度学习的发展使得图像搜索技术得到了重大的提升。深度学习能够从原始图像中学习到高级和抽象的特征，从而使得图像搜索更为准确和灵活。2013年，Clarifai公司的Alex Krizhevsky和他的团队用卷积神经网络在ImageNet竞赛中取得了冠军，这标志着深度学习开始在图像识别和搜索领域发挥重要作用。
(4)以图搜图服务化阶段（2010年至今）：随着互联网的发展，以图搜图技术也开始变得更加用户友好。例如，Google在2011年推出了其以图搜图的服务，用户可以上传一张图像，Google就会返回与之相似的图像和相关的信息。此后，Pinterest，Bing，Alibaba,Baidu等也推出了自己的以图搜图服务，并分享了商业视觉搜索引擎全流程开发部署方案的实现细节。
(5)目前，以图搜图技术在许多领域都有广泛的应用，例如电子商务（找到类似的产品）、社交媒体（检测图像剽窃）、医疗影像（找到类似的病例以帮助诊断）等等。
利用逐步成熟的以图搜图的技术，实现基于图片或视频帧等内容对图片、碑帖、书法、古籍、视频等内容进行检索匹配的检索系统建设有足够的技术支撑能力。。
3项目建设技术方案
(1)预处理：对输入的图像、视频、书法、碑帖等进行预处理。预处理通常包括尺寸调整、归一化、降噪等步骤。
(2)主体检测：确定图像中用于后续特征提取的主体的区域。主体检测技术是一种广泛使用的检测技术，是指检测图像中的所有前景物体。主体检测是以图搜图任务的第一步，可以有效提高检索精度。目标检测方法多种多样，如常用的两级探测器（FasterRCNN系列等）、单级探测器（YOLO、SSD等）、无锚探测器（PP-PicoDet、FCOS等）等，我们采用的PP-PicoDet模型是端端场景（CPU和移动）的SOTA模型。PP-PicoDet以PP-LCNet为骨干，结合PAN FPN、CSP-Net、SimOTA等多个探测器训练技巧，是一个超轻量级的目标检测器。PP-LCNet的网络结构如下图所示：PP-LCNet network structure
(3)特征提取：图像检索的核心问题是如何从模型中提取更好的特征，因此，特征提取的能力直接影响图像识别的性能。在特征提取的训练阶段，我们将使用度量学习方法来学习图像的特征。（对于视频内容的以图搜图，从视频中提取关键帧，并对关键帧进行特征提取）度量学习尝试将数据映射到嵌入空间，其中相似的数据靠近在一起，不同的数据相距很远。在度量学习中，特征的质量取决于损失、骨干、数据质量和数量以及训练策略。损失是度量学习中最重要的部分。度量学习的损失分为两种类型，即基于损失分类和基于对的损失。近年来，这种类型的损失已被越来越多地使用，因为基于分类的损失的改进版本更加稳健。我们的以图搜图特征提取将使用ArcMargin损失，这是基于Softmax损失的改进。Arcmargin的损失如图式所示，损失最大化了角空间中的分类极限，从而更好地提取和组织了特征。(4)相似度比较：提取特征之后，我们将使用一种或多种相似度计算方法，例如欧几里得距离（Euclidean Distance），余弦相似度（Cosine Similarity），汉明距离（Hamming distance），卡方距离（Chi-square Measure）等，来对输入的媒体内容与数据库中的内容进行比较。
(5)索引和检索：为了在多个操作系统上运行，包括Linux, Windows和MacOS，我们使用Faiss 作为向量搜索模块，这是一个高效的相似性搜索库，包含支持在任何大小的向量集合中搜索的算法。我们将选择HNSW32、IVF、FLAT三种算法来满足不同场景的需求。HNSW32 是一种非常流行的近似最近邻算法，它以超快的搜索速度和出色的召回率产生最先进的性能。IVF是一种索引数据结构，用于存储来自内容的映射。虽然不如HNSW32有效，但IVF支持在构建索引后删除元素。FLAT是一种精度最高的暴力检索算法，但与前两种方法相比速度最慢。
(6)后处理：我们将对检索结果进行排序，然后返回最相关或最相似的结果。The framework of Reverse Image Search

预期成果形式

1、图像特征数据库将古籍文献、碑帖、书法作品、视频材料通过图片采集的形势，采集到全部的图像，再通过深度学的模式，将采集到的图像进行学习和提取图像特征，然后讲这些图像特征保存在数据库中，用于实时采集和处理图像等数据。如下图所示，将采集到的图片进行特征识别，并存储进入数据库，可以永久保存。并将提取出来的特征进行保存，在检索过程中，通过特征与数据库中的特征相匹配，提供检索结果。
2、以图搜图资源管理系统用于采集的图片上传、删除、编辑、查询等管理，便于管理人员管理资源，当新增或者修改资源图片时，可以通过后台管理系统自主进行管理，简洁、易操作、可维护性高。完整的视频、图片、知识的手机整理，并上传到后台管理系统中的资源管理，完成模型的加工和资源的整合，可以用于读者在搜图时，不仅可以搜索到古籍文献、碑帖等原文，还可以查看相应的文字解说等内容，使作品可阅读性更高，提升可理解和可传播度。
3、以图搜图检索系统 3.1以图搜图移动端小程序，打开以图搜图功能，通过摄像头识别真实图片、书法、典籍、或者视频资料。算法自动捕捉识别物体的特征，通过关键特征值到建立好的待检索的特征库中查询特征，找到特征值相似的图像，返回与待检索图像内容先关的图像。 3.1数字资源移动端小程序通过以图搜图搜索出图像后，可以同步展示其数字资源，包含但不限于文字介绍、关联图片介绍、音视频讲解等。便于读者阅读和理解。

项目组：

组长：王邦江（阿依瓦）
组员：邹明富、陈先、黄坤
联系人：徐丹

招募人员：

图书馆古籍专家一名

【联盟提案-01】智慧图书馆图像匹配搜索

1条评论

发表评论取消回复

【联盟提案-01】智慧图书馆图像匹配搜索

1条评论

发表评论 取消回复

发表评论取消回复