Hello~ Milvus 的朋友们, 想找个机会与 Milvus 团队和其他的用户一起交流吗?之后我们每周二晚上8点固定与你线上面基,聊聊近似搜索🔍的那些话题!快来与 ZILLIZ 小助手(zilliz-tech)报名下周二的活动吧!
点击链接🔗了解新版本0.7.0有哪些新功能: https://zhuanlan.zhihu.com/p/111034118
本周无法参加的朋友可以阅读一下的文字实录, 说不定也有你常遇到的一些问题!
| 文字实录 * 以下文字部分由语音转文字,已经过一些调整让句意可以更清楚,但难免有点错误请读者们包含。
User:
你好我是通过知乎上面了解到Milvus,我们的业务场景大概是这样的:在专利行业里,商标行业他有这种商标的,你要想申请一个专利和商标,他要跟之前的专利和商标进行对比的方式,有的商标和专利它是有图片的,所以说相当于是基于图片对比。
现在专利的对比的方式还是很原始的那种,比如说你这图片里含不含有三角形和看这个原型是什么颜色的,是通过这种标识的方式。然后我了解的咱 Milvus 这个东西主要就是我理解的是这样的,不知道我理解准不准确,针对这种图像的分析、搜索为它的一个应用方向之一,是这样吗?
Milvus:
对,是的。因为 Milvus 是一个向量搜索引擎,那么它主要是解决海量向量的数据的一个比对的问题。那么这个向量数据从哪里来的?它可以是从这种图片来,它可以通过图片,比如说配合 VGG 的模型,抽象成一些向量,然后去进行搜索。
其实在我们的 Milvus.io 的网站上面,在比较靠近底部的地方,我们有个 demo 的区域,那么它其实有一个 demo 是作为图片搜索的;在上面我们下载一些开源开放的一些图片及差不多100多万张图片,然后用户可以给出一张图片去搜和这张图片相似的一个图片,他用的是一个 VGG 的一个模型。
你刚才提到的专利的商标申请,因为你提到说有的是有图片,我理解是你主要关注的是关于商标图像类的相似度的这种分析是吗?
User :
对
Milvus:
其实向量搜索引擎用在图片上面,怎么讲呢?因为像不像它可能是一个比较主观的一个感受,我不知道它是不是有一些规则去判断像不像,这个是我比较好奇的一个部分。
User :
我没有深入的涉及但大概是这样,我们比如说拿餐饮-肯德基是 KFC,比如说你如果说想申请一个,你也做一家餐饮公司,也申请一个商标,它一个图像,你把 KFC 一字体变成起来,跟自己变相,但你总体的构图设计的整个颜色可能都以这样一致的,国家商标局肯定不允许通过的。如果说是世界级商标的话,你还要像国外的商标专利的机构去申请,他也不会通过的。以前我知道它的默认的方式是给一个图片标志,很多的标识,从颜色从包含的图形,从文字字体,它是用这种方式,相当于是把一个图片有很多标识,而不是而不是像 Milvus 这样完全把一个图片给数据化了,然后用另外一张图片跟他对比。我觉得这种方式肯定是无论从效率上也好,还是从相似度来说和结果的准确率的话,肯定是比以前那种标识方式是是好很多的。
User :
其实我还有另一个问题,我主要是想了解一下,因为 Milvus 这个是一个开源的东西,跟我们上海这家公司是一个什么状态?我们(Milvus)现在一直在发布不同的版本,然后主推到市场之后,可能有针对的具象的最终的目标客户?但也有可能比如说针对一些伙伴之类的?我主要想了解这一块,从整体规划这样说,还有跟我们整个 Github上的开源社区、我们公司之间的关系,这一块大概是个什么情况?
Milvus:
好的,这个问题非常好,我先补充回答一下,刚才关于商标的一个问题,因为我们现在存的可能是单纯的是一个向量数据,(你这个图形本身向量化之后的结果),但是在未来的版本当中,我们会加入一些属性结构化的数据,就像你刚才说的字体颜色这些可以被结构化描述的东西,我们也会把属性加在里面。这样的话去做检索的时候,我们会允许用户同时使用属性和向量,去从这种结构化和非结构化混合的方式去做一个检索,就是提高一些我们检索的灵活度,在你刚才描述的场景当中,我觉得可能会更好。因为结构化的东西他比较标准,然后就非结构化的东西,像不像这件事可能比较感性,两边结合起来,我觉得可能效果是会更好。
然后再回到说我们这个项目的一些当前的状况是这样的,其实 Milvus 这个项目它是一个完全开源的项目,你可以看到我们现在所有的 Milvus 的核心的代码都是在 Github 上面开源的。并没有分出一个说什么这是一个社区版,那是一个企业版,我们并没有这样做,然后在 Milvus 这一块我们以后也不想这样做,因为它是一个向量搜索引擎。
它主要服务的是一些这种 AI 类的场景,就像图片搜索、视频搜索、推荐系统或者自然语言处理的这些场景。
现在这一块其实主要的大家可能都在用faiss这样的一些底层的算法库,那么 Millvus 是想为大家提供更多系统级别的服务,在那些算法库的层面上,我们当然也会做一些工程化的优化,更多的可能在应用性上面帮助大家去管理海量向量数据。
因为这一块其实有几家现在都开始在做,但是并没有做的特别成熟的一个,特别是因为这块比较新,所以大家都在做,那有一些可能做的好一点,有的可能做的更早期一点,但是并没有说哪一家可以作为一个标准,或者大多数人都用这样一个方案,所以基于这样一种考虑,我们也是希望通过开源的方式,能够把 Milvus 的项目的用户的知名度或者用户基数都能够做到比较理想的状态。
我们上次在研讨当中也提到,像 Milvus 的话,这个项目现在是正在加入 LF AI,就是Linux 基金会旗下有一个 AI 的子基金会。那么我们 Milvus 的项目会作为一个孵化项目,加入到 LF AI 当中,所以 Milvus 加入基金会的结果就是 Milvus 项目它的商标什么都会变得更加的中立,会变得更加的开放。
我们是希望吸引更多的人来使用 Milvus 这个向量搜索引擎,所以我们是非常的欢迎大家来使用。然后大家如果说在使用过程当中发现一些问题,那么把你们的问题和一些需求都可以在 Github 上面反馈给我们,我们都会去综合看大家都有些什么共同的东西,然后去做有针对性的一些开发。包括如果大家说在使用的过程当中,如果产生了一些代码,觉得可以贡献回来的,那就更加欢迎。
我们作为一个基金会孵化项目的话,接下来一个阶段就是要成为一个毕业项目。外部的合作贡献者都是一些项目从孵化到毕业的一个评判的标准,所以 Milvus 项目以后都会是一个非常中立的一个开源项目,然后我们本身也是希望它能够做成向量搜索领域当中用户使用范围最广、用户基数最大的一个项目。所以我们是希望越来越多的人能够加入到社区当中。
第二位参会者与我们讨论了多维向量检索,结构化属性过滤等功能的设计思路。应参会者的要求,此部分内容无法作为文字发出。欢迎大家今后参加线上讨论会,获得更多信息!
| 欢迎加入 Milvus 社区
github.com/milvus-io/milvus | 源码
milvus.io | 官网
milvusio.slack.com | Slack 社区
zhihu.com/org/zilliz-11/columns | 知乎
zilliz.blog.csdn.net | CSDN 博客