RAG商业落地数据工程实践踩坑,全方位掌握AI大模型技术和应用。
图片在变成Q&A之前需要去做向量化,比如这边是一个图片,那我又是张图片,这两个图片是很难去做相似度的。如果是这样,它的知识可以直接做向量化。
比如这样一个图片,给它一个Embedding Model,比如就是OpenAl的CLIP模型,其实就是一个卷积型网络。这里我给大家举例子,比如是三维的,每一个元素就是一个浮点数,就是一个三维空间的一个数组,这个数组就是向量,这个三维空间里面对应坐标里面的一个点。

对图片的向量化以后,你可以认为就是它的知识的表示。我们往往说向量叫语义表示,语义就是知识。再来一张猫的图片,同样一般猫的最终生成了这样一个向量,这个向量也会在空间里面是一个点。
比如我再来一张狗,同样经过卷积型网络,在这个图片里面其实是这样一个点。因为前面两个是猫,这边是狗,虽然它都属于动物,但是狗的相似度相对于原来的两个猫的相似度一定是远一点的。
这里还有一个查询,给它一张图片,这个图片是一个狗,首先需要做Embedding Model,这个点是最终映射出来的向量,就2.3、1.5和1.1。理论上来讲你是狗,如果选出来相似度最大的,它一定会返回这条狗。
对这些图片来讲,我们可以通过对应的Embedding Model,因为Embedding Model本身已经有知识了,对应的知识向量化以后就代表了数据变成知识了。同样的对音频、视频也可以这么去做。
文本要切很多的Q&A,针对这个图片没有再做Chunk,就是因为图片它的语意是非常明确的,但是一篇文章表达观点那可就多了。核心还是看你是想表达它原来的语意,还是说只保留其中一个大的语意就行。
关注我,你身边需要一个AI专家。