首页 » 99链接平台 » 附详细教程(句子文本特征数据向量)

附详细教程(句子文本特征数据向量)

少女玫瑰心 2024-11-04 21:16:10 0

扫一扫用手机浏览

文章目录 [+]

科普:什么是神经搜索 (Neural Search)

神经搜索 (Neural Search) 是指利用深度神经网络,搜索图像、视频、文本等各种非结构化数据。
与传统基于文本标签的搜索相比,神经搜索更加全面和有针对性。

教程:快速创建文本搜索引擎

附详细教程(句子文本特征数据向量) 99链接平台
(图片来自网络侵删)

目的:创建一个文本数据的神经搜索应用。

原理:输入查询句子,与数据集中的句子进行匹配并输出匹配结果。

DocArray 参考文档:

https://docarray.jina.ai/

数据集 (Pride & Prejudice e-book) 下载:

https://www.gutenberg.org/files/1342/1342-0.txt

安装依赖

从 PyPI 安装 DocArray,方法如下:

1. 通过 Pip 安装: pip install docarray

2. 通过 conda 安装: conda install -c conda-forge docarray

代码详解

第一步:从 URL 加载数据集,将其转换为文本,并放入 Document (Jina 中一个基础的数据类型)。

from docarray import Document, DocumentArraydoc = Document(uri="https://www.gutenberg.org/files/1342/1342-0.txt").load_uri_to_text()

第二步:由于数据集 Pride & Prejudice e-book 是一系列长句子,我们需要先将其进行分词,再放到 DocumentArray 中。

每重起一行,就用 ‘\n’ 来分割句子。
最终这个句子将以 Document 的形式,存储在 DocumentArray 中。

第三步:特征向量化(将特征转换为向量索引)。
这里的特征就是 DocumentArray 中每个 Document 的向量。

特征向量化的实现方法众多,这里推荐使用特征哈希 (feature hashing) 方法,因为它运行更迅速、占用空间更少。

特征哈希的工作原理,是获取特征并应用一个哈希函数,该函数可以对值 (value) 进行散列,并将其作为索引返回。

DocArray 极大简化了这个过程:

# break large text into smaller chunksdocs = DocumentArray(Document(text = s.strip()) for s in doc.text.split('\n') if s.strip())# apply feature hashing to embed the DocumentArraydocs.apply(lambda doc: doc.embed_feature_hashing())# query sentence query = (Document(text="she entered the room").embed_feature_hashing().match(docs, limit=5, exclude_self=True, metric="jaccard", use_scipy=True))# print the resultsprint(query.matches[:, ('text', 'scores__jaccard')])

第四步:获取输出。
将查询句子转换为 Document ,并对其进行向量化,然后与 DocumentArray Document 的向量进行匹配。

输入《傲慢与偏见》中句子「she entered the room」,查询结果如下:

以上就是创建文本搜索引擎的完整过程,查看 Colab 请点击文末阅读全文,或访问链接:

https://colab.research.google.com/github/jina-ai/tutorial-notebooks/blob/main/neural_text_search.ipynb#scrollTo=4glBnUHBiAwp

期待你能用 Jina 全家桶产品,创建更多有意思的 demo~

参考资料:

https://docarray.jina.ai

https://github.com/jina-ai/docarray

https://docs.jina.ai

相关文章

DLL1Z1,基因研究的里程碑与人类健康的未来

近年来,随着科学技术的飞速发展,基因研究已成为人类认识生命、战胜疾病的重要途径。DLL1Z1基因作为一种重要的基因,其研究进展备受...

99链接平台 2024-12-25 阅读0 评论0

高效转发,语言艺术的魅力与方法

随着互联网的飞速发展,信息传播速度越来越快。在这个信息爆炸的时代,如何有效地转发信息,成为了许多人关注的焦点。本文将从语言的角度,...

99链接平台 2024-12-25 阅读0 评论0

开源字体协议,促进字体设计的创新与共享

随着信息技术的飞速发展,字体设计在视觉传达领域扮演着越来越重要的角色。而开源字体协议作为一种新型字体授权方式,为字体设计领域的创新...

99链接平台 2024-12-25 阅读0 评论0

安软件,驱动未来,共创智能生活

随着科技的飞速发展,人工智能已成为当今时代的重要驱动力。在我国,安软件作为人工智能领域的佼佼者,凭借其卓越的技术实力和创新的解决方...

99链接平台 2024-12-25 阅读0 评论0