在机器学习和自然语言处理(NLP)中,词向量(Embeddings)是一种将非结构化数据,如单词、句子或者整个文档,转化为实数向量的技术。
词向量背后的主要理念是 相似或者相关的对象在向量空间中的距离应该很近
词向量将单词转换为固定的静态的向量,虽然可以一定程度上捕捉并表达文本中的语义信息,但忽略了单词在不同语境中的意思会受到影响的情况。RAG应用中使用的向量技术一般为通用文本向量
(Universal text embedding),该技术可以对一定范围内任意长度的文本进行向量化,与词向量不同的是向量化的单位不再是单词而是输入的文本,输出的向量会捕捉更多的语义信息。
搭建RAG系统时,往往通过使用嵌入模型来构建向量。
参与评论
手机查看
返回顶部