Embedding,中文通常翻译为“嵌入”或“嵌入向量”。
如果用一句话来通俗解释:Embedding就是给计算机看不懂的文字、图片或声音,穿上了一件“数字化”的外衣,让计算机能够通过计算“距离”来理解它们的“含义”。

通俗理解:给万物分配“数字坐标”
想象一下,你正在整理一个巨大的图书馆(这就像计算机的数据库)。
- 没有Embedding之前:
计算机像是一个不识字的图书管理员。它只认识字面上的笔画。如果你问它“猫”,它只能找到“猫”这个字,如果你问“猫咪”,它可能就觉得跟你问的“猫”没关系,因为它不懂这两个词意思其实是一样的。 - 有了Embedding之后:
我们给每一本书(每一个词、每一句话、每一张图)都贴上了一个复杂的“数字标签”(这就叫Embedding向量)。这个标签是一长串数字,比如[0.1, -0.5, 0.9...]。- 神奇的规则:这个标签的设计非常聪明,意思相近的东西,它们的数字标签在数学空间里的距离就很近。
- 结果:虽然计算机不认识“猫”和“狗”,但它发现“猫”的数字标签和“狗”的数字标签靠得很近,而离“汽车”的标签很远。于是,计算机就“理解”了猫和狗是同类(都是宠物),而汽车不是。
简单说,Embedding就是把“语义”变成了“距离”。
核心原理:从文字到向量
从技术角度看,Embedding是一种将高维数据(如单词、图片)映射到低维稠密向量的技术。
- 输入:一段文字(例如“我喜欢人工智能”)。
- 处理:Embedding 模型(如 BERT、Word2Vec 等)将这段文字转换成一个固定长度的数组(向量)。
- 输出:一串浮点数,例如
[0.23, -0.15, 0.88, ...]。
关键特性:
- 语义相似性:在向量空间中,两个向量的距离越近(通常用余弦相似度计算),代表它们在原始含义上越相似。
- 数学运算:Embedding甚至支持加减法。例如在著名的词向量实验中:
“国王” - “男人” + “女人” ≈ “王后”。这说明Embedding不仅存储了信息,还捕捉到了事物之间的逻辑关系。
为什么它很重要?
- 搜索引擎(RAG的核心):
当你搜索“怎么减肥”时,搜索引擎通过Embedding把你的问题转化成向量,然后去数据库里找和这个向量“距离最近”的文章,哪怕文章里写的是“瘦身方法”而不是“减肥”,也能被精准搜出来。 - 推荐系统:
抖音或淘宝通过Embedding把你喜欢的视频变成向量,再把商品变成向量。如果你的“用户向量”和某个“商品向量”距离很近,系统就会觉得“你肯定喜欢这个”,然后推荐给你。 - 大语言模型(LLM):
ChatGPT 在回答你之前,第一步就是把你输入的文字全部转化成 Embedding 向量,它是在这个“数字空间”里进行思考,最后再把结果翻译回文字给你。
小编概括下
Embedding就是AI世界的“翻译官”和“尺子”。 它把人类复杂的语言和图片翻译成计算机能算的数字,并用这把尺子(距离)来衡量万物之间的相似程度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



