什么是无监督学习

AI知识探索库3小时前更新文明旁观者

无监督学习(Unsupervised Learning)是机器学习的另一大支柱。如果说监督学习是“有老师带着学”，那么无监督学习就是“自学”。

它的核心在于：给算法的数据没有标签（没有标准答案），让算法自己去挖掘数据内部隐藏的结构、模式或规律。

什么是无监督学习

核心概念：什么是“无监督”？

在无监督学习中，我们只给计算机提供“题目”（输入数据），但不给“答案”（标签）。

输入：一堆杂乱的数据（如：成千上万张未分类的照片、超市所有的销售记录）。
目标：让算法自己去发现“这些照片里哪些是风景，哪些是人”或者“哪些商品经常被一起买走”。

这就像把一堆乐高积木倒在地上，不给孩子图纸，让他自己探索能拼出什么形状。

三大核心任务

无监督学习主要解决以下三类问题：

1. 聚类

这是最典型的无监督学习任务。目的是将数据分成不同的组（簇），使得组内数据非常相似，组间数据差异很大。

典型算法：
- K-均值聚类 (K-Means)：最经典的算法，预先指定分成K类，通过迭代找到每个类的中心。
- 层次聚类 (Hierarchical Clustering)：像家谱一样，通过不断合并或分裂构建出树状的聚类结构。
- DBSCAN：基于密度的聚类，能发现任意形状的簇，并能自动识别并剔除“噪声”点。
应用：用户分群（电商将用户分为高消费、价格敏感等群体）、新闻自动归类。

2. 降维

当数据特征非常多（高维）时，不仅计算困难，而且难以可视化。降维就是在保留主要信息的前提下，减少数据的特征数量。

典型算法：
- 主成分分析 (PCA)：最常用的线性降维方法，通过数学变换找到数据方差最大的方向（主成分），把高维数据“投影”到低维空间。
- t-SNE：一种非线性降维方法，特别擅长将高维数据映射到2D或3D平面进行可视化展示。
应用：数据压缩（减少存储空间）、数据可视化（把高维数据画出来看分布）、去除噪声。

3. 关联规则学习

目的是发现数据集中各项之间的有趣关系或规律，通常表现为“如果…那么…”的规则。

典型算法：
- Apriori：经典的算法，通过迭代扫描数据来发现频繁项集。
- FP-Growth：Apriori的高效改进版，利用树结构（FP树）加速挖掘过程。
应用：购物篮分析（经典的“啤酒与尿布”案例）、推荐系统（“购买了此商品的用户也购买了…”）。

🆚 对比：监督学习 vs. 无监督学习

表格

维度	监督学习	无监督学习
数据标签	有标签（有标准答案）	无标签（只有数据本身）
目标	预测新数据的标签（分类/回归）	发现数据内在结构（聚类/降维/关联）
反馈机制	直接反馈（预测错了会知道）	间接反馈（没有明确的对错标准）
复杂度	计算相对复杂，但评估简单	算法逻辑可能简单，但结果评估难
典型算法	线性回归、SVM、决策树、神经网络	K-Means、PCA、Apriori、自编码器

工作流程与挑战

无监督学习的项目流程通常如下：

数据收集：获取大量未标注数据。
预处理：清洗数据，进行标准化（这对聚类和PCA尤为重要）。
模型训练：选择算法（如K-Means）进行训练。
结果评估：这是最难的一步，因为没有标准答案。
应用：将聚类结果用于业务分析，或将降维后的数据作为新特征输入到监督学习模型中。

主要挑战：

结果难以评估：因为没有“正确答案”，我们很难客观判断聚类的效果好坏。通常需要结合业务指标或使用轮廓系数等内部指标来辅助判断。
参数敏感：很多算法（如K-Means的K值，DBSCAN的半径）需要人工设定，结果对参数非常敏感。

AI知识探索库

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

文生图的原理和应用场景

文生图的原理和应用场景

AI知识探索库

1周前

0120

被ai取代概率最高的十大职业排名

被ai取代概率最高的十大职业排名

AI知识探索库

1个月前

0250

十大典型AI幻觉案例

十大典型AI幻觉案例

AI知识探索库

1周前

0150

受限玻尔兹曼机原理

新受限玻尔兹曼机原理

AI知识探索库

26分钟前

070

暂无评论

none

暂无评论...