无监督学习(Unsupervised Learning)是机器学习的另一大支柱。如果说监督学习是“有老师带着学”,那么无监督学习就是“自学”。
它的核心在于:给算法的数据没有标签(没有标准答案),让算法自己去挖掘数据内部隐藏的结构、模式或规律。

核心概念:什么是“无监督”?
在无监督学习中,我们只给计算机提供“题目”(输入数据),但不给“答案”(标签)。
- 输入:一堆杂乱的数据(如:成千上万张未分类的照片、超市所有的销售记录)。
- 目标:让算法自己去发现“这些照片里哪些是风景,哪些是人”或者“哪些商品经常被一起买走”。
这就像把一堆乐高积木倒在地上,不给孩子图纸,让他自己探索能拼出什么形状。
三大核心任务
无监督学习主要解决以下三类问题:
1. 聚类
- 典型算法:
- K-均值聚类 (K-Means):最经典的算法,预先指定分成K类,通过迭代找到每个类的中心。
- 层次聚类 (Hierarchical Clustering):像家谱一样,通过不断合并或分裂构建出树状的聚类结构。
- DBSCAN:基于密度的聚类,能发现任意形状的簇,并能自动识别并剔除“噪声”点。
- 应用:用户分群(电商将用户分为高消费、价格敏感等群体)、新闻自动归类。
2. 降维
当数据特征非常多(高维)时,不仅计算困难,而且难以可视化。降维就是在保留主要信息的前提下,减少数据的特征数量。
- 典型算法:
- 主成分分析 (PCA):最常用的线性降维方法,通过数学变换找到数据方差最大的方向(主成分),把高维数据“投影”到低维空间。
- t-SNE:一种非线性降维方法,特别擅长将高维数据映射到2D或3D平面进行可视化展示。
- 应用:数据压缩(减少存储空间)、数据可视化(把高维数据画出来看分布)、去除噪声。
3. 关联规则学习
目的是发现数据集中各项之间的有趣关系或规律,通常表现为“如果…那么…”的规则。
- 典型算法:
- Apriori:经典的算法,通过迭代扫描数据来发现频繁项集。
- FP-Growth:Apriori的高效改进版,利用树结构(FP树)加速挖掘过程。
- 应用:购物篮分析(经典的“啤酒与尿布”案例)、推荐系统(“购买了此商品的用户也购买了…”)。
🆚 对比:监督学习 vs. 无监督学习
表格
| 维度 | 监督学习 | 无监督学习 |
|---|---|---|
| 数据标签 | 有标签(有标准答案) | 无标签(只有数据本身) |
| 目标 | 预测新数据的标签(分类/回归) | 发现数据内在结构(聚类/降维/关联) |
| 反馈机制 | 直接反馈(预测错了会知道) | 间接反馈(没有明确的对错标准) |
| 复杂度 | 计算相对复杂,但评估简单 | 算法逻辑可能简单,但结果评估难 |
| 典型算法 | 线性回归、SVM、决策树、神经网络 | K-Means、PCA、Apriori、自编码器 |
工作流程与挑战
无监督学习的项目流程通常如下:
- 数据收集:获取大量未标注数据。
- 预处理:清洗数据,进行标准化(这对聚类和PCA尤为重要)。
- 模型训练:选择算法(如K-Means)进行训练。
- 结果评估:这是最难的一步,因为没有标准答案。
- 应用:将聚类结果用于业务分析,或将降维后的数据作为新特征输入到监督学习模型中。
主要挑战:
- 结果难以评估:因为没有“正确答案”,我们很难客观判断聚类的效果好坏。通常需要结合业务指标或使用轮廓系数等内部指标来辅助判断。
- 参数敏感:很多算法(如K-Means的K值,DBSCAN的半径)需要人工设定,结果对参数非常敏感。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



