什么是无监督学习

无监督学习(Unsupervised Learning)是机器学习的另一大支柱。如果说监督学习是“有老师带着学”,那么无监督学习就是“自学”。

它的核心在于:给算法的数据没有标签(没有标准答案),让算法自己去挖掘数据内部隐藏的结构、模式或规律。

什么是无监督学习

核心概念:什么是“无监督”?

在无监督学习中,我们只给计算机提供“题目”(输入数据),但不给“答案”(标签)。
  • 输入:一堆杂乱的数据(如:成千上万张未分类的照片、超市所有的销售记录)。
  • 目标:让算法自己去发现“这些照片里哪些是风景,哪些是人”或者“哪些商品经常被一起买走”。

这就像把一堆乐高积木倒在地上,不给孩子图纸,让他自己探索能拼出什么形状。

三大核心任务

无监督学习主要解决以下三类问题:

1. 聚类


这是最典型的无监督学习任务。目的是将数据分成不同的组(簇),使得组内数据非常相似,组间数据差异很大
  • 典型算法
    • K-均值聚类 (K-Means):最经典的算法,预先指定分成K类,通过迭代找到每个类的中心。
    • 层次聚类 (Hierarchical Clustering):像家谱一样,通过不断合并或分裂构建出树状的聚类结构。
    • DBSCAN:基于密度的聚类,能发现任意形状的簇,并能自动识别并剔除“噪声”点。
  • 应用:用户分群(电商将用户分为高消费、价格敏感等群体)、新闻自动归类。

2. 降维

当数据特征非常多(高维)时,不仅计算困难,而且难以可视化。降维就是在保留主要信息的前提下,减少数据的特征数量。
  • 典型算法
    • 主成分分析 (PCA):最常用的线性降维方法,通过数学变换找到数据方差最大的方向(主成分),把高维数据“投影”到低维空间。
    • t-SNE:一种非线性降维方法,特别擅长将高维数据映射到2D或3D平面进行可视化展示。
  • 应用:数据压缩(减少存储空间)、数据可视化(把高维数据画出来看分布)、去除噪声。

3. 关联规则学习

目的是发现数据集中各项之间的有趣关系或规律,通常表现为“如果…那么…”的规则。
  • 典型算法
    • Apriori:经典的算法,通过迭代扫描数据来发现频繁项集。
    • FP-Growth:Apriori的高效改进版,利用树结构(FP树)加速挖掘过程。
  • 应用:购物篮分析(经典的“啤酒与尿布”案例)、推荐系统(“购买了此商品的用户也购买了…”)。

🆚 对比:监督学习 vs. 无监督学习

表格

维度监督学习无监督学习
数据标签有标签(有标准答案)无标签(只有数据本身)
目标预测新数据的标签(分类/回归)发现数据内在结构(聚类/降维/关联)
反馈机制直接反馈(预测错了会知道)间接反馈(没有明确的对错标准)
复杂度计算相对复杂,但评估简单算法逻辑可能简单,但结果评估难
典型算法线性回归、SVM、决策树、神经网络K-Means、PCA、Apriori、自编码器

工作流程与挑战

无监督学习的项目流程通常如下:
  1. 数据收集:获取大量未标注数据。
  2. 预处理:清洗数据,进行标准化(这对聚类和PCA尤为重要)。
  3. 模型训练:选择算法(如K-Means)进行训练。
  4. 结果评估:这是最难的一步,因为没有标准答案。
  5. 应用:将聚类结果用于业务分析,或将降维后的数据作为新特征输入到监督学习模型中。
主要挑战:
  • 结果难以评估:因为没有“正确答案”,我们很难客观判断聚类的效果好坏。通常需要结合业务指标或使用轮廓系数等内部指标来辅助判断。
  • 参数敏感:很多算法(如K-Means的K值,DBSCAN的半径)需要人工设定,结果对参数非常敏感。
© 版权声明

相关文章

暂无评论

none
暂无评论...