UnsupervisedLearning

  • Supervised Learning:

    • Learn from data labeled with the “right answers”.
    • 从带有“正确答案”的有标签数据中进行学习。
  • Unsupervised Learning:

    • Find something interesting in unlabeled data.
    • 无标签数据中找到有趣的模式。

这是机器学习中两种主要学习方式的简明描述。监督学习依赖于已标注的数据来学习,而无监督学习则在未标注的数据中找寻规律结构

Clustering

  • "This is a particular type of unsupervised learning, called a clustering algorithm"
  • “这是一种特殊类型的无监督学习,称为聚类算法。”

本质就是:Group similar data points together

  1. 新闻中的关键词提取(Keyword Extraction)
    • 通过无监督学习的方法(例如聚类),可以从大量新闻文本中提取出代表性的关键词。关键词提取是利用文本数据中隐藏的模式,找到最能代表文章主题的词汇。

png

如上图:能清晰的观察到无监督学习获取的关键词,能精准的定位某个时间内的新闻文本大概会讲些什么

  1. DNA序列相似度(DNA Sequence Similarity)
    • 使用无监督学习的模式检测方法,可以对不同的 DNA 序列进行比较,从中找到相似性。无监督学习可以帮助发现不同 DNA 片段之间的相似模式,这对基因分析和生物信息学非常重要。

png

如上图:能清晰的观察到无监督学习通过DNA片段的相似度,分为来多个区块,快速的区分各个区块的关系

举个例子:有很多人我们通过对他们的特征映射到二维坐标轴中,形成了下面的图

  • X轴是特征的映射坐标
  • Y轴是特征的映射坐标

我们并不给予映射具体含义,实际的机器学习中,每一个映射轴一定是有含义

png

无监督学习最后会将上面的图中的点 , 分类聚合为几个Cluster(集合,簇)

png

总的来说:无监督学习算法获取没有标签的数据并尝试自动将它们分到集群中。

Anomaly detection

  • Find unusual data points

Dimensionality reduction

  • Compress data using fewer numbers
  • 将大数据集压缩为一个小数据集(降维度)

Anomaly detection 和 Dimensionality reductio后续会单独写一份笔记