UnsupervisedLearning

Supervised Learning:
- Learn from data labeled with the “right answers”.
- 从带有“正确答案”的有标签数据中进行学习。
Unsupervised Learning:
- Find something interesting in unlabeled data.
- 在无标签数据中找到有趣的模式。

这是机器学习中两种主要学习方式的简明描述。监督学习依赖于已标注的数据来学习，而无监督学习则在未标注的数据中找寻规律和结构。

Clustering

"This is a particular type of unsupervised learning, called a clustering algorithm"
“这是一种特殊类型的无监督学习，称为聚类算法。”

本质就是：Group similar data points together

新闻中的关键词提取（Keyword Extraction）：
- 通过无监督学习的方法（例如聚类），可以从大量新闻文本中提取出代表性的关键词。关键词提取是利用文本数据中隐藏的模式，找到最能代表文章主题的词汇。

png

如上图：能清晰的观察到无监督学习获取的关键词，能精准的定位某个时间内的新闻文本大概会讲些什么

DNA序列相似度（DNA Sequence Similarity）：
- 使用无监督学习的模式检测方法，可以对不同的 DNA 序列进行比较，从中找到相似性。无监督学习可以帮助发现不同 DNA 片段之间的相似模式，这对基因分析和生物信息学非常重要。

png

如上图：能清晰的观察到无监督学习通过DNA片段的相似度，分为来多个区块，快速的区分各个区块的关系

举个例子：有很多人我们通过对他们的特征映射到二维坐标轴中，形成了下面的图

我们并不给予映射具体含义，实际的机器学习中，每一个映射轴一定是有含义

png

无监督学习最后会将上面的图中的点，分类聚合为几个Cluster（集合，簇）

png

总的来说：无监督学习算法获取没有标签的数据并尝试自动将它们分到集群中。

Anomaly detection 和 Dimensionality reductio后续会单独写一份笔记