Unsupervised Learning
UnsupervisedLearning
-
Supervised Learning:
- Learn from data labeled with the “right answers”.
- 从带有“正确答案”的有标签数据中进行学习。
-
Unsupervised Learning:
- Find something interesting in unlabeled data.
- 在无标签数据中找到有趣的模式。
这是机器学习中两种主要学习方式的简明描述。监督学习依赖于已标注的数据来学习,而无监督学习则在未标注的数据中找寻规律和结构。
Clustering
- "This is a particular type of unsupervised learning, called a clustering algorithm"
- “这是一种特殊类型的无监督学习,称为聚类算法。”
本质就是:Group similar data points together
- 新闻中的关键词提取(Keyword Extraction):
- 通过无监督学习的方法(例如聚类),可以从大量新闻文本中提取出代表性的关键词。关键词提取是利用文本数据中隐藏的模式,找到最能代表文章主题的词汇。
如上图:能清晰的观察到无监督学习获取的关键词,能精准的定位某个时间内的新闻文本大概会讲些什么
- DNA序列相似度(DNA Sequence Similarity):
- 使用无监督学习的模式检测方法,可以对不同的 DNA 序列进行比较,从中找到相似性。无监督学习可以帮助发现不同 DNA 片段之间的相似模式,这对基因分析和生物信息学非常重要。
如上图:能清晰的观察到无监督学习通过DNA片段的相似度,分为来多个区块,快速的区分各个区块的关系
举个例子:有很多人我们通过对他们的特征映射到二维坐标轴中,形成了下面的图
- X轴是特征的映射坐标
- Y轴是特征的映射坐标
我们并不给予映射具体含义,实际的机器学习中,每一个映射轴一定是有含义
无监督学习最后会将上面的图中的点 , 分类聚合为几个Cluster(集合,簇)
总的来说:无监督学习算法获取没有标签的数据并尝试自动将它们分到集群中。
Anomaly detection
- Find unusual data points
Dimensionality reduction
- Compress data using fewer numbers
- 将大数据集压缩为一个小数据集(降维度)
Anomaly detection 和 Dimensionality reductio后续会单独写一份笔记
本文是原创文章,采用 CC BY-NC-ND 4.0 协议,完整转载请注明来自 David
评论
匿名评论
隐私政策
你无需删除空行,直接评论以获取最佳展示效果