Machine Learning¶

约 1591 个字预计阅读时间 5 分钟

definition 机器学习（Machine Learning, ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。

机器学习三种学习方法

监督学习 SL 需要有明确的目标，很清楚自己想要什么结果。流程： 1. 选择一个适合目标任务的数学模型 2. 先把一部分已知的“问题和答案”（训练集）给机器去学习 3. 机器总结出了自己的“方法论” 4. 人类把”新的问题”（测试集）给机器，让他去解答

任务： 1. 回归 2. 分类 回归：预测连续的、具体的数值。比如：支付宝里的芝麻信用分数(下面有详细讲解)

分类：对各种事物分门别类，用于离散型（什么是离散？）预测。

无监督学习 UL 非监督学习中，给定的数据集没有“正确答案”，所有的数据都是一样的。无监督学习的任务是从给定的数据集中，挖掘出潜在的结构。无监督学习是在没有标注数据的情况下，模型需要自己发现数据的结构和模式。

特点： 1. 无监督学习没有明确的目的 2. 无监督学习不需要给数据打标签 3. 无监督学习无法量化效果

用处：发现异常用户细分推荐系统

算法：聚类：简单说就是一种自动分类的方法，在监督学习中，你很清楚每一个分类是什么，但是聚类则不是，你并不清楚聚类后的几个分类每个代表什么意思。 K均值聚类就是制定分组的数量为K，自动进行分组。降维：降维看上去很像压缩。这是为了在尽可能保存相关的结构的同时降低数据的复杂度。不知道应该分为几类，层次聚类会构建一个多层嵌套的分类，类似一个树状结构。

强化学习 RL 强化学习是一种通过与环境交互来学习策略的算法。模型通过试错方式，不断调整其策略以获得最大化的奖励。

机器有一个明确的小鸟角色——代理
需要控制小鸟飞的更远——目标
整个游戏过程中需要躲避各种水管——环境
躲避水管的方法是让小鸟用力飞一下——行动
飞的越远，就会获得越多的积分——奖励

应用：游戏 AlphaGo Zero ：自我对战机器人实现平衡控制、机械臂的推理能力

特点：不需要大量的“数据喂养”。而是通过自己不停的尝试来学会某些技能。

分类： 免模型学习（Model-Free） vs 有模型学习（Model-Based）

重要差异是：智能体是否能完整了解或学习到所在环境的模型

有模型学习（Model-Based）对环境有提前的认知，可以提前考虑规划，但是缺点是如果模型跟真实世界不一致，那么在实际使用场景下会表现的不好。 有模型学习 – 纯规划 : 每次准备和环境进行互动时，都会计算得到一个对于当前模型最优的规划，这里的规划指的是未来一个固定时间段内，智能体会采取的所有行动 有模型学习 – Expert Iteration

免模型学习（Model-Free）放弃了模型学习，在效率上不如前者，但是这种方式更加容易实现，也容易在真实场景下调整到很好的状态。所以免模型学习方法更受欢迎，得到更加广泛的开发和测试。 免模型学习 – 策略优化（Policy Optimization）: 每一步更新只会用最新的策略执行时采集到的数据。 免模型学习 – Q-Learning : 这意味着每次更新可以使用任意时间点的训练数据，不管获取数据时智能体选择如何探索环境。

ML 主要类型 1. 监督学习（Supervised Learning）监督学习是指在训练数据集中包含输入和相应的正确输出，通过学习这些输入输出对，模型能够推断出新的数据。常见的监督学习算法有：

线性回归（Linear Regression）：用于预测连续变量。例如，预测房价、股票价格等。逻辑回归（Logistic Regression）：用于二分类问题，如垃圾邮件检测、肿瘤良恶性预测等。支持向量机（Support Vector Machine, SVM）：适用于分类和回归任务，通过寻找最优超平面分隔数据。决策树（Decision Tree）：通过树状结构进行决策，直观且易于解释。随机森林（Random Forest）：集成多棵决策树，通过投票机制提高模型的稳定性和准确性。 K-近邻算法（K-Nearest Neighbors, KNN）：通过比较邻近数据点进行分类或回归，简单且有效。 2. 无监督学习（Unsupervised Learning）无监督学习是在没有标注数据的情况下，模型需要自己发现数据的结构和模式。常见的无监督学习算法有：

聚类算法（Clustering Algorithms）：如K-means、层次聚类等，用于将相似的数据点分组。主成分分析（Principal Component Analysis, PCA）：用于降维，提取数据中最重要的特征。关联规则学习（Association Rule Learning）：如Apriori算法，用于发现数据中的关联关系，常用于市场篮子分析。 3. 强化学习（Reinforcement Learning）强化学习是一种通过与环境交互来学习策略的算法。模型通过试错方式，不断调整其策略以获得最大化的奖励。典型应用包括游戏AI、机器人控制等。主要方法包括：

Q-learning：通过更新Q值表格来学习最优策略。深度强化学习（Deep Reinforcement Learning）：结合深度学习技术，如深度Q网络（DQN），用于处理复杂的高维度问题。 https://blog.csdn.net/weixin_42132035/article/details/140237091

Machine Learning¶

颜色主题调整