Machine Learning¶
约 1591 个字 预计阅读时间 5 分钟
definition 机器学习(Machine Learning, ML)是一种通过数据驱动的方法,利用统计学和计算算法来训练模型,使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本,识别其中的模式和规律,从而对新的数据进行判断。其核心在于通过训练过程,让模型不断优化和提升其预测准确性。
监督学习 SL 需要有明确的目标,很清楚自己想要什么结果。 流程: 1. 选择一个适合目标任务的数学模型 2. 先把一部分已知的“问题和答案”(训练集)给机器去学习 3. 机器总结出了自己的“方法论” 4. 人类把”新的问题”(测试集)给机器,让他去解答
任务: 1. 回归 2. 分类 回归:预测连续的、具体的数值。比如:支付宝里的芝麻信用分数(下面有详细讲解)
分类:对各种事物分门别类,用于离散型(什么是离散?)预测。
无监督学习 UL 非监督学习中,给定的数据集没有“正确答案”,所有的数据都是一样的。无监督学习的任务是从给定的数据集中,挖掘出潜在的结构。 无监督学习是在没有标注数据的情况下,模型需要自己发现数据的结构和模式。
特点: 1. 无监督学习没有明确的目的 2. 无监督学习不需要给数据打标签 3. 无监督学习无法量化效果
用处: 发现异常 用户细分 推荐系统
算法: 聚类: 简单说就是一种自动分类的方法,在监督学习中,你很清楚每一个分类是什么,但是聚类则不是,你并不清楚聚类后的几个分类每个代表什么意思。 K均值聚类就是制定分组的数量为K,自动进行分组。 降维: 降维看上去很像压缩。这是为了在尽可能保存相关的结构的同时降低数据的复杂度。 不知道应该分为几类,层次聚类会构建一个多层嵌套的分类,类似一个树状结构。
强化学习 RL 强化学习是一种通过与环境交互来学习策略的算法。模型通过试错方式,不断调整其策略以获得最大化的奖励。
- 机器有一个明确的小鸟角色——代理
- 需要控制小鸟飞的更远——目标
- 整个游戏过程中需要躲避各种水管——环境
- 躲避水管的方法是让小鸟用力飞一下——行动
- 飞的越远,就会获得越多的积分——奖励
应用: 游戏 AlphaGo Zero :自我对战 机器人 实现平衡控制、机械臂的推理能力
特点: 不需要大量的“数据喂养”。而是通过自己不停的尝试来学会某些技能。
分类: 免模型学习(Model-Free) vs 有模型学习(Model-Based)
重要差异是:智能体是否能完整了解或学习到所在环境的模型
有模型学习(Model-Based)对环境有提前的认知,可以提前考虑规划,但是缺点是如果模型跟真实世界不一致,那么在实际使用场景下会表现的不好。 有模型学习 – 纯规划 : 每次准备和环境进行互动时,都会计算得到一个对于当前模型最优的规划,这里的规划指的是未来一个固定时间段内,智能体会采取的所有行动 有模型学习 – Expert Iteration
免模型学习(Model-Free)放弃了模型学习,在效率上不如前者,但是这种方式更加容易实现,也容易在真实场景下调整到很好的状态。所以免模型学习方法更受欢迎,得到更加广泛的开发和测试。 免模型学习 – 策略优化(Policy Optimization): 每一步更新只会用最新的策略执行时采集到的数据。 免模型学习 – Q-Learning : 这意味着每次更新可以使用任意时间点的训练数据,不管获取数据时智能体选择如何探索环境。
ML 主要类型 1. 监督学习(Supervised Learning) 监督学习是指在训练数据集中包含输入和相应的正确输出,通过学习这些输入输出对,模型能够推断出新的数据。常见的监督学习算法有:
线性回归(Linear Regression):用于预测连续变量。例如,预测房价、股票价格等。 逻辑回归(Logistic Regression):用于二分类问题,如垃圾邮件检测、肿瘤良恶性预测等。 支持向量机(Support Vector Machine, SVM):适用于分类和回归任务,通过寻找最优超平面分隔数据。 决策树(Decision Tree):通过树状结构进行决策,直观且易于解释。 随机森林(Random Forest):集成多棵决策树,通过投票机制提高模型的稳定性和准确性。 K-近邻算法(K-Nearest Neighbors, KNN):通过比较邻近数据点进行分类或回归,简单且有效。 2. 无监督学习(Unsupervised Learning) 无监督学习是在没有标注数据的情况下,模型需要自己发现数据的结构和模式。常见的无监督学习算法有:
聚类算法(Clustering Algorithms):如K-means、层次聚类等,用于将相似的数据点分组。 主成分分析(Principal Component Analysis, PCA):用于降维,提取数据中最重要的特征。 关联规则学习(Association Rule Learning):如Apriori算法,用于发现数据中的关联关系,常用于市场篮子分析。 3. 强化学习(Reinforcement Learning) 强化学习是一种通过与环境交互来学习策略的算法。模型通过试错方式,不断调整其策略以获得最大化的奖励。典型应用包括游戏AI、机器人控制等。主要方法包括:
Q-learning:通过更新Q值表格来学习最优策略。 深度强化学习(Deep Reinforcement Learning):结合深度学习技术,如深度Q网络(DQN),用于处理复杂的高维度问题。 https://blog.csdn.net/weixin_42132035/article/details/140237091