深度学习相关概念及术语总结2

目录

  • 76.AUC
  • 77.DBSCAN聚类
  • 78.贝叶斯个性化排序
  • 79.BPR
  • 80. Bandit算法
  • 81.汤普森采样算法
  • 82.UCB算法
  • 83.epsilon贪婪算法
  • 84.β分布
  • 85.LinUCB算法

76.AUC

AUC(Area Under the Curve)是一种常用的评价指标,用于衡量分类模型的性能。AUC值代表了模型在不同阈值下的真阳性率(True Positive Rate)和假阳性率(False Positive Rate)之间的曲线下面积,范围通常在0.5到1之间。

在机器学习领域,AUC通常被用来评估二分类模型的性能,例如逻辑回归、支持向量机等。AUC值越接近1,表示模型的性能越好,能更好地区分正例和负例;而AUC值接近0.5,则表示模型的性能与随机猜测没有太大区别。

AUC的计算方法是,首先根据模型的预测结果对样本进行排序,然后通过计算不同阈值下的真阳性率和假阳性率,绘制出ROC曲线(Receiver Operating Characteristic curve),最后计算ROC曲线下的面积即为AUC值。

AUC是一个直观且常用的评价指标,特别适用于不平衡数据集的情况下,可以帮助评估模型的分类性能。

77.DBSCAN聚类

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的空间聚类算法。它能够识别出具有足够高密度的区域,并将这些区域划分为簇。同时,它还能够识别出低密度区域,这些区域通常被视为噪声。DBSCAN算法的一个优点是,它不需要预先指定簇的数量,而是根据数据的分布自动确定簇的数量。

使用DBSCAN进行聚类时,首先需要设置两个参数:epsilon(ε)和minPts。Epsilon是一个距离阈值,用于确定两个点之间的距离是否在同一个簇中。minPts是指在ε邻域内所需要的最小点数,用于确定核心点(core points)。

DBSCAN算法的主要步骤包括:

  1. 选择一个未被访问的点,并检查其ε邻域内是否有足够数量的点。如果有足够数量的点,则将这些点标记为同一个簇,并且这些点的ε邻域也会被搜索。
  2. 如果该点不是核心点,但落在某个核心点的ε邻域内,则将该点标记为边界点(border points)并分配到对应的簇。
  3. 重复以上步骤,直到所有点都被访问过。

DBSCAN算法的输出结果包括核心点、边界点和噪声点,以及它们所属的簇。与传统的K-means算法不同,DBSCAN算法不需要预先指定簇的数量,并且能够有效处理不规则形状的簇。

78.贝叶斯个性化排序

贝叶斯个性化排序是一种利用贝叶斯方法来进行个性化推荐的排序算法。它基于贝叶斯理论,利用用户的历史行为和特征数据,来预测用户对物品的喜好程度,进而实现个性化的推荐排序。

在贝叶斯个性化排序中,首先需要建立用户和物品的特征向量表示,例如用户的历史点击、购买、评分等行为数据,以及物品的属性、标签等特征。然后,利用这些特征向量,结合贝叶斯方法来计算用户对未浏览或未交互物品的喜好概率。

贝叶斯个性化排序的关键步骤包括:

  1. 建立用户和物品的特征向量表示。
  2. 利用用户历史行为数据,结合贝叶斯方法,计算用户对每个物品的喜好概率。
  3. 对未浏览或未交互的物品,根据用户的喜好概率进行排序,推荐给用户。

贝叶斯个性化排序能够充分考虑用户的个性化喜好,对于冷启动问题和稀疏性数据具有一定的鲁棒性,因此在个性化推荐系统中得到了广泛的应用。

79.BPR

BPR(Bayesian Personalized Ranking)模型是一种用于推荐系统的个性化排序模型,它基于贝叶斯推断方法,用于预测用户对物品的偏好程度。BPR模型的主要目标是优化个性化排序,使得在用户历史行为数据的基础上,对未交互的物品进行排序,以便进行个性化推荐。

BPR模型的核心思想是基于成对的物品偏好比较,而不是直接预测用户对物品的评分或点击概率。具体来说,BPR模型使用成对的物品比较关系,例如用户更喜欢物品A而不是物品B,来进行个性化排序。

BPR模型的训练过程通常采用随机梯度下降(Stochastic Gradient Descent, SGD)等方法,优化目标是最大化成对物品比较的似然概率。在模型训练过程中,BPR模型会考虑用户历史行为数据,学习用户的个性化偏好,并对未交互的物品进行排序。

BPR模型在推荐系统中得到广泛的应用,特别是在处理隐反馈数据(如用户行为数据中只包含了交互物品的信息,而没有具体的评分或点击行为)以及进行个性化排序时,能够取得较好的效果。

80. Bandit算法

Bandit算法是一类用于解决多臂赌博机问题的算法。在多臂赌博机问题中,有多个赌博机(也称为“臂”),每个赌博机都有一个不同的概率分布,玩家需要选择在哪个赌博机上下注,并观察结果。

Bandit算法的目标是在不断进行选择和观察的过程中,最大化累积的奖励。这种算法通常用于解决资源分配、在线广告投放、推荐系统等领域的问题。

常见的Bandit算法包括ε-greedy算法、UCB(Upper Confidence Bound)算法和Thompson Sampling算法。这些算法在平衡探索和利用之间有不同的策略,以最大化累积奖励。Bandit算法在强化学习和在线决策领域有着广泛的应用。

81.汤普森采样算法

汤普森采样算法(Thompson Sampling algorithm)是一种用于解决多臂赌博机问题的概率算法。该算法基于贝叶斯推断,通过不断更新每个赌博机的概率分布来进行决策。在每次选择赌博机时,汤普森采样算法会根据当前的概率分布随机选择一个赌博机,然后观察结果并更新概率分布。这样可以在不断进行选择和观察的过程中,逐渐收敛到最优的赌博机,以最大化累积奖励。

汤普森采样算法的优点在于它能够平衡探索和利用,通过考虑不确定性来进行决策,从而在一定程度上避免了贪心算法的缺点。汤普森采样算法在多臂赌博机问题、在线广告投放、推荐系统等领域有着广泛的应用。

82.UCB算法

UCB(Upper Confidence Bound)算法是一种用于解决多臂赌博机问题的算法。该算法通过平衡探索和利用来最大化累积奖励。

UCB算法的核心思想是在每次选择赌博机时,同时考虑该赌博机的平均奖励和不确定性。具体来说,UCB算法会维护一个置信上界,用于衡量每个赌博机的不确定性程度。在每次选择时,算法会选择具有最高置信上界的赌博机,以平衡探索未知赌博机和利用已知赌博机的奖励。

UCB算法通过不断更新置信上界来进行决策,以逐步收敛到最优的赌博机,从而最大化累积奖励。该算法在资源分配、在线广告投放、推荐系统等领域有着广泛的应用。

83.epsilon贪婪算法

ε-greedy算法是一种用于解决多臂赌博机问题的基本算法,旨在平衡探索和利用。在ε-greedy算法中,ε表示一个小的正数,通常在0和1之间。

算法工作原理如下:

  1. 在每次选择时,以ε的概率进行探索(即随机选择一个赌博机),以1-ε的概率进行利用(即选择当前平均奖励最高的赌博机)。
  2. 当进行探索时,随机选择一个赌博机进行拉杆(或选择),并观察结果并更新相应的奖励估计。
  3. 当进行利用时,选择当前平均奖励最高的赌博机进行拉杆(或选择)。

通过ε-greedy算法,可以在一定程度上平衡探索未知赌博机和利用已知赌博机的奖励,从而逐步收敛到最优的赌博机,以最大化累积奖励。ε-greedy算法是一种简单而有效的算法,在资源分配、在线广告投放、推荐系统等领域有着广泛的应用。

84.β分布

β分布是一种概率分布,通常用于描述在(0,1)区间内取值的随机变量。β分布由两个参数α和β控制,其概率密度函数如下所示:

f ( x ; α , β ) = x α − 1 ( 1 − x ) β − 1 B ( α , β ) f(x;\alpha,\beta) = \frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)} f(x;α,β)=B(α,β)xα1(1x)β1

其中,B(α, β)是贝塔函数,定义为:

B ( α , β ) = ∫ 0 1 t α − 1 ( 1 − t ) β − 1 d t B(\alpha, \beta) = \int_0^1 t^{\alpha-1}(1-t)^{\beta-1} dt B(α,β)=01tα1(1t)β1dt

β分布的形状取决于α和β的取值。当α=β=1时,β分布为均匀分布;当α>1且β=1时,β分布偏向于取值接近1;当α=1且β>1时,β分布偏向于取值接近0。此外,β分布还具有良好的性质,如共轭性,即当β分布作为先验分布时,与似然函数的乘积仍然是一个β分布。

β分布在贝叶斯统计、概率模型、A/B测试等领域有着广泛的应用。例如,在A/B测试中,我们可以使用β分布来建模转化率,用于估计和比较不同页面的性能。

85.LinUCB算法

LinUCB(线性置信区间上界)是一种用于多臂赌博机问题(multi-armed bandit problem)的算法。在多臂赌博机问题中,一个玩家需要在多个赌博机中进行选择,每个赌博机都有不同的概率分布和回报。玩家的目标是找到一种策略,使得在有限的时间内获得最大的累积回报。

LinUCB算法结合了置信区间估计和线性模型的思想,它基于每个赌博机的特征向量和奖励,使用线性模型来估计每个赌博机的回报期望,并使用置信区间来量化不确定性。算法会根据当前的置信度来选择下一个动作,以平衡探索和利用的权衡。

LinUCB算法在推荐系统、在线广告投放等领域有广泛的应用,能够有效地平衡对未知赌博机的探索和对已知赌博机的利用,从而实现更好的累积回报。

持续更新中!!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/770443.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【产品经理】订单处理11-订单修改场景梳理

为了应对订单修改的场景,电商ERP系统应该如何设计相应模块? 电商ERP系统,经常遇到需要修改订单的情况,修改订单主要以下几种场景: 一、修改商品 修改商品,包括对正常商品的换货、以及对赠品的增删改。 1…

【SQL】已解决:SQL分组去重并合并相同数据

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决:SQL分组去重并合并相同数据 在数据库操作中,数据的分组、去重以及合并是常见需求。然而,初学者在编写SQL语句时,可能会遇到一…

【JNDI注入利用工具】JNDIExploit v1.1

# 简介 JNDIExploit一款用于 JNDI注入 利用的工具,大量参考/引用了 Rogue JNDI 项目的代码,集成了JDNI注入格式,能够更加方便的开启服务端后直接利用,支持反弹Shell、命令执行、直接植入内存shell等,并集成了常见的by…

[单master节点k8s部署]17.监控系统构建(二)Prometheus安装

prometheus server安装 创建sa账号,对prometheus server进行授权。因为Prometheus是安装在pod里面,以pod的形式去运行的,因此需要创建sa,并对他做rbac授权。 apiVersion: v1 kind: ServiceAccount metadata:name: monitornamesp…

k8s学习--k8s群集部署zookeeper应用及详细解释

文章目录 zookeeper什么是zookeeper基本概念主要功能工作原理使用场景优点缺点 k8s集群部署zookeeper环境一、zookeeper部署YAML资源清单准备二、zookeeper部署及部署验证三、zookeeper应用验证 zookeeper 什么是zookeeper ZooKeeper 是一个开源的分布式协调服务,…

Windows11 安装MySQL

MySQL下载官网 安装教程参考 选择Windows离线安装 典型安装

优化页面加载时间

注:机翻,未校对。 本文年代久远,除了少部分不合时宜的,其他仍有借鉴意义。 Optimizing Page Load Time 优化页面加载时间 It is widely accepted that fast-loading pages improve the user experience. In recent years, many …

Pharmacy Management System v1.0 文件上传漏洞(CVE-2022-30887)

前言 CVE-2022-30887 是一个存在于 Pharmacy Management System v1.0 中的远程代码执行(RCE)漏洞。这个漏洞存在于 /php_action/editProductImage.php 组件中。攻击者可以通过上传一个精心制作的图像文件来执行任意代码。 漏洞详细信息 漏洞描述: Pha…

java项目总结2

3.了解Java的内存分配 4.重载 定义:在一个类中,有相同名的,但是却是不同参数(返回类型可以不一样) 重载的优点: 1.减少定义方法时使用的单词 2.减少调用方法时候的麻烦(比如sum的返回两个数的…

5月1日起,《碳排放权交易管理暂行条例》正式施行

2024年5月1日,《碳排放权交易管理暂行条例》(以下简称《条例》)正式施行,作为我国应对气候变化领域的第一部专门法规,《条例》首次以行政法规的形式明确了碳排放权市场交易制度。 作为碳排放权交易市场的重要补充&…

关于腾讯的哪些事(4月新闻纪要)

科技进步一等奖! 这份文件是关于腾讯Angel机器学习平台获得2023年中国电子学会科学技术奖科技进步一等奖的详细介绍。主要内容涵盖了获奖项目《面向大规模数据的Angel机器学习平台关键技术及应用》的技术特点、应用效果以及发展历程。以下是详细总结: 获…

数据结构——树的基础概念

目录 1.树的概念 2.树的相关概念 3.树的表示 (1)直接表示法 (2)双亲表示法 (3)左孩子右兄弟表示法 4.树在实际中的运用(表示文件系统的目录树结构) 1.树的概念 树是一种非线性的数据结构&#xff0…

关于一些数据资源入表事项

一、入表条件: 2024年1月1日《企业数据资源相关会计处理暂行规定》开始执行,以上简称《企业会计准则》,它将资产定义为“企业过去的交易或者事项形成的、由企业拥有或者控制的、预期会给企业带来经济利益的资源”。需要说明的是,…

github 设置中文,亲测有效

点进去 安装 选上面第二个,不行再选第一个 GitHub - maboloshi/github-chinese: GitHub 汉化插件,GitHub 中文化界面。 (GitHub Translation To Chinese)

Java学习十二—Java8特性之Optional类

一、简介 Java 8 引入了 Optional​ 类作为一种容器,可以用来显式地表示一个值存在或不存在。它解决了传统上可能会遇到的空指针异常问题,同时提供了一种更优雅的方式来处理可能为null的情况。 Java 8 中引入 Optional​ 类的背景可以从以下几个方面来理…

Ubuntu查看opencv版本c++

✗命令行中直接输入: pkg-config --modversion opencv✔命令行中直接输入: pkg-config --modversion opencv4注解:附上在markdown中打勾,对号和打叉。使用时将&和#之间的空格去掉,这里只是为了不让CSDN自动转换才…

内容监管与自由表达:Facebook的平衡之道

在当今数字化信息社会中,社交媒体平台不仅是人们交流和获取信息的主要渠道,也是自由表达的重要舞台。Facebook,作为全球最大的社交网络平台,连接了数十亿用户,形成了一个丰富多样的信息生态。然而,如何在维…

怎么加密CAD图纸丨企业级图纸加密软件排行榜

我们为什么需要一款好用的图纸加密软件? CAD图纸包含企业的核心设计和技术,是宝贵的知识产权。加密软件可以防止未经授权的人员获取和复制这些设计。 通过加密,可以有效防止CAD图纸在传输或存储过程中被窃取或泄露,特别是在互联…

软考的报名详细流程

2024年软考的考试时间已经公布,分别为5月25日至28日和11月9日至12日。准备参加2024年软考的朋友们,一定要提前关注官方发布的考试安排。 本文将详细介绍软考报考的整个流程。准备报考的朋友们,阅读本文就足够啦!软考的报考流程大致…

面向高精度导航定位领域的UM980RTK定位模块

UM980 是和芯星通自主研发的新一代 BDS/GPS/GLONASS/Galileo/QZSS 全系统全频高精度 RTK 定位模块,基于和芯星通自主研发的新一代射频基带及高精度算法一体化GNSS SoC 芯片—NebulasIV 设计。可同时跟踪 BDS, GPS, GLONASS, Galileo, QZSS, NavIC, SBAS, L-Band* 等…