关键词:
【中文标题】确定文章质量的算法【英文标题】:Algorithm to determine quality of an article 【发布时间】:2013-07-01 23:05:40 【问题描述】:我正在开展一个项目,该项目需要我解析新闻文章并确定其中最好的文章。我发现要确定一篇文章的质量,我需要三个主要参数:一篇文章的长度、Facebook 分享/转发以及文章发布后的时间。
我现在面临的问题是如何将所有三个参数放在一个数学函数中,并为每篇文章得出一个分数?分配给他们每个人的分数将帮助我对文章进行排名并将其展示给用户。
如果在确定质量时我需要考虑任何其他参数,请告诉我。
【问题讨论】:
如果你能准确解决这个问题,你在学生论文评分自动化方面大有可为! @emschorsch 这并不遥远,几个 Pearson 测试已经自动评分。或者查看开源解决方案kaggle.com/c/ASAP-AES。可以在论坛中找到技术跟进:kaggle.com/c/asap-aes/forums/t/2100/what-approach-did-you-use kaggle 很棒,我真的很想尝试更多他们的比赛。然而,话虽如此,我对任何自动化论文评分的尝试持怀疑态度。这是一个独特的领域,因为它的主要用例,评分,是学生积极尝试操纵系统的地方。学生将很快掌握诸如长度加权、词汇加权等特征。考虑到不断变化的竞争环境,似乎无法准确地做到这一点。 【参考方案1】:我不确定您的项目的确切性质是什么,但这项任务很难准确地完成。您如何考虑到最常被分享/喜欢的文章往往是最两极分化的文章这一事实。喜欢/分享的数量也明显受到新闻网站受欢迎程度的影响。我认为任何类型的自动文本分析都不够准确,并且很容易被滥用。那么你最好的选择是寻找指示性代理,例如:
通过在 google 搜索结果中的排名来衡量网站的声誉 按流量衡量的网站受欢迎程度 您提到的 Facebook 喜欢/分享的数量 互联网上链接到文章的地方的数量。由于很难获得包含文章等级的数据集,因此您可能无法进行任何类型的统计分析。相反,您只需要制定一个公式并根据您的最佳判断权衡参数。为了稍微支持这一点,也许可以对几篇文章进行手工评分,看看有什么不同的公式给你。
【讨论】:
这是一个网络应用程序,它收集来自不同来源的最新新闻项目并将最好的新闻项目展示给用户,我一定会考虑您列出的其他参数。 “喜欢/分享的数量也明显受到新闻网站受欢迎程度的影响”。这是我担心的事情。 如果您的应用适合重复访问者,您可能还需要考虑跟踪人们点击的文章长度,并根据您确定的特定用户的首选长度对文章进行排名。 是的,肯定会有回头客。有了所有参数,我现在唯一担心的是如何将它们全部放入一个简单的数学函数中。 一旦你得到一些数据,你可以对每个参数进行标准化,这样你就可以比较不同的参数值(减去平均值并除以标准偏差)。然后最简单的就是对标准化参数进行加权平均。权重将是您对每个参数的相对重要性。对于这种任务,我的猜测是权重可能最好通过反复试验和人为判断来确定。 非常感谢@emschorsch 的建议。我会试试看。【参考方案2】:您的愿望很容易实现。您必须处理您感兴趣的各种数据:增加和减少数据。增加数据被认为是“好”,好吧,只要它增加。数据越接近零,越被认为是“更好”。
原来这四个数据集都是简单的整数:
增加数据
shares:正整数s \in N_0
(从零到无穷大的每个整数)
转推:正整数r \in N_0
减少数据
对于递减数据,您希望使用绝对值作为指标:
让t_0
成为文章的时间戳(unix 左右)。
设T
为当前时间戳。
让l_0
表示被认为是“最佳”的文章的长度。
让L
表示文章的实际长度。
然后:
时间:|t_0 - T|
越接近零越好
长度:|l_0 - L|
越接近零越好
因为绝对值是正整数,所以它遵循:
|l_0 - L| + |t_0 - T|
更接近于零,因为|t_0 - T|
和 |l_0 - L|
更接近于零。
对于不断增加的数字也是如此。
因此,一篇文章越有可能具有“正确”的长度和新的,这个数字越接近于零。
结论
增加数与减少数的商本身也在增加。想一想:分母越小商越大。分子越大商越大。
这意味着:如果认为商“更好”
(s+r) / (|l_0 - L| + |t_0 - T|)
上升。
这不再是整数了。
增强
使用ln
,您可以缓和分享和转发的上升,让分数变得更“自然”。
ln(s+r) / (|l_0 - L| + |t_0 - T|)
你可以使用exp
来软化分母:
ln(s+r) / exp(-(|l_0 - L| + |t_0 - T|))
【讨论】:
图像缩放算法
...csdn.net/qq_21792169/article/details/51020005转载别人的,但是这篇文章写得确实太好了,所以想分享出来,可是原创文章地址找不到了,很可惜。 图像缩放算法 摘要:首先给出一个基本的图像缩放算法,然后一步一步的优化其速... 查看详情
在质量和成本限制的情况下最大化运输利润的算法
...1-12-0719:36:00【问题描述】:标题不是很有帮助,因为我不确定我要准确地说什么。我确信必须存在一个算法,但我不记得了。注意:不是作业问题,我很久以前就完成了学业。那么问题来了:我们正在从事运输和贸易工作,努力... 查看详情
chatgpt如何批量撰写最新的热点自媒体文章
...c;本文将介绍如何使用ChatGPT来创作高质量的自媒体文章。确定主题和关键词:首先,确定需要写作的主题和关键词。这将为ChatGPT提供必要的信息来生成文章。主题越明确,关键词越具体,生成的文章就越贴切。设... 查看详情
互联网协议—tcp—拥塞控制(网络质量保障)
目录文章目录目录拥塞控制慢启动算法拥塞避免算法拥塞发生算法发生超时重传的拥塞发生算法发生快速重传的拥塞发生算法快速恢复算法BBR算法粘包与拆包拥塞控制前面的流量控制是避免「发送方」的数据填满「接收方」的缓... 查看详情
图像算法工程师岗位的主要职责
参考技术A图像算法工程师岗位的主要职责一、确定岗位的职责1.根据工作任务的需要确立工作岗位名称及其数量;2.根据岗位工种确定岗位职务范围;3.根据工种性质确定岗位使用的设备、工具、工作质量和效率;4.明确岗位环境和确... 查看详情
软件
...,或者直接导入文章进行批量续写。使用方法:确定软文的主题:确定软文所要论述的主题和关键词,从而利用ChatGPT生成相关的文章。提供高质量输入:ChatGPT生成的文本质量与输入数据的质量直接相关。因此... 查看详情
确定语句/文本的积极或消极程度的算法
】确定语句/文本的积极或消极程度的算法【英文标题】:Algorithmtodeterminehowpositiveornegativeastatement/textis【发布时间】:2010-09-2212:31:48【问题描述】:我需要一个算法来确定一个句子、段落或文章的语气是消极的还是积极的……或... 查看详情
h.264---码率控制策略
...宽)。这个算法也算是码率控制最难的算法了,因为无法确定何时有motion发生,假设在码率统计窗口的最后一帧发生motion,就会导致该帧size变大,从而导致统计的码率大于预设的码率,也就是说每秒统计一次码率是不合理的,应... 查看详情
知识融合算法测试方案(知识生产质量保障)
相关文章项目链接:特定领域知识图谱知识融合方案(实体对齐):优酷领域知识图谱为例特定领域知识图谱知识融合方案(实体对齐):文娱知识图谱构建之人物实体对齐 查看详情
如何确定 iOS 中的连接质量?
】如何确定iOS中的连接质量?【英文标题】:HowcanIdeterminethequalityofaconnectioniniOS?【发布时间】:2011-12-0717:05:30【问题描述】:我熟悉使用Reachability来确定iOS设备上使用的互联网连接类型(如果有)。不幸的是,这并不是连接质量... 查看详情
分布式系列文章——paxos算法原理与推导
...:1.难以理解2.工程实现更难。网上有很多讲解Paxos算法的文章,但是质量参差不齐。看了很多关于Paxos的资料后发现,学习Paxos最好的资料是论文《PaxosMadeSimp 查看详情
-chatgpt文章生成器
ChatGPT:一键批量生成高质量文章,提高生产效率!随着信息爆炸的时代,文本生产成为了各个行业必不可少的一部分。但面对高强度的生产需求,人力资源却难以跟上步伐。现在,我们有一款基于人工智... 查看详情
成像问题:如何确定图像质量?
】成像问题:如何确定图像质量?【英文标题】:ImagingQuestion:Howtodetermineimagequality?【发布时间】:2010-09-3022:03:39【问题描述】:我正在寻找确定摄影质量的方法(jpg)。我想到的第一件事是将文件大小与存储在其中的像素数量进行... 查看详情
高质量博客整理推荐
这篇随笔主要用来记录我平时看过的一些质量较好的文章,分类整理出来。 机器学习:K-近邻算法(KNN):https://www.cnblogs.com/ybjourney/p/4702562.html 查看详情
如何通过 SSIM 确定图像质量?
】如何通过SSIM确定图像质量?【英文标题】:HowtodetermineanimagequalitybySSIM?【发布时间】:2014-12-2709:12:22【问题描述】:我以前知道SSIM是一种衡量两张图片相似度的方法。如何通过SSIM分数确定处理后图像的质量。方法是以最大值... 查看详情
如何调查集群质量?
...,在聚类之前不可能提前知道要使用的k的值,而且我不确定自己想要拥有的聚类数量。我想我可以只获取集群并手动观察同一集群中实体之前未观察到的相似 查看详情
分布式系统(代码片段)
...核心算法只能确认一个值,而在工程实践中往往需要确定一系列值,所以才有了multi-paxos;而raft本身就能确定多个值,可以直接用于工程实践,multi-raft是为了解决性能问题才出现的。raft原论文只涉及core-raft算... 查看详情
***随机文章,但只有高质量的? [关闭]
】***随机文章,但只有高质量的?[关闭]【英文标题】:Wikipediarandomarticles,butonlyhighqualityones?[closed]【发布时间】:2022-01-2320:13:37【问题描述】:我想查看高质量的随机***文章。例如。特色、一流、好等。怎么做?文章质量评估信... 查看详情