今日头条算法

alex.shu alex.shu     2022-08-24     437

关键词:

Reference: http://blog.csdn.net/u014114990/article/details/48165781

 

日头条涉及到算法:
(1)今日头条服务器1000台左右,通过代码实现的爬虫功能,在其他传媒的网站和门户上抓取各种信息。如果在网站上抓取到纸媒的内容,优先从纸媒门户上抓取信息
(2)抓取信息后,对有价值的信息通过算法进行分析归类。
(3)推送到有感兴趣的今日头条客户端
(4)用户注册或登录(新浪微博、QQ、人人网)时,通过数据挖掘分析,对用户进行分析,推荐感兴趣的信息。
(5)推送后,根据用户的体验(阅读时间、评论)判断信息是否符合客户需求,再进一步调整推送信息内容。
(6)敏感信息审查

(7)网页转码,手机信息打开纸媒或网站信息,因附带有大量广告或样式信息,下载速度很慢,影响用户体验,转码后保留内容资源,格式更适合阅读。

 

 

今日头条核心技术“个性推荐算法”揭秘

2015年01月22日00:00 it168网站原创 作者:覃里 编辑:覃里 查看全文
赞(3)评论(2) 分享
标签: 互联网 , 大数据

  【IT168 评论】互联网给用户带来了大量的信息,满足了用户在信息时代对信息的需求,也使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,而通常解决这个问题最常规的办法是推荐系统,推荐系统能有效帮助用户快速发现感兴趣和高质量的信息,提升用户体验,增加用户使用产品时间,并有效减少用户浏览到重复或者厌恶的信息带来的不利影响。通常推荐系统越精准,用户体验就越好,用户停留时间也会越长,也越容易留住用户。

  1月20日,新生代移动互联网企业今日头条在北京国家会议中心举办了“算数·年度数据发布会”,数据发布会的主题名为“算数”,实际上指的是“算法”与“数据”。

技术分享

  众所周知,今日头条是个个性化的新闻推荐引擎。在今日头条CEO张一鸣看来,算法是《今日头条》这款兴趣推荐搜索引擎应用的核心,这也是与传统媒体最本质的区别。今日头条之所以能够非常懂用户,精准推荐出用户所喜好的新闻,完全得益于算法。而正是精准推荐,使得今日头条在短短两年多的时间内拥有了2.2亿用户,每天有超过2000万用户在今日头条上阅读自己感兴趣的文章。

技术分享

  那么今日头条是怎么做到为每一个用户按兴趣精准推荐新闻的呢?在发布会上,今日头条的技术副总裁杨震原给我们揭秘了今日头条的个性化推荐核心“算法”。

  今日头条的个性化推荐算法原理

技术分享

  如上图,有3篇文章,让3个用户投票(注:这3个用户是一类人,有相同属性(喜好和偏好)),那第4个用户应该被系统推荐的文章是那篇呢?第4个用户与前3个用户都是一类人,答案显而易见是第一篇文章。

  没错,今日头条的个性化推荐算法原理就是基于投票的方法,其核心理念就是投票,每个用户一票,喜欢哪一篇文章就把票投给这篇文章,经过统计,最后得到结果很可能是在这个人群下最好的文章,并把这篇文章推荐给同人群用户过程就是个性化推荐,实际上个性化推荐并不是机器给用户推荐,而是用户之间在互相推荐,看起来似乎很简单,但实际上这需要基于海量的用户行为数据挖掘与分析。

  今日头条是如何来划分人群和文章

  搞技术的朋友都知道,内容推荐必须基于受众人群,只有在确定受众人群之后才能确定推荐内容,有的放矢才叫精准推荐。

  上面那个例子只是很小的人群,但是现实生活中不会有这样小的人群,而且太小的人群通过推荐投票的方式也很难推荐出很精细的内容,只能推荐出一些热门内容,那今日头条是如何来划分人群?

技术分享

  我们假定上图这个人群有8万人,只有两类:一类叫喜欢科技的人群,一类喜欢娱乐的人群,我们先分成两类,每类有4万人,我们又找到另一个维度地域:上海和北京,喜欢科技的人有上海和北京的,喜欢娱乐的也有北京和上海的,我们把8万人群分成四组,每组两万,我们再找年龄,30岁以上和以下,我们分成8个人群,每个人群1万人,第1个是喜好科技,位置在北京,年龄30岁以上,这有1万人,我们再以下面的喜欢娱乐,地点上海,人群1万。

  根据人群不同维度,我们可以细分到一个合理的力度。特别需要注意的是:在细分的领域里面投票数既不要太多,但也不要太少,因为太多没有个性化,仅是一个大众关心的话题而已,而投票数太少又没有统计意义,支持度就低了。

技术分享

  人群特征可以是阅读姓名,年龄,地域,职业等等。同理,文章也是类似的,文章有提到哪些名人,文章发布的时间,文章所属的地区等等,也都有很多特性,这些都是可以去组合起来。

  今日头条是怎样判断一个人属于怎样的人群

技术分享

  判断一个人属于怎样的人群相对简单。比如地域,用户的手机在什么区域,就可以认为用户是什么地域的;比如说用户兴趣,可以根据用户的阅读习惯去判断,用户会经常去看科技的文章,那就可以判断用户属于科技的人群;再比如说用户的好友关系,用户在今日头条上面注册了,用户的好友都是娱乐圈的人,则该用户很有可能也是娱乐圈的人;所以通过用户在今日头条上行为,以及用户客观的地理位置信息,就能判断用户到底属于一个什么样的人群。

  今日头条的个性推荐算法公式

  精准推荐最难的不是划分人群,也不是判断用户人群归属,更不是文章属性判断,一个人可以属于多个人群,也有多个文章候选,选那个推荐才是最难的。而今日头条的推荐内容是怎么算出来的呢?

技术分享

技术分享

  通过上图的计算公式:W1*候选1的投票率+W2*候选2的投票率+W3候选3的投票率+……=最高分,最后能计算出一个得分,按得分的高低来排序,就可以得到推荐文章的一个侯选,这个过程实际上是一个比较简单的算法,而这在今日头条内部叫逻辑回归。

  总的来说,个性化推荐技术本身并不神秘,归根到底推荐算法关键是还在于对海量用户行为的数据分析与挖掘,也许各家算法略有不同,但最终目的都是殊途同归,为实现最精准的内容推荐而努力中。







资深架构师首次公开揭秘:今日头条推荐算法原理

...战和误解。网友整理的各大平台推荐算法(搞笑版) 今日头条的推荐算法,从2012年9月第一版开发运行至今,已经经过四次大的调整和修改。今日头条委托资深算法架构师曹欢欢博士,公开今日头条的算法原理,以推动整个... 查看详情

ppt详解曹欢欢:今日头条算法原理

【PPT详解】曹欢欢:今日头条算法原理悟空智能科技 4月8日公众号后台回复:“区块链”,获取区块链报告公众号后台回复:“sq”,进入区块链分享社群热文推荐:1000位专家推荐,20本区块链必读书籍(附PDF)中国首个区... 查看详情

###好好好###今日头条推荐算法原理全文详解

本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析,内容安全等原理。一、系统概览推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,这个函数需要输入... 查看详情

今日头条抖音推荐算法原理全文详解!

作者|朵朵066本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析,内容安全等原理。一、系统概览推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,这个... 查看详情

今日头条抖音推荐算法原理全文详解!

作者|朵朵066本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析,内容安全等原理。一、系统概览推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,这个... 查看详情

干货今日头条的新闻推荐算法原理

...享。本期微信,我们将推荐影视类的Netflix和新闻类的今日头条的算法技术。今天,算法分 查看详情

今日头条——机器学习算法岗1234面

目录一面二面三面四面一面自我介绍问项目,问的很细。速度、性能如何做的优化fasterrcnn、yolo、ssd的区别LSTM的结构与前向传播现代cpu算力在什么量级手写代码:全排列二面问项目,主要问创新点在哪里推导PCA概率题:13个人生... 查看详情

算法帝国:今日头条抖音推荐算法原理全文详解

这两天,一个学弟向我诉苦:“人在外包两年多了,不知道以后的出路在哪里。想进字节那样的大厂,又不知道该朝哪个方向努力,挺迷茫的。”相信最近很多人都有这个感受:行业越来越卷,大厂的... 查看详情

给定二维平面整数点集输出“最大点集”算法(今日头条面试题)(代码片段)

...要浏览一些实战题目,热热身嘛。通过搜索引擎,搜到了今日头条的一道面试题。题目P为给定的二维平面整数点集。定义P中某点x,如果x满足P中任意点都不在x的右上方区域内(横纵坐标都大于x),则称其为“最大的”。求出... 查看详情

今日头条和今日头条极速版有什么区别

3C数码您的浏览器不支持HTML5视频zymedia(\'video\')参考技术A今日头条和今日头条极速版区别为:安装包大小不同、占用运行内存不同、特色功能不同。一、安装包大小不同1、今日头条普通版:今日头条普通版的安装包大小为22.8M。2... 查看详情

如何区分今日头条与今日头条极

参考技术A今日头条和今日头条极速版区别有:内存大小不一样、定位人群不一样、功能特色不一样、界面设计不一样。1、内存大小不一样今日头条极App:4.7M。今日头条极速版App:安装包4.7M。2、定位人群不一样普通版:面向的... 查看详情

“今日头条”和“今日头条极速版”有啥不同?

...A面对客户人群不一样,界面不一样,功能体验不一样。今日头条界面比较复杂,体验功能更加多元化。今日头条极速版界面简单,功能体验比较少。今日头条:基于个性化推荐引擎技术,根据每个用户的兴趣、位置等多个维度... 查看详情

今日头条的惊惶时刻

今日头条到底怎么了?昨天上午,国家知识产权局用一纸决定书驳回了今日头条关于UC一条专利的无效宣告请求,这意味着今日头条很可能要面临巨额的专利侵权罚款。不过UC并不是唯一和今日头条“对簿公堂”的企业。在1月26... 查看详情

今日头条的核心架构解析

今日头条创立于2012年3月,到目前仅4年时间。从十几个工程师开始研发,到上百人,再到200余人。产品线由内涵段子,到今日头条,今日特卖,今日电影等产品线。一、产品背景今日头条是为用户提供个性化资讯客户端。下面就... 查看详情

今日头条

<resources><stringname="app_name">头条</string><stringname="openDrawer">今日头条</string><stringname="closeDrawer">用户目录</string></resources>/****/<?xmlvers 查看详情

今日头条爬虫

今日头条是一个js动态加载的网站,尝试了两种方式爬取,一是页面直接提取,一是通过接口提取:version1:直接页面提取#coding=utf-8#今日头条fromlxmlimportetreeimportrequestsimporturllib2,urllibdefget_url():url=‘https://www.toutiao.com/ch/news_hot/‘gl... 查看详情

今日头条seo研究,值得深思的5个问题

在做SEO的过程中,实际上,我并不是“技术挂”更多的是基于搜索原理与大量的实战,总结相关的经验,这么多年,经常养成一个小习惯,总是记录一些工作中遇到的一些小问题与小技巧。特别是2017年,12月份开始跟踪熊... 查看详情

今日头条面试——测试工程师

目录一面:二面:HR面:三面:四面:一面:介绍下你自己有了解过测试工具吗,用过哪些设计一个微信朋友圈点赞的测试用例如果用户点击微博的关注图标但APP上没有反应,应该怎么排查这个问题(我从客户端到服务器按数据... 查看详情