关键词:
目录
0 问题描述
现有用户-视频互动表tb_user_video_log
id | uid | video_id | start_time | end_time | if_follow | if_like | if_retweet | comment_id |
1 | 101 | 2001 | 2021-09-24 10:00:00 | 2021-09-24 10:00:30 | 1 | 1 | 1 | NULL |
2 | 101 | 2001 | 2021-10-01 10:00:00 | 2021-10-01 10:00:31 | 1 | 1 | 0 | NULL |
3 | 102 | 2001 | 2021-10-01 10:00:00 | 2021-10-01 10:00:35 | 0 | 0 | 1 | NULL |
4 | 103 | 2001 | 2021-10-03 11:00:50 | 2021-10-03 10:00:35 | 1 | 1 | 0 | 1732526 |
5 | 106 | 2002 | 2021-10-02 11:00:05 | 2021-10-02 11:01:04 | 2 | 0 | 1 | NULL |
6 | 107 | 2002 | 2021-10-02 10:59:05 | 2021-10-02 11:00:06 | 1 | 0 | 0 | NULL |
7 | 108 | 2002 | 2021-10-02 10:59:05 | 2021-10-02 11:00:05 | 1 | 1 | 1 | NULL |
8 | 109 | 2002 | 2021-10-03 10:59:05 | 2021-10-03 11:00:01 | 0 | 1 | 0 | NULL |
9 | 105 | 2002 | 2021-09-25 11:00:00 | 2021-09-25 11:00:30 | 1 | 0 | 1 | NULL |
10 | 101 | 2003 | 2021-09-26 11:00:00 | 2021-09-26 11:00:30 | 1 | 0 | 0 | NULL |
11 | 101 | 2003 | 2021-09-30 11:00:00 | 2021-09-30 11:00:30 | 1 | 1 | 0 | NULL |
(uid-用户ID, video_id-视频ID, start_time-开始观看时间, end_time-结束观看时间, if_follow-是否关注, if_like-是否点赞, if_retweet-是否转发, comment_id-评论ID)
短视频信息表tb_video_info
id | video_id | author | tag | duration | release_time |
1 | 2001 | 901 | 旅游 | 30 | 2021-09-05 07:00:00 |
2 | 2002 | 901 | 旅游 | 60 | 2021-09-05 07:00:00 |
3 | 2003 | 902 | 影视 | 90 | 2021-09-05 07:00:00 |
4 | 2004 | 902 | 影视 | 90 | 2021-09-05 08:00:00 |
(video_id-视频ID, author-创作者ID, tag-类别标签, duration-视频时长, release_time-发布时间)
问题:找出近一个月发布的视频中热度最高的top3视频。
注:
- 热度=(a*视频完播率+b*点赞数+c*评论数+d*转发数)*新鲜度;
- 新鲜度=1/(最近无播放天数+1);
- 当前配置的参数a,b,c,d分别为100、5、3、2。
- 最近播放日期以end_time-结束观看时间为准,假设为T,则最近一个月按[T-29, T]闭区间统计。
- 结果中热度保留为整数,并按热度降序排序。
输出示例:
示例数据的输出结果如下
video_id | hot_index |
2001 | 122 |
2002 | 56 |
2003 |
解释:
最近播放日期为2021-10-03,记作当天日期;近一个月(2021-09-04及之后)发布的视频有2001、2002、2003、2004,不过2004暂时还没有播放记录;
视频2001完播率1.0(被播放次数4次,完成播放4次),被点赞3次,评论1次,转发2次,最近无播放天数为0,因此热度为:(100*1.0+5*3+3*1+2*2)/(0+1)=122
同理,视频2003完播率0,被点赞数1,评论和转发均为0,最近无播放天数为3,因此热度为:(100*0+5*1+3*0+2*0)/(3+1)=1(1.2保留为整数)。
1 数据准备
DROP TABLE IF EXISTS tb_user_video_log, tb_video_info;
CREATE TABLE tb_user_video_log (
`uid` string COMMENT '用户ID',
video_id string COMMENT '视频ID',
start_time string COMMENT '开始观看时间',
end_time string COMMENT '结束观看时间',
if_follow string COMMENT '是否关注',
if_like string COMMENT '是否点赞',
if_retweet string COMMENT '是否转发',
comment_id string COMMENT '评论ID'
) ;
CREATE TABLE tb_video_info (
video_id string COMMENT '视频ID',
author string COMMENT '创作者ID',
tag string COMMENT '类别标签',
duration string COMMENT '视频时长(秒数)',
release_time string COMMENT '发布时间'
);
INSERT INTO tb_user_video_log(uid, video_id, start_time, end_time, if_follow, if_like, if_retweet, comment_id) VALUES
(101, 2001, '2021-09-24 10:00:00', '2021-09-24 10:00:30', 1, 1, 1, null)
,(101, 2001, '2021-10-01 10:00:00', '2021-10-01 10:00:31', 1, 1, 0, null)
,(102, 2001, '2021-10-01 10:00:00', '2021-10-01 10:00:35', 0, 0, 1, null)
,(103, 2001, '2021-10-03 11:00:50', '2021-10-03 11:01:35', 1, 1, 0, 1732526)
,(106, 2002, '2021-10-02 10:59:05', '2021-10-02 11:00:04', 2, 0, 1, null)
,(107, 2002, '2021-10-02 10:59:05', '2021-10-02 11:00:06', 1, 0, 0, null)
,(108, 2002, '2021-10-02 10:59:05', '2021-10-02 11:00:05', 1, 1, 1, null)
,(109, 2002, '2021-10-03 10:59:05', '2021-10-03 11:00:01', 0, 1, 0, null)
,(105, 2002, '2021-09-25 11:00:00', '2021-09-25 11:00:30', 1, 0, 1, null)
,(101, 2003, '2021-09-26 11:00:00', '2021-09-26 11:00:30', 1, 0, 0, null)
,(101, 2003, '2021-09-30 11:00:00', '2021-09-30 11:00:30', 1, 1, 0, null);
INSERT INTO tb_video_info(video_id, author, tag, duration, release_time) VALUES
(2001, 901, '旅游', 30, '2021-09-05 7:00:00')
,(2002, 901, '旅游', 60, '2021-09-05 7:00:00')
,(2003, 902, '影视', 90, '2021-09-05 7:00:00')
,(2004, 902, '影视', 90, '2021-09-05 8:00:00');
----------------------------------
输出结果如下:
2001|122
2002|56
2003|1
2 问题分析
该题目中各项指标定义非常模糊,很多定义并不明确,明显出题人语文水平并不过关,很多定义并没有直接给出,容易产生歧义。
各项指标的确定:
(1)近一个月的定义:为当前日志表(视频互动表tb_user_video_log)中end_time最新的日期往前减去29天。题中给出的是假设为T,则最近一个月按[T-29, T]闭区间统计。这样的定义实际上有问题的(很无语。。。。),因为存在视频发布当天并没有播放记录的情况。
举个例子:10.03往前推30天是09.04。我们要获取的统计时间区间是09.04-10.03。假设某个视频09.01发布,但是5天后才有第一次播放记录,那么这个视频最早的end_time是09.06,按照这个end_time,用DATEDIFF法来生成,得到的时间区间是09.06-10.03,明显不完整,题目也是没有完全讲清楚。。。。按照题目那样区间的定义肯定有问题。。。。所以此题左边区间应该是end_time -29,右边区间应该是发布时间。。。。
(2)新鲜度:最近无播放天数:当前表中最新日期与该视频的最新播放日期之间的差值。
(题目中并没有给出明确定义,靠猜。。。。。。。。)
新鲜度=1/(最近无播放天数+1)
(3)热度:
a:视频完播率:该题的完播率并没有给出明确定义,基本靠给的例子来猜测。
此处的定义应该是:用户-视频互动表tb_user_video_log中start_time 与end_time的差值大于短视频信息表tb_video_info中的duration时记为一次有效的播放(题目中描述的被播放次数。。。)与实际播放次数的比值(题目中描述的完成播放次数,我去理解实在太烧脑了。。。,实在不得不喷一下。。。)伪代码如下:
SUM(CASE WHEN(unix_timestamp(end_time)-unix_timestamp(start_time))>duration then 1 else 0 end) / COUNT(start.time)
b:点赞数:SUM(CASE WHEN if_like=1 THEN 1 ELSE END)
c:评论数 COUNT(comment_id)
d:转发数 SUM(CASE WHEN if_retweet=1 THEN 1 ELSE 0 END)
最终SQL如下:
select video_id, cast( ( 100 * finish_play_rate + 5 * like_cnt + 3 * comment_cnt + 2 * retweet_cnt ) * fresh_rate as decimal(18, 0) ) as hot_index from ( SELECT tvi.video_id, SUM( CASE WHEN( unix_timestamp(tuvl.end_time) - unix_timestamp(tuvl.start_time) ) >= cast(tvi.duration as int) then 1 else 0 end ) / COUNT(tuvl.start_time) as finish_play_rate, SUM( CASE WHEN tuvl.if_like = '1' THEN 1 ELSE 0 END ) as like_cnt, COUNT(tuvl.comment_id) as comment_cnt, SUM( CASE WHEN tuvl.if_retweet = '1' THEN 1 ELSE 0 END ) as retweet_cnt, 1 / ( datediff( to_date(max(tuvl.last_time)), to_date(max(tuvl.END_time)) ) + 1 ) as fresh_rate FROM ( select *, max(end_time) over() as last_time from tb_user_video_log ) AS tuvl LEFT JOIN tb_video_info AS tvi ON tuvl.video_id = tvi.video_id WHERE TO_DATE(tvi.release_time) >= DATE_SUB(TO_DATE(tuvl.last_time), 29) GROUP BY tvi.video_id ) t ORDER BY hot_index DESC LIMIT 3
最终结果如下
video_id hot_index
2001 122
2002 56
2003 1
Time taken: 3.316 seconds, Fetched: 3 row(s)
3 小结
这道题源自于牛客网,题目本身没什么难度,但在牛客中通过率极低,原因是题目本身但表达很模糊,很多定义没有直接给出,靠面试者猜,造成了误解,如果面试遇到这种题目90%挂,因为你不能准确理解题意,需要反复和面试官确认,即使做出来了,最终也是失败,而这题竟然出自抖音,面试出题也太随意了,无力吐槽,看来面试有时候真的靠缘分,哈哈哈。。。。
欢迎关注石榴姐公众号"我的SQL呀",关注我不迷路
用hivesql怎么获取上一个月的月份
参考技术Ahivesqlsql—获取指定hive表或指定文件所hive表DDL按区则默认执行近7区DDL同table支持符合sql语则表达式表匹配则提示用户选择(使用file则自关闭该交互功能) 参考技术B0~11,自己加一就行了。没办法,他就是这么来的。 参考... 查看详情
2022年8月最新运维面试题-服务器上下架流程
...项目招人,薪资再25k以上,13薪。学员反馈回来的面试题正在整理中。其中一个问题:机房设备上下架是个怎么个操作流程?这个题目的确难住了很多人,我曾经三个人上架近千台服务器,但你让我说上架... 查看详情
java面试题大全带答案,热度飙升!
Java基础1.Java语言的三大特性2.Java语言主要特性3.JDK和JRE有什么区别4.Java基本数据类型及其封装类5.如果main方法被声明为private会怎样?6.说明--下publicstaticvoidmain(StringargsQ])这段声明里每个关键字的作用7.==与equals的区别8.Object有... 查看详情
9大hivesql最频繁被问到的面试题(代码片段)
SQL是用于数据分析和数据处理的最重要的编程语言之一,因此与数据科学相关的工作(例如数据分析师、数据科学家和数据工程师)在面试时总会问到关于SQL的问题。SQL面试问题旨在评估应聘者的技术和解决问题的能... 查看详情
hivesql核心技能之常用函数
参考技术A目标:1、掌握hive基础语法、常用函数及其组合使用2、掌握一些基本业务指标的分析思路与实现技巧1)某次经营活动中,商家发起了“异性拼团购”,试着针对某个地区的用户进行推广,找出匹配用户。注意:如果该... 查看详情
5月面试题总结
HTMLDoctype作用?标准模式与兼容模式各有什么区别?(1)、<!DOCTYPE>声明位于HTML文档中的第一行,处于<html>标签之前。告知浏览器的解析器用什么文档标准解析这个文档。DOCTYPE不存在或格式不正确会导致文档以兼容模式... 查看详情
hivesql每天场景题45
45、现有电商订单表(order_detail)如下。order_id(订单id)user_id(用户id)product_id(商品id)price(售价)cnt(数量)order_date(下单时间)111500012022-01-01213550012022-01-023173522022-02-01422380032022-03-03注:复购率... 查看详情
月攒亿级热度才上榜,科普资讯内容成4月秒拍榜单黑马
...元……5月2日,秒拍发布2017年4月份系列榜单上,呈现出一个极其强烈的内容创业趋势——一个月没个亿级的热度,都不好意思在榜单上去排队。文/张书乐TMT行业观察者、游戏产业时评人,人民网、人民邮电报专栏作者热度、画... 查看详情
2020年腾讯c++面试题和答案持续更新中-内附视频讲解
大家好我是好好学习天天编程的天天,又来给大家分享面试题了~~有粉丝私信说有有些题不会做,那怎么办呢?现在你们有福利了,我会每天录制一个视频,讲解一个高频面试题如下:干货|名企高频考点-C++vector基本使用每天的... 查看详情
2020年腾讯c++面试题和答案持续更新中-内附视频讲解
大家好我是好好学习天天编程的天天,又来给大家分享面试题了~~有粉丝私信说有有些题不会做,那怎么办呢?现在你们有福利了,我会每天录制一个视频,讲解一个高频面试题如下:干货|名企高频考点-C++vector基本使用每天的... 查看详情
2020年腾讯c++面试题和答案持续更新中-内附视频讲解
大家好我是好好学习天天编程的天天,又来给大家分享面试题了~~有粉丝私信说有有些题不会做,那怎么办呢?现在你们有福利了,我会每天录制一个视频,讲解一个高频面试题如下:干货|名企高频考点-C++vector基本使用每天的... 查看详情
2020年腾讯c++面试题和答案持续更新中-内附视频讲解
大家好我是好好学习天天编程的天天,又来给大家分享面试题了~~有粉丝私信说有有些题不会做,那怎么办呢?现在你们有福利了,我会每天录制一个视频,讲解一个高频面试题如下:干货|名企高频考点-C++vector基本使用每天的... 查看详情
2020年腾讯c++面试题和答案持续更新中-内附视频
2020年腾讯C++面试题和答案持续更新中(7)-内附视频大家好我是好好学习天天编程的天天,又来给大家分享面试题了~~有粉丝私信说有有些题不会做,那怎么办呢?现在你们有福利了,我会每天录制一个视频,讲解一个高频面试... 查看详情
2018年10月24日js中“逻辑运算”,“面试题:作用域问题”,“dom对象”这些问题的意见见解
1、逻辑运算|| && !||:遇到第一个为true的值就中止并返回&&:遇到第一个为false的值就中止并返回,如果没有false值,就返回最后一个不是false值的true值||和&&:&&的优先级大于||;console.log(1&&3||... 查看详情
java入门到精通-第52讲-面试题讲评(代码片段)
赛迪网Java程序员笔试题第一大题:选择题(共20个小题,要求和分值按每题后面的提示,共60分)1、下面哪些是java语言中的关键字? BA、sizeofB、abstractC、NULLD、Native2、第一个java语言编译器是在()年推出。 DA、1991B、1992C、200... 查看详情
hivesql每天场景题50
目前hive场景题就此结束,因为前面有时候做题会百度一下方法之类的,有些题不太熟练,所以后面从1重新再做一次,就不写笔记,也不发csdn了。50、现有用户表(emp)如下。id(员工id)en_dt(入职日期)star... 查看详情
大数据sql题目
...活跃用户HIVE计算连续登陆n天的sql(qishunwang.net)(253条消息)HiveSql求每个用户连续登陆的最大天数_jxt120433的博客-CSDN博客连续登录最大天数数仓面试sql题目-hive-sql_huobumingbai1234的博客-CSDN博客_数仓面试sql互相关注,a关注b,b关... 查看详情
2022年8月最新运维面试题-服务器上下架流程
...项目招人,薪资再25k以上,13薪。学员反馈回来的面试题正在整理中。其中一个问题:机房设备上下架是个怎么个操作流程?这个题目的确难住了很多人,我曾经三个人上架近千台服务器,但你让我说上架... 查看详情