Welcome to aparke’s blog!
1、(基础分析题)各频道参与博主的人数分布排行,求top5
1)需求分析:求对应分布的top5 |
2、(基础分析题)各频道评论量排行,求top5
select remark,num,topn as top5 |
3、(基础分析题)各频道评论转发量排行,求top5
直接借鉴上一题:select remark,topn as top5
from
(
select remark,dense_rank() over(order by sum desc) as topn
from
(
select remark, sum(repostscount) as sum
from
weibo_comment_info a left join weibo_user_base_info b
on a.uid=b.uid
group by remark
) realtion
) top_tab
where topn<=5;
4、(基础分析题)各频道博文评论的回复(再回复)量排行,求top5
直接借鉴上一题:select remark,sum ,topn as top5
from
(
select remark,sum,dense_rank() over(order by sum desc) as topn
from
(
select remark, sum((commentscount) ) as sum
from
weibo_comment_info a left join weibo_user_base_info b
on a.uid=b.uid
group by remark
) realtion
) top_tab
where topn<=5;
5、(综合分析题)各频道活跃度排行
*先定义合理的计算口径,然后写对应的SQL语句
(以下为数据分析题的步骤列表)
step1 : 候选影响因子集合找到
博主参与量uid,评论内容量comment,评论转发量repostscount,评论回复量commentscount
step2 : 拟定一个计算公式
影响因子的权重:基准为1=有评论内容即为1,
有博主参与权重1.1,
有转发的权重:2
有再评论的权重:1.5
加权求和:
step3 : sql编码、review与修正
step4 : 上线
1)关联表 |
6、(综合分析题)各频道的博主的影响力排行,求top5
*先定义合理的计算口径,然后写对应的SQL语句
(以下为数据分析题的步骤列表)
step1 : 候选影响因子集合找到
评论内容量,评论转发量,再评论量(评论内容质量)
step2 : 拟定一个计算公式
影响因子的权重:基准为1=有评论内容即为1,
有转发的权重:2
有再评论的权重:1.5
加权求和:
step3 : sql编码、review与修正
step4 : 上线
基于上一题直接对uid group by求解
连表-统计打分-明细-汇总-排名select uid,remark,sum_score,topn as top5
from
(
select uid,remark,sum_score,dense_rank() over(partition by remark order by sum_score desc) topn
from
(
select
uid,
remark,
(comment_score+repost_score+comments_score) sum_score
from
(
select
uid,
remark,
count(distinct(uid))*1.1 user_score,
count(1)*1 comment_score,
sum(repostscount)*2 repost_score,
sum(commentscount)*1.5 comments_score
from(
select a.uid,remark,comment,repostscount,commentscount
from
weibo_user_base_info a left join weibo_comment_info b
on a.uid=b.uid) join_tab
GROUP BY uid,remark
) sum_tab
) tmp_topn
) ton_tab
where topn<=5;
7、(综合分析题)各频道的博文的影响力排行,求top5
*先定义合理的计算口径,然后写对应的SQL语句
(以下为数据分析题的步骤列表)
step1 : 候选影响因子集合找到
博文内容转发量,博文内容的评论量
step2 : 拟定一个计算公式
影响因子的权重:基准为1=一个转发即为1,
有评论的权重:0.6
加权求和:
step3 : sql编码、review与修正
step4 : 上线
基于上一题直接写sql
连表-统计打分-明细-汇总-排名
1)关联表 |
8、(综合分析题)各频道的博主的行为特征分析之每天的活跃时间段分析,
即求各频道每天最活跃时间段top3,以小时为单位即可。
*先定义合理的计算口径,然后写对应的SQL语句
(以下为数据分析题的步骤列表)
step1 : 候选影响因子集合找到
参与人数,博文内容总数
step2 : 拟定一个计算公式
影响因子的权重:基准为1=一条微博内容即为1,
有一个人参与的权重:1.2
加权求和:
step3 : sql编码、review与修正
step4 : 上线
8.1) 先关联数据 |