一种基于自回归模型的在线连载内容流行度预测方法
2020-01-07

一种基于自回归模型的在线连载内容流行度预测方法

本发明涉及一种基于自回归模型的在线连载内容流行度预测方法,与现有技术相比解决了没有针对在线连载内容流行度预测方法的缺陷。本发明包括以下步骤:训练数据的获取,爬取在线连载内容的整体播放量趋势,解析整体播放量趋势页面的HTML源代码,解析每集播放量趋势页面的HTML源代码;流行度预测,利用自回归模型预测新连载内容的流行度。本发明可以实现针对在线连载内容的流行度预测,作为转移模型的衍生物,利用它的模型参数设计出一个新的评估连载内容质量的指标,对于内容推荐有重要意义。

favorccf(p,q,m,bo),

(2)解析整体播放量趋势页面的HMTL源码,获得该电视剧每集播放信息页面对应的URL,如小爸爸第一集每天的播放量页面对应的URL为http://index.youku.com/vr_show/showid_vXNTk3MDIwMDgO?type=youku〇

其中为流行度真实值。使用流行的奇异值分解(SingularValueDecomposition,简称SVD)技术来解决这个最小化问题。

为第i集第j个相对时间间隔的新增追剧者未来任意时刻观看第i+1集的概率。

(3)解析每集播放量趋势页面的HMTL源码,可以获取最近一年半电视剧每集每天的播放量。

如图1所示,本发明所述的一种基于自回归模型的在线连载内容流行度预测方法,包括以下步骤:

设bQj的偏导数为0,得到

连载内容所具有的一个特性是一般包含很多集并持续定期更新。直观上,如果某人喜欢一个内容的前几集,他很有可能继续浏览接下来的几集。受这种启发,在第j个相对时间间隔,我们提出利用前几集的流行度预测新一集的流行度。如图4所示,图4展示了朴素自回归模型的原理图,我们可以利用划线部分(如Vn、V21、…、V1-U)去预测新一集相同颜色的流行度。

(1)定义共享参数,给定连载内容集合S和它们的流行度记录E=IE1A2,...,E|S|},则