开始扯淡
需要有LDA研究基础的人看
前面一部分有的是我写论文的思路,可以掠过。
第一部分。
看了几篇论文,本来想研究一下陈恩红团队所写的和深度学习模型DSSM有关的那篇论文(Reading the Videos: Temporal Labeling for CrowdsourcedTime-Sync Videos Based on Semantic Embedding),但是后来宣一鸣指出文中一个很大的漏洞,询问了作者,作者没理解我的问题,仍在讨论,暂时不再研究。(询问后已经证实想法,论文写的有问题,但是总的思路没错)后来是明白了,T-DSSM(也就是陈恩红团队的那篇论文)的思路没有问题,而且还有点道理,下周准备实现一下。
大致的思路是通过T-DSSM将每个tweet转化成vector,然后通过DBSCAN聚类成26类(文章中做实验得出26类比i较好),然后SVM分类(总的10类)。第二部分我先来阐述一下为什么我不去在港科大的那篇文章上修改模型,其实我仔细想想是可以改的。
首先,港科大的关键公式是根据别人的公式修改来的。
原公式,(原来的模型叫做DMR,是Andrew McCallum发明的)
可以发现这个公式其实和西塔矩阵是无关的,所以如果我需要加入JST的情感的l矩阵进来,最后的生成公式应该是可以修改的。只是我仍然不太清楚是不是需要这样去修改,是不是用户评论都有情感极性,以及每条评论是不是有个情感极性?反正这个问题我想先放着,我再多看看别人的论文找找思路。
我认为港科大的论文没有去考虑稀疏性的问题,很难有什么好的效果。
我根据Twitter-LDA出发,找了好几篇论文来拓展思路。其实Twitter和我们的弹幕还不一样,虽然都是短文本,但是他们更长而且在同一个时间段里他们可以是很多很多话题,因为量很大。
一开始直接找到了 Twitter-LDA在github上的项目:
项目中推荐了T-LDA的原创文章和使用其模型的几篇文章:
[1] Aspect-Based Helpfulness Prediction for Online Product Reviews. Y Yang, C Chen, FS Bao, 2016 IEEE 28th International Conference on Tools with Artificial Intelligence (ICTAI), 2016. (http://ieeexplore.ieee.org/abstract/document/7814690/)[2] It's Not What We Say But How We Say Them: LDA-based Behavior-Topic Model. Minghui Qiu, Feida Zhu and Jing Jiang. SDM'13.[3] Finding bursty topics from microblogs. Qiming Diao, Jing Jiang, Feida Zhu and Ee-Peng Lim In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, ACL'12.[4] Topical keyphrase extraction from Twitter. [bib] Wayne Xin Zhao, Jing Jiang, Jing He, Yang Song, Palakorn Achanauparp, Ee-Peng Lim and Xiaoming Li In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, ACL'11.
Twitter-LDA的原始论文是:
Comparing Twitter and Traditional Media UsingTopic Models
北京大学和新加坡管理大学联合写的,发表于ECIR,C类会议(欧洲的新成果的主要会议)
twitters紧凑,更新很快。twitter常用与传播分享爆炸新闻,个人更新以及自发的想法。就我们弹幕而言,一般来讲我们的片段集中讨论一个话题,并且这个话题大概率与当前视频段的发生的事或是人物有关。
文中分析twitter的一些问题(我想这个分析可能对我们的弹幕分析也是有点借鉴):
Twitter 是否覆盖和传统的新闻媒体一样的话题分类和种类。
Twitter 中是否会有特殊存在的话题而新闻媒体中没有,反之亦然。
twitter 中是不是有某些特定的话题会吸引更多的见解(相较于传统新闻)
-
在 twitter 中是否有特定的话题会出发更多的信息传播。
发现: (1)Twitter中的话题种类的个数和传统新闻媒体差不多(不知道怎么统计的),但是这些话题的分布不同。 (2)twitter用户更加关注个人生活以及流行文化(相较于传统新闻) (3)尽管twitter用户很少发世界新闻,但是他们转发。
这篇文章有个特别的地方,它定义 topic categories 和 topic types 是不同的东西。
文中定义了一个 topic categories 的集,说是在Fig3,但是我没找到Fig3(无语),然后 topic types 定义了三种:event-oriented topics,entity-oriented
topics,long-standing topics文中一个topic属于一个 topic category 并且有个 topic type。
Twitter-LDA的大致思想其实很简单,他从每个用户的角度上考虑,每个用户有个topic分布矩阵,然后每一个tweet的生成是根据这个矩阵选出来的topic再去选单词,但是这里有两个矩阵,一个是背景单词矩阵,一个是普通的,所以,形成了以下的生成模型。
文章实验:
设置topic个数110个,然后分别在 standard-LDA,Author-topic,Twitter-LDA上实验,最后结果让人工(只叫了两个人评分。。。)进行评判,有三个评分段位:1 (meaningful and coherent), 0.5 (con-taining multiple topics or noisy words), 0 (making no sense).
结果可想而知,TwitterLDA自然比较好,但是我觉得没必要去纠结这个结果,以为我认为模型中心思想可以借鉴。
以下花了大量的篇幅在对比传统新闻媒体和Twitter在各种方面的区别,当然不是简单的统计分析而是较为高级的基于LDA的比较,这里要提到文中收集了两种数据集
给了个假设:如果一个topic在许多的文章中都是在一个category里,那么这个topic大概率就是在这个category里,于是设计了一个公式
这就是为了找出这个topic属于哪一个category的概率大。
然后,根据这个继续想,一个有意义的topic最好是属于一个category,如果出现一个topic属于好几个category的情况,就应该是一个噪声。于是设计了下面这个公式。
这样下来,最后在NTY数据集上使用110个topic的LDA最终剩下83个。
和NTY不一样,Twitter没有category的label。所以,文章中这样处理,找出这个topic和NTY得到的topic中相近的,就认为这个topic的category是NTY中相近的那个topic的category。否则,创建一个新的category或是认为是噪音去除掉。怎么比较相近,文章设计了一个公式。
最终收集到81个topic。
接下来还要给每个topic分配一个属于它的type。最终结果如下。
因为上面都整理完了,所以下面进行了一些数据上的分析,通过分析回答之前提出的问题,虽然和我们不一样,但是我觉得还是挺有意思而且搞不好能有借鉴意义,还是稍微讲一下。
首先是category分布上比较差不多,但是每个category的比例很不一样,这个其实很容易理解,twitter这种地方更喜欢一些爆炸性新闻以及个人有关的事情。而在NTY这种传统正经的新闻集就不一样了。
另外的别的分析略过。
后看了 [3] Finding bursty topics from microblogs
新加坡管理大学的文章,和上一篇文章都是Ee-Peng Lim这个教授带的学生写的,这个教授是新加坡管理大学的信息系统学院教授。
这篇在模型上较之上一篇稍有改动,分析的是微博数据,然后12年发表在ACL上,A类会议。
题目说是找bursty topic,在不要紧,前面还是用的LDA改进模型先计算,然后根据算出来后的结果再去找bursty topic,所以还是有借鉴意义,并不是仅仅是突发话题检测。
修改模型的想法很奇特,也加入了时间和用户的影响,他认为生成模型是这样的。
每个时间段都有一个xita矩阵,然后每个用户都有属于自己的一个长期不变的topic分布矩阵,这个时候在这个片段里这个用户想要说topic的内容是可能从xita矩阵中选也可能是自己的矩阵中选,文章用伯努力二项分布选择。然后topic对应单词的phi矩阵也有两个,一个是和原来的lda一样的phi,另一个是背景词(文章中说common words,我也不太懂)分布。也是一样,有一个二项分布,看使用哪一个矩阵
后面接下来有个设计了一个公式来突发话题检测这里就不聊了。其实这篇看来我就有个疑问就是这个二项分布来选择是否合适?
下面是个实验结果,效果不错,好几个时间段的突出话题都检测出来了。
其实微博和twitter还是比较接近了,所以这篇论文在原始的Twitter-LDA上基本没什么改变,居然发的会议还比较好。
It Is Not Just What We Say, But How We Say Them: LDA-based Behavior-Topic Model
这篇文章只发布在 Research Collection School of Information Systems ,也就是他们新加坡管理大学的学报上,引用量1,就不看了。
总结
上面设计了很多公式,其实这是一种科研的手段在我看来,根据不同的情景设计不同的公式(当然这些公式也是参考别人的论文得出的),我认为这是一种合理的研究方式。
其实twitter-lda也没有去考虑稀疏性的问题,但是从用户的角度去解决问题,就好象author-topic model一样,在此之上又有别的改进。但是弹幕有个特点就是时间影响,前面的弹幕对后面的弹幕影响很大,这个问题在港科大中是用指数衰减来体现。不知道能不能结合一下,但是这样结合在公式上的修改很大。