基于段落相关的LDA主题模型及其在虚假新闻检测中的应用
发布时间:2025-04-26 23:03
互联网大数据时代,信息量以越来越快的速度在增长着,并依旧以几何级别的速度不断增长。其中,包括书籍、新闻、报告等在内的非结构化文本数据,也在不断扩张。面对海量的文本数据,如何从中提取有效的关键信息尤为重要。虚假新闻的混淆视听,使得人们在获取有效信息的难度陡增,如何快速准确的对虚假新闻进行检测识别具有重要的意义。本文希望通过对处理海量数据具有极大优势的LDA主题模型进行扩展研究,将此模型运用到虚假新闻检测任务当中,拓展主题模型以及文本挖掘的研究基础,将此应用到虚假新闻检测任务中,减少虚假新闻的危害。本文首先梳理了主题模型以及虚假新闻检测相关的文献,研究分析了虚假新闻检测识别的文献内容,分析主题模型当前的方法体系,总结归纳当前的研究进展,总结了主题模型在虚假新闻检测上面的可行性。接下来,基于此研究的基础,提出基于段落相关信息的LDA主题模型(Latent Dirichlet Allocation),命名为para-LDA主题模型,该模型方法通过在原始LDA主题模型的基础上添加段落层次,将段落信息纳入LDA主题模型当中。模型继承了原LDA主题模型对于大文本处理以及挖掘隐含语义的优势,同时加入了段...
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 引言
1.1 研究背景
1.2 研究目的与意义
1.2.1 研究目的
1.2.2 研究意义
1.3 研究内容框架
1.4 研究方法
1.5 可能创新点
第二章 文献综述
2.1 主题模型的研究现状
2.1.1 主题模型的源起
2.1.2 主题模型的扩展应用
2.1.3 主题模型中关于段落的信息
2.2 虚假新闻检测的研究现状
2.3 虚假新闻检测与主题模型
2.4 小结
第三章 基于段落相关的LDA主题模型
3.1 主题模型
3.1.1 一元模型
3.1.2 pLSA模型
3.1.3 LDA主题模型
3.2 基于段落相关的LDA主题模型
3.3 基于吉布斯抽样的参数估计
3.4 利用LDA主题模型提取新闻的主题及其特征分布
3.5 小结
第四章 模型在虚假新闻检测中的应用
4.1 数据来源与数据预处理
4.1.1 数据介绍
4.1.2 数据预处理
4.2 数据总体描述
4.2.1 词频描述
4.2.2 主题提取
4.3 实验对比评价
4.3.1 模型困惑度
4.3.2 预测准确性
4.4 小结
第五章 总结与展望
5.1 总结
5.2 不足与展望
参考文献
致谢
本文编号:4041502
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 引言
1.1 研究背景
1.2 研究目的与意义
1.2.1 研究目的
1.2.2 研究意义
1.3 研究内容框架
1.4 研究方法
1.5 可能创新点
第二章 文献综述
2.1 主题模型的研究现状
2.1.1 主题模型的源起
2.1.2 主题模型的扩展应用
2.1.3 主题模型中关于段落的信息
2.2 虚假新闻检测的研究现状
2.3 虚假新闻检测与主题模型
2.4 小结
第三章 基于段落相关的LDA主题模型
3.1 主题模型
3.1.1 一元模型
3.1.2 pLSA模型
3.1.3 LDA主题模型
3.2 基于段落相关的LDA主题模型
3.3 基于吉布斯抽样的参数估计
3.4 利用LDA主题模型提取新闻的主题及其特征分布
3.5 小结
第四章 模型在虚假新闻检测中的应用
4.1 数据来源与数据预处理
4.1.1 数据介绍
4.1.2 数据预处理
4.2 数据总体描述
4.2.1 词频描述
4.2.2 主题提取
4.3 实验对比评价
4.3.1 模型困惑度
4.3.2 预测准确性
4.4 小结
第五章 总结与展望
5.1 总结
5.2 不足与展望
参考文献
致谢
本文编号:4041502
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/4041502.html