• 书信范文
  • 文秘范文
  • 党团范文
  • 工作总结
  • 工作计划
  • 工作报告
  • 心得体会
  • 合同范文
  • 节日大全
  • 自我鉴定
  • 演讲稿
  • 汉字意思
  • 其他范文
  • 当前位置: 天一资源网 > 语义 正文

    基于LDA模型和语义网络的线上文本挖掘方法

    时间:2023-01-26 19:10:03 来源:天一资源网 本文已影响 天一资源网手机站

    张思松,陈 文

    (铜陵学院 数学与计算机学院,安徽 铜陵 244061)

    线上文本是指以互联网为媒介,用户通过虚拟的空间进行文本编辑,实现创作、阅读、互动评论等双向交流的过程[1]。对线上文本进行有效挖掘是IT界研究的重点课题,也是公众关注的热点话题[2]。传统算法无法对海量冗余信息进行有效处理,挖掘效率低,获取有效信息少[3]。熊才伟等[4]提出了一种基于信息内容分析的微博线上文本挖掘方法,通过兴趣属性吸引来提高微博用户的活跃度,结果表明,基于信息内容分析的微博线上文本挖掘方法,可以有效提高微博用户的活跃度。蔡柳萍等[5]提出了一种基于语义网络的大数据处理方法,实验结果表明,基于语义网络的大数据处理方法能有效地提高线上文本的挖掘效率。综合以上分析,本文提出一种基于LDA模型和语义网络的线上文本挖掘方法,采用语义网络构建线上文本的语义网络挖掘模型,计算线上文本挖掘信息的相似度。利用LDA模型对获取的线上文本阈值进行分类,得到线上文本挖掘权值,将线上文本中挖掘到的关系词带入到概念属性内,实现了线上文本的挖掘,从而有效解决挖掘准确率较低的问题。

    1.1 提取线上文本信息的频谱特征

    为了实现线上文本信息的有效挖掘,先对线上文本在互联网中的特征分布进行提取,再根据特征分布状况[6]获得互联网中线上文本的分布函数:F( Gj,i )=w1·R( Gj,i )+w2·( 1-d( Gj,i )),其中,i为选取线上文本样本的节点,w1为线上文本的加权信息,w2为线上文本的相似度特征,R( Gj,i)为线上文本在发表与创作过程中的梯度特征,d( Gj,i)为线上文本各个储存信息之间的节点距离。根据线上文本的分布函数获得线上文本的存储结构矩阵:

    其中,线上文本合成的数据流序列为xi=( xi1,xi2,xi3,…,xis),该结构矩阵的偏置系数为T,存储结构的空间系数为J,线上文本的存储变化量用Δt表示。

    其中,线上文本在传输过程中产生的滤波干扰为Fj′,振幅变化量为Qj′,受带宽限制和互联网传输信道影响获得的变化振幅量为Xp。在满足语义网络的限制条件下,利用滤波处理法[9]对线上文本信息进行滤波处理后的线上文本信息为

    其中,α为特征向量系数,a为特征扩展量,pN为线上文本信息频谱的叠加数量,LN为频谱特征的扩展宽度。

    1.2 构建线上文本的语义网络挖掘模型

    1.3 线上文本挖掘

    基于LDA模型对获取的线上文本阈值进行分类:

    其中,Wi为m所在的线上文本的挖掘权值,ck为线上文本挖掘信息的数据,a和b为调和系数。

    综上所述,将聚类分析的结果转化为概念属性,然后将线上文本中挖掘到的关系词带入到概念属性内,可以完成对线上文本特征向量的挖掘。

    2.1 实验环境

    为了验证基于LDA模型和语义网络的线上文本挖掘方法在应用中的有效性,在语义网络中随机收集2 000份线上文本作为实验样本,其中包含艺术、体育、政治等10个类别。每一类线上文本样本各200篇。选择Windows7操作系统作为实验环境,采用Java语言编写实验程序。在实验样本中随机选取比较热门的词汇,设置仿真参数(如表1所示),实施线上文本的词汇数据挖掘实验。

    表1 设置仿真参数

    2.2 实验结果

    在实验过程中,10个类别线上文本的分类系数情况如图1所示,可以看出,实验词汇在分类结果中呈现出比较均衡的状态,各个类别内的方差比较小。

    图1 线上文本词汇分布情况

    利用基于LDA模型和语义网络的线上文本挖掘方法进行线上文本挖掘,挖掘结果如图2所示,可以看出该挖掘方法显著提高了线上文本挖掘的准确性,原因是本文设计的线上文本挖掘方法在挖掘线上文本词汇时,能够充分考虑到线上文本中词汇具有的倾向性,将词汇的感情色彩作为文本权重的一部分,可以准确挖掘出线上文本的深层意思。

    图2 线上文本挖掘结果

    随着线上文本中词汇特征数量逐渐增加,挖掘过程所消耗的时间也会增加,因此挖掘方法的收敛性成为了衡量线上文本挖掘性能的重要指标。图3为基于LDA模型和语义网络的线上文本挖掘方法的收敛效果。可以看出,基于LDA模型和语义网络的线上文本挖掘方法不仅可以提取出更多线上文本词汇特征,还具有比较强的收敛性,且收敛速度稳定在一个比较小的误差范围内,说明本文的挖掘方法具有一定的优越性。

    图3 收敛性测试结果

    综上所述,本文提出了基于LDA模型和语义网络的线上文本挖掘方法,利用LDA模型提取出线上文本信息的频谱特征,再根据语义网络结构,构建了线上文本的语义网络挖掘模型,实现了线上文本的有效挖掘。结果显示,本文设计的挖掘方法可以提高文本挖掘精度,且具有更强的收敛性。

    猜你喜欢 收敛性语义词汇 真实场景水下语义分割方法及数据集北京航空航天大学学报(2022年8期)2022-08-31西部地区金融发展水平的收敛性分析商业经济研究(2016年14期)2016-09-14词汇小达人文理导航·趣味课堂(2016年5期)2016-07-21我国省域经济空间收敛性研究科教导刊·电子版(2016年16期)2016-07-18词汇小达人文理导航·趣味课堂(2016年4期)2016-06-01词汇小达人文理导航·趣味课堂(2016年3期)2016-04-26“吃+NP”的语义生成机制研究长江学术(2016年4期)2016-03-11词汇小达人文理导航·趣味课堂(2015年10期)2015-12-01情绪波动、信息消费发散与福利分化效应财经科学(2015年1期)2015-07-02汉语依凭介词的语义范畴长江学术(2015年1期)2015-02-27 相关关键词: 词语之间的几种语义联系 词语辨析语义轻重不同 正反双面语义的词语 “语意”和“语义”用法辨析 语义和语意的区别
    相关热词搜索: 语义 线上 挖掘

    • 范文大全
    • 教案下载
    • 优秀作文
    • 励志
    • 课件
    • 散文
    • 名人名言