大众网络调查中开放式问题的智能处理

大众网络调查中开放式问题的智能处理

ID:66042248

大小:125.86 KB

页数:6页

时间:2021-10-28

大众网络调查中开放式问题的智能处理_第1页
大众网络调查中开放式问题的智能处理_第2页
大众网络调查中开放式问题的智能处理_第3页
大众网络调查中开放式问题的智能处理_第4页
大众网络调查中开放式问题的智能处理_第5页
大众网络调查中开放式问题的智能处理_第6页
资源描述:

《大众网络调查中开放式问题的智能处理》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、EvgenyNikulchevetal./ProcediaComputerScience186(2021)706–712711大众网络调查中开放式问题的智能处理摘要使用数字平台的网络调查是进行大规模研究的流行方式之一。然而,基于所进行的调查的主题领域,对答案的智能分析具有许多特征。本文提出了一种方法,用于分析带有开放式问题的海量网络调查的结果,该方法是在使用文本处理方法和LDA(潜在狄利克雷分配)的基础上开发的。教育心理学家的联邦调查结果公布了。关键词:LDA网络调查;开放式问题1。介绍目前,教育和心理学领域的大量研究

2、使用网络技术。这使得有可能吸引大量的受访者,在短时间内进行人口和大规模调查。大部分研究基于调查问卷[1]。问卷中包含开放式问题扩大了研究范围,并且是非结构化数据源,具有非常有价值的信息,允许获得不受预定义答案框架约束的额外分析数据[2],包括关于情绪状态的额外信息[3]。当进行成千上万份问卷的大规模网络调查时,每个开放式问题在每个问卷中都有一个几乎唯一的答案,因为这些问题不是针对有明确答案的主题而设计的。文本答案处理的主要工具之一是智能分析[4]。然而,人工智能工具的使用是一个重要的问题——所使用的文本挖掘模型对于每种

3、情况都是不同的,因为每个主题都有一组语义不同的特定词汇[5]。例如,用于分析社交网络中的消息的文本挖掘模型与用于分析调查中开放式问题的回答的文本挖掘模型非常不同[6]。在分析开放式问题的文本答案时,需要使用主题建模的方法[7],并考虑以下任务:对文本数据库进行预处理;选择主题设置建模;可靠性评估模型;对主题或回答类别的充分解释。在所提出的研究中,主题建模是使用LDA方法(LatenDirichletAllocation)进行的,该方法首先在[8]中提出,是一种允许研究文本数据集合的主题结构的计算分析方法[9]。这种方法

4、将允许可视化和评估答案超过50个字符的分组主题。在本文中,STTM方法[10]不适用于这个任务,因为答案有更多的字符。此外,LSA有时更适合于确定描述性主题,这在文件较长和情况较为分散的情况下很有用。但是另一方面,潜在狄利克雷分配在识别紧凑主题方面给出了更好的结果,这对于创建短标签和解释主题是有用的。除了主题建模,聚类还用于分离答案。例如,您可以使用以下聚类方法:1.k-均值[10];2。DBSCAN[11]。DBSCAN指的是不需要指定集群数量的算法。在K均值法中,这个参数是必需的。聚类不同于主题建模。它将文档语料库

5、分成多个组,而不是突出与文档相关的主要主题。在文档聚类中,k-means方法被广泛使用,该方法最初为每个聚类随机选择质心,并为每个文档分配与质心距离较小的聚类的标签。然后,在每次迭代中,该算法计算聚类的质心,并将其标签重新分配给文档,直到它们收敛,即所有文档的标签保持不变。基于密度的聚类方法将基于密度的对象组定义为聚类。这个组广泛使用的方法之一——DBSCAN——的工作原理如下。开始对随机对象执行采样时,它会确定在该对象半径的邻域中是否存在不少于预定参数的对象,如果存在,则将该邻域定义为聚类。此外,位于该簇的近邻的所有

6、对象都被分配给该簇。重复这一过程,直到没有未检查的对象。如果对象最终不属于任何集群,它将被标记为噪声,并被设置为方法的外部参数。群集不适合此任务,因为:EvgenyNikulchevetal./ProcediaComputerScience186(2021)706–7127111.突出组和关键词很重要;2.答案和群体没有关系;3。需要进行快速实验;4。《维度的诅咒》[12]。对于主题建模,LDA算法是黄金分割法。在该算法中,文档可以表示为主题的组合。LDA模型的一个独特之处是主题不必不同,单词可以出现在多个主题中;这给

7、定义的主题带来了一些模糊性,这有助于处理语言的灵活性。该方法基于文档生成的概率模型;pwd(

8、)=åtTÎ邮政总局

9、,)(

10、)=åtTÎ邮政总局

11、)(

12、)(1)1.文档中的每个单词都与一个特殊的主题tÎT相关联;2.集合d是来自离散分布p(dw.t.的)(d的独立观测样本,,)onDWT**3.条件独立假设p(w

13、d)·p(w

14、t);对于潜在狄利克雷分配,概率主题模型被转换成一种形式:pwd(

15、)=åtTÎ邮政总局

16、)(

17、)TDptd(

18、)(2)fwt邮政总局(

19、)更新于:1.)tÎtÎr

20、t

21、——参数为aÎR

22、T

23、的

24、潜在狄利克雷分配的随机向量:G(a0)Õat-1å迪尔(

25、a)PtG(at)TD,a0t1t12.参数为bÎR

26、T

27、的潜在狄利克雷分配的jt=(jwt)wÎwÎr

28、t

29、-随机向量:G(b0)Õbw-1ååDir(j

30、b)=PwG(bw),b0wbw,wjwt1换句话说,狄利克雷正则化用于矩阵分解。2。原始数据数据是使用Digita

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。