综述:机器学习与自然语言处理技术在开放式问题调查分析中的应用:一项范围综述

《Computers》:Application of Machine Learning and Natural Language Processing Techniques for the Analysis of Surveys with Open-Ended Questions: A Scoping Review

【字体: 时间:2026年06月10日 来源:Computers 4.2

编辑推荐:

  使用开放式调查问题进行数据收集在各个领域显著增加,同时机器学习(ML)和自然语言处理(NLP)技术用于分析受访者意见的应用也显著增加。在本研究中,研究人员对79项分析调查中开放式回答的研究进行了范围综述。研究人员围绕六个主要标准构建综述:监督学习、无监督学习、

  
使用开放式调查问题进行数据收集在各个领域显著增加,同时机器学习(ML)和自然语言处理(NLP)技术用于分析受访者意见的应用也显著增加。在本研究中,研究人员对79项分析调查中开放式回答的研究进行了范围综述。研究人员围绕六个主要标准构建综述:监督学习、无监督学习、监督描述性规则发现(SDRD)、开放式问题、NLP和观点比较。这种方法使研究人员能够识别ML和NLP中最常用的任务、算法和技术,揭示机会领域和主要未来挑战。研究人员基于Arksey和O'Malley的方法学框架,并采用PRISMA进行系统综述报告。研究结果表明,大多数涉及开放式问题调查的研究发表于2020年和2022年,主要集中在研究和健康领域。
1. 引言:人工智能(AI)通过感知环境数据并执行行动的智能体定义,涵盖自然语言处理(NLP)、计算机视觉、机器人等领域。机器学习(ML)作为AI子领域,使计算机无需严格编程即可学习,包括监督学习(从标记数据预测输出)、无监督学习(从无标记数据学习)和半监督学习。监督描述性规则发现(SDRD)是一组基于规则的技术,用于获取描述性知识,涵盖监督和无监督学习,旨在发现数据中隐藏的模式和关系。开放式调查问题允许受访者自由表达意见,提供深度、上下文和新视角,在数据收集中具有重要价值。相关研究如主题建模和NLP技术的应用已广泛展开。本研究旨在通过范围综述,回顾2014至2026年间79篇使用ML和NLP分析开放式调查回答的研究,结合SDRD技术,填补现有知识空白。

2. 材料与方法:基于Arksey和O'Malley的方法学框架及PRISMA模型,研究分为五个阶段:确定研究问题、识别相关研究、选择研究、图表化数据、汇总报告。六个研究问题聚焦于最常用的ML类型、ML和NLP任务、ML算法、NLP模型与架构、技术工具及研究领域。纳入标准包括:使用ML或NLP技术分析开放式调查问题、2014至2026年间英文发表、提供经验结果。排除非英文、不相关及学位论文。检索数据库包括IEEE Xplore、ACM Digital Library、Springer Nature Link、ScienceDirect、Wiley Online Library及Google Scholar,通过组合关键词如‘Analysis’ AND ‘Machine learning’ AND ‘Survey’ AND ‘open-ended question’ OR ‘open-ended’ AND ‘Natural language processing’进行查询。初步获得29,288条记录,经标题、摘要和全文筛选后,最终纳入79篇相关研究。数据提取采用标准化表格,涵盖作者、贡献、技术、学习类型、任务、问题、结果及NLP和开放式问题使用情况。两位研究者独立审查,分歧通过技术讨论解决。质量分析显示大部分文章发表在Q1和Q2期刊及CORE A*、A、B会议。

3. 结果:状态分析显示,79篇研究中多数结合使用监督学习和无监督学习,仅5篇应用SDRD技术(包括Emerging Pattern Mining(EPM)、Subgroup Discovery(SD)或Contrast Set Mining(CSM)),但没有任何研究同时使用所有三种SDRD任务。大多数研究(45篇)分析了超过1000份受访者回答。发布年份集中在2020和2022年,地域分布以美国、英国、瑞士和中国为主。技术分析在讨论部分详细展开。

4. 讨论:
4.1 问题1:最常用的机器学习类型:监督学习和无监督学习的联合使用最为突出,出现在33篇文章中。半监督和无监督学习单独使用较少。例如,He和Schonlau(2020)同时应用监督和无监督学习评估手动编码的可靠性,Onan(2021)用于分析教师评价反馈。结合两种学习方法能有效提取开放式回答中的信息、描述数据特征、预测个人特质、编码文本答案、增强分析效率及理解用户观点。
4.2 问题2:最常用的ML和自然语言处理(NLP)任务:分类(ML)和主题建模(NLP)是最常用的任务,分别出现在大量研究中。关键词抽取和语义文本匹配使用较少。SDRD任务仅应用于5项研究,未能充分发挥其结合优势。分类任务通过支持向量机(SVM)等算法实现,主题建模通过隐狄利克雷分配(LDA)等方法挖掘潜在主题。
4.3 问题3:主要ML算法:支持向量机(SVM)和随机森林(RF)是最普遍使用的算法,见于多项研究(如Moreo et al.,2020;He和Schonlau,2020)。SVM因擅长文本分类而受欢迎,RF在回归和分类任务中表现优异。然而,近期研究表明BERT等预训练模型在训练数据充足时性能超越SVM和RF,如Gweon和Schonlau(2021)显示BERT在自动编码中表现更好。
4.4 问题4:最流行的NLP模型和算法:隐狄利克雷分配(LDA)、结构主题模型(STM)和来自变换器的双向编码器表示(BERT)是最常见的方法。LDA结合TF-IDF在文本表示中表现良好,STM弥补了LDA不考虑主题相关性的缺陷,BERT凭借在大数据上的预训练优势超越传统模型。然而,LDA处理短文本或多主题文档时性能下降,STM计算受访者样本量困难,BERT编程复杂且硬件要求高。大型语言模型(LLMs)如GPT系列虽已兴起,但本研究范围主要覆盖传统ML和NLP方法。
4.5 问题5:最常用的技术:库方面,R语言中的stm包、Python中的自然语言工具包(NLTK)和Gensim是最广泛使用的;编程语言以Python和R为主,Java次之;可视化工具包括词云等;统计检验中卡方检验和方差分析(ANOVA)最为常见;数据挖掘工具以Weka、Stata和IBM SPSS为主;数据库管理系统偏好PostgreSQL;其他技术如文本挖掘和Excel也被常用。技术多样性反映了调查分析的多学科特性。
4.6 问题6:开放式问题调查主导的研究领域:研究和健康领域占据主导地位,许多研究提出新方法论或工具用于调查分析,健康领域通过ML和SDRD技术提取病理信息,如减少尸检的原因。教育和商业领域也有应用但相对较少。研究领域主导是因为工具开发和比较类研究较多,健康和教育则瞄准更具体的目标。

5. 结论:开放式调查回答具有丰富价值,可提供深度和多样性。本研究通过范围综述发现,将ML技术(特别是SDRD)与NLP结合用于分析开放式调查问题是开放的研究领域,尚无集成所有SDRD任务(EPM、SD、CSM)的统一框架。未来工作将开发新的计算方法,探索NLP与SDRD技术的融合,并关注医疗和教育领域的具体场景,通过不同算法和专家评估验证适应性。本综述排除了基于声学信号或多模态数据的方法,但指出信号特征表示是潜在扩展方向。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号