综述：机器学习与自然语言处理技术在开放式问题调查分析中的应用：一项范围综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers》：Application of Machine Learning and Natural Language Processing Techniques for the Analysis of Surveys with Open-Ended Questions: A Scoping Review

【字体：大中小】 时间：2026年06月10日 来源：Computers 4.2

编辑推荐：

　　使用开放式调查问题进行数据收集在各个领域显著增加，同时机器学习（ML）和自然语言处理（NLP）技术用于分析受访者意见的应用也显著增加。在本研究中，研究人员对79项分析调查中开放式回答的研究进行了范围综述。研究人员围绕六个主要标准构建综述：监督学习、无监督学习、

使用开放式调查问题进行数据收集在各个领域显著增加，同时机器学习（ML）和自然语言处理（NLP）技术用于分析受访者意见的应用也显著增加。在本研究中，研究人员对79项分析调查中开放式回答的研究进行了范围综述。研究人员围绕六个主要标准构建综述：监督学习、无监督学习、监督描述性规则发现（SDRD）、开放式问题、NLP和观点比较。这种方法使研究人员能够识别ML和NLP中最常用的任务、算法和技术，揭示机会领域和主要未来挑战。研究人员基于Arksey和O'Malley的方法学框架，并采用PRISMA进行系统综述报告。研究结果表明，大多数涉及开放式问题调查的研究发表于2020年和2022年，主要集中在研究和健康领域。

1. 引言：人工智能（AI）通过感知环境数据并执行行动的智能体定义，涵盖自然语言处理（NLP）、计算机视觉、机器人等领域。机器学习（ML）作为AI子领域，使计算机无需严格编程即可学习，包括监督学习（从标记数据预测输出）、无监督学习（从无标记数据学习）和半监督学习。监督描述性规则发现（SDRD）是一组基于规则的技术，用于获取描述性知识，涵盖监督和无监督学习，旨在发现数据中隐藏的模式和关系。开放式调查问题允许受访者自由表达意见，提供深度、上下文和新视角，在数据收集中具有重要价值。相关研究如主题建模和NLP技术的应用已广泛展开。本研究旨在通过范围综述，回顾2014至2026年间79篇使用ML和NLP分析开放式调查回答的研究，结合SDRD技术，填补现有知识空白。

2. 材料与方法：基于Arksey和O'Malley的方法学框架及PRISMA模型，研究分为五个阶段：确定研究问题、识别相关研究、选择研究、图表化数据、汇总报告。六个研究问题聚焦于最常用的ML类型、ML和NLP任务、ML算法、NLP模型与架构、技术工具及研究领域。纳入标准包括：使用ML或NLP技术分析开放式调查问题、2014至2026年间英文发表、提供经验结果。排除非英文、不相关及学位论文。检索数据库包括IEEE Xplore、ACM Digital Library、Springer Nature Link、ScienceDirect、Wiley Online Library及Google Scholar，通过组合关键词如‘Analysis’ AND ‘Machine learning’ AND ‘Survey’ AND ‘open-ended question’ OR ‘open-ended’ AND ‘Natural language processing’进行查询。初步获得29,288条记录，经标题、摘要和全文筛选后，最终纳入79篇相关研究。数据提取采用标准化表格，涵盖作者、贡献、技术、学习类型、任务、问题、结果及NLP和开放式问题使用情况。两位研究者独立审查，分歧通过技术讨论解决。质量分析显示大部分文章发表在Q1和Q2期刊及CORE A*、A、B会议。

3. 结果：状态分析显示，79篇研究中多数结合使用监督学习和无监督学习，仅5篇应用SDRD技术（包括Emerging Pattern Mining（EPM）、Subgroup Discovery（SD）或Contrast Set Mining（CSM）），但没有任何研究同时使用所有三种SDRD任务。大多数研究（45篇）分析了超过1000份受访者回答。发布年份集中在2020和2022年，地域分布以美国、英国、瑞士和中国为主。技术分析在讨论部分详细展开。

4. 讨论：
4.1 问题1：最常用的机器学习类型：监督学习和无监督学习的联合使用最为突出，出现在33篇文章中。半监督和无监督学习单独使用较少。例如，He和Schonlau（2020）同时应用监督和无监督学习评估手动编码的可靠性，Onan（2021）用于分析教师评价反馈。结合两种学习方法能有效提取开放式回答中的信息、描述数据特征、预测个人特质、编码文本答案、增强分析效率及理解用户观点。
4.2 问题2：最常用的ML和自然语言处理（NLP）任务：分类（ML）和主题建模（NLP）是最常用的任务，分别出现在大量研究中。关键词抽取和语义文本匹配使用较少。SDRD任务仅应用于5项研究，未能充分发挥其结合优势。分类任务通过支持向量机（SVM）等算法实现，主题建模通过隐狄利克雷分配（LDA）等方法挖掘潜在主题。
4.3 问题3：主要ML算法：支持向量机（SVM）和随机森林（RF）是最普遍使用的算法，见于多项研究（如Moreo et al.，2020；He和Schonlau，2020）。SVM因擅长文本分类而受欢迎，RF在回归和分类任务中表现优异。然而，近期研究表明BERT等预训练模型在训练数据充足时性能超越SVM和RF，如Gweon和Schonlau（2021）显示BERT在自动编码中表现更好。
4.4 问题4：最流行的NLP模型和算法：隐狄利克雷分配（LDA）、结构主题模型（STM）和来自变换器的双向编码器表示（BERT）是最常见的方法。LDA结合TF-IDF在文本表示中表现良好，STM弥补了LDA不考虑主题相关性的缺陷，BERT凭借在大数据上的预训练优势超越传统模型。然而，LDA处理短文本或多主题文档时性能下降，STM计算受访者样本量困难，BERT编程复杂且硬件要求高。大型语言模型（LLMs）如GPT系列虽已兴起，但本研究范围主要覆盖传统ML和NLP方法。
4.5 问题5：最常用的技术：库方面，R语言中的stm包、Python中的自然语言工具包（NLTK）和Gensim是最广泛使用的；编程语言以Python和R为主，Java次之；可视化工具包括词云等；统计检验中卡方检验和方差分析（ANOVA）最为常见；数据挖掘工具以Weka、Stata和IBM SPSS为主；数据库管理系统偏好PostgreSQL；其他技术如文本挖掘和Excel也被常用。技术多样性反映了调查分析的多学科特性。
4.6 问题6：开放式问题调查主导的研究领域：研究和健康领域占据主导地位，许多研究提出新方法论或工具用于调查分析，健康领域通过ML和SDRD技术提取病理信息，如减少尸检的原因。教育和商业领域也有应用但相对较少。研究领域主导是因为工具开发和比较类研究较多，健康和教育则瞄准更具体的目标。

5. 结论：开放式调查回答具有丰富价值，可提供深度和多样性。本研究通过范围综述发现，将ML技术（特别是SDRD）与NLP结合用于分析开放式调查问题是开放的研究领域，尚无集成所有SDRD任务（EPM、SD、CSM）的统一框架。未来工作将开发新的计算方法，探索NLP与SDRD技术的融合，并关注医疗和教育领域的具体场景，通过不同算法和专家评估验证适应性。本综述排除了基于声学信号或多模态数据的方法，但指出信号特征表示是潜在扩展方向。

联系信箱：

粤ICP备09063491号

热点排行