《Acta Psychologica》:Analyzing guests' preferences for Airbnb bookings in Japan using machine learning algorithms
编辑推荐:
本研究为填补亚洲特别是日本Airbnb市场的研究空白,利用支持向量机、决策树、随机森林和逻辑回归等机器学习算法,分析了东京的Airbnb数据,旨在从细分子分数预测整体评分状态并识别宾客满意度的关键驱动因素。研究发现,逻辑回归模型表现最佳,准确性高达98.92%;特征重要性分析揭示,准确性、价值和沟通是影响日本Airbnb宾客满意度的三个最重要因素。这项研究首次强调了准确性在亚洲市场的重要性,为日本民宿房东优化服务、提升宾客体验提供了数据支持的见解,有助于支持该国旅游业的健康发展。
在当今的共享经济浪潮中,Airbnb已经从一个新颖的概念,成长为颠覆传统酒店业的全球性力量。它连接了拥有闲置房产的房东和寻求独特体验的旅行者,创造了一个充满活力的点对点住宿市场。日本,作为全球顶级旅游目的地之一,已成为Airbnb在亚洲增长最快的市场之一,其房源数量已超过400万,与日本政府到2030年吸引3000万游客的宏伟目标相呼应。
然而,尽管Airbnb在全球范围内蓬勃发展,但学术研究却呈现明显的不均衡。现有的研究主要集中在如美国和欧洲等主要市场,对于亚洲,特别是规模庞大且独特的日本Airbnb市场,其了解存在显著空白。日本市场的宾客偏好有何不同?哪些因素最能驱动他们的满意度?这些问题的答案,对于希望优化服务的日本房东,以及旨在推动旅游业发展的政策制定者而言,都至关重要。为了弥合这一知识鸿沟,一项题为“Analyzing guests' preferences for Airbnb bookings in Japan using machine learning algorithms”的研究在《Acta Psychologica》期刊上发表。研究人员将目光投向了日本,并运用先进的机器学习(Machine Learning, ML)工具,试图解码日本Airbnb宾客的行为密码,为亚洲的酒店业趋势提供新的见解。
为了开展这项研究,研究人员获取了来自InsideAirbnb的东京房源数据集,包含14,802条记录。研究的核心是Airbnb的六个房源级星级子分数类别:准确性(Accuracy)、清洁度(Cleanliness)、入住(Check-in)、沟通(Communication)、位置(Location)和价值(Value)。研究目标有二:一是利用机器学习分类算法,基于这些子分数来预测宾客给出的“正面”或“负面”二分类整体评分状态;二是识别出对预测结果影响最大的关键因素。为此,团队应用了四种经典的监督分类算法:支持向量机(Support Vector Machine, SVM)、决策树(Decision Tree, DT)、随机森林(Random Forest, RF)和逻辑回归(Logistic Regression, LR)。每个模型都使用单一子分数作为预测变量,以整体评分状态为目标变量进行训练和测试,并重复运行10次以确保稳定性。模型性能通过准确率等指标进行评估。为了深入理解各因素的影响力,研究进一步利用决策树和随机森林模型内置的特征重要性(feature importance)方法,量化了每个子分数类别对预测结果的贡献度。
4.1. 评估指标和验证设计
机器学习模型展现出了卓越的分类性能。逻辑回归模型脱颖而出,取得了98.92%的整体准确率,成为表现最佳的模型,随机森林、决策树和支持向量机也分别达到了98.87%、98.85%和98.83%的高准确率。在细分维度上,沟通子分数的预测准确率最高(99.03%),其次是准确性(99.01%)和价值(98.99%)。交叉验证结果显示各模型性能稳定,标准差异小。灵敏度分析也证实,即使用不同的数据填补策略,主要结论依然稳健。
4.2. 相关性矩阵、泄漏检验和特征重要性排序
分析发现,所有六个房源级子分数类别之间存在高度相关性,相关系数在0.94到0.98之间,这表明它们共同反映了宾客的整体评估过程,存在多重共线性。因此,模型能取得接近完美的分类准确率是预期之中的。泄漏检验进一步支持了各评分类别间的高度一致性。在特征重要性方面,随机森林模型提供了比单一决策树更平衡、稳健的结果。根据随机森林模型在10次运行中的平均结果,特征重要性排名依次为:准确性(24.39%)、价值(23.80%)、沟通(16.79%)、清洁度(14.15%)、入住(13.22%)和位置(7.66%)。值得注意的是,重要性排名前三的特征(准确性、价值、沟通)也正是相关性最强、分类准确率最高的三个特征。
4.3. 正面或负面评分分类
对数据集的分析显示,日本Airbnb市场的宾客满意度整体非常高。98.51%的评分是正面的,仅有1.49%为负面。对各子分数类别的进一步分析表明,沟通获得了最高的宾客满意度(99.06%),其次是入住(98.54%)、位置(98.56%)、准确性(98.24%)、价值(97.41%)和清洁度(96.89%)。所有维度的满意度都维持在很高且相近的水平,差异仅为2.17%。
研究的结论与讨论部分对上述发现进行了深入阐释。逻辑回归模型凭借其处理线性决策边界和应对多重共线性的能力(通过L2正则化),在此次分类任务中表现最佳,这与先前一些酒店业预测研究的结果一致。研究指出,各子分数类别间的高度相关性是预期内的,因为它们都从不同侧面衡量了同一次住宿体验,例如房源描述不准确(准确性低)很可能同时导致对位置和价值的负面评价。
本研究的核心理论贡献在于,首次通过机器学习特征重要性分析,明确了在亚洲日本市场背景下,准确性是预测Airbnb整体宾客满意度的最重要因素,其次是价值和沟通。这为理解亚洲酒店业宾客偏好提供了新的、数据驱动的视角。此外,研究在方法论上也有所贡献,它展示了在高多重共线性数据中,通过重复运行和稳定性评估来合理解读特征重要性的方法。
在管理实践上,本研究为日本Airbnb房东提供了清晰的优化路径。房东应积极鼓励宾客评分,并利用机器学习工具(如逻辑回归)定期分析评分数据,以洞察服务短板。根据研究发现,房东在保持目前沟通方面的优秀表现(99.06%满意度)的同时,应将改进重点放在提升准确性和价值感知上。这意味着需要确保房源描述(包括设施、照片、位置)绝对真实、及时更新;并通过强调便利设施、独特设计、可靠的Wi-Fi等服务,来提升宾客感知的价值,从而证明价格的合理性。
当然,研究也存在一些局限,例如其结论基于东京单一城市的数据,可能无法直接推广到泰国、新加坡等其他亚洲市场;研究使用的数据源可能未涵盖所有反馈;尽管采用了多种方法,但高多重共线性对特征重要性解释的挑战依然存在;未来研究可以探索更多如神经网络等先进模型,并将比较扩展到其他共享经济平台。
总而言之,这项研究成功地运用机器学习算法照亮了日本Airbnb市场的“黑箱”,不仅证实了逻辑回归等模型在酒店业数据分析中的高效能,更关键的是揭示了驱动日本宾客满意度的独特优先级:准确性至上。这一发现打破了以往研究中可能更强调沟通或清洁度的普遍认知,为亚洲酒店业研究填补了重要的空白,也为日本旅游业从业者和政策制定者提供了提升服务质量、实现可持续增长的科学依据。