中文标题:利用机器学习与生成式人工智能提升内容互动性:YouTube 视频成功驱动因素探析
英文标题:Leveraging Machine learning and generative AI for content Engagement: An Exploration of drivers for the success of YouTube videos
期刊:Journal of Business Research
发表时间:2025年4月
作者:Arindra Nath Mishra, Pooja Sengupta, Baidyanath Biswas, Ajay Kumar, Kristof Coussement
引用格式:Mishra, A. N., Sengupta, P., Biswas, B., Kumar, A., & Coussement, K. (2025). Leveraging Machine learning and generative AI for content Engagement: An Exploration of drivers for the success of YouTube videos. Journal of Business Research, 193, 115330.
一、摘要
在数字营销时代,品牌正在大举进军YouTube等视频平台,以实现客户获取、转化和留存。研究早已证明,视频内容管理不仅能提升品牌曝光率,还能极大影响用户行为(Park 等,2023)。随着内容产业生态系统的不断扩展,内容创作者的地位日益突出。相比企业自营账号,个体创作者通常因更强的真实感而获得更高的可信度(Tsai & Men,2013)。然而,在如YouTube这样高度饱和的环境中,内容创作者所面临的竞争也愈加激烈。
现有文献多聚焦于视频的视觉特征,如亮度、语调与时长(Schwenzow 等,2021),而对叙事内容及评论区用户反馈的语义与情绪分析关注不足,尤其听觉与语义层面的研究尚属空白(Oh & Choi,2017;Tafesse,2020)。
作为全球最大的视频平台,YouTube不仅降低了企业营销成本(Rowley,2008),也为品牌与消费者深度互动提供了重要渠道。用户日均观看时长达19.35分钟(Cook,2022),显示出强用户粘性。
尽管衡量视频成功的指标五花八门,如观看数、订阅增长、停留时长等,本文聚焦于点赞数这一相对公开、直观且能反映用户即时正向反馈的核心指标。
二、研究空白与研究问题
(一)视频叙事内容的语义特征尚未作为成功的衡量依据
过去的研究往往通过观看次数、订阅数变化或停留时长等指标来定义视频的成功,但对视频本身叙事内容的语义价值探讨甚少。本研究首次将点赞数作为衡量用户即时情绪反馈的核心指标,着重分析叙事中的社会距离、情绪倾向与时间导向等变量,运用解释水平理论(Construal Level Theory, CLT)进行解释。由此引出第一个研究问题:
RQ1:视频叙事中哪些内容因素影响用户点赞?
(二)观众参与行为与点赞行为之间的直接关系缺乏实证研究
用户的参与度(如评论、回复、情绪等)被普遍认为对视频传播有积极作用,但相关文献多将其与观看行为或转发行为关联,鲜有研究探索其对点赞数的直接贡献。本文则将评论长度、主观性、情绪倾向、时间导向等用户反馈数据量化,结合顾客参与理论(Customer Engagement Theory, CET)系统探讨用户行为对视频成功的影响:
RQ2:观众的参与特征如何影响视频点赞?
(三)生成式人工智能(GenAI)在视频内容分析中的应用仍处于萌芽阶段
尽管生成式AI(如ChatGPT)的潜力已在多个领域获得验证,但目前在市场营销与内容分析中的应用仍多为概念探讨或小规模实验。少数应用LLMs(如Arora 等人,2024)的方法,也以人机混合模式为主,缺乏系统量化分析和大规模实证支撑。本研究开创性地使用GPT-3.5、GPT-4、Gemini等模型,通过提示工程(prompt engineering),提取视频内容与评论的语义指标(主观性、情绪倾向、可读性评分),并与传统方法(如TextBlob)对比,为视频内容研究构建更高效的AI辅助路径:
RQ3:我们能否用GenAI提取影响视频点赞的关键指标?
三、理论基础
(一)解释水平理论(Construal Level Theory, CLT)
CLT强调,人们对信息的理解会受到心理距离的影响,从而呈现为具体或抽象的加工水平。个体距离信息越近,其感知越具体;越远则越抽象。视频的社会距离越远(如使用你、他/她而非我/我们),观众可能越难产生代入感;视频的时间导向越偏未来(如发布预告或预期类内容),其抽象感增强,可能降低点赞意愿。
(二)顾客参与理论(Customer Engagement Theory, CET)
CET视用户为品牌关系的共创者,强调他们在社交媒体环境中的主动行为(如评论、点赞、分享)能提升内容传播与品牌价值。在本研究中,用户评论被进一步语义量化,包括:评论长度(代表投入程度)、评论的情绪倾向(正向或负向)、时间导向(“现在”或“未来”)、社会距离词汇(“我”、“你”或“他们”使用频率)。
四、概念模型
五、数据和方法
本研究以YouTube为数据来源平台,围绕智能手机产品(iPhone 14、MotoGPlay、Pixel 7A)的视频评论与内容展开分析,涵盖不同价格区间、具有较强可比性,确保样本的代表性与广泛性。研究共收集1055个相关视频及其对应的63万余条用户评论,数据处理与分析主要依托Python、R Studio及LIWC-22软件完成。
在数据处理方面,首先通过YouTube Data API v3抓取每支视频的ID,并进一步提取视频字幕与用户评论;随后利用Google Cloud Translation API将非英文文本统一翻译为英文,以确保语义处理的准确性。在R环境下完成文本清洗工作,包括去除标点符号、停用词、多余空格及统一大小写。语义分析阶段,研究结合LIWC-22工具提取文本的情绪表达、社交距离、时间取向及字数等语言特征,同时借助Python中的TextBlob与TextStat库计算文本的主观性、情感极性及可读性分数。
为进一步提升分析深度,研究引入三种主流大型语言模型(LLMs)——GPT-3.5、GPT-4与Gemini,构建视频内容摘要并输出相应的主观性、极性与可读性指标。在文本级别完成多源指标计算后,研究按视频ID进行聚合,构建了融合语义变量与元数据的综合数据集。
在实证分析阶段,考虑到视频点赞数属于计数型数据且存在过度离散特征,研究选用负二项回归模型替代传统泊松回归进行估计,并通过R中的VGAM程序对均值与离散参数分别建模,从而提高模型拟合能力与解释力。此外,研究还使用方差分析与Sheffe事后检验比较各LLM与传统方法在语义提取方面的差异,验证多源语义计算方法之间的稳健性与一致性。
图2 视频挖掘步骤
六、研究发现
(一)视频叙事结构:社会距离越小(如更频繁使用“我/我们”),越能激发用户情感共鸣,从而获得更多点赞;有趣的是,未来导向的视频(如新品预告)点赞数显著增加,表明期待感在提升用户反馈中具有正向作用。
(二)评论特征:评论长度是唯一在各模型中始终显著的正向因素,且聚焦“现在”的评论比“未来”内容更能激发点赞。
(三)语义倾向:视频与评论的主观性总体呈正相关,而情绪极性(越积极)反而与点赞呈负相关,说明用户更认可真实或批判性内容。
(四)LLM工具评估:GPT-4输出与传统方法(TextBlob)高度一致,在主观性与情绪极性评分上最为稳定;Gemini评分波动较大,在后续模型中表现最弱;ANOVA结果表明不同模型间存在系统性差异。
(五)预测性能对比:深度学习模型(如MLP、XGBoost)预测点赞效果最佳,显著优于基于LLM语义变量的传统回归模型,后者误差较大,尤其是Gemini误差最高。
(六)视频时长影响:视频超过8分钟虽不显著,但整体点赞更高,表明长内容更具价值密度与吸引力。
七、结论和启示
(一)理论意义
本研究首次系统探讨了产品评测类YouTube视频中叙事内容和观众互动对视频成功的影响,验证了解释水平理论(CLT)和顾客参与理论(CET)在视频营销中的适用性。研究发现内容创作者的情感状态、社会距离及叙事的时间焦点对视频观看量和点赞数有显著影响。此外,研究创新性地引入生成式人工智能(如ChatGPT)进行文本情感和可读性分析,拓展了视频内容分析的方法论,为未来自然语言处理在营销领域的应用提供了新方向。
(二)管理意义
研究结果为内容创作者和营销管理者提供了切实可行的策略建议。建议视频叙事应更多聚焦当前事实,避免未来抽象内容,以提升观众兴趣和观看量。同时,视频叙事中应减少社会距离,采用更多“我”“我们”等亲近用语增强观众的认同感,从而提升视频的点赞数和传播效果。此外,利用生成式人工智能快速分析用户评论情感和主观性,可以辅助营销人员更高效地把握用户反馈,优化内容和推广策略。
(三)局限性与未来研究
本研究聚焦于智能手机产品评测视频,限制了结果的泛化性,未来研究可拓展至其他产品类别和不同类型的YouTube视频(如旅游、美食等)。此外,研究中采用的生成式大模型作为黑盒工具,未进行深度训练和优化,未来可探索更加定制化和透明的模型设计,以提升分析准确性和解释力。同时,结合多模态数据(如视频画面、音频特征)进行综合分析,也是未来研究的重要方向。
资料来源:中智院微信公众号