Identifying hidden semantic structures in Instagram data: a topic modelling comparison
ISSN: 1660-5373
Article publication date: 14 October 2021
Issue publication date: 1 July 2022
Abstract
Purpose
Intrigued by the methodological challenges emerging from text complexity, the purpose of this study is to evaluate the effectiveness of different topic modelling algorithms based on Instagram textual data.
Design/methodology/approach
By taking Instagram posts captioned with #darktourism as the study context, this research applies latent Dirichlet allocation (LDA), correlation explanation (CorEx), and non-negative matrix factorisation (NMF) to uncover tourist experiences.
Findings
CorEx outperforms LDA and NMF by classifying emerging dark sites and activities into 17 distinct topics. The results of LDA appear homogeneous and overlapping, whereas the extracted topics of NMF are not specific enough to gain deep insights.
Originality/value
This study assesses different topic modelling algorithms for knowledge extraction in the highly heterogeneous tourism industry. The findings unfold the complexity of analysing short-text social media data and strengthen the use of CorEx in analysing Instagram content.
研究目的
基于对文本复杂性的兴趣, 本研究以Instagram文本数据为基准, 旨在比较不同主题建模的算法的有效性。
研究方法
本研究以标有 #darktourism的Instagram帖子作为背景, 评估直观理解(LDA), 相关解释(CorEx)和非负矩阵分解(NMF)在分析与黑暗观光相关的帖子的实用性。
研究结果
CorEx分析出17个新兴的黑暗景点和活动, 亦胜过LDA和NMF。虽然LDA能探讨出较多的主题数, 但它们的内容几乎重复。同样的, 尽管NMF适用于短文本数据, 但它提取出主题相当笼统且不够具体。
原创性
透过将营销和数据科学学科相结合, 本研究为分析非结构化的文本奠定了基础, 并证实了CorEx在分析短文本社交媒体数据(如Instagram数据)中的效益。
Propósito
Intrigado por los desafíos metodológicos que surgen de la complejidad del texto, este estudio evalúa la efectividad de diferentes algoritmos de modelado de temas basados en datos textuales de Instagram.
Metodología
Al tomar publicaciones de Instagram con #darktourism como contexto de estudio, esta investigación aplica la asignación de Dirichlet latente (LDA), la explicación de correlación (CorEx) y la factorización matricial no negativa (NMF) para descubrir experiencias turísticas.
Resultados
CorEx supera a LDA y NMF al clasificar los sitios y actividades oscuros emergentes en 17 temas distintos. Los resultados de LDA son homogéneos y se superponen, mientras que los temas extraídos de NMF no son lo suficientemente específicos como para obtener conocimientos profundos.
Originalidad
Este estudio evalúa diferentes algoritmos de modelado de temas para la extracción de conocimiento en la industria del turismo. Los hallazgos revelan la complejidad de analizar datos de redes sociales de texto corto y fortalecen el uso de CorEx para analizar el contenido de Instagram.
Keywords
Acknowledgements
Author contribution:1. Conception or design of the work: Roman Egger2. Data collection: Roman Egger3. Data analysis: Roman Egger4. Data interpretation: Roman Egger and Joanne Yu5. Drafting the article: Joanne Yu6. Critical revision of the article: Joanne Yu7. Final approval of the version to be published: Roman Egger and Joanne Yu
Citation
Egger, R. and Yu, J. (2022), "Identifying hidden semantic structures in Instagram data: a topic modelling comparison", Tourism Review, Vol. 77 No. 4, pp. 1234-1246. https://doi.org/10.1108/TR-05-2021-0244
Publisher
:Emerald Publishing Limited
Copyright © 2021, Emerald Publishing Limited