如何确定 LDA (隐狄利克雷模型) 中主题的个数?
回答·9
最热
最新
- 1,直觉 2,基于困惑度Perplexity 3,贝叶斯统计标准方法(log_边际似然)参考文献:Griffiths T L, Steyvers M. Finding Scientific Topics[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(S1): 5228-5235. 4,非参数方法:Teh提出的基于狄利克雷过程的HDP法,参考文献:Teh Y, Jordan M, Beal M, et al. Hierarchical Dirichlet Processes [J]. Journal of the American Statistical Association, 2007, 101(476): 1566-1581.
- 这要看你数据集的大小和类别,10 个类别的 5w 条数据大概要 20-30 个主题,再依据经验和实验慢慢调整,或者采用 HDP LDA 方法,会自动的给定合适的主题数。
- largest likelihood k value HDP-LDA
- 直觉,真的全靠直觉,剩下的方法都是面试才用
- 最好用有监督的训练方式来指导LDA的主题数,比如能达到监督学习效果的最低标准的主题数。单纯通过所谓的无监督学习来完成最优主题的确定,很玄学。
- 越多越好,先定个200,500,1000,然后像调学习率一样调,调整幅度也像学习率一样,取5倍10倍。
- 1 业务决定 2 评估指标决定
- 5000个开始,凑十个字。
- 可以用一致性检验算法确定最佳主题数量。