如何确定 LDA (隐狄利克雷模型) 中主题的个数?

回答·9
最热
最新
  • 1,直觉 2,基于困惑度Perplexity 3,贝叶斯统计标准方法(log_边际似然)参考文献:Griffiths T L, Steyvers M. Finding Scientific Topics[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(S1): 5228-5235. 4,非参数方法:Teh提出的基于狄利克雷过程的HDP法,参考文献:Teh Y, Jordan M, Beal M, et al. Hierarchical Dirichlet Processes [J]. Journal of the American Statistical Association, 2007, 101(476): 1566-1581.
  • 这要看你数据集的大小和类别,10 个类别的 5w 条数据大概要 20-30 个主题,再依据经验和实验慢慢调整,或者采用 HDP LDA 方法,会自动的给定合适的主题数。
  • largest likelihood k value HDP-LDA
  • 直觉,真的全靠直觉,剩下的方法都是面试才用
  • 最好用有监督的训练方式来指导LDA的主题数,比如能达到监督学习效果的最低标准的主题数。单纯通过所谓的无监督学习来完成最优主题的确定,很玄学。
  • 越多越好,先定个200,500,1000,然后像调学习率一样调,调整幅度也像学习率一样,取5倍10倍。
  • 1 业务决定 2 评估指标决定
  • 5000个开始,凑十个字。
  • 可以用一致性检验算法确定最佳主题数量。