multifile_lda

This model slightly extends the standard Latent Dirichlet Allocation (LDA), commonly used for the unsupervised discovery of topics in a document.

Our problem is we have multiple collections of documents that we think should share the same set of topics. In this multi-file LDA model, within each collection, we still find the topic-to-document assignments, but now the topics are also shared across collections (files).

TODO:

Implement faster Gibbs sampling using Numba/Cython
Implement online variational inference
~~Use spare matrices to store the counts~~
Plug in PyLDAVis or some other visualisation module

Name		Name	Last commit message	Last commit date
Latest commit History 50 Commits
.ipynb_checkpoints		.ipynb_checkpoints
.gitignore		.gitignore
README.md		README.md
lda_generate_data.py		lda_generate_data.py
multifile_analysis.py		multifile_analysis.py
multifile_cgs_numba.py		multifile_cgs_numba.py
multifile_cgs_numpy.py		multifile_cgs_numpy.py
multifile_feature.py		multifile_feature.py
multifile_lda.py		multifile_lda.py
multifile_utils.py		multifile_utils.py
multifile_viz.py		multifile_viz.py
synthetic_data_test.ipynb		synthetic_data_test.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.ipynb_checkpoints

.ipynb_checkpoints

.gitignore

.gitignore

README.md

README.md

lda_generate_data.py

lda_generate_data.py

multifile_analysis.py

multifile_analysis.py

multifile_cgs_numba.py

multifile_cgs_numba.py

multifile_cgs_numpy.py

multifile_cgs_numpy.py

multifile_feature.py

multifile_feature.py

multifile_lda.py

multifile_lda.py

multifile_utils.py

multifile_utils.py

multifile_viz.py

multifile_viz.py

synthetic_data_test.ipynb

synthetic_data_test.ipynb

Repository files navigation

multifile_lda

About

Releases

Packages

Contributors 2

Languages

joewandy/multifile_lda

Folders and files

Latest commit

History

Repository files navigation

multifile_lda

About

Resources

Stars

Watchers

Forks

Languages