CS 512 - Data Mining Principles Research Project (Spring 2018)

Department of Computer Science
University of Illinois at Urbana-Champaign (UIUC)

Members

Ahmed El-Kishky
Chia-Wei, Chen (Jack Chen)
Daniel You

Current Progress

(1) Tuning model for KBP dataset, use indicator as replacement of using another stream (mention)
(2) Get some result on KBP dataset

Pipeline

put smaller.tsv into directory data/
$ pip install -r requirements.txt
$ ./prepare_corpus.sh
$ ./generate_pickle.sh
$ python src/train.py

To-Do List

Known Issues:

Unstable training when applying same pretrained embedding (word2vec/FastText) on both mention and context (loss stuck in local minimum)
Volcabulary list generation threading issue: Unknown cause to join threads

Optimization on code

Parametrize some hyperparameters shared throughout the entire work
Bugs on displaying tqdm, consider to write progressbar manually
Better threading code structure

Name		Name	Last commit message	Last commit date
Latest commit History 220 Commits
model		model
src		src
tools		tools
.gitignore		.gitignore
README.md		README.md
generate_pickle.sh		generate_pickle.sh
prepare_corpus.sh		prepare_corpus.sh
requirements.txt		requirements.txt
run_sample.sh		run_sample.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

model

model

src

src

tools

tools

.gitignore

.gitignore

README.md

README.md

generate_pickle.sh

generate_pickle.sh

prepare_corpus.sh

prepare_corpus.sh

requirements.txt

requirements.txt

run_sample.sh

run_sample.sh

Repository files navigation

CS 512 - Data Mining Principles Research Project (Spring 2018)

Members

Current Progress

Pipeline

To-Do List

Known Issues:

Optimization on code

About

Releases

Packages

Contributors 3

Languages

ss87021456/Large-Scale-Subword-Entity-Typing

Folders and files

Latest commit

History

Repository files navigation

CS 512 - Data Mining Principles Research Project (Spring 2018)

Members

Current Progress

Pipeline

To-Do List

Known Issues:

Optimization on code

About

Resources

Stars

Watchers

Forks

Languages