HashingTfidfVectorizer

Very fast implementation of tf-idf vectorizer.

Features

data batch iteration
hash
parallel computing
fast implementation of SpaCy tokenizer
SQLite iterators (it's not necessary to use it, but if you have a SQLite textual database, it may be fun)

Though I'm still working on imporving of the parallel computing part.

Installation

pip install -r requirements.txt
python -m spacy download en

Usage

import time

from sklearn.feature_extraction.stop_words import ENGLISH_STOP_WORDS

from tokenizers.simple_iterator import SimpleIterator
from vectorizer import HashingTfIdfVectorizer

DATA = ["I think it's better to fry mushrooms.",
        "Oh, this senseless life of ours!"] * 20000

iterator = SimpleIterator(DATA, batch_size=1000)
vectorizer = HashingTfIdfVectorizer(iterator, ngram_range=(1, 2),
vectorizer = HashingTfIdfVectorizer(iterator, tokenizer=SimpleTokenizer(ngram_range=(1, 2),
                                                                        stopwords=ENGLISH_STOP_WORDS))

t01 = time.time()
vectorizer.fit_parallel(n_jobs=7)
t1 = time.time() - t01

t02 = time.time()
vectorizer.fit()
t2 = time.time() - t02


print(
    'Process time for parallel fit, {} docs: {} s.'.format(len(iterator.doc_index), t1))

print(
    'Process time for non parallel fit, {} docs: {} s.'.format(len(iterator.doc_index), t2))

Process time for parallel fit, 40000 docs: 9.25651478767395 s.
Process time for non parallel fit, 40000 docs: 12.76369833946228 s.

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
iterators		iterators
tokenizers		tokenizers
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
en_run.py		en_run.py
logger.py		logger.py
requirements.txt		requirements.txt
ru_run.py		ru_run.py
utils.py		utils.py
vectorizer.py		vectorizer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

iterators

iterators

tokenizers

tokenizers

.gitignore

.gitignore

LICENSE

LICENSE

README.md

README.md

en_run.py

en_run.py

logger.py

logger.py

requirements.txt

requirements.txt

ru_run.py

ru_run.py

utils.py

utils.py

vectorizer.py

vectorizer.py

Repository files navigation

HashingTfidfVectorizer

Features

Installation

Usage

About

Releases

Packages

Languages

License

my-master/HashingTfidfVectorizer

Folders and files

Latest commit

History

Repository files navigation

HashingTfidfVectorizer

Features

Installation

Usage

About

Resources

License

Stars

Watchers

Forks

Languages