Python Corpus.from_builtin_corpus Examples

Programming Language: Python

Namespace/Package Name: tmtoolkit.corpus

Class/Type: Corpus

Method/Function: from_builtin_corpus

Examples at hotexamples.com: 5

Python Corpus.from_builtin_corpus - 5 examples found. These are the top rated real world Python examples of tmtoolkit.corpus.Corpus.from_builtin_corpus extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

Corpus(20)

from_folder(8)

from_files(6)

from_builtin_corpus(5)

copy(3)

keys(3)

items(2)

builtin_corpora(2)

replace_characters(2)

apply(2)

add_files(1)

split_by_paragraphs(1)

from_pickle(1)

get_doc_labels(1)

from_zip(1)

from_tabular(1)

add_doc(1)

filter_characters(1)

to_pickle(1)

Example #1

Show file

File: test_corpus.py Project: yushu-liu/tmtoolkit

def test_corpus_builtin_corpora():
    builtin_corp = Corpus.builtin_corpora()
    assert len(builtin_corp) == 2

    for corp in builtin_corp:
        c = Corpus.from_builtin_corpus(corp)
        assert len(c) > 0

Example #2

Show file

File: test_corpus.py Project: ihavemanyquestions/tmtoolkit

def test_corpus_builtin_corpora():
    builtin_corp = Corpus.builtin_corpora()
    assert sorted(builtin_corp) == sorted(
        Corpus._BUILTIN_CORPORA_LOAD_KWARGS.keys())

    for corp in builtin_corp:
        c = Corpus.from_builtin_corpus(corp)
        assert len(c) > 0

Example #3

Show file

def load_corpus_bg_en(sample_n):
    from tmtoolkit.corpus import Corpus

    builtin_corp_en = Corpus.from_builtin_corpus('en-NewsArticles')
    return builtin_corp_en.sample(sample_n)

Example #4

Show file

File: benchmark_preproc.py Project: jonaschn/tmtoolkit

from tmtoolkit.corpus import Corpus
from tmtoolkit.preprocess import TMPreproc

from examples._benchmarktools import add_timing, print_timings

logging.basicConfig(level=logging.INFO)
tmtoolkit_log = logging.getLogger('tmtoolkit')
tmtoolkit_log.setLevel(logging.INFO)
tmtoolkit_log.propagate = True

random.seed(20200320)

#%%

corpus = Corpus.from_builtin_corpus('en-NewsArticles').sample(1000)

print('%d documents' % len(corpus))

#%%

add_timing('start')

preproc = TMPreproc(corpus, language='en', n_max_processes=cpu_count())
add_timing('load and tokenize')

preproc.expand_compound_tokens()
add_timing('expand_compound_tokens')

preproc.pos_tag()
add_timing('pos_tag')

Example #5

Show file

File: benchmark_comparison_parallel.py Project: jonaschn/tmtoolkit

import logging
from multiprocessing import cpu_count

from tmtoolkit.corpus import Corpus
from tmtoolkit.preprocess import TMPreproc

from examples._benchmarktools import add_timing, print_timings

logging.basicConfig(level=logging.INFO)
tmtoolkit_log = logging.getLogger('tmtoolkit')
tmtoolkit_log.setLevel(logging.INFO)
tmtoolkit_log.propagate = True

#%%

corpus = Corpus.from_builtin_corpus('en-NewsArticles')

print('%d documents' % len(corpus))

#%%

add_timing('start')

preproc = TMPreproc(corpus, language='en', n_max_processes=4)
add_timing('load and tokenize')

preproc.pos_tag()
add_timing('pos_tag')

preproc.lemmatize()
add_timing('lemmatize')