Python load_stopword_list Examples

Programming Language: Python

Namespace/Package Name: ngrams.utils

Method/Function: load_stopword_list

Examples at hotexamples.com: 4

Python load_stopword_list - 4 examples found. These are the top rated real world Python examples of ngrams.utils.load_stopword_list extracted from open source projects. You can rate examples to help us improve the quality of examples.

Example #1

Show file

File: models.py Project: AdrienGuille/EGC-Cup-2016

def build_unsup_nmf_topics(level="word", ngrams=(1, 3), n_topics=14):
    n_features = 1000

    vectorizer = TfidfVectorizer(ngram_range=ngrams, analyzer=level, max_df=0.80, min_df=4, max_features=n_features,
                                 use_idf=True, stop_words=load_stopword_list("../ngrams/stopwords.txt"),
                                 tokenizer=french_tokenizer)
    nmf = NMF(n_components=n_topics, random_state=1000)
    pipeline = Pipeline([("vectorize", vectorizer), ("clust", nmf)])

    return pipeline

Example #2

Show file

File: models.py Project: AdrienGuille/EGC-Cup-2016

def build_unsup_nmf_locations(level="word", ngrams=(1, 3)):
    n_features = 1000
    n_topics = 40
    local_stop = ["cedex", "rue", "umr", "cnrs", "paris", "gmail", "com"]
    vectorizer = TfidfVectorizer(ngram_range=ngrams, analyzer=level, max_df=0.85, min_df=2, max_features=n_features,
                                 token_pattern=r"(?u)\b\w\w+\b",
                                 use_idf=True, stop_words=load_stopword_list("../ngrams/stopwords.txt") + local_stop,
                                 )
    nmf = NMF(n_components=n_topics, random_state=1000)
    pipeline = Pipeline([("vectorize", vectorizer), ("clust", nmf)])
    return pipeline

Example #3

Show file

File: models.py Project: AdrienGuille/EGC-Cup-2016

def build_unsup_nmf_topics(level="word", ngrams=(1, 3), n_topics=14):
    n_features = 1000

    vectorizer = TfidfVectorizer(
        ngram_range=ngrams,
        analyzer=level,
        max_df=0.80,
        min_df=4,
        max_features=n_features,
        use_idf=True,
        stop_words=load_stopword_list("../ngrams/stopwords.txt"),
        tokenizer=french_tokenizer)
    nmf = NMF(n_components=n_topics, random_state=1000)
    pipeline = Pipeline([("vectorize", vectorizer), ("clust", nmf)])

    return pipeline

Example #4

Show file

File: models.py Project: AdrienGuille/EGC-Cup-2016

def build_unsup_nmf_locations(level="word", ngrams=(1, 3)):
    n_features = 1000
    n_topics = 40
    local_stop = ["cedex", "rue", "umr", "cnrs", "paris", "gmail", "com"]
    vectorizer = TfidfVectorizer(
        ngram_range=ngrams,
        analyzer=level,
        max_df=0.85,
        min_df=2,
        max_features=n_features,
        token_pattern=r"(?u)\b\w\w+\b",
        use_idf=True,
        stop_words=load_stopword_list("../ngrams/stopwords.txt") + local_stop,
    )
    nmf = NMF(n_components=n_topics, random_state=1000)
    pipeline = Pipeline([("vectorize", vectorizer), ("clust", nmf)])
    return pipeline