Python CorpusReader.words Examples

Programming Language: Python

Namespace/Package Name: nltk.corpus.reader.api

Class/Type: CorpusReader

Method/Function: words

Examples at hotexamples.com: 4

Python CorpusReader.words - 4 examples found. These are the top rated real world Python examples of nltk.corpus.reader.api.CorpusReader.words extracted from open source projects. You can rate examples to help us improve the quality of examples.

Frequently Used Methods

Show Hide

__init__(30)

fileids(8)

words(4)

_fileids(2)

Example #1

Show file

File: corpus_analysis_fun.py Project: chizhang0814/ML-You-Can-Use

def get_char_counts(corpus_reader: CorpusReader) -> Dict[str, int]:
    """
    Get a frequency distribution of characters in a corpus.
    :param corpus_reader:
    :return:
    """
    char_counter = Counter()  # type: Dict[str, int]
    files = corpus_reader.fileids()
    for file in tqdm(files, total=len(files), unit="files"):
        for word in corpus_reader.words(file):
            if word.isalpha():
                for car in word:
                    char_counter.update({car: 1})
    return char_counter

Example #2

Show file

File: corpus_analysis_fun.py Project: nolanee/ML-You-Can-Use

def get_word_lengths(corpus_reader: CorpusReader, max_word_length: int = 100) -> Dict[int, int]:
    """
    Get the word length/frequency distribution
    :param corpus_reader:
    :param max_word_length:
    :return:
    """
    word_lengths = Counter()  # type: Dict[int, int]
    files = corpus_reader.fileids()
    for file in tqdm(files, total=len(files), unit='files'):
        for word in corpus_reader.words(file):
            word_length = len(word)
            if word.isalpha() and word_length <= max_word_length:
                word_lengths.update({word_length: 1})
    return word_lengths

Example #3

Show file

File: corpus_analysis_fun.py Project: chizhang0814/ML-You-Can-Use

def get_samples_for_lengths(corpus_reader: CorpusReader,
                            num_samples: int = 5) -> Dict[int, List[str]]:
    """
    Get a number of sample words for each word length; good for sanity checking.
    :param corpus_reader:
    :param num_samples:
    :return:
    """
    samples_lengths = defaultdict(list)  # type: Dict[int, List[str]]
    files = corpus_reader.fileids()
    for file in tqdm(files, total=len(files), unit="files"):
        for word in corpus_reader.words(file):
            if word.isalpha():
                word_length = len(word)
                samples_lengths[word_length].append(word)
                samples_lengths[word_length] = samples_lengths[
                    word_length][:num_samples]  # trim to num_samples size
    return samples_lengths

Example #4

Show file

File: corpus_analysis_fun.py Project: chizhang0814/ML-You-Can-Use

def get_split_words(corpus_reader: CorpusReader,
                    word_trie: WordTrie,
                    max_word_length: int = 15) -> Dict[str, List[str]]:
    """
    Search a corpus for improperly joined words, defined by a discrete trie model.
    return a dictionary, keys are files, and values are lists of tuples of the split words.

    :param corpus_reader:
    :param word_trie:
    :param max_word_length:
    :return:
    """
    split_words = defaultdict(list)  # type: Dict[str, List[str]]
    files = corpus_reader.fileids()
    for file in tqdm(files, total=len(files), unit="files"):
        for word in corpus_reader.words(file):
            if len(word) > max_word_length and not word_trie.has_word(word):
                word_list = word_trie.extract_word_pair(word)
                if len(word_list) == 2:
                    split_words[file] += word_list
    return split_words