Python FileCorpus 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: vecto.corpus

클래스/타입: FileCorpus

hotexamples.com에서의 예제들: 7

Python FileCorpus - 7개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 vecto.corpus.FileCorpus에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

FileCorpus(7)

get_token_iterator(2)

get_sentence_iterator(1)

get_sliding_window_iterator(1)

예제 #1

파일 보기

파일: test_corpus.py 프로젝트: vecto-ai/vecto

 def test_sliding_window(self):
     corpus = FileCorpus(path_text_file)
     sliding_window_iter = corpus.get_sliding_window_iterator()
     for i, s in enumerate(sliding_window_iter):
         if i >= 2:
             break
     assert s == {'current': 'long', 'context': ['family', 'dashwood', 'settled', 'sussex']}

예제 #2

파일 보기

 def test_file_corpus(self):
     corpus = FileCorpus(path_text_file)
     tokens_iter = corpus.get_token_iterator(verbose=1)
     total_words, words = count_words_and_collect_prefix(tokens_iter)
     print("!!!!!total words", total_words)
     assert total_words == TEST_TEXT_LEN
     assert '|'.join(words) == TEST_FIRST_10_WORDS

예제 #3

파일 보기

파일: vocabulary.py 프로젝트: vohoaiviet/vecto-vsm-space

def create_from_file(path, min_frequency=0):
    """Collects vocabulary from a corpus by a given file path.
    """
    if not os.path.isfile(path):
        raise RuntimeError("source file does not exist")
    iter = FileCorpus(path).get_token_iterator()
    v = _create_from_iterator(iter, min_frequency)
    return v

예제 #4

파일 보기

파일: vocabulary.py 프로젝트: yuanzhiKe/vecto

def create_from_file(path, min_frequency=0, language='eng'):
    """Collects vocabulary from a corpus by a given file path.
    """
    if not os.path.isfile(path):
        raise RuntimeError("source file does not exist")
    tokenizer = Tokenizer(stopwords=[])
    iter = FileCorpus(path, language).get_token_iterator(tokenizer=tokenizer)
    v = _create_from_iterator(iter, min_frequency)
    return v

예제 #5

파일 보기

def create_from_path(path, min_frequency=0, language='eng'):
    """Collects vocabulary from a corpus by a given directory path.
    """
    tokenizer = Tokenizer(stopwords=[])
    if os.path.isfile(path):
        iter = FileCorpus(path, language).get_token_iterator(tokenizer=tokenizer)
    else:
        if os.path.isdir(path):
            iter = DirCorpus(path, language).get_token_iterator(tokenizer)
        else:
            raise RuntimeError("source path can not be read")
    # TODO: add option for stopwords
    v = _create_from_iterator(iter, min_frequency)
    return v

예제 #6

파일 보기

 def test_sentence(self):
     corpus = FileCorpus(path_text_file)
     sentence_iter = corpus.get_sentence_iterator(verbose=True)
     for s in sentence_iter:
         assert s == ['family', 'dashwood', 'long', 'settled', 'sussex']
         break

예제 #7

파일 보기

파일: test_corpus.py 프로젝트: vecto-ai/vecto

 def test_file_corpus(self):
     corpus = FileCorpus(path_text_file)
     tokens_iter = corpus.get_token_iterator(verbose=1)
     total_words, words = count_words_and_collect_prefix(tokens_iter)
     print("!!!!!total words", total_words)