Python SimpleCorpus.get_texts 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: marmot.util.simple_corpus

클래스/타입: SimpleCorpus

메소드/함수: get_texts

hotexamples.com에서의 예제들: 7

Python SimpleCorpus.get_texts - 7개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 marmot.util.simple_corpus.SimpleCorpus.get_texts에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

SimpleCorpus(4)

get_texts(4)

자주 사용되는 메소드들

SimpleCorpus (4)

get_texts (4)

예제 #1

파일 보기

파일: parsers.py 프로젝트: tien-le-grenoble/marmot

def extract_important_tokens(corpus_file, min_count=1):
    corpus = SimpleCorpus(corpus_file)
    word_counts = defaultdict(int)
    for context in corpus.get_texts():
        for word in context:
            word_counts[word] += 1
    return set([k for k, v in word_counts.items() if v >= min_count])

예제 #2

파일 보기

파일: parsers.py 프로젝트: Sandy4321/marmot

def extract_important_tokens(corpus_file, min_count=1):
    corpus = SimpleCorpus(corpus_file)
    word_counts = defaultdict(int)
    for context in corpus.get_texts():
        for word in context:
            word_counts[word] += 1
    return set([k for k,v in word_counts.items() if v >= min_count])

예제 #3

파일 보기

파일: test_parsers.py 프로젝트: tien-le-grenoble/marmot

class TestCorpusParser(unittest.TestCase):
    def setUp(self):
        self.interesting_tokens = set(['the','it'])
        module_path = os.path.dirname(__file__)
        self.corpus_path = os.path.join(module_path, 'test_data/corpus.en.1000')
        self.corpus = SimpleCorpus(self.corpus_path)

    def test_parse_corpus_contexts(self):
        contexts = parse_corpus_contexts(self.corpus_path, self.interesting_tokens)
        for context in contexts:
            self.assertTrue(len(set(context['target']).intersection(self.interesting_tokens)) > 0)
        all_contexts = parse_corpus_contexts(self.corpus_path)
        num_toks = sum([len(sen) for sen in self.corpus.get_texts()])
        self.assertTrue(num_toks == len(all_contexts))

예제 #4

파일 보기

파일: parsers.py 프로젝트: tien-le-grenoble/marmot

def get_corpus_file(corpus_file, label):
    corpus = SimpleCorpus(corpus_file)
    return (label, corpus.get_texts())

예제 #5

파일 보기

파일: parsers.py 프로젝트: tien-le-grenoble/marmot

def parse_corpus_contexts(corpus_file, interesting_tokens=None, tag=1):
    corpus = SimpleCorpus(corpus_file)
    return list_of_target_contexts(corpus.get_texts(),
                                   interesting_tokens,
                                   tag=tag)

예제 #6

파일 보기

파일: parsers.py 프로젝트: Sandy4321/marmot

def get_corpus_file(corpus_file, label):
    corpus = SimpleCorpus(corpus_file)
    return (label, corpus.get_texts())

예제 #7

파일 보기

파일: parsers.py 프로젝트: Sandy4321/marmot

def parse_corpus_contexts(corpus_file, interesting_tokens=None, tag=1):
    corpus = SimpleCorpus(corpus_file)
    return list_of_target_contexts(corpus.get_texts(), interesting_tokens, tag=tag)