Python NgramModel.perplexity 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: ngram

클래스/타입: NgramModel

메소드/함수: perplexity

hotexamples.com에서의 예제들: 2

Python NgramModel.perplexity - 2개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 ngram.NgramModel.perplexity에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

NgramModel(9)

perplexity(2)

_generate_one(1)

allngrams(1)

backoff_search(1)

choose_word(1)

detect_rule_recommend(1)

generate(1)

generate_one(1)

generate_sentence(1)

prob(1)

probability_additive(1)

seqprob(1)

update(1)

예제 #1

파일 보기

파일: graph_perplexity.py 프로젝트: nathan-gilbert/coreference-perplexity-generation

            test_text.append(txt)

    #print test_files
    print len(test_files)

    total_train_files = []
    TOTAL = INCREMENT
    UPPER_LIMIT = 500

    while len(total_train_files) < UPPER_LIMIT:
        total_train_files = train_files[:TOTAL]
        data_set_corpus = PlaintextCorpusReader(sys.argv[1], total_train_files)
        estimator = lambda fdist, bins: LidstoneProbDist(fdist, 0.2)
        lm = NgramModel(3, data_set_corpus.words(), estimator)
        #lm = NgramModel(2, data_set_corpus.words(), estimator)

        P = []
        for s in test_text:
            s_tokens = nltk.word_tokenize(s)
            if SENTENCE:
                #if len(s_tokens) > 3:
                if len(s_tokens) > 10:
                    p = lm.perplexity(s_tokens)
                    P.append(p)
            else:
                p = lm.perplexity(s_tokens)
                P.append(p)
        TOTAL += INCREMENT

        print "%d %f" % (len(total_train_files), sum(P) / len(P))

예제 #2

파일 보기

    print "Negative unigram model complete."
    neg_bigram_lm = NgramModel(2, neg_movie_reviews.words(), estimator)
    print "Negative bigram model complete."
    #neg_trigram_lm = NgramModel(3, neg_movie_reviews.words(), estimator)

    #read in the tweets
    tweets = []
    tokenizer = utils.Tokenizer()

    neg_review_higher = 0
    pos_review_higher = 0
    with open(sys.argv[2], 'r') as tweets_file:
        tweets.extend(tweets_file.readlines())
        for tweet in tweets:
            tokens = tokenizer.tokenize(tweet)
            pu = pos_unigram_lm.perplexity(tokens)
            nu = neg_unigram_lm.perplexity(tokens)

            pb = pos_bigram_lm.perplexity(tokens)
            nb = neg_bigram_lm.perplexity(tokens)

            #pt = pos_trigram_lm.perplexity(tokens)
            #nt = neg_trigram_lm.perplexity(tokens)

            #print pu, nu, pb, nb, pt, nt
            #print pu, nu

            line = ""
            if pu > nu:
                pos_review_higher += 1
                line += "9002:1"