Python YelpDataHandler.get_data 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: nlpdatahandlers

클래스/타입: YelpDataHandler

메소드/함수: get_data

hotexamples.com에서의 예제들: 3

Python YelpDataHandler.get_data - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 nlpdatahandlers.YelpDataHandler.get_data에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

get_data(2)

YelpDataHandler(1)

to_sentence_level_idx(1)

to_word_level_idx(1)

예제 #1

파일 보기

    log('Building global word vectors from {}'.format(GLOBAL_WV_FILE))
    global_gb = GloVeBox(GLOBAL_WV_FILE)
    global_gb.build(zero_token=True, normalize_variance=False, normalize_norm=True)

    log('writing GloVeBox pickle...')
    pickle.dump(yelp_gb, open(YELP_WV_FILE.replace('.txt', '-glovebox.pkl'), 'wb'), pickle.HIGHEST_PROTOCOL)
    pickle.dump(global_gb, open(GLOBAL_WV_FILE.replace('.txt', '-glovebox.pkl'), 'wb'), pickle.HIGHEST_PROTOCOL)

    yelp = YelpDataHandler()

    ##################################
    ### YELP USEFUL
    ##################################
    log('Creating "useful" reviews sentence-datasets')
    (train_reviews, train_labels, test_reviews, test_labels) = \
        yelp.get_data(YELP_USEFUL_TRAIN, YELP_USEFUL_DEV, YELP_USEFUL_TEST)

    log('Converting to sentences: global word vectors')
    train_global_wvs_reviews = yelp.to_sentence_level_idx(train_reviews, SENTENCES_PER_PARAGRAPH,
                                                    WORDS_PER_SENTENCE, global_gb)
    test_global_wvs_reviews = yelp.to_sentence_level_idx(test_reviews, SENTENCES_PER_PARAGRAPH,
                                                   WORDS_PER_SENTENCE, global_gb)

    log('Converting to sentences: yelp word vectors')
    train_yelp_wvs_reviews = yelp.to_sentence_level_idx(train_reviews, SENTENCES_PER_PARAGRAPH,
                                                    WORDS_PER_SENTENCE, yelp_gb)
    test_yelp_wvs_reviews = yelp.to_sentence_level_idx(test_reviews, SENTENCES_PER_PARAGRAPH,
                                                   WORDS_PER_SENTENCE, yelp_gb)

    # -- training data save
    np.save('Yelp_useful_sentences_train_yelp_glove_X.npy', train_yelp_wvs_reviews)

예제 #2

파일 보기

파일: prepare_yelp_char.py 프로젝트: textclf/fancy-cnn

        log('    --> Training Data Complete')
        log('    --> Starting Testing Data...')
        test_reviews = yelp.to_char_level_idx(test_reviews, 
            char_container=cm,
            chars_per_word=CHARACTERS_PER_WORD,
            words_per_document=WORDS_PER_DOCUMENT,
            prepend=PREPEND)
        log('    --> Testing Data Complete')
        return train_reviews, test_reviews

    ##################################
    ### YELP USEFUL
    ##################################
    log('Creating "useful" reviews sentence-datasets')
    (train_reviews, train_labels, test_reviews, test_labels) = \
        yelp.get_data(YELP_USEFUL_TRAIN, YELP_USEFUL_DEV, YELP_USEFUL_TEST)

    train_reviews, test_reviews = get_yelp_char(train_reviews, test_reviews)


    # -- training data save
    
    np.save('Yelp_useful_sentences_train_char_X.npy', train_reviews)
    np.save('Yelp_useful_sentences_train_char_y.npy', train_labels)

    # -- testing data save
    np.save('Yelp_useful_sentences_test_char_X.npy', test_reviews)
    np.save('Yelp_useful_sentences_test_char_y.npy', test_labels)

    ##################################
    ### YELP FUNNY

예제 #3

파일 보기

파일: char.py 프로젝트: yofayed/cervantes

from keras.models import Sequential
from keras.layers import Embedding
from keras.layers.core import Dense, Activation, Dropout, Reshape, Flatten

YELP_FUNNY_TRAIN = '../yelp-dataset/TrainSet_funny_75064'
YELP_FUNNY_DEV = '../yelp-dataset/DevSet_funny_75064'
YELP_FUNNY_TEST = '../yelp-dataset/TestSet_funny_75064'

WV_FILE = '../deep-text/embeddings/wv/glove.42B.300d.120000.txt'

if __name__ == '__main__':

    print "Getting data in format texts / labels"
    yelp = YelpDataHandler()
    (train_reviews, train_labels, test_reviews, test_labels) = \
        yelp.get_data(YELP_FUNNY_TRAIN, YELP_FUNNY_DEV, YELP_FUNNY_TEST)

    print "Building character embedding"
    EMBEDDING_FILE = "YelpChar.pkl"
    if not os.path.isfile(EMBEDDING_FILE):

        cbox = EnglishCharBox(vector_dim=300)

        # Build the language embedding with the given vector box and 300 words per text
        lembedding = OneLevelEmbedding(cbox, type=OneLevelEmbedding.CHAR_EMBEDDING, size=5000)
        lembedding.compute(train_reviews)
        lembedding.save(EMBEDDING_FILE)
    else:
        lembedding = OneLevelEmbedding.load(EMBEDDING_FILE)

    # Create a recurrent neural network model and train it, the data from the computed