Python ReviewsDAL.ReviewsDAL 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: review

클래스/타입: ReviewsDAL

메소드/함수: ReviewsDAL

hotexamples.com에서의 예제들: 6

Python ReviewsDAL.ReviewsDAL - 6개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 review.ReviewsDAL.ReviewsDAL에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

ReviewsDAL(6)

close(3)

load_ids(2)

load_words(2)

sampling(2)

insert_many(1)

load_reviews_words(1)

예제 #1

파일 보기

파일: explore_analyze.py 프로젝트: stasi009/MyKaggle

def check_examples():
    dal = ReviewsDAL()
    r_stream = dal.load_words("train")
    for index in xrange(10):
        print "******* {} *******".format(index+1)
        r = next(r_stream)
        print r.sent.words

예제 #2

파일 보기

def test_load_review_words():
    dal = ReviewsDAL()
    r_stream = dal.load_reviews_words("unlabeled")

    for index in xrange(10):
        review = next(r_stream)
        print "*************** {} ***************".format(index + 1)
        print "sentiment: {}".format(review.sent.sentiment)
        print "words: {}".format(review.sent.words)

    dal.close()

예제 #3

파일 보기

    def words_stream(self):
        self._metas = []

        dal = ReviewsDAL()
        review_stream = dal.load_words(self._colname)
        for index, r in enumerate(review_stream):
            self._metas.append((r.id, r.sent.sentiment))
            yield r.sent.words

            if index % 300 == 0:
                print "{} examples loaded from mongodb[{}]".format(index + 1, self._colname)

        dal.close()

예제 #4

파일 보기

파일: clean_tokenize_savedb.py 프로젝트: stasi009/MyKaggle

def read_save_mongodb(filename,labeled,colname,buffersize=300):
    r_stream = reviews_stream(filename,labeled)
    dal = ReviewsDAL()

    buffer = []
    for index,review in enumerate(r_stream):
        if index % buffersize == 0:
            dal.insert_many(colname,buffer)
            del buffer[:] # clear
            print "{} reviews saved into mongo[{}]".format(index,colname)

        buffer.append(review)

    dal.insert_many(colname,buffer)
    dal.close()

    print "----------- DONE -----------"
    print "totally {} reviews inserted into mongodb[{}]".format(index+1,colname)

예제 #5

파일 보기

파일: clean_tokenize_savedb.py 프로젝트: stasi009/MyKaggle

def split_train_validation():
    """
    load samples from 'train' collection,
    draw some samples out, to use as validation set
    remove them from training set and insert those samples into 'validation' collection
    """
    random.seed(999)
    valid_ratio = 0.3

    dal = ReviewsDAL()
    train_ids = list(dal.load_ids("train"))
    total_train = len(train_ids)
    print "originally, there are {} reviews in train set".format(total_train)

    valid_ids = random.sample(train_ids,int(total_train * valid_ratio))
    print "randomly draw {} samples to use as validation".format(len(valid_ids))

    train_collect = dal._db['train']
    valid_collect = dal._db['validate']
    for index,valid_id in enumerate(valid_ids):
        # load from train collection
        cursor = train_collect.find({'_id':valid_id})
        review_dict = next(cursor)

        # insert into validation collection
        valid_collect.insert_one(review_dict)

        # remove from train collection
        result = train_collect.delete_one({'_id':valid_id})
        assert result.deleted_count == 1

        #
        if index % 100 == 0:
            print "{} reviews transferred from train to validation".format(index+1)
    print "*** totally {} reviews transferred from train to validation ***".format(index+1)

    print "now, train set has {} reviews".format(train_collect.count({}))
    print "now, validation set has {} reviews".format(valid_collect.count({}))

예제 #6

파일 보기

def test_load_ids():
    dal = ReviewsDAL()
    ids = dal.load_ids("train")