Python KaggleWord2VecUtility 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: helpers.kaggle_word2vec_utility

hotexamples.com에서의 예제들: 4

Python KaggleWord2VecUtility - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 helpers.kaggle_word2vec_utility.KaggleWord2VecUtility에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

review_to_word_list(2)

예제 #1

파일 보기

파일: linear.py 프로젝트: lukaselmer/hierarchical-paragraph-vectors

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn import cross_validation
import pandas as pd
import numpy as np

from helpers.kaggle_word2vec_utility import KaggleWord2VecUtility

train = pd.read_csv(os.path.join(os.path.dirname(__file__), 'data', 'labeledTrainData.tsv'), header=0, delimiter="\t", quoting=3)
test = pd.read_csv(os.path.join(os.path.dirname(__file__), 'data', 'testData.tsv'), header=0, delimiter="\t", quoting=3)
y = train["sentiment"]
print("Cleaning and parsing movie reviews...\n")
traindata = []
for i in range(0, len(train["review"])):
    traindata.append(" ".join(KaggleWord2VecUtility.review_to_word_list(train["review"][i], False)))
testdata = []
for i in range(0, len(test["review"])):
    testdata.append(" ".join(KaggleWord2VecUtility.review_to_word_list(test["review"][i], False)))
print('vectorizing... ')
tfv = TfidfVectorizer(min_df=3, max_features=None, strip_accents='unicode', analyzer='word', token_pattern=r'\w{1,}', ngram_range=(1, 2),
                      use_idf=1, smooth_idf=1, sublinear_tf=1, stop_words='english')
X_all = traindata + testdata
lentrain = len(traindata)

print("fitting pipeline... ")
tfv.fit(X_all)
X_all = tfv.transform(X_all)

X = X_all[:lentrain]
X_test = X_all[lentrain:]

예제 #2

파일 보기

파일: linear.py 프로젝트: shubhampachori12110095/hierarchical-paragraph-vectors

train = pd.read_csv(os.path.join(os.path.dirname(__file__), 'data',
                                 'labeledTrainData.tsv'),
                    header=0,
                    delimiter="\t",
                    quoting=3)
test = pd.read_csv(os.path.join(os.path.dirname(__file__), 'data',
                                'testData.tsv'),
                   header=0,
                   delimiter="\t",
                   quoting=3)
y = train["sentiment"]
print("Cleaning and parsing movie reviews...\n")
traindata = []
for i in range(0, len(train["review"])):
    traindata.append(" ".join(
        KaggleWord2VecUtility.review_to_word_list(train["review"][i], False)))
testdata = []
for i in range(0, len(test["review"])):
    testdata.append(" ".join(
        KaggleWord2VecUtility.review_to_word_list(test["review"][i], False)))
print('vectorizing... ')
tfv = TfidfVectorizer(min_df=3,
                      max_features=None,
                      strip_accents='unicode',
                      analyzer='word',
                      token_pattern=r'\w{1,}',
                      ngram_range=(1, 2),
                      use_idf=1,
                      smooth_idf=1,
                      sublinear_tf=1,
                      stop_words='english')

예제 #3

파일 보기

파일: data_preparer.py 프로젝트: shubhampachori12110095/hierarchical-paragraph-vectors

 def convert_review_to_words(review_str):
     return ' '.join(
         KaggleWord2VecUtility.review_to_word_list(review_str))

예제 #4

파일 보기

파일: data_preparer.py 프로젝트: lukaselmer/hierarchical-paragraph-vectors

 def convert_review_to_words(review_str):
     return ' '.join(KaggleWord2VecUtility.review_to_word_list(review_str))