Python DataManager.select_wikipedia_train 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: db

클래스/타입: DataManager

메소드/함수: select_wikipedia_train

hotexamples.com에서의 예제들: 3

Python DataManager.select_wikipedia_train - 3개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 db.DataManager.select_wikipedia_train에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

select_wikipedia_train(3)

select_tweets(2)

DataManager(1)

get_ciid_projects(1)

get_project_source(1)

redis(1)

예제 #1

파일 보기

파일: wiki_classifier.py 프로젝트: willpots/thesis

 def __init__(self):
   db_mgr = DataManager(self.DATABASE)
   self.train_tweets, self.train_labels = db_mgr.select_wikipedia_train()
   self.vectorizer = get_vectorizer("tfidf", min_df=1)
   self.nb = Classifier(classifier="nb")
   self.train_data = self.vectorizer.fit_transform(self.train_tweets)
   self.nb.fit(self.train_data, self.train_labels)

예제 #2

파일 보기

파일: wiki-train.py 프로젝트: willpots/thesis

from features import *
from classifiers import Classifier

from db import DataManager

N_TIMES = 1

for i in range(0,N_TIMES):
  print i+1, "times"
  DATABASE = "us_twitter.db"

  split = 0.8

  db_mgr = DataManager(DATABASE)

  train_tweets, train_labels = db_mgr.select_wikipedia_train()
  test_tweets, test_labels, dummy1, dummy2 = db_mgr.select_tweets(limit=10, state_fips=True, table="us_tweets", label=state_fips)

  results = get("results.json")

  vectorizer = get_vectorizer("tfidf", min_df=1)

  classifiers = {
    "BernoulliNB": Classifier(classifier="bnb"),
    "MultinomialNB": Classifier(classifier="nb"),
    "KNN-1000": Classifier(classifier="knn", k=1000),
    "KNN-2000": Classifier(classifier="knn", k=2000),
    # "SVC": Classifier(classifier="svm", params={"C" : 1.0,"kernel" : 'linear','verbose':True})
    "SVC": Classifier(load="classifier-SVC")
  }

예제 #3

파일 보기

파일: train.py 프로젝트: willpots/thesis

import pickle

from lib import *
from labels import *
from metrics import *
from features import *

from db import DataManager
from classifiers import Classifier

DATABASE = "us_twitter.db"
db_mgr = DataManager(DATABASE)
train_data, train_labels = db_mgr.select_wikipedia_train()

vectorizers = {
  "count":get_vectorizer("tfidf", min_df=1),
  "tfidf":get_vectorizer("count", min_df=1)
}

print "Vectorizing Training Data..."
count_data = vectorizers["count"].fit_transform(train_data)
tf_idf_data = vectorizers["tfidf"].fit_transform(train_data)

classifiers = {
  "BernoulliNB": {
    "count":Classifier(classifier="bnb"),
    "tfidf":Classifier(classifier="bnb")
  },
  "MultinomialNB": {
    "count":Classifier(classifier="nb"),
    "tfidf":Classifier(classifier="nb")