Python filings_iterator 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: filing_iterator

메소드/함수: filings_iterator

hotexamples.com에서의 예제들: 4

Python filings_iterator - 4개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 filing_iterator.filings_iterator에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: main2.py 프로젝트: photongl/MFE293-IND015

import settings, logging, nltk.data, math, datetime
from filing_iterator import filings_iterator
from gensim.models import doc2vec

# some config parameters
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',\
                    level=logging.INFO)
year_start = 2000
year_end = 2015
num_features = 100
model_name = "sec_filings_model_{}.d2v".format(num_features)


# prepare training data
sentences = filings_iterator(tokenizer = nltk.data.load('tokenizers/punkt/english.pickle'), N = 10000, useDB = True, year_start = year_start, year_end = year_end)

model = doc2vec.Doc2Vec(sentences, 
                        size = num_features,
                        min_count = 1,
                        seed = 5,
                        window = 20,
                        sample = 1e-3,
                        #hashfxn = analyze.hash32
                        workers = 4)

#model.init_sims(replace=True)
#model.save(model_name)

# ==============================================================
# retrieve features for each document and store them in a file
# ==============================================================

예제 #2

파일 보기

파일: main4.py 프로젝트: photongl/MFE293-IND015

'''
Created on Aug 29, 2015

@author: akshaym
'''
import settings, logging, nltk.data
from filing_iterator import filings_iterator

# some config parameters
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',\
                    level=logging.INFO)
year_start = 2000
year_end = 2015
n_docs = 1
num_features = 50
model_name = "sec_filings_model_{}.d2v".format(num_features)


# prepare training data
filings_it = filings_iterator(tokenizer = nltk.data.load('tokenizers/punkt/english.pickle'), N = 9681, useDB = True, year_start = year_start, year_end = year_end)

max_len = 0
for doc in filings_it.get_filing_without_stopwords_from_db():
    if (len(doc) > max_len):
        max_len = len(doc.split(" "))

print(max_len)

예제 #3

파일 보기

파일: main2.py 프로젝트: photongl/MFE293-IND015

import settings, logging, nltk.data, math, datetime
from filing_iterator import filings_iterator
from gensim.models import doc2vec

# some config parameters
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',\
                    level=logging.INFO)
year_start = 2000
year_end = 2015
num_features = 100
model_name = "sec_filings_model_{}.d2v".format(num_features)

# prepare training data
sentences = filings_iterator(
    tokenizer=nltk.data.load('tokenizers/punkt/english.pickle'),
    N=10000,
    useDB=True,
    year_start=year_start,
    year_end=year_end)

model = doc2vec.Doc2Vec(
    sentences,
    size=num_features,
    min_count=1,
    seed=5,
    window=20,
    sample=1e-3,
    #hashfxn = analyze.hash32
    workers=4)

#model.init_sims(replace=True)
#model.save(model_name)

예제 #4

파일 보기

파일: main4.py 프로젝트: photongl/MFE293-IND015

Created on Aug 29, 2015

@author: akshaym
'''
import settings, logging, nltk.data
from filing_iterator import filings_iterator

# some config parameters
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',\
                    level=logging.INFO)
year_start = 2000
year_end = 2015
n_docs = 1
num_features = 50
model_name = "sec_filings_model_{}.d2v".format(num_features)

# prepare training data
filings_it = filings_iterator(
    tokenizer=nltk.data.load('tokenizers/punkt/english.pickle'),
    N=9681,
    useDB=True,
    year_start=year_start,
    year_end=year_end)

max_len = 0
for doc in filings_it.get_filing_without_stopwords_from_db():
    if (len(doc) > max_len):
        max_len = len(doc.split(" "))

print(max_len)