Ejemplos de Corpus.connect_to en Python

Lenguaje de programación: Python

Namespace/Package Name: corpus

Clase / Tipo: Corpus

Método / Función: connect_to

Ejemplos en hotexamples.com: 3

Python Corpus.connect_to - 3 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de corpus.Corpus.connect_to extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

Corpus(30)

emails(15)

__init__(13)

save_to_file(4)

add_extra_info(4)

buildCorpusOnDB(3)

concetenate_corpus(3)

connect_to(3)

add_instance(3)

accuracy_corpus(3)

pop_instance(3)

emails_as_string(2)

convert_dictionary_to_words2vec(2)

construir_corpus(2)

construct_SentencesAndSPerItem(2)

construct_QAnswersAndQPerItem(2)

fit_features(2)

epoch_flag(2)

generate_batch_from_file(2)

export(2)

calculate_primary_targets(2)

Calculate_PairWiseFeature(2)

getTweets(2)

add_file(2)

add(2)

get_sentences(2)

add_document(2)

fit(2)

fill(1)

negativeWordDict(1)

representations(1)

read(1)

fit_dictionary(1)

query_by_id(1)

fit_matrix(1)

freeze(1)

positiveWordDict(1)

parse_xml(1)

getNumericDictionary(1)

from_config(1)

from_dict(1)

loadVocabulary(1)

generate_corpus_from_graph_using_random_walk(1)

instances(1)

getNumOfSampleDocs(1)

getRanges(1)

full_targets(1)

gaussian_model(1)

getAttributeVal(1)

gen_batch(1)

Ejemplo n.º 1

Mostrar archivo

Archivo: vectorize_corpus.py Proyecto: DanielEggelmann/training-grammar-guru

def main():
    args = parser.parse_args()
    corpus = Corpus.connect_to(args.filename)

    min_rowid = args.min_rowid if args.min_rowid is not None else 1
    max_rowid = int(max_rowid) if args.max_rowid is not None else len(corpus)
    assert min_rowid <= max_rowid

    dest_filename = Path('vector-corpus-{}.sqlite3'.format(os.getpid()))
    assert not dest_filename.exists(), dest_filename
    destination = CondensedCorpus.connect_to(dest_filename)

    # Insert every file in the given subset.
    files = corpus.iterate(min_rowid=min_rowid,
                           max_rowid=max_rowid,
                           with_hash=True)
    progress_bar = tqdm(files, initial=min_rowid, total=max_rowid)

    for file_hash, tokens in progress_bar:
        try:
            if len(tokens) == 0:
                logging.warn('Skipping empty file: %s', file_hash)
            else:
                progress_bar.set_description('Processing %s' % (file_hash, ))
                destination.insert(file_hash, tokens)
        except KeyboardInterrupt:
            logging.exception('Last file before interrupt: %s', file_hash)
            break

Ejemplo n.º 2

Mostrar archivo

def main(len=len):
    _, filename = sys.argv
    corpus = Corpus.connect_to(filename)

    total = len(corpus)
    array = np.empty(total, dtype=np.uint32)

    MAX = 2**32 - 1

    for i, tokens in enumerate(tqdm(corpus, total=total)):
        n_tokens = len(tokens)
        assert n_tokens <= MAX
        array[i] = n_tokens
        del tokens

    np.save('token_lengths', array)

Ejemplo n.º 3

Mostrar archivo

        size = t.green(str(size))
    elif 128 <= size < 256:
        size = t.yellow(str(size))
    else:
        size = t.red(str(size))

    print("The size of vocabulary is", size)
    total_vocab = [START_TOKEN] + sorted(list(vocab)) + [END_TOKEN]

    if not write_to_file:
        return

    filename = 'autogenerated_vocabulary.py'
    with open(filename, 'wt', encoding='utf-8') as vocab_file:
        vocab_file.write('VOCAB = ')
        pprint(total_vocab, stream=vocab_file)


if __name__ == '__main__':
    import sys
    _, filename = sys.argv
    corpus = Corpus.connect_to(filename)

    vocab = set()

    for file_tokens in tqdm(corpus, total=len(corpus)):
        for token in file_tokens:
            vocab.add(stringify_token(token))

    summarize(vocab)