Esempi in Python per PlaintextCorpusReader._encoding

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: nltk.corpus

Metodo/funzione: _encoding

Esempi su hotexamples.com: 2

PlaintextCorpusReader._encoding in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per nltk.corpus.PlaintextCorpusReader._encoding, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

PlaintextCorpusReader(30)

fileids(30)

sents(30)

raw(30)

words(30)

paras(7)

open(4)

concordance(4)

_encoding(2)

similar(2)

collocations(1)

decode(1)

dispersion_plot(1)

Sents(1)

categories(1)

abspath(1)

split(1)

tokenized(1)

encode(1)

Esempio n. 1

Mostra file

File: train.py Progetto: xumaoxuan/w2vec-similarity

def read_and_train_doc2vec(root_dir, fileids, output_file='', options={}):
    fileids = fileids if isinstance(fileids, list) else [fileids]
    fileids = [unicode(f, 'utf8') for f in fileids]
    output_file = output_file or '-'.join(fileids)
    output_file = u"{0}{1}-{2}".format(MODELS_DIR, output_file,
                                       options_to_string(options))
    reader = PlaintextCorpusReader(root=root_dir, fileids=fileids)
    try:
        docs = [
            TaggedDocument(reader.words(fileid), [fileid])
            for fileid in fileids
        ]
        train_and_save_doc2vec(docs, output_file, options)
    except UnicodeDecodeError:
        file_encodings = {}
        for fileid in fileids:
            file_content = open(root_dir + fileid).read()
            file_encoding = chardet.detect(file_content)
            file_encodings[fileid] = file_encoding['encoding']
        reader._encoding = file_encodings
        pdb.set_trace()
        docs = [
            TaggedDocument(reader.words(fileid), [fileid])
            for fileid in fileids
        ]
        train_and_save_doc2vec(docs, output_file, options)

Esempio n. 2

Mostra file

File: train.py Progetto: xumaoxuan/w2vec-similarity

def read_and_train(root_dir, fileids, output_file='', options={}):
    fileids = fileids if isinstance(fileids, list) else [fileids]
    fileids = [unicode(f, 'utf8') for f in fileids]
    output_file = output_file or '-'.join(fileids)
    output_file = u"{0}{1}-{2}".format(MODELS_DIR, output_file,
                                       options_to_string(options))
    reader = PlaintextCorpusReader(root=root_dir, fileids=fileids)
    try:
        sents = reader.sents()
        print fileids
        train_and_save(sents, output_file, options)
    except UnicodeDecodeError:
        print "here"
        file_encodings = {}
        for fileid in fileids:
            file_content = open(root_dir + fileid).read()
            file_encoding = chardet.detect(file_content)
            file_encodings[fileid] = file_encoding['encoding']
        reader._encoding = file_encodings
        sents = reader.sents()
        train_and_save(sents, output_file, options)