Python LanguageModel示例

编程语言: Python

命名空间/包名称: brocas_lm.model

类/类型: LanguageModel

hotexamples.com的示例: 3

Python LanguageModel - 已找到3个示例。这些是从开源项目中提取的最受好评的brocas_lm.model.LanguageModel现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

train(2)

LanguageModel(2)

predict(1)

sample(1)

save(1)

sentence_log_probability(1)

token_probabilities(1)

示例#1

显示文件

# create work dir
work_dir = os.path.join(os.path.expanduser('~'), 'brocas_models')
lm_file = os.path.join(work_dir, 'test_model.bin')
if not os.path.exists(work_dir):
    os.makedirs(work_dir)

# get text corpus
nltk.download('brown')
sents = nltk.corpus.brown.sents()[:100]

# preprocessing
normalizer = Normalization(sents, min_count=15)
training_data = NormalizationIter(normalizer, sents)
lm = LanguageModel(tokenized_sentences=training_data,
                   input_layer_size=64,
                   hidden_layer_size=128)
print()

# train model
lm.train(training_data, epochs=5, backup_directory=work_dir, log_interval=20)
print()

# test trained model
normalized_sentence = normalizer.normalize(sents[0])
print('normalized sentence:')
print(' '.join(normalized_sentence))
print('probability: ', lm.sentence_log_probability(normalized_sentence))
print()
start_tag = normalized_sentence[0]
end_tag = normalized_sentence[-1]

示例#2

显示文件

文件： functionality_test.py 项目： PandoIO/brocas-lm

from brocas_lm.model import LanguageModel

# create work dir
work_dir = os.path.join(os.path.expanduser('~'), 'brocas_models')
lm_file = os.path.join(work_dir, 'test_model.bin')
if not os.path.exists(work_dir):
    os.makedirs(work_dir)

# get text corpus
nltk.download('brown')
sents = nltk.corpus.brown.sents()[:100]

# preprocessing
normalizer = Normalization(sents, min_count=15)
training_data = NormalizationIter(normalizer, sents)
lm = LanguageModel(tokenized_sentences=training_data, input_layer_size=64, hidden_layer_size=128)
print()

# train model
lm.train(training_data, epochs=5, backup_directory=work_dir, log_interval=20)
print()

# test trained model
normalized_sentence = normalizer.normalize(sents[0])
print('normalized sentence:')
print(' '.join(normalized_sentence))
print('probability: ', lm.sentence_log_probability(normalized_sentence))
print()
start_tag = normalized_sentence[0]
end_tag = normalized_sentence[-1]
print('sample:')

示例#3

显示文件

                           min_count=20,
                           start_tag='S',
                           end_tag='E',
                           unknown_tag='U',
                           digit_tag='D')

all_sents_normalized = NormalizationIter(normalizer, all_sents)

cs1 = ['than', 'then']
cs2 = ['except', 'accept']
cs3 = ['well', 'good']

acs = AdvancedCorpusSplitter(all_sents_normalized, cs1 + cs2 + cs3)

if os.path.isfile(lm_file):
    lm = LanguageModel(lm_file=lm_file)

else:
    lm = LanguageModel(verbose=True,
                       tokenized_sentences=acs,
                       input_layer_size=128,
                       hidden_layer_size=512)

    cost_log = lm.train(acs,
                        epochs=10,
                        backup_directory=work_dir,
                        return_cost=True,
                        log_interval=1000)
    lm.save(lm_file)

# sampling