Exemplos de extract_bigrams em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: ml_util

Método / Função: extract_bigrams

Exemplos em hotexamples.com: 8

extract_bigrams em Python - 8 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de ml_util.extract_bigrams em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Relacionados

MainHelper

majorityVoteSilence

parse_docblock

products

serialize

get_rectangle_type

KruskalMSTSorted

pg_views

human_size

optimise

Related in langs

sp_sort_table_teams (PHP)

fn_update_addon_status (PHP)

AbstractHostCollection (C#)

ServiceDescriptor (C#)

MenuPtr (C++)

VM86_TYPE (C++)

NewCommandCreateBootstrapProjectTemplate (Go)

NewQueue (Go)

TestFileAppend4 (Java)

ActionListener (Java)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: training_set_util.py Projeto: ajaybhat/email-categorization

def build_training_set_from_text(text, category, sender=None, subject=None): text = fix_bad_unicode(text) text = strip_signature(text, sender) features = extract_bigrams(text) training_set = [] training_set = training_set + [(get_feature(word), category) for word in features] training_set = training_set + [({sender: True}, category), ({subject: True}, category)] return training_set

Exemplo n.º 2

0

Exibir arquivo

def build_training_set_from_text(text, category, sender=None, subject=None): text = fix_bad_unicode(text) text = strip_signature(text, sender) features = extract_bigrams(text) training_set = [] training_set = training_set + [(get_feature(word), category) for word in features] training_set = training_set + [({sender: True}, category), ({subject: True}, category)] return training_set

Exemplo n.º 3

0

Exibir arquivo

Arquivo: classifier.py Projeto: ajaybhat/email-categorization

def classify(text, sender=None, subject=None): training_set = load_training_set() classifier = NaiveBayesClassifier.train(training_set) test_data = bag_of_words(extract_bigrams(text)) if sender is not None: test_data[sender] = True if subject is not None: test_data[subject] = True classified = classifier.prob_classify(test_data) pprint({categories[sample]: classified.prob(sample) for sample in classified.samples()}) return categories[classified.max()]

Exemplo n.º 4

0

Exibir arquivo

def classify(text, sender=None, subject=None): training_set = load_training_set() classifier = NaiveBayesClassifier.train(training_set) test_data = bag_of_words(extract_bigrams(text)) if sender is not None: test_data[sender] = True if subject is not None: test_data[subject] = True classified = classifier.prob_classify(test_data) pprint({ categories[sample]: classified.prob(sample) for sample in classified.samples() }) return categories[classified.max()]

Exemplo n.º 5

0

Exibir arquivo

def build_training_set(path='../email_dataset'): training_set = [] files = listdir(path) for email_file in files: with io.open('{}/{}'.format(path, email_file), 'r', encoding='utf8') as email: print u'Parsing file: {}'.format(email_file) category, sender, receiver, subject = int( email.readline().strip()), email.readline().strip(), email.readline().strip(), email.readline().strip() print u'Training set updated with: [{}]'.format(subject) text = fix_bad_unicode(email.read()) text = strip_signature(text, sender) features = extract_bigrams(text) training_set = training_set + [(get_feature(word), category) for word in features] training_set = training_set + [({sender: True}, category), ({subject: True}, category)] return training_set

Exemplo n.º 6

0

Exibir arquivo

Arquivo: training_set_util.py Projeto: ajaybhat/email-categorization

def build_training_set(path="../email_dataset"): training_set = [] files = listdir(path) for email_file in files: with io.open("{}/{}".format(path, email_file), "r", encoding="utf8") as email: print u"Parsing file: {}".format(email_file) category, sender, receiver, subject = ( int(email.readline().strip()), email.readline().strip(), email.readline().strip(), email.readline().strip(), ) print u"Training set updated with: [{}]".format(subject) text = fix_bad_unicode(email.read()) text = strip_signature(text, sender) features = extract_bigrams(text) training_set = training_set + [(get_feature(word), category) for word in features] training_set = training_set + [({sender: True}, category), ({subject: True}, category)] return training_set

Exemplo n.º 7

0

Exibir arquivo

def create_training_dict(text, category): tokens = extract_bigrams(text) return [(bag_of_words(tokens), category)]

Exemplo n.º 8

0

Exibir arquivo

Arquivo: classifier.py Projeto: ajaybhat/email-categorization

def create_training_dict(text, category): tokens = extract_bigrams(text) return [(bag_of_words(tokens), category)]