Exemplos de _tokenize_by_word em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: preprocessing.textcleaner

Método / Função: _tokenize_by_word

Exemplos em hotexamples.com: 6

_tokenize_by_word em Python - 6 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de preprocessing.textcleaner._tokenize_by_word em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Relacionados

merge_schema

PDFWriter

run_cmd_throw

assoc

matrix_transpose

decode

is_unit

volumetricsample

Cyclotron

time_dir

Related in langs

WxOAuth2 (PHP)

AdminThumbnailController (PHP)

SinhVien_DAO (C#)

GameRepo (C#)

LoadContext (C++)

bgzf_raw_write (C++)

TComPic (Go)

Int64ValueOrDefault (Go)

HttpHeaders (Java)

CFAccXMsgAttachmentTagMessageFormatter (Java)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: keywords.py Projeto: a-parida12/typeCast

def keywords(text, ratio=0.2, words=None, language="english", split=False, scores=False): # Gets a dict of word -> lemma tokens = _clean_text_by_word(text, language) split_text = list(_tokenize_by_word(text)) # Creates the graph and adds the edges graph = _build_graph(_get_words_for_graph(tokens)) _set_graph_edges(graph, tokens, split_text) del split_text # It's no longer used _remove_unreachable_nodes(graph) # PageRank cannot be run in an empty graph. if len(graph.nodes()) == 0: return [] if split else "" # Ranks the tokens using the PageRank algorithm. Returns dict of lemma -> score pagerank_scores = _pagerank(graph) extracted_lemmas = _extract_tokens(graph.nodes(), pagerank_scores, ratio, words) lemmas_to_word = _lemmas_to_words(tokens) keywords = _get_keywords_with_score(extracted_lemmas, lemmas_to_word) # text.split() to keep numbers and punctuation marks, so separeted concepts are not combined combined_keywords = _get_combined_keywords(keywords, text.split()) return _format_results(keywords, combined_keywords, split, scores)

Exemplo n.º 2

0

Exibir arquivo

Arquivo: keywords.py Projeto: aiswaryasankar/similaritySum

def get_graph(text, language="english", deaccent=False): tokens = _clean_text_by_word(text, language, deacc=deaccent) split_text = list(_tokenize_by_word(text, deacc=deaccent)) graph = _build_graph(_get_words_for_graph(tokens)) _set_graph_edges(graph, tokens, split_text) return graph

Exemplo n.º 3

0

Exibir arquivo

Arquivo: keywords.py Projeto: anhtu/textrank

def get_graph(text, language="english"): tokens = _clean_text_by_word(text, language) split_text = list(_tokenize_by_word(text)) graph = _build_graph(_get_words_for_graph(tokens)) _set_graph_edges(graph, tokens, split_text) return graph

Exemplo n.º 4

0

Exibir arquivo

Arquivo: keywords.py Projeto: anhtu/textrank

def keywords(text, ratio=0.2, words=None, language="english", split=False, scores=False): # Gets a dict of word -> lemma tokens = _clean_text_by_word(text, language) split_text = list(_tokenize_by_word(text)) # Creates the graph and adds the edges graph = _build_graph(_get_words_for_graph(tokens)) _set_graph_edges(graph, tokens, split_text) del split_text # It's no longer used _remove_unreachable_nodes(graph) # Ranks the tokens using the PageRank algorithm. Returns dict of lemma -> score pagerank_scores = _pagerank(graph) extracted_lemmas = _extract_tokens(graph.nodes(), pagerank_scores, ratio, words) lemmas_to_word = _lemmas_to_words(tokens) keywords = _get_keywords_with_score(extracted_lemmas, lemmas_to_word) # text.split() to keep numbers and punctuation marks, so separeted concepts are not combined combined_keywords = _get_combined_keywords(keywords, text.split()) return _format_results(keywords, combined_keywords, split, scores)

Exemplo n.º 5

0

Exibir arquivo

Arquivo: keywords.py Projeto: aiswaryasankar/similaritySum

def _strip_word(word): stripped_word_list = list(_tokenize_by_word(word)) return stripped_word_list[0] if stripped_word_list else ""

Exemplo n.º 6

0

Exibir arquivo

Arquivo: keywords.py Projeto: anhtu/textrank

def _strip_word(word): stripped_word_list = list(_tokenize_by_word(word)) return stripped_word_list[0] if stripped_word_list else ""