Exemplos de TextUtils em Python

Linguagem de programação: Python

Espaço para nome / nome do pacote: Lib

Classe / Tipo: TextUtils

Exemplos em hotexamples.com: 2

TextUtils em Python - 2 exemplos encontrados. Esses são os exemplos do mundo real mais bem avaliados de Lib.TextUtils em Python extraídos de projetos de código aberto. Você pode avaliar os exemplos para nos ajudar a melhorar a qualidade deles.

Métodos Frequentes

Exibir Ocultar

normalize_text(2)

make_ngram(1)

Métodos Frequentes

normalize_text (2)

make_ngram (1)

Relacionados

pyfits_writeto

SectionItemResources

Event

array

hide

app_version_add

lex

get_time_from_result

get_client_descriptor

Menu

Related in langs

PFN_INC (PHP)

TranslationModel (PHP)

BAM (C#)

BAL (C#)

cmd_has_trace_marker (C++)

rgb_to_luma (C++)

ParseConnectionString (Go)

GenericFlag (Go)

ParametersHeader (Java)

AnnotationBoList (Java)

Exemplo n.º 1

0

Exibir arquivo

Arquivo: HTMLParser.py Projeto: sotoshigoto/LXMLSearchEngine

def handle_ParseHTMLMessage(self, page_info): if (page_info is None) or (page_info.status & PageInfo.PARSED): return contents = self.remove_xml_declaration(page_info.raw_contents) document_tree = lxml.html.fromstring(contents, base_url=target_url) document_tree.make_links_absolute() title_elements = document_tree.xpath("//title") if title_elements: page_info.title = title_elements[0].text.strip() else: page_info.title = None page_info.text = TextUtils.normalize_text(self.collect_text(document_tree)) page_info.status |= PageInfo.PARSED self.page_storage_client.set_page(page_info) bigram_index = [ ("".join(ngram), (page_info.id, pos)) \ for (pos, ngram) in enumerate(TextUtils.make_ngram(page_info.text_contents))] self.index_storage_client.set_index(bigram_index) return True

Exemplo n.º 2

0

Exibir arquivo

Arquivo: Parse.py Projeto: sotoshigoto/workspace

def hancle_ParseHTMLMessage(self, page_info): self.show_timestamped_message("Parsing ... %s" % page_info.url) contents = self.remove_xml_declaration(page_info.raw_contents) document_tree = lxml.html.fromstring(contents, base_url=page_info.url) document_tree.make_links_absolute() if not(page_info.status & PageInfo.PARSED): title_elements = document_tree.xpath("//title") if title_elements: page_info.title = title_elements[0].text.strip() else: page_info.title = None page_info.text = TextUtils.normalize_text(self.collect_text(document_tree)) self.page_storage_client.set_page(page_info) self.indexer(page_info) if self.link_queue: for link_url in self.extract_link_urls(document_tree): self.link_queue(link_url)