Ejemplos de Utils.__htmlpage_soup en Python

Lenguaje de programación: Python

Clase / Tipo: Utils

Método / Función: __htmlpage_soup

Ejemplos en hotexamples.com: 4

Python Utils.__htmlpage_soup - 4 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de Utils.__htmlpage_soup de paquete playwright-python extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Métodos usados con frecuencia

Mostrar Ocultar

AdjustGridSize(29)

executeOnServer(18)

errorCode(17)

format_Directory_Path(8)

bytesToInt(7)

dprint(7)

add_one(6)

assertPathExists(6)

allow_methods(5)

bytesToString(5)

convertNetToGefx(5)

extract_stochastics_values(5)

ApplyKPhaseShifts(4)

ensure_dir_exists(4)

encodeAuthToken(4)

__htmlpage_soup(4)

add_query_to_url(4)

extract_links(4)

constructQueries(4)

cleanOutputFolder(4)

create_build_command(4)

extract_results_single_page(4)

bitflip(4)

clearElem(4)

closestCentroidList(3)

expectNevents(3)

check_color(3)

findCollocations1(3)

checkIsFile(3)

ceil_key(3)

copyFirstBoot(3)

flatten_lines(3)

date_to_httpdate(3)

AddArrayLine(3)

drawCenteredOnTitle(3)

AppendLogFile(3)

generateCfgFile(3)

convertEncoding(3)

drawArray(2)

capstring(2)

dnorm(2)

file_exist(2)

csize(2)

create_ht_marc(2)

create_label_list(2)

create_document_term_matrix(2)

createSources(2)

clean_price_string(2)

drawRec(2)

electLeader(2)

Ejemplo n.º 1

Mostrar archivo

Archivo: UrlFactory.py Proyecto: kubuntu/360buy-Crawler

def extract_htmlpage_products(url, coding):
	url_file = open("url", "w")
	base_url1 = "http://www.360buy.com/"
	base_url2 = "http://www.360buy.com"
	htmlpage_soup = Utils.__htmlpage_soup(url, coding)
	blocks = htmlpage_soup.findAll("div", attrs={"class":"mt"})
	if not blocks:
		return (None, None)
	blocks_sub = htmlpage_soup.findAll("em")
	products_top_catalog_href = [] #一级目录
	products_sub_catalog_href = [] #二级目录
	for block in blocks:
		catalog = Utils.extract_text_from_htmlline(str(block)).strip()
		href = Utils.extract_href_from_htmlline(str(block)).strip()
		products_top_catalog_href.append((catalog, href))
	for block_sub in blocks_sub:
		parts = Utils.split_htmlline2parts(str(block_sub).strip(), "</em>")
		for part in parts:
			catalog_sub = Utils.extract_text_from_htmlline(str(part)).strip()
			if len(catalog_sub) == 0:
				continue
			href_sub = Utils.extract_href_from_htmlline(str(part)).strip()
			if href_sub.find("http://") == -1:
				if href_sub[0] == '/':
					href_sub = base_url2 + href_sub
				else:
					href_sub = base_url1 + href_sub
			products_sub_catalog_href.append((catalog_sub, href_sub))
	for item in products_sub_catalog_href:
		print >> url_file, item[0].encode("utf8"), " ", item[1].encode("utf8")
	url_file.close()
	return products_top_catalog_href, products_sub_catalog_href

Ejemplo n.º 2

Mostrar archivo

Archivo: UrlFactory.py Proyecto: kubuntu/360buy-Crawler

def extract_products_pagenum(url, coding):
	htmlpage_soup = Utils.__htmlpage_soup(url, coding)
	if htmlpage_soup == -1:
		return -1, -1
	block = htmlpage_soup.find("div", attrs={"class":"pagin fr"})
	if not block:
		return -1, -1
	maxnum = Utils.extract_maxnum_from_htmlline(str(block))
	href_base = Utils.extract_mutil_href_from_htmlline(str(block))
	return maxnum, href_base

Ejemplo n.º 3

Mostrar archivo

Archivo: UrlFactory.py Proyecto: kubuntu/360buy-Crawler

def products_id_maker(url, coding): 
	if not url:
		return -1
	products_id = []
	soup = Utils.__htmlpage_soup(url, coding)
	if soup == -1:
		return -1
	ids = soup.findAll('li', {'sku':True})
	for i in ids:
		products_id.append(str(i['sku']))
	return products_id

Ejemplo n.º 4

Mostrar archivo

Archivo: UrlFactory.py Proyecto: kubuntu/360buy-Crawler

def get_reviews_page_num(url, coding):
	pagination_soup = Utils.__htmlpage_soup(url, coding)
	if pagination_soup == -1:
		return -1
	pagination = pagination_soup.findAll("div", attrs={"class":"Pagination"})
	soup2=BeautifulSoup(str(pagination))
	at = soup2.findAll('a')
	max_num = 0
	for i in at:
		try:
			m = Utils.str2int(i.text)
		except:
			continue
		if m > max_num:
			max_num = m
	return max_num