Python WebCapture.getTagList示例

编程语言: Python

命名空间/包名称: webcapture

类/类型: WebCapture

方法/功能: getTagList

hotexamples.com的示例: 2

Python WebCapture.getTagList - 已找到2个示例。这些是从开源项目中提取的最受好评的webcapture.WebCapture.getTagList现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

accessUrl(2)

capture(2)

creatList(2)

getTagList(2)

accessForm(1)

closeObject(1)

creatObject(1)

getform(1)

put(1)

save(1)

示例#1

显示文件

文件： cms.ba.gov.br.py 项目： jotaV/WebCapture

# -*- coding: latin1 -*-

"""
A simple script to get a list of links in a site, in this case 'http://www.cms.ba.gov.br/vereadores.aspx', execute each and get some data in its respective pages

Um script simples para obter uma lista de links em um site, neste caso 'http://www.cms.ba.gov.br/vereadores.aspx', execute cada um e obter alguns dados em suas respectivas páginas
"""

from webcapture import WebCapture

wb = WebCapture()

wb.accessUrl("http://www.cms.ba.gov.br/vereadores.aspx")
wb.creatList("Vereadores")

for tag in wb.getTagList("#meio_conteudo .foto_vereador_int", "a"):

	wb.accessUrl("http://www.cms.ba.gov.br/" + tag.attrib["href"])

	wb.creatObject()
	wb.capture("nome", ".nome_vereador")
	wb.capture("cargo", ".cargo_ver")
	wb.capture("partido", ".partido_vereador")
	wb.capture("telefone", ".telefones_vereador")
	wb.capture("email", ".email_vereador")
	wb.closeObject()

wb.save('json')
wb.save('xml')

示例#2

显示文件

文件： camara.leg.br.py 项目： jotaV/WebCapture

	wb.capture("aniversario", "#content ul li:nth-child(2)",
		format = r".*: (\d*) / (\d*) .*", filter = "\\1/\\2")

	wb.capture("profissao", "#content ul li:nth-child(2)",
		format = r".*: .*: (.*)", filter = "\\1")

	wb.capture("partido", "#content ul li:nth-child(3)",
		format = r".*: (.*?) / (.*?) / (.*)", filter = "\\1")

	wb.capture("UF", "#content ul li:nth-child(3)",
		format = r".*: (.*?) / (.*?) / (.*)", filter = "\\2")

	wb.capture("diplomacao", "#content ul li:nth-child(3)",
		format = r".*: (.*?) / (.*?) / (.*)", filter = "\\3")

	wb.capture("telefone", "#content ul li:nth-child(4)",
		format = r".*: (\(\d*?\)) ([\d-]*) .*", filter = "\\1 \\2")

	wb.capture("fax", "#content ul li:nth-child(4)",
		format = r".*: (\(\d*?\)) ([\d-]*) - Fax: ([\d-]*)", filter = "\\1 \\3")

	wb.capture("legislaturas", "#content ul li:nth-child(5)",
		find = r"\d{2}/\d{2}")

	img = wb.getTagList("#content .clearedBox", "img")[0]  #wb.capture(""#content .clearedBox img[0][src]"
	wb.put("fotolink", img.attrib["src"])

	wb.closeObject()

wb.save('json')
wb.save('xml')