Esempi in Python per Cleaner.javasript

Linguaggio di programmazione: Python

Spazio dei nomi/nome del pacchetto: lxml.html.clean

Classe/tipologia: Cleaner

Metodo/funzione: javasript

Esempi su hotexamples.com: 2

Cleaner.javasript in Python: 2 esempi trovati. Questi sono i migliori esempi reali in Python per lxml.html.clean.Cleaner.javasript, estratti da progetti open source. Li puoi valutare, per aiutarci a migliorare la qualità dei nostri esempi.

Metodi utilizzati di frequente

Mostra Nascondi

Cleaner(30)

clean_html(30)

style(30)

kill_tags(30)

javascript(30)

remove_tags(23)

scripts(21)

page_structure(19)

meta(19)

links(16)

remove_unknown_tags(15)

comments(14)

allow_tags(13)

safe_attrs_only(12)

embedded(11)

forms(11)

frames(9)

annoying_tags(8)

html(7)

processing_instructions(7)

inline_style(4)

safe_attrs(3)

xpath(2)

add_nofollow(2)

__call__(2)

allow_tag(1)

javasript(1)

remove_attributes(1)

host_whitelist(1)

replace(1)

frame(1)

embeded(1)

script(1)

allow_attributes(1)

startswith(1)

__init__(1)

whitelist_tags(1)

allow_embedded_url(1)

Esempio n. 1

Mostra file

File: experiment.py Progetto: veeann/example-mining

def visit(url):
    if url.startswith(base_url) == False:
        return

    try:
        resp = urlopen(url)
    except URLError as e:
        return

    page = resp.read()
    cleaner = Cleaner()
    cleaner.javasript = True
    cleaner.style = True
    cleaner.kill_tags = ELEMENTS_TO_IGNORE

    # soup = BeautifulSoup(page, "lxml")
    # for link in soup.findAll('a'):
    # 	if link.has_attr('href'):
    # 		if link.has_attr('class') and 'history' in link['class']:
    # 			continue
    # 		next_link = urljoin(url,link['href'])
    # 		next_link = urldefrag(next_link)[0]
    # 		if next_link not in visited_pages:
    # 			visited_pages.append(next_link)
    # 			pages_to_visit.append(next_link)
    f = open("testing.txt", 'w')
    f.write(page)

    clean_page = cleaner.clean_html(page)
    f.write("\n\n\nVS\n\n\n")
    f.write(clean_page)
    f.close()
    soup = BeautifulSoup(clean_page, "lxml")
    return
    extract(soup, url)

Esempio n. 2

Mostra file

File: mine.py Progetto: veeann/example-mining

def visit(url):
	if url.startswith(base_url) == False:
		return

	try:
		resp = urlopen(url)
	except URLError as e:
		return

	page = resp.read()
	cleaner = Cleaner()
	cleaner.javasript = True
	cleaner.style = True
	cleaner.kill_tags = ELEMENTS_TO_IGNORE

	# soup = BeautifulSoup(page, "lxml")
	# for link in soup.findAll('a'):
	# 	if link.has_attr('href'):
	# 		if link.has_attr('class') and 'history' in link['class']:
	# 			continue
	# 		next_link = urljoin(url,link['href'])
	# 		next_link = urldefrag(next_link)[0]
	# 		if next_link not in visited_pages:
	# 			visited_pages.append(next_link)
	# 			pages_to_visit.append(next_link)

	clean_page = cleaner.clean_html(page)
	soup = BeautifulSoup(clean_page, "lxml")
	extract(soup, url)