Ejemplos de tokenise_html en Python

Lenguaje de programación: Python

Namespace/Package Name: simplelang.tokenisers

Método / Función: tokenise_html

Ejemplos en hotexamples.com: 2

Python tokenise_html - 2 ejemplos encontrados. Estos son los ejemplos en Python del mundo real mejor valorados de simplelang.tokenisers.tokenise_html extraídos de proyectos de código abierto. Puedes valorar ejemplos para ayudarnos a mejorar la calidad de los ejemplos.

Ejemplo n.º 1

Mostrar archivo

Archivo: tokeniser_tests.py Proyecto: werdz/simplelang

	def test_page1(self):
		generator = tokenise_html(_page1[0])
		l = []
		for x in generator:
			l.append(x)
		
		self.assertEqual(len(l), len(_page1[1]))
		for i in xrange(0, len(l)):
			self.assertEqual(repr(l[i]), repr(_page1[1][i]))

Ejemplo n.º 2

Mostrar archivo

Archivo: test_stuff.py Proyecto: werdz/simplelang

def main():
	parser = OptionParser()
	
	parser.add_option('-f', '--file', default='test.html', dest='file', help='the file to test with')
	options, args = parser.parse_args()
	
	f = open(options.file)
	html_data = f.read()
	f.close()
	
	tokenised_page_gen = tokenise_html(html_data)
	tokenised_page = classify_block(list(tokenised_page_gen), 'script', script_re)
	tokenised_page = classify_block(tokenised_page, 'style', style_re)
	tokenised_page = classify_block(tokenised_page, 'a', anchor_re)
	blocks = find_content_blocks(tokenised_page)
	
	sorted_blocks = sorted(blocks, key=len, reverse=True)
	
	print content_block_str(sorted_blocks[0])
	print sorted(word_frequencies(filter_common_words(sorted_blocks[0])), key=lambda x:x[1], reverse=True)