Пример #1
0
def webCrawler(seed):

	toCrawl = [seed]
	crawled = []

	while toCrawl:
		
		url = toCrawl.pop()
		
		if url not in crawled:

			unirListas(toCrawl, listaEnlacesPagina(get_page_3(url)))
			crawled.append(url)

	return crawled
Пример #2
0
def webCrawler(seed):

    toCrawl = [seed]
    crawled = []

    while toCrawl:

        url = toCrawl.pop()

        if url not in crawled:

            unirListas(toCrawl, listaEnlacesPagina(get_page_3(url)))
            crawled.append(url)

    return crawled

def extraerEnlacesPagina(pagina):

    posicionEnlace = pagina.find("<a href=")

    if posicionEnlace == -1:
        return None, 0

    posicionComillasIniciales = pagina.find('"', posicionEnlace)
    posicionComillasFinales = pagina.find('"', posicionComillasIniciales + 1)

    url = pagina[posicionComillasIniciales + 1 : posicionComillasFinales]

    return url, posicionComillasFinales


def imprimirEnlacesPagina(pagina):

    url = pagina

    while url:

        url, posicionComillasFinales = extraerEnlacesPagina(pagina)

        print(url)
        pagina = pagina[posicionComillasFinales:]


imprimirEnlacesPagina(get_page_3("http://xkcd.com/353/"))

def extraerEnlacesPagina(pagina):

    posicionEnlace = pagina.find('<a href=')

    if posicionEnlace == -1:
        return None, 0

    posicionComillasIniciales = pagina.find('"', posicionEnlace)
    posicionComillasFinales = pagina.find('"', posicionComillasIniciales + 1)

    url = pagina[posicionComillasIniciales + 1:posicionComillasFinales]

    return url, posicionComillasFinales


def imprimirEnlacesPagina(pagina):

    url = pagina

    while url:

        url, posicionComillasFinales = extraerEnlacesPagina(pagina)

        print(url)
        pagina = pagina[posicionComillasFinales:]


imprimirEnlacesPagina(get_page_3('http://xkcd.com/353/'))