Exemple #1
0
# contenido-juicio.py

import urllib2, obo

url = 'http://maunaloa.rchland.ibm.com/SIIDMQMF/970boxtstdet.htm'

respuesta = urllib2.urlopen(url)
HTML = respuesta.read()

print(obo.quitarEtiquetas(HTML))
Exemple #2
0
#html-a-frec.py

import urllib.request, urllib.error, urllib.parse, obo

url = 'http://www.oldbaileyonline.org/browse.jsp?id=t17800628-33&div=t17800628-33'

respuesta = urllib.request.urlopen(url)
html = respuesta.read()
texto = obo.quitarEtiquetas(html).lower()
listaPalabras = obo.quitaNoAlfaNum(texto)
diccionario = obo.listaPalabrasDicFrec(listaPalabras)
diccOrdenado = obo.ordenaDicFrec(diccionario)

for s in diccOrdenado:
    print(str(s))
# html-a-lista-1.py
import urllib2, obo

url = 'http://www.oldbaileyonline.org/browse.jsp?id=t17800628-33&div=t17800628-33'

respuesta = urllib2.urlopen(url)
html = respuesta.read()
texto = obo.quitarEtiquetas(html)
listaPalabras = texto.split()

print(listaPalabras[0:120])