# contenido-juicio.py import urllib2, obo url = 'http://maunaloa.rchland.ibm.com/SIIDMQMF/970boxtstdet.htm' respuesta = urllib2.urlopen(url) HTML = respuesta.read() print(obo.quitarEtiquetas(HTML))
#html-a-frec.py import urllib.request, urllib.error, urllib.parse, obo url = 'http://www.oldbaileyonline.org/browse.jsp?id=t17800628-33&div=t17800628-33' respuesta = urllib.request.urlopen(url) html = respuesta.read() texto = obo.quitarEtiquetas(html).lower() listaPalabras = obo.quitaNoAlfaNum(texto) diccionario = obo.listaPalabrasDicFrec(listaPalabras) diccOrdenado = obo.ordenaDicFrec(diccionario) for s in diccOrdenado: print(str(s))
# html-a-lista-1.py import urllib2, obo url = 'http://www.oldbaileyonline.org/browse.jsp?id=t17800628-33&div=t17800628-33' respuesta = urllib2.urlopen(url) html = respuesta.read() texto = obo.quitarEtiquetas(html) listaPalabras = texto.split() print(listaPalabras[0:120])