Python html_to_text 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: nlptools.html_to_text

메소드/함수: html_to_text

hotexamples.com에서의 예제들: 17

Python html_to_text - 17개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 nlptools.html_to_text.html_to_text에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

def get_context(url, matchtext, before, after):
    html = get_cached_url(url).read()
    textsegments = html_to_text(html)
    i = textsegments.find(matchtext)
    bigtext = textsegments[max(0, i - before):min(i +
                                                  after, len(textsegments))]
    return trim_to_words(bigtext)

예제 #2

파일 보기

def get_raw_disputes(url):
    """unfiltered and unranked. Return all disputes we find"""
    try:
        htmlcontent = urllib2.urlopen(url, None, 2).read(200000)
        text = html_to_text(htmlcontent)
        return match_with_claims(text)
    except:
        return []

예제 #3

파일 보기

파일: api.py 프로젝트: BenTrem/think-link

def get_dispute_context(claimtext):
	try:
		contextobj = ClaimContext.objects.filter(claimtext=claimtext)[0]
		text = html_to_text(contextobj.sentence).strip()
		return {'url':contextobj.url, 'text':text, 'prefix': contextobj.prefix, 'date':contextobj.date,
		'badvotes':contextobj.badvotes, 'goodvotes':contextobj.goodvotes}
	except:
		return {'url':'',"text":'','prefix':'','date':'','badvotes':0,'goodvotes':0}

예제 #4

파일 보기

파일: basematcher.py 프로젝트: BenTrem/think-link

def get_raw_disputes(url):
	"""unfiltered and unranked. Return all disputes we find"""
	try:
		htmlcontent = urllib2.urlopen(url,None,2).read(200000)	
		text = html_to_text(htmlcontent)
		return match_with_claims(text)
	except:
		return []

예제 #5

파일 보기

파일: search_engine.py 프로젝트: BenTrem/think-link

def get_raw_disputes(url):
    try:
        htmlcontent = urllib2.urlopen(url, None, 2).read(200000)
        text = h.html_to_text(htmlcontent)
        matches = r.get_sorted_claims(text)
        disputes = [dispute for dispute in matches if (dispute[0] > 0)][:4]
        unique = []
        used = set({})
        for dispute in disputes:
            if (not dispute[3] in used) and (not dispute[4] in used):
                used.add(dispute[3])
                used.add(dispute[4])
                unique.append(dispute)
        return unique
    except:
        return []

예제 #6

파일 보기

파일: search_engine.py 프로젝트: BenTrem/think-link

def get_raw_disputes(url):
	try:
		htmlcontent = urllib2.urlopen(url,None,2).read(200000)	
		text = h.html_to_text(htmlcontent)
		matches = r.get_sorted_claims(text)
		disputes = [dispute for dispute in matches if (dispute[0] > 0)][:4]
		unique = []
		used = set({})
		for dispute in disputes:
			if (not dispute[3] in used) and (not dispute[4] in used):
				used.add(dispute[3])
				used.add(dispute[4])
				unique.append(dispute)
		return unique		
	except:
		return []

예제 #7

파일 보기

파일: search_engine.py 프로젝트: milliondreams/think-link

def get_page_disputes(url,pages):
	try:
		htmlcontent = pages[url]
		text = h.html_to_text(htmlcontent)
		matches = r.get_sorted_claims(text)
		disputes = [dispute for dispute in matches if (dispute[0] > 0)][:4]
		unique = []
		used = set({})
		for dispute in disputes:
			if (not dispute[3] in used) and (not dispute[4] in used):
				used.add(dispute[3])
				used.add(dispute[4])
				unique.append(dispute)
		disputes = [template("disputed_box",dispute = d[1]) for d in unique]
		return " ".join(disputes)
	except:
		return ""

예제 #8

파일 보기

파일: search_engine.py 프로젝트: BenTrem/think-link

def get_page_disputes(url, pages=None):
    try:
        if pages:
            htmlcontent = pages[url]
        else:
            htmlcontent = urllib2.urlopen(url, None, 2).read(200000)
        text = h.html_to_text(htmlcontent)
        matches = r.get_sorted_claims(text)
        disputes = [dispute for dispute in matches if (dispute[0] > 0)][:4]
        unique = []
        used = set({})
        for dispute in disputes:
            if (not dispute[3] in used) and (not dispute[4] in used):
                used.add(dispute[3])
                used.add(dispute[4])
                unique.append(dispute)
        disputes = [template("disputed_box", dispute=d[1]) for d in unique]
        return " ".join(disputes)
    except:
        return ""

예제 #9

파일 보기

파일: claimpatterns.py 프로젝트: BenTrem/think-link

def get_prefixes(results,claim):
	abstracts = [html_to_text(result["abstract"]) for result in results]
	prefixes = [prefix_for_claim(abstract,claim) for abstract in abstracts]
	return [prefix for prefix in prefixes if prefix]

예제 #10

파일 보기

파일: claimpatterns.py 프로젝트: BenTrem/think-link

def get_abstracts(results,claim):
	return [html_to_text(result["abstract"]) for result in results]

예제 #11

파일 보기

파일: features.py 프로젝트: BenTrem/think-link

def get_context(url,matchtext,before,after):
	html = get_cached_url(url).read()
	textsegments = html_to_text(html)
	i =  textsegments.find(matchtext)
	bigtext = textsegments[max(0,i-before):min(i+after,len(textsegments))]
	return trim_to_words(bigtext)

예제 #12

파일 보기

파일: claim_from_body.py 프로젝트: BenTrem/think-link

def claims_from_html(content):
	text = ht.html_to_text(nt.convert_entities(content))
	return claims_from_body(text)

예제 #13

파일 보기

파일: claim_from_body.py 프로젝트: BenTrem/think-link

def bodys_from_tab_file(f):
	for line in f:
		row = line.strip().split("\t")
		if len(row) > 3:
			yield ht.html_to_text(nt.convert_entities(row[3]))

예제 #14

파일 보기

def get_prefixes(results, claim):
    abstracts = [html_to_text(result["abstract"]) for result in results]
    prefixes = [prefix_for_claim(abstract, claim) for abstract in abstracts]
    return [prefix for prefix in prefixes if prefix]

예제 #15

파일 보기

파일: claim_from_body.py 프로젝트: BenTrem/think-link

def bodys_from_tab_file(f):
    for line in f:
        row = line.strip().split("\t")
        if len(row) > 3:
            yield ht.html_to_text(nt.convert_entities(row[3]))

예제 #16

파일 보기

파일: claim_from_body.py 프로젝트: BenTrem/think-link

def claims_from_html(content):
    text = ht.html_to_text(nt.convert_entities(content))
    return claims_from_body(text)

예제 #17

파일 보기

def get_abstracts(results, claim):
    return [html_to_text(result["abstract"]) for result in results]