コード例 #1
0
ファイル: __init__.py プロジェクト: annerajb/openstates
def extract_text(oyster_doc, data):
    doc = lxml.html.fromstring(data)
    pre = doc.xpath('//pre')
    if pre:
        text = pre[0].text_content().encode('ascii', 'replace')
        return text_after_line_numbers(text)
    else:
        return '\n'.join(x.text_content() for x in doc.xpath('//tr/td[2]'))
コード例 #2
0
ファイル: __init__.py プロジェクト: BrandonLewis/openstates
def extract_text(oyster_doc, data):
    doc = lxml.html.fromstring(data)
    pre = doc.xpath('//pre')
    if pre:
        text = pre[0].text_content().encode('ascii', 'replace')
        return text_after_line_numbers(text)
    else:
        return '\n'.join(x.text_content() for x in doc.xpath('//tr/td[2]'))
コード例 #3
0
ファイル: __init__.py プロジェクト: ritchiewilson/openstates
def extract_text(oyster_doc, data):
    if oyster_doc["metadata"]["mimetype"] == "application/pdf":
        return text_after_line_numbers(pdfdata_to_text(data))
コード例 #4
0
ファイル: __init__.py プロジェクト: apd3691/openstates
def extract_text(oyster_doc, data):
    text = pdfdata_to_text(data)
    return text_after_line_numbers(text)
コード例 #5
0
def extract_text(oyster_doc, data):
    return text_after_line_numbers(pdfdata_to_text(data))
コード例 #6
0
ファイル: __init__.py プロジェクト: annerajb/openstates
def extract_text(oyster_doc, data):
    if oyster_doc['metadata']['mimetype'] == 'application/pdf':
        return text_after_line_numbers(pdfdata_to_text(data))
コード例 #7
0
def extract_text(oyster_doc, data):
    if oyster_doc['metadata']['mimetype'] == 'application/pdf':
        return text_after_line_numbers(pdfdata_to_text(data))
コード例 #8
0
ファイル: __init__.py プロジェクト: rzar/openstates
def extract_text(oyster_doc, data):
    doc = lxml.html.fromstring(data)
    text = doc.xpath('//pre')[0].text_content()
    text = text_after_line_numbers(text)
    return text
コード例 #9
0
ファイル: __init__.py プロジェクト: annerajb/openstates
def extract_text(oyster_doc, data):
    text = pdfdata_to_text(data)
    return text_after_line_numbers(text).encode('ascii', 'ignore')
コード例 #10
0
ファイル: __init__.py プロジェクト: rzar/openstates
def extract_text(oyster_doc, data):
    text = pdfdata_to_text(data)
    return text_after_line_numbers(text).encode('ascii', 'ignore')
コード例 #11
0
ファイル: __init__.py プロジェクト: BrandonLewis/openstates
def extract_text(oyster_doc, data):
    is_pdf = (oyster_doc['metadata']['mimetype'] == 'application/pdf' or
              oyster_doc['url'].endswith('.pdf'))
    if is_pdf:
        return text_after_line_numbers(pdfdata_to_text(data))
コード例 #12
0
ファイル: __init__.py プロジェクト: annerajb/openstates
def extract_text(oyster_doc, data):
    doc = lxml.html.fromstring(data)
    text = doc.xpath('//pre')[0].text_content()
    text = text_after_line_numbers(text)
    return text
コード例 #13
0
ファイル: __init__.py プロジェクト: annerajb/openstates
def extract_text(oyster_doc, data):
    is_pdf = (oyster_doc['metadata']['mimetype'] == 'application/pdf'
              or oyster_doc['url'].endswith('.pdf'))
    if is_pdf:
        return text_after_line_numbers(pdfdata_to_text(data))