Python tika_extract示例

编程语言: Python

命名空间/包名称: extract

方法/功能: tika_extract

hotexamples.com的示例: 4

Python tika_extract - 已找到4个示例。这些是从开源项目中提取的最受好评的extract.tika_extract现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： msword.py 项目： vicgc/Uforia

def process(fullpath, config, rcontext, columns=None):
    parser = tika.AutoDetectParser()

    input = tika.FileInputStream(tika.File(fullpath))

    content = tika.BodyContentHandler()
    metadata = tika.Metadata()
    context = tika.ParseContext()

    parser.parse(input,content,metadata,context)
    content = content.toString()

    processed = [
        metadata.get("Creation-Date"),
        metadata.get("Last-Modified"),
        metadata.get("Last-Save-Date"),
        metadata.get("Revision-Number"),
        metadata.get("Author"),
        metadata.get("Last-Author"),
        metadata.get("Template"),
        metadata.get("Word-Count"),
        metadata.get("title"),
        metadata.get("subject"),
        metadata.get("Company"),
        metadata.get("Keywords"),
        metadata.get("Page-Count"),
        metadata.get("Character Count"),
        content
    ]

    extract.tika_extract(fullpath, context, metadata, config, rcontext)

    return processed

示例#2

显示文件

文件： xls.py 项目： vicgc/Uforia

def process(fullpath, config, rcontext, columns=None):
    results = []
    meta = []

    parser = tika.AutoDetectParser()

    input = tika.FileInputStream(tika.File(fullpath))

    content = tika.BodyContentHandler()
    metadata = tika.Metadata()
    context = tika.ParseContext()

    parser.parse(input, content, metadata, context)
    content = content.toString()

    for n in metadata.names():
        meta.append(metadata.get(n))

    val = 0
    parse = [0, 3, 4, 7, 9]

    for x in meta:
        if val in parse:
            results.append(x)
        val += 1

    results.append(content)

    extract.tika_extract(fullpath, context, metadata, config, rcontext)

    return results

示例#3

显示文件

def process(fullpath, config, rcontext, columns=None):
    parser = tika.AutoDetectParser()

    input = tika.FileInputStream(tika.File(fullpath))

    content = tika.BodyContentHandler()
    metadata = tika.Metadata()
    context = tika.ParseContext()

    parser.parse(input, content, metadata, context)
    content = content.toString()

    processed = [
        metadata.get("Creation-Date"),
        metadata.get("Last-Modified"),
        metadata.get("Last-Save-Date"),
        metadata.get("Revision-Number"),
        metadata.get("Author"),
        metadata.get("Last-Author"),
        metadata.get("Template"),
        metadata.get("Word-Count"),
        metadata.get("title"),
        metadata.get("subject"),
        metadata.get("Company"),
        metadata.get("Keywords"),
        metadata.get("Page-Count"),
        metadata.get("Character Count"), content
    ]

    extract.tika_extract(fullpath, context, metadata, config, rcontext)

    return processed

示例#4

显示文件

文件： xls.py 项目： vicgc/Uforia

def process(fullpath, config, rcontext, columns=None):
    results = []
    meta = []

    parser = tika.AutoDetectParser()

    input = tika.FileInputStream(tika.File(fullpath))

    content = tika.BodyContentHandler()
    metadata = tika.Metadata()
    context = tika.ParseContext()

    parser.parse(input,content,metadata,context)
    content = content.toString()

    for n in metadata.names():
        meta.append(metadata.get(n))

    val = 0
    parse = [0,3,4,7,9]

    for x in meta:
        if val in parse:
            results.append(x)
        val += 1

    results.append(content)

    extract.tika_extract(fullpath, context, metadata, config, rcontext);

    return results