Python Corpus示例

编程语言: Python

命名空间/包名称: corpkit

类/类型: Corpus

hotexamples.com的示例: 6

Python Corpus - 已找到6个示例。这些是从开源项目中提取的最受好评的corpkit.Corpus现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Corpus(2)

interrogate(2)

示例#1

显示文件

文件： nosetests.py 项目： kareem180/corpkit

def test_interro4():
    print 'Testing interrogation 4'
    corp = Corpus('data/test-stripped-tokenised')
    data = corp.interrogate({'n': 'any'})
    d = {u'and interrogating': {'first': 0, 'second': 2},
         u'concordancing and': {'first': 0, 'second': 2}}
    assert_equals(data.results.to_dict(), d)

示例#2

显示文件

文件： nosetests.py 项目： kareem180/corpkit

def test_parse():
    import shutil
    print 'Testing parser'
    unparsed = Corpus(unparsed_path)
    try:
        shutil.rmtree('data/test-parsed')
    except:
        pass
    parsed = unparsed.parse()
    assert_equals(list([i.name for i in parsed.files]), ['intro.txt.xml', 'body.txt.xml'])

示例#3

显示文件

文件： nosetests.py 项目： kareem180/corpkit

def test_parse_speakseg(skipassert = False):
    print 'Testing parser with speaker segmentation'
    unparsed = Corpus(unparsed_path)
    import shutil
    try:
        shutil.rmtree(parsed_path)
    except:
        pass
    parsed = unparsed.parse(speaker_segmentation = True)
    if not skipassert:
        assert_equals(list([i.name for i in parsed.files]), ['intro.txt.xml', 'body.txt.xml'])

示例#4

显示文件

文件： convert_xml_to_corpkit.py 项目： interrogator/rsc

def move_and_parse(indir='xml-form'):
    """
    Use corpkit/CoreNLP to parse the corpus
    """
    import shutil
    import os
    from corpkit import Corpus, new_project

    # make a new project and move into it
    new_project('rsc-proj')
    shutil.copytree('xml-form', 'rsc-proj/data')
    os.chdir('rsc-proj')
    corpus = Corpus('rsc-form')
    parsed = corpus.parse(metadata=True,
                          speaker_segmentation=False,
                          multiprocess=15)

示例#5

显示文件

文件： nosetests.py 项目： kareem180/corpkit

def test_interro5():
    print 'Testing interrogation 5'
    corp = Corpus('data/test-stripped')
    data = corp.interrogate({'w': r'\bl[a-z]+?\s'})
    assert_equals(data.results.sum().sum(), 4)

示例#6

显示文件

文件： corpkit.py 项目： jordiaphane/experimentallitcorpus

import corpkit
from corpkit import Corpus
unparsed = Corpus(
    'C:\\Users\\jbjb\\Documents\\DATA\\weird corpus\\corpkit\\explit\\data')
unparsed.parse()