Python Corpus示例

编程语言: Python

命名空间/包名称: terminology.corpus

类/类型: Corpus

hotexamples.com的示例: 18

Python Corpus - 已找到18个示例。这些是从开源项目中提取的最受好评的terminology.corpus.Corpus现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

Corpus(10)

_should_select_string(7)

_clean_localized(1)

_clean_string(1)

_read_stop_words(1)

process(1)

示例#1

显示文件

文件： testcorpus.py 项目： unho/translation-memory-tools

    def test_read_stop_words(self):
        corpus = Corpus('')
        stopwords_file = StringIO('translator-credits')

        assert corpus._should_select_string(u'translator-credits', '*****@*****.**')
        corpus._read_stop_words(stopwords_file)
        assert not corpus._should_select_string(u'translator-credits', '*****@*****.**')

示例#2

显示文件

文件： term_extract.py 项目： Softcatala/translation-memory-tools

def process_projects(src_directory, glossary_description, glossary_file):
    corpus = Corpus(src_directory)
    corpus.process()

    reference_sources = ReferenceSources()
    reference_sources.read_sources()

    metrics = Metrics()
    metrics.create(corpus)

    # Select terms
    MAX_TERMS = 8000
    sorted_terms_by_tfxdf = sorted(metrics.tfxdf, key=metrics.tfxdf.get,
                                   reverse=True)

    # Developer report
    glossary_entries = OrderedDict()
    translations = Translations()
    selected_terms = sorted_terms_by_tfxdf[:MAX_TERMS] # Sorted by frequency

    for term in selected_terms:
        glossary_entries[term] = translations.create_for_word_sorted_by_frequency(corpus.documents, term, reference_sources)

    dev_glossary_serializer = DevGlossarySerializer()
    dev_glossary_serializer.create(u"dev-" + glossary_file + ".html",
                                   glossary_description, corpus,
                                   glossary_entries, reference_sources)

    # User report
    glossary_entries = []
    selected_terms = sorted(sorted_terms_by_tfxdf[:MAX_TERMS])  # Sorted by term

    glossary = Glossary(glossary_description)
    for term in selected_terms:
        glossary_entry = GlossaryEntry(
            term,
            translations.create_for_word_sorted_by_frequency(corpus.documents,
                                                             term,
                                                             reference_sources)
        )
        glossary.entries.append(glossary_entry)

    glossary_entries = glossary.get_dict()
    process_template('terminology/templates/userglossary-html.mustache',
                     glossary_file + ".html", glossary_entries)
    process_template('terminology/templates/userglossary-csv.mustache',
                     glossary_file + ".csv", glossary_entries)

    generate_database(glossary, glossary_file)

示例#3

显示文件

文件： testcorpus.py 项目： unho/translation-memory-tools

 def test_should_select_string_nonumericalonly(self):
     corpus = Corpus('')
     assert not corpus._should_select_string(u'10', '10')
     assert corpus._should_select_string(u'10 minutes ago', 'Fa 10 minuts')

示例#4

显示文件

文件： testcorpus.py 项目： unho/translation-memory-tools

 def test_should_select_string_noformatters(self):
     corpus = Corpus('')
     assert not corpus._should_select_string(u'Usage: %s', 'Ús: %s')
     assert corpus._should_select_string(u'Usage: sample', 'Ús: exemple')

示例#5

显示文件

文件： testcorpus.py 项目： unho/translation-memory-tools

 def test_should_select_string_nospaces(self):
     corpus = Corpus('')
     assert not corpus._should_select_string(u'accessibility;development;test;', 'accessibility;development;test;')

示例#6

显示文件

文件： testcorpus.py 项目： unho/translation-memory-tools

 def test_should_select_string_notags(self):
     corpus = Corpus('')
     assert not corpus._should_select_string(u'<b>_User name</b>', '<b>_Nom d\'usuari</b>')
     assert corpus._should_select_string(u'User name', '_Nom d\'usuari')

示例#7

显示文件

文件： testcorpus.py 项目： unho/translation-memory-tools

 def test_clean_strings(self):
     corpus = Corpus('')
     assert corpus._clean_string(u'_Hard Disk') == u'hard disk'
     assert corpus._clean_string(u'Contrasen&ya:') == u'contrasenya'
     assert corpus._clean_string(u'All ~Pages') == u'all pages'
     assert corpus._clean_string(u'Properties...') == u'properties'

示例#8

显示文件

 def test_should_select_string_noformatters(self):
     corpus = Corpus('')
     assert not corpus._should_select_string(u'Usage: %s', 'Ús: %s')
     assert corpus._should_select_string(u'Usage: sample', 'Ús: exemple')

示例#9

显示文件

 def test_should_select_string_notags(self):
     corpus = Corpus('')
     assert not corpus._should_select_string(u'<b>_User name</b>',
                                             '<b>_Nom d\'usuari</b>')
     assert corpus._should_select_string(u'User name', '_Nom d\'usuari')

示例#10

显示文件

 def test_clean_strings(self):
     corpus = Corpus('')
     assert corpus._clean_string(u'_Hard Disk') == u'hard disk'
     assert corpus._clean_string(u'Contrasen&ya:') == u'contrasenya'
     assert corpus._clean_string(u'All ~Pages') == u'all pages'
     assert corpus._clean_string(u'Properties...') == u'properties'

示例#11

显示文件

文件： testcorpus.py 项目： rbuj/translation-memory-tools

 def test_should_select_string_empty_target(self):
     corpus = Corpus('')
     assert not corpus._should_select_string(u'()', '()')

示例#12

显示文件

 def test_clean_localized(self):
     corpus = Corpus('')
     assert corpus._clean_localized(u'accès') == u'accès'
     assert corpus._clean_localized(u'àíóè’') == u'àíóè\''

示例#13

显示文件

 def test_should_not_select_parentesis_only(self):
     corpus = Corpus('')
     assert not corpus._should_select_string(u'()', '()')

示例#14

显示文件

 def test_should_select_string_empty_target(self):
     corpus = Corpus('')
     assert corpus._should_select_string(u'This week', 'Aquesta setmana')
     assert not corpus._should_select_string(u'This week', '')

示例#15

显示文件

 def test_should_select_string_nonumericalonly(self):
     corpus = Corpus('')
     assert not corpus._should_select_string(u'10', '10')
     assert corpus._should_select_string(u'10 minutes ago', 'Fa 10 minuts')

示例#16

显示文件

文件： testcorpus.py 项目： unho/translation-memory-tools

 def test_should_select_string_empty_target(self):
     corpus = Corpus('')
     assert corpus._should_select_string(u'This week', 'Aquesta setmana')
     assert not corpus._should_select_string(u'This week', '')

示例#17

显示文件

 def test_should_select_string_nospaces(self):
     corpus = Corpus('')
     assert not corpus._should_select_string(
         u'accessibility;development;test;',
         'accessibility;development;test;')

示例#18

显示文件

文件： testcorpus.py 项目： Softcatala/translation-memory-tools

 def test_should_not_select_parentesis_only(self):
     corpus = Corpus('')
     assert not corpus._should_select_string(u'()', '()')