Python build_sentences примеры использования

Язык программирования: Python

Пространство имен/Пакет: tokenizer

Метод/Функция: build_sentences

Примеров на hotexamples.com: 19

Python build_sentences - 19 примеров найдено. Это лучшие примеры Python кода для tokenizer.build_sentences, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Пример #1

Показать файл

def run_tokenization(options, filename, non_capitalized=None):
    with open(filename, "r", encoding="utf-8") as input_file:
        data = input_file.read()

        if options.skip_tokenization:
            sentences = [
                sentence.split('\n') for sentence in data.split('\n\n')
                if sentence.strip()
            ]
        elif options.skip_segmentation:
            sentences = [
                build_sentences(line, segment=False)
                for line in data.split('\n') if line.strip()
            ]
        else:
            if non_capitalized is None:
                n_capitalized = len(re.findall(r'[\.!?] +[A-ZÅÄÖ]', data))
                n_non_capitalized = len(re.findall(r'[\.!?] +[a-zåäö]', data))
                non_capitalized = n_non_capitalized > 5 * n_capitalized
            sentences = build_sentences(data, non_capitalized=non_capitalized)

    sentences = list(
        filter(bool, [[token for token in sentence if len(token) <= MAX_TOKEN]
                      for sentence in sentences]))
    return sentences

Пример #2

Показать файл

Файл: test_tokenizer.py Проект: wxhzt/efselab

    def test_abbreviations(self):
        test = "Jag skickar räkningen p.g.a. ditt inköp"
        expected = [["Jag", "skickar", "räkningen", "p.g.a.", "ditt", "inköp"]]
        self.assertEqual(list(tokenizer.build_sentences(test)), expected)

        test = "Vi har bl a svamp"
        expected = [["Vi", "har", "bl.a.", "svamp"]]
        self.assertEqual(list(tokenizer.build_sentences(test)), expected)

Пример #3

Показать файл

Файл: test_tokenizer.py Проект: cynthiaho711/efselab

    def test_abbreviations(self):
        test = "Jag skickar räkningen p.g.a. ditt inköp"
        expected = [["Jag", "skickar", "räkningen", "p.g.a.", "ditt", "inköp"]]
        self.assertEqual(list(tokenizer.build_sentences(test)), expected)

        test = "Vi har bl a svamp"
        expected = [["Vi", "har", "bl.a.", "svamp"]]
        self.assertEqual(list(tokenizer.build_sentences(test)), expected)

Пример #4

Показать файл

Файл: swe-pipeline.py Проект: cynthiaho711/efselab

def run_tokenization(options, filename):
    with open(filename, "r", encoding="utf-8") as input_file:
        data = input_file.read()

        if options.skip_tokenization:
            sentences = [
                sentence.split('\n')
                for sentence in data.split('\n\n')
                if sentence.strip()]
        else:
            sentences = build_sentences(data)

    return sentences

Пример #5

Показать файл

Файл: swe_pipeline.py Проект: robertostling/efselab

def run_tokenization(options, filename):
    with open(filename, "r", encoding="utf-8") as input_file:
        data = input_file.read()

        if options.skip_tokenization:
            sentences = [
                sentence.split('\n')
                for sentence in data.split('\n\n')
                if sentence.strip()
            ]
        else:
            sentences = build_sentences(data)

    sentences = list(filter(bool,
        [[token for token in sentence if len(token) <= MAX_TOKEN]
            for sentence in sentences]))
    return sentences

Пример #6

Показать файл

Файл: test_tokenizer.py Проект: wxhzt/efselab

 def test_single_word(self):
     test = "hej"
     expected = [["hej"]]
     self.assertEqual(list(tokenizer.build_sentences(test)), expected)

Пример #7

Показать файл

Файл: test_tokenizer.py Проект: wxhzt/efselab

 def test_numeric(self):
     test = "Temperatur: 21.0 grader"
     expected = [["Temperatur", ":", "21.0", "grader"]]
     self.assertEqual(list(tokenizer.build_sentences(test)), expected)

Пример #8

Показать файл

Файл: test_tokenizer.py Проект: wxhzt/efselab

 def test_empty_string(self):
     test = ""
     expected = []
     self.assertEqual(list(tokenizer.build_sentences(test)), expected)

Пример #9

Показать файл

Файл: test_tokenizer.py Проект: wxhzt/efselab

 def test_smileys(self):
     test = "Jag säger :) och :( samtidigt"
     expected = [["Jag", "säger", ":)", "och", ":(", "samtidigt"]]
     self.assertEqual(list(tokenizer.build_sentences(test)), expected)

Пример #10

Показать файл

Файл: test_tokenizer.py Проект: cynthiaho711/efselab

    def test_paragraphs_without_punctuation(self):
        test = """Första meningen

        Andra meningen"""
        expected = [["Första", "meningen"], ["Andra", "meningen"]]
        self.assertEqual(list(tokenizer.build_sentences(test)), expected)

Пример #11

Показать файл

Файл: test_tokenizer.py Проект: wxhzt/efselab

    def test_paragraphs_without_punctuation(self):
        test = """Första meningen

        Andra meningen"""
        expected = [["Första", "meningen"], ["Andra", "meningen"]]
        self.assertEqual(list(tokenizer.build_sentences(test)), expected)

Пример #12

Показать файл

Файл: test_tokenizer.py Проект: wxhzt/efselab

 def test_two_sentences(self):
     test = "Jag skriver text. Och mer text."
     expected = [["Jag", "skriver", "text", "."],
                 ["Och", "mer", "text", "."]]
     self.assertEqual(list(tokenizer.build_sentences(test)), expected)

Пример #13

Показать файл

Файл: test_tokenizer.py Проект: cynthiaho711/efselab

 def test_two_sentences(self):
     test = "Jag skriver text. Och mer text."
     expected = [["Jag", "skriver", "text", "."], ["Och", "mer", "text", "."]]
     self.assertEqual(list(tokenizer.build_sentences(test)), expected)

Пример #14

Показать файл

Файл: test_tokenizer.py Проект: cynthiaho711/efselab

 def test_single_word(self):
     test = "hej"
     expected = [["hej"]]
     self.assertEqual(list(tokenizer.build_sentences(test)), expected)

Пример #15

Показать файл

Файл: test_tokenizer.py Проект: cynthiaho711/efselab

 def test_numeric(self):
     test = "Temperatur: 21.0 grader"
     expected = [["Temperatur", ":", "21.0", "grader"]]
     self.assertEqual(list(tokenizer.build_sentences(test)), expected)

Пример #16

Показать файл

Файл: test_tokenizer.py Проект: cynthiaho711/efselab

 def test_smileys(self):
     test = "Jag säger :) och :( samtidigt"
     expected = [["Jag", "säger", ":)", "och", ":(", "samtidigt"]]
     self.assertEqual(list(tokenizer.build_sentences(test)), expected)

Пример #17

Показать файл

Файл: test_tokenizer.py Проект: cynthiaho711/efselab

 def test_empty_string(self):
     test = ""
     expected = []
     self.assertEqual(list(tokenizer.build_sentences(test)), expected)

Пример #18

Показать файл

Файл: test_tokenizer.py Проект: wxhzt/efselab

 def test_sentence(self):
     test = "hej hopp."
     expected = [["hej", "hopp", "."]]
     self.assertEqual(list(tokenizer.build_sentences(test)), expected)

Пример #19

Показать файл

Файл: test_tokenizer.py Проект: cynthiaho711/efselab

 def test_sentence(self):
     test = "hej hopp."
     expected = [["hej", "hopp", "."]]
     self.assertEqual(list(tokenizer.build_sentences(test)), expected)