def test_year(self):
        text = "В 1982 г. перестало."
        sents = text_proc.seg_text_as_list(text)
        self.assertEqual(1, len(sents))

        text = "В 1982г. перестало."
        sents = text_proc.seg_text_as_list(text)
        self.assertEqual(1, len(sents))
        self.assertEqual("В 1982г. перестало.", sents[0][0])
    def test_newline_in_sent(self):
        text = "Перенос\r\nстроки\n на ул. Горь-\nкого. "
        sents = text_proc.seg_text_as_list(text)
        print(sents)
        self.assertEqual(1, len(sents))
        self.assertEqual("Перенос строки на ул. Горького.", sents[0][0])

        #text with Unicode Character 'HYPHEN'
        text = "Перенос стр\u2010\nоки."
        sents = text_proc.seg_text_as_list(text)
        self.assertEqual(1, len(sents))
        self.assertEqual("Перенос строки.", sents[0][0])
    def __call__(self, chunk, src_docs):
        if chunk.get_mod_type() == ModType.ORIG:
            return
        for sent in chunk.get_orig_sents():
            res = text_proc.seg_text_as_list(sent)

            if len(res) > 1:
                self._errors.append(
                    ChunkError(
                        "Ячейка Оригинальный фрагмент содержит больше 1ого предложения",
                        chunk.get_chunk_id(), ErrSeverity.HIGH))
    def __call__(self, chunk, src_docs):
        if chunk.get_mod_type() == ModType.ORIG:
            return

        res = text_proc.seg_text_as_list(chunk.get_mod_text())
        if not chunk.has_mod_type(ModType.SEP) and not chunk.has_mod_type(ModType.SSP) and\
           not chunk.has_mod_type(ModType.HPR) and len(res) > 1:

            self._errors.append(
                ChunkError(
                    "Модифицированный фрагмент содержит несколько предложений, но его тип не SSP/SEP",
                    chunk.get_chunk_id(), ErrSeverity.HIGH))
    def test_parens_quotes(self):
        text = "изложены им в брошюре-манифесте (От кубизма к супрематизму. Новый живописный реализм)."

        sents = text_proc.seg_text_as_list(text)
        self.assertEqual(1, len(sents))
 def test_joint(self):
     text = "заповеди Пифагора.Нравственные устои."
     sents = text_proc.seg_text_as_list(text)
     self.assertEqual(2, len(sents))
     self.assertEqual("заповеди Пифагора.", sents[0][0])
 def test_abbrevs(self):
     text = "На ул. Горького в д. 9 проживает И.В. Ильич с пн. по пт."
     sents = text_proc.seg_text_as_list(text)
     self.assertEqual(1, len(sents))
 def test_basic(self):
     text = "простое предложение. «второе« 1990 предложение, (и т.д.). 3-е предл."
     sents = text_proc.seg_text_as_list(text)
     self.assertEqual(3, len(sents))
     self.assertEqual("простое предложение.", sents[0][0])
     self.assertEqual("«второе« 1990 предложение, (и т.д.).", sents[1][0])
    def test_sent_with_trailing_spc(self):
        sent="When most people think of piracy, images of Captain Hook from the story Peter Pan and Captain Blackbeard from the movie Pirates of the Caribbean come to mind. "

        sents = text_proc.seg_text_as_list(sent)
        self.assertEqual(1, len(sents))