def test_year(self): text = "В 1982 г. перестало." sents = text_proc.seg_text_as_list(text) self.assertEqual(1, len(sents)) text = "В 1982г. перестало." sents = text_proc.seg_text_as_list(text) self.assertEqual(1, len(sents)) self.assertEqual("В 1982г. перестало.", sents[0][0])
def test_newline_in_sent(self): text = "Перенос\r\nстроки\n на ул. Горь-\nкого. " sents = text_proc.seg_text_as_list(text) print(sents) self.assertEqual(1, len(sents)) self.assertEqual("Перенос строки на ул. Горького.", sents[0][0]) #text with Unicode Character 'HYPHEN' text = "Перенос стр\u2010\nоки." sents = text_proc.seg_text_as_list(text) self.assertEqual(1, len(sents)) self.assertEqual("Перенос строки.", sents[0][0])
def __call__(self, chunk, src_docs): if chunk.get_mod_type() == ModType.ORIG: return for sent in chunk.get_orig_sents(): res = text_proc.seg_text_as_list(sent) if len(res) > 1: self._errors.append( ChunkError( "Ячейка Оригинальный фрагмент содержит больше 1ого предложения", chunk.get_chunk_id(), ErrSeverity.HIGH))
def __call__(self, chunk, src_docs): if chunk.get_mod_type() == ModType.ORIG: return res = text_proc.seg_text_as_list(chunk.get_mod_text()) if not chunk.has_mod_type(ModType.SEP) and not chunk.has_mod_type(ModType.SSP) and\ not chunk.has_mod_type(ModType.HPR) and len(res) > 1: self._errors.append( ChunkError( "Модифицированный фрагмент содержит несколько предложений, но его тип не SSP/SEP", chunk.get_chunk_id(), ErrSeverity.HIGH))
def test_parens_quotes(self): text = "изложены им в брошюре-манифесте (От кубизма к супрематизму. Новый живописный реализм)." sents = text_proc.seg_text_as_list(text) self.assertEqual(1, len(sents))
def test_joint(self): text = "заповеди Пифагора.Нравственные устои." sents = text_proc.seg_text_as_list(text) self.assertEqual(2, len(sents)) self.assertEqual("заповеди Пифагора.", sents[0][0])
def test_abbrevs(self): text = "На ул. Горького в д. 9 проживает И.В. Ильич с пн. по пт." sents = text_proc.seg_text_as_list(text) self.assertEqual(1, len(sents))
def test_basic(self): text = "простое предложение. «второе« 1990 предложение, (и т.д.). 3-е предл." sents = text_proc.seg_text_as_list(text) self.assertEqual(3, len(sents)) self.assertEqual("простое предложение.", sents[0][0]) self.assertEqual("«второе« 1990 предложение, (и т.д.).", sents[1][0])
def test_sent_with_trailing_spc(self): sent="When most people think of piracy, images of Captain Hook from the story Peter Pan and Captain Blackbeard from the movie Pirates of the Caribbean come to mind. " sents = text_proc.seg_text_as_list(sent) self.assertEqual(1, len(sents))