Python _is_control示例

编程语言: Python

命名空间/包名称: transformers.tokenization_bert

方法/功能: _is_control

hotexamples.com的示例: 3

Python _is_control - 已找到3个示例。这些是从开源项目中提取的最受好评的transformers.tokenization_bert._is_control现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： tokenization_bert_test.py 项目： lizhiweiena/Transformers

    def test_is_control(self):
        self.assertTrue(_is_control(u"\u0005"))

        self.assertFalse(_is_control(u"A"))
        self.assertFalse(_is_control(u" "))
        self.assertFalse(_is_control(u"\t"))
        self.assertFalse(_is_control(u"\r"))

示例#2

显示文件

 def _clean_text(self, text) -> Tuple[List[str], List[str]]:
     """
     相较于原本的transformers.tokenization_bert.BertTokenizer._clean_text,
     将控制字符也输出为空格。主要目的是保持输出前后的长度一致。
     同时也应该输出原始text
     :param text:
     :return: (cleaned_text, raw_text, )
     """
     output = []
     raw_rsv_output = []
     token = ''
     for char in text:
         cp = ord(char)
         if cp == 0 or cp == 0xFFFD or _is_control(char) or _is_whitespace(
                 char):
             if len(token) > 0:
                 output.append(token)
                 raw_rsv_output.append(token)
             token = ''
             output.append(" ")
         else:
             token += char
         if len(token) > 0:
             output.append(token)
             raw_rsv_output.append(token)
     assert sum(len(token) for token in output) == sum(
         len(token) for token in raw_rsv_output)
     return output, raw_rsv_output

示例#3

显示文件

文件： raw_rsv_bert_tokenizer.py 项目： xiaofeixia09/ecws

 def _clean_token(self, token: RawRsvSimpleToken) -> List[RawRsvSimpleToken]:
     """Performs invalid character removal and whitespace cleanup on text."""
     output = []
     is_start = True
     for char, idx, raw_char in token:
         cp = ord(char)
         if cp == 0 or cp == 0xFFFD or _is_control(char) or _is_whitespace(char):
             output.append(RawRsvSimpleToken(text=" ", pos_ids=[idx], raw_text=char))
             is_start = True
         else:
             if is_start:
                 output.append(RawRsvSimpleToken())
                 is_start = False
             output[-1].text += char
             output[-1].pos_ids.append(idx)
             output[-1].raw_text += char
     return output