Python _is_punctuation示例

编程语言: Python

命名空间/包名称: bert.tokenization

方法/功能: _is_punctuation

hotexamples.com的示例: 3

Python _is_punctuation - 已找到3个示例。这些是从开源项目中提取的最受好评的bert.tokenization._is_punctuation现实Python示例。您可以评价示例，以帮助我们提高示例质量。

示例#1

显示文件

文件： tokenization_test.py 项目： lcz10/test

    def test_is_punctuation(self):
        self.assertTrue(tokenization._is_punctuation(u"-"))
        self.assertTrue(tokenization._is_punctuation(u"$"))
        self.assertTrue(tokenization._is_punctuation(u"`"))
        self.assertTrue(tokenization._is_punctuation(u"."))

        self.assertFalse(tokenization._is_punctuation(u"A"))
        self.assertFalse(tokenization._is_punctuation(u" "))

示例#2

显示文件

文件： utils.py 项目： julian-pani/bert-text

def customize_tokenizer(text, do_lower_case=False):
    tokenizer = tokenization.BasicTokenizer(do_lower_case=do_lower_case)
    temp_x = ""
    text = tokenization.convert_to_unicode(text)
    for c in text:
        if tokenizer._is_chinese_char(ord(c)) or tokenization._is_punctuation(
                c) or tokenization._is_whitespace(
                    c) or tokenization._is_control(c):
            temp_x += " " + c + " "
        else:
            temp_x += c
    if do_lower_case:
        temp_x = temp_x.lower()
    return temp_x.split()

示例#3

显示文件

 def _is_punctuation(self, char):
     return bert_tokenization._is_punctuation(char)  # pylint: disable=protected-access