Python Tokenization.Tokenize示例

编程语言: Python

类/类型: Tokenization

方法/功能: Tokenize

hotexamples.com的示例: 4

Python Tokenization.Tokenize - 已找到4个示例。这些是从开源项目中提取的最受好评的Tokenization.Tokenize 来自程序包 iPrompt现实Python示例。您可以评价示例，以帮助我们提高示例质量。

常用方法

显示隐藏

SentenceNode(8)

SentenceLinkedList(7)

Tokenize(4)

Tokenizer(4)

tokenizeToken(3)

tokenizeFile(2)

Tokenization(1)

TokenizeMultiWord(1)

示例#1

显示文件

文件： test_Lexicon.py 项目： BenLin0/deepparser

    def test_LexiconLookup(self):
        LoadLexicon(dir_path + '/../../../fsa/X/defLexX.txt', lookupSource=LexiconLookupSource.defLex)
        LoadLexicon(dir_path + '/../../../fsa/X/defPlus.txt', lookupSource=LexiconLookupSource.defLex)

        Sentence="喝不惯"
        NodeList = Tokenization.Tokenize(Sentence)
        import ProcessSentence
        ProcessSentence.PrepareJSandJM(NodeList)
        LexiconLookup(NodeList, LexiconLookupSource.defLex)
        self.assertEqual(NodeList.size, 3)

        Sentence="李四"
        NodeList = Tokenization.Tokenize(Sentence)
        #import ProcessSentence
        ProcessSentence.PrepareJSandJM(NodeList)
        LexiconLookup(NodeList, LexiconLookupSource.defLex)
        self.assertEqual(NodeList.size, 3)
        self.assertFalse(utils.FeatureID_OOV in NodeList.head.features)

示例#2

显示文件

def LexicalAnalyzeTask( SubSentence, schema):

    NodeList = Tokenization.Tokenize(SubSentence)
    if not NodeList or NodeList.size == 0:
        return None, None

    Lexicon.ApplyLexiconToNodes(NodeList)
    # print("after ApplyLexiconToNodes" + OutputStringTokens_oneliner(NodeList))

    PrepareJSandJM(NodeList)
    #Lexicon.LexiconoQoCLookup(NodeList)

    NodeList, Dag, WinningRules = DynamicPipeline(NodeList, schema)
        # t = Thread(target=Cache.WriteSentenceDB, args=(SubSentence, NodeList))
        # t.start()

    return NodeList, Dag, WinningRules

示例#3

显示文件

文件： test_LogicOperation.py 项目： BenLin0/deepparser

    def test_LogicCombined(self):
        """Logic Combined"""

        blocks = SeparateOrBlocks("a|b|c")
        self.assertEqual(len(blocks), 3)

        blocks = SeparateOrBlocks("a")
        self.assertEqual(len(blocks), 1)

        blocks = SeparateOrBlocks("'a|b'|c")
        self.assertEqual(len(blocks), 2)


        strtokenlist = Tokenization.Tokenize('d')
        RuleTokenList = [Rules.RuleToken()]

        self.assertTrue(LogicMatch(strtokenlist, 0, 'd', RuleTokenList, 0))

        #strtokenlist = Tokenization.Tokenize("notfeature|'d'|notfeature2")
        self.assertTrue(LogicMatch(strtokenlist, 0, "notfeature|'d'|notfeature2", RuleTokenList, 0))

示例#4

显示文件

文件： test_Lexicon.py 项目： BenLin0/deepparser

 def test_ApplyWordLengthFeature(self):
     Sentence="李四abc456,sab98中文"
     NodeList = Tokenization.Tokenize(Sentence)
     ApplyLexiconToNodes(NodeList)
     self.assertTrue(C1ID in NodeList.head.features)
     self.assertTrue(D1ID in NodeList.get(1).features)