Python Tokenize.byWordAlphaOnly примеры использования

Язык программирования: Python

Класс/Тип: Tokenize

Метод/Функция: byWordAlphaOnly

Примеров на hotexamples.com: 8

Python Tokenize.byWordAlphaOnly - 8 примеров найдено. Это лучшие примеры Python кода для Tokenize.byWordAlphaOnly из пакета underthesea, полученные из open source проектов. Вы можете ставить оценку каждому примеру, чтобы помочь нам улучшить качество примеров.

Основные методы

Показать Скрыть

byWord(18)

byWordAlphaOnly(4)

Tokenize(3)

TokenizeDigits(2)

TokenizeIdentifiers(2)

TokenizeKeywords(2)

TokenizeOperators(2)

TokenizeOutWords(2)

TokenizeStrings(2)

TokenizeComments(2)

cleanComments(2)

create_bi_gram(1)

coeficienteSimilaridade(1)

byWordStem(1)

_skip(1)

_skipWhitespaces(1)

_skipToNextLine(1)

_extractToken(1)

TokenizeEndOfStatment(1)

create_mono_gram(1)

Пример #1

0

Показать файл

Файл: AuthorshipFeatures.py Проект: dfgerrity/AuthorDetector

def avgWordLengthBucketed(text):
    tokens = Tokenize.byWordAlphaOnly(text)
    sum = 0
    count = 0
    for token in tokens:
        sum += len(token)
        count +=1
    numericValue = int(sum/count)
    bucketLabel = "Long" if numericValue > 6 else "Medium" if numericValue > 4 else "Short"
    return {"AVG word Length" : bucketLabel}

Пример #2

0

Показать файл

Файл: AuthorshipFeatures.py Проект: dfgerrity/AuthorDetector

def avgWordLengthBucketed(text):
    tokens = Tokenize.byWordAlphaOnly(text)
    sum = 0
    count = 0
    for token in tokens:
        sum += len(token)
        count += 1
    numericValue = int(sum / count)
    bucketLabel = "Long" if numericValue > 6 else "Medium" if numericValue > 4 else "Short"
    return {"AVG word Length": bucketLabel}

Пример #3

0

Показать файл

Файл: AuthorshipFeatures.py Проект: dfgerrity/AuthorDetector

def avgWordLength(text):
    text = " ".join(text)
    tokens = Tokenize.byWordAlphaOnly(text)
    sum = 0
    count = 0
    tokens = list(set(tokens))
    for token in tokens:
        if token.isalpha():
            sum += len(token)
            count += 1
    return {"AVG word Length": int(sum / count)}

Пример #4

0

Показать файл

Файл: AuthorshipFeatures.py Проект: dfgerrity/AuthorDetector

def avgWordLength(text):
    text = " ".join(text)
    tokens = Tokenize.byWordAlphaOnly(text)
    sum = 0
    count = 0
    tokens = list(set(tokens))
    for token in tokens:
        if token.isalpha():
            sum += len(token)
            count +=1
    return {"AVG word Length" : int(sum/count)}

Пример #5

0

Показать файл

Файл: AuthorshipFeatures.py Проект: dfgerrity/AuthorDetector

 def feature(text):
     text = " ".join(text)
     tokens = Tokenize.byWord(text)
     words=[]
     if stem:
         words = Tokenize.byWordStem(text)
     else:
         words = Tokenize.byWordAlphaOnly(text)
     fd = Ngrams.getNgramFreqDist(words,n)
     topM = sorted([item for item in fd.items()],key=lambda x:x[1], reverse=True)[:m]
     vector = {}
     for i in range(len(topM)):
         vector["word#"+str(i)+" "+str(n)+"gramW"] = topM[i][0]
     return vector

Пример #6

0

Показать файл

Файл: AuthorshipFeatures.py Проект: dfgerrity/AuthorDetector

 def feature(text):
     text = " ".join(text)
     tokens = Tokenize.byWord(text)
     words = []
     if stem:
         words = Tokenize.byWordStem(text)
     else:
         words = Tokenize.byWordAlphaOnly(text)
     fd = Ngrams.getNgramFreqDist(words, n)
     topM = sorted([item for item in fd.items()],
                   key=lambda x: x[1],
                   reverse=True)[:m]
     vector = {}
     for i in range(len(topM)):
         vector["word#" + str(i) + " " + str(n) + "gramW"] = topM[i][0]
     return vector

Пример #7

0

Показать файл

Файл: AuthorshipFeatures.py Проект: dfgerrity/AuthorDetector

def wordLengthDist(text):
    text = " ".join(text)
    words = Tokenize.byWordAlphaOnly(text)
    vector = {}
    total = 0
    for i in range(1,11):
        vector["%ofwords"+str(i)+"long"] = 0
    count = 0
    words = list(set(words))
    for word in words:
        if len(word) < 10:
            vector["%ofwords"+str(len(word))+"long"] += 1 
        else:
            vector["%ofwords"+str(10)+"long"] += 1
        total +=1
    for i in range(1,11):
        vector["%ofwords"+str(i)+"long"] = int(100*vector["%ofwords"+str(i)+"long"]/total)
    return vector

Пример #8

0

Показать файл

Файл: AuthorshipFeatures.py Проект: dfgerrity/AuthorDetector

def wordLengthDist(text):
    text = " ".join(text)
    words = Tokenize.byWordAlphaOnly(text)
    vector = {}
    total = 0
    for i in range(1, 11):
        vector["%ofwords" + str(i) + "long"] = 0
    count = 0
    words = list(set(words))
    for word in words:
        if len(word) < 10:
            vector["%ofwords" + str(len(word)) + "long"] += 1
        else:
            vector["%ofwords" + str(10) + "long"] += 1
        total += 1
    for i in range(1, 11):
        vector["%ofwords" + str(i) + "long"] = int(
            100 * vector["%ofwords" + str(i) + "long"] / total)
    return vector