Python Tokenize.byWordAlphaOnly 예제들

프로그래밍 언어: Python

클래스/타입: Tokenize

메소드/함수: byWordAlphaOnly

hotexamples.com에서의 예제들: 8

Python Tokenize.byWordAlphaOnly - 8개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 Tokenize.byWordAlphaOnly 패키지로부터 underthesea에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

byWord(18)

byWordAlphaOnly(4)

Tokenize(3)

TokenizeDigits(2)

TokenizeIdentifiers(2)

TokenizeKeywords(2)

TokenizeOperators(2)

TokenizeOutWords(2)

TokenizeStrings(2)

TokenizeComments(2)

cleanComments(2)

create_bi_gram(1)

coeficienteSimilaridade(1)

byWordStem(1)

_skip(1)

_skipWhitespaces(1)

_skipToNextLine(1)

_extractToken(1)

TokenizeEndOfStatment(1)

create_mono_gram(1)

예제 #1

0

파일 보기

파일: AuthorshipFeatures.py 프로젝트: dfgerrity/AuthorDetector

def avgWordLengthBucketed(text):
    tokens = Tokenize.byWordAlphaOnly(text)
    sum = 0
    count = 0
    for token in tokens:
        sum += len(token)
        count +=1
    numericValue = int(sum/count)
    bucketLabel = "Long" if numericValue > 6 else "Medium" if numericValue > 4 else "Short"
    return {"AVG word Length" : bucketLabel}

예제 #2

0

파일 보기

파일: AuthorshipFeatures.py 프로젝트: dfgerrity/AuthorDetector

def avgWordLengthBucketed(text):
    tokens = Tokenize.byWordAlphaOnly(text)
    sum = 0
    count = 0
    for token in tokens:
        sum += len(token)
        count += 1
    numericValue = int(sum / count)
    bucketLabel = "Long" if numericValue > 6 else "Medium" if numericValue > 4 else "Short"
    return {"AVG word Length": bucketLabel}

예제 #3

0

파일 보기

파일: AuthorshipFeatures.py 프로젝트: dfgerrity/AuthorDetector

def avgWordLength(text):
    text = " ".join(text)
    tokens = Tokenize.byWordAlphaOnly(text)
    sum = 0
    count = 0
    tokens = list(set(tokens))
    for token in tokens:
        if token.isalpha():
            sum += len(token)
            count += 1
    return {"AVG word Length": int(sum / count)}

예제 #4

0

파일 보기

파일: AuthorshipFeatures.py 프로젝트: dfgerrity/AuthorDetector

def avgWordLength(text):
    text = " ".join(text)
    tokens = Tokenize.byWordAlphaOnly(text)
    sum = 0
    count = 0
    tokens = list(set(tokens))
    for token in tokens:
        if token.isalpha():
            sum += len(token)
            count +=1
    return {"AVG word Length" : int(sum/count)}

예제 #5

0

파일 보기

파일: AuthorshipFeatures.py 프로젝트: dfgerrity/AuthorDetector

 def feature(text):
     text = " ".join(text)
     tokens = Tokenize.byWord(text)
     words=[]
     if stem:
         words = Tokenize.byWordStem(text)
     else:
         words = Tokenize.byWordAlphaOnly(text)
     fd = Ngrams.getNgramFreqDist(words,n)
     topM = sorted([item for item in fd.items()],key=lambda x:x[1], reverse=True)[:m]
     vector = {}
     for i in range(len(topM)):
         vector["word#"+str(i)+" "+str(n)+"gramW"] = topM[i][0]
     return vector

예제 #6

0

파일 보기

파일: AuthorshipFeatures.py 프로젝트: dfgerrity/AuthorDetector

 def feature(text):
     text = " ".join(text)
     tokens = Tokenize.byWord(text)
     words = []
     if stem:
         words = Tokenize.byWordStem(text)
     else:
         words = Tokenize.byWordAlphaOnly(text)
     fd = Ngrams.getNgramFreqDist(words, n)
     topM = sorted([item for item in fd.items()],
                   key=lambda x: x[1],
                   reverse=True)[:m]
     vector = {}
     for i in range(len(topM)):
         vector["word#" + str(i) + " " + str(n) + "gramW"] = topM[i][0]
     return vector

예제 #7

0

파일 보기

파일: AuthorshipFeatures.py 프로젝트: dfgerrity/AuthorDetector

def wordLengthDist(text):
    text = " ".join(text)
    words = Tokenize.byWordAlphaOnly(text)
    vector = {}
    total = 0
    for i in range(1,11):
        vector["%ofwords"+str(i)+"long"] = 0
    count = 0
    words = list(set(words))
    for word in words:
        if len(word) < 10:
            vector["%ofwords"+str(len(word))+"long"] += 1 
        else:
            vector["%ofwords"+str(10)+"long"] += 1
        total +=1
    for i in range(1,11):
        vector["%ofwords"+str(i)+"long"] = int(100*vector["%ofwords"+str(i)+"long"]/total)
    return vector

예제 #8

0

파일 보기

파일: AuthorshipFeatures.py 프로젝트: dfgerrity/AuthorDetector

def wordLengthDist(text):
    text = " ".join(text)
    words = Tokenize.byWordAlphaOnly(text)
    vector = {}
    total = 0
    for i in range(1, 11):
        vector["%ofwords" + str(i) + "long"] = 0
    count = 0
    words = list(set(words))
    for word in words:
        if len(word) < 10:
            vector["%ofwords" + str(len(word)) + "long"] += 1
        else:
            vector["%ofwords" + str(10) + "long"] += 1
        total += 1
    for i in range(1, 11):
        vector["%ofwords" + str(i) + "long"] = int(
            100 * vector["%ofwords" + str(i) + "long"] / total)
    return vector