Python Ngram 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: src.ngram

클래스/타입: Ngram

hotexamples.com에서의 예제들: 8

Python Ngram - 8개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 src.ngram.Ngram에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Ngram(8)

norm(6)

size(4)

values(1)

자주 사용되는 메소드들

Ngram (8)

norm (6)

size (4)

values (1)

예제 #1

파일 보기

파일: data_processing.py 프로젝트: gcie/licencjat

def create_ngram(sentences, n):
    """Create n-gram dictionary from set of sentences."""
    ngram = Ngram(n)
    for sentence in sentences.astype('int64'):
        for i in range(len(sentence) - n + 1):
            ngram[tuple(sentence[i:i+n])] += 1
    return ngram.norm()

예제 #2

파일 보기

파일: data_processing.py 프로젝트: gcie/licencjat

def sequence_ngram(n, entries, out_dim=10):
    """Create sequence-based n-gram"""
    ngram = Ngram(n)
    idx = np.random.randint(0, out_dim, n)
    while ngram.size() < entries:
        ngram[tuple(idx)] = np.random.random()
        idx = np.append(idx[1:], np.random.randint(0, out_dim))

예제 #3

파일 보기

파일: data_processing.py 프로젝트: gcie/licencjat

def retrieve_ngram(sequence_loader, n):
    """Retrieve ngram from data loader"""
    ngram = Ngram(n)
    for _, y in sequence_loader:
        for sample in y:
            ngram[tuple(sample.to('cpu').numpy())] += 1
    return ngram.norm()

예제 #4

파일 보기

파일: brown.py 프로젝트: gcie/licencjat

def get_brown_ngram(n=3, dim=6):
    text = ''.join(brown.words()).lower()
    pattern = re.compile('[^' + 'etaoinsrhl'[:dim] + ']+')
    vowels = pattern.sub('', text)
    ngram = Ngram(n)
    for i in range(len(vowels) - n + 1):
        ngram[strtotuple(vowels[i:i + n])] += 1
    return ngram.norm()

예제 #5

파일 보기

def randomized_ngram(n, entries, out_dim=10):
    """Create randomized n-gram"""
    ngram = Ngram(n)
    while ngram.size() < entries:
        ngram[tuple(np.random.randint(0, out_dim, n))] = np.random.random()
    unique = set()
    for idx in ngram:
        for i in idx:
            unique.add(i)
    if len(unique) != out_dim:
        return randomized_ngram(n, entries, out_dim)
    return ngram.norm()

예제 #6

파일 보기

파일: data_processing.py 프로젝트: gcie/licencjat

def randomized_ngram(n, size, out_dim=10, min_var=0):
    """Create randomized n-gram"""
    ngram = Ngram(n)
    while ngram.size() < size:
        ngram[tuple(np.random.randint(0, out_dim, n))] = np.random.random()
    unique = set()
    for idx in ngram:
        for i in idx:
            unique.add(i)
    if len(unique) != out_dim:
        return randomized_ngram(n, size, out_dim, min_var)
    ngram.norm()
    mu = sum(ngram.values()) / size
    var = sum([(x - mu)**2 for x in ngram.values()]) / size
    if var < min_var:
        return randomized_ngram(n, size, out_dim, min_var)
    return ngram

예제 #7

파일 보기

파일: data_processing.py 프로젝트: gcie/licencjat

def randomized_ngram(n, entries, out_dim=10):
    """Create randomized n-gram"""
    ngram = Ngram(n)
    while ngram.size() < entries:
        ngram[tuple(np.random.randint(0, out_dim, n))] = np.random.random()
    return ngram.norm()

예제 #8

파일 보기

파일: main.py 프로젝트: gcie/licencjat

save_every = 100
log_every = 100
test_every = 1
primal_lr = 1e-6
dual_lr = 1e-4

show_dual = False
predictions_on_sequences = True
predictions_on_data = False
ngram_data_stats = True
ngram_test_stats = True
loss_on_test = False

# %% CREATING NGRAM
# ngram = randomized_ngram(3, 20, out_dim=4, min_var=-1e-2)
ngram = Ngram(3)
ngram[(0, 1, 2)] = 6.
ngram[(1, 2, 3)] = 4.
# ngram.norm()
# ngram_gen = get_brown_ngram(dim=3)
ngram_gen = ngram
# ngram_gen.show()


# %% GENERATING DATASET
data_loader = train_loader_MNIST()
test_loader = test_loader_MNIST()
sequence_loader = sequence_loader_MNIST(ngram_gen, num_samples=40000)
sequence_test_loader = sequence_loader_MNIST(ngram_gen, num_samples=10000, train=False)

t = time.time()