Python Downloader.download 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: nltk.downloader

클래스/타입: Downloader

메소드/함수: download

hotexamples.com에서의 예제들: 10

Python Downloader.download - 10개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 nltk.downloader.Downloader.download에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Downloader(14)

download(6)

default_download_dir(2)

__init__(1)

is_installed(1)

예제 #1

파일 보기

def install_nltk(download_dir=None):
    """ Download specific collection identifiers """
    if not download_dir:
        download_dir = settings.NLTK_DATA_PATH
    downloader = Downloader(download_dir=download_dir)
    downloader.download('punkt')
    downloader.download('maxent_treebank_pos_tagger')

예제 #2

파일 보기

파일: nltk.py 프로젝트: JosephSefara/AfricanWordNet

    def __init__(self, ):
        """A method to initialize parameters"""

        DEFAULT_URL = 'https://raw.githubusercontent.com/JosephSefara/AfricanWordNet/master/data/index.xml'
        """The default URL for the NLTK data server's index"""

        try:
            downloader = Downloader(server_index_url=DEFAULT_URL)
            downloader.download('africanwordnet')
        except:
            raise

예제 #3

파일 보기

 def __init__(self):
     super(RssSkill, self).__init__('RssSkill')
     self._is_reading_headlines = False
     self.feeds = {}
     self.cached_items = {}
     self.cache_time = {}
     try:
         pos_tag('advance')
     except LookupError:
         logger.debug('Tagger not installed... Trying to download')
         dler = Downloader()
         if not dler.download('averaged_perceptron_tagger'):
             logger.debug('Trying alternative source...')
             dler = Downloader(ALT_NLTK_DATA)
             dler.download('averaged_perceptron_tagger',
                           raise_on_error=True)

예제 #4

파일 보기

파일: dl_nltk.py 프로젝트: kvraman1/qbank-tools

def dl_nltk():
    TO_DL = ['stopwords', 'punkt']

    dler = Downloader('https://pastebin.com/raw/D3TBY4Mj')

    for to_dl in TO_DL:
        if not nltk.download(to_dl):
            print('Downloading NLTK data from alternative source...')
            if not dler.download(to_dl):
                print('Failed download NLTK data...')

예제 #5

파일 보기

파일: preprocessor.py 프로젝트: yjwong/cherami

    def build_list_from_nltk(self, lang):
        downloader = Downloader()

        # Check if NLTK data directory exists.
        if StopwordRemover.nltk_dir == None:
            # Create temporary directory for download
            StopwordRemover.nltk_dir = tempfile.mkdtemp(prefix='cherami')
            nltk.data.path = [StopwordRemover.nltk_dir]
            
            logger.info('NLTK data directory is "{0}"'
                .format(StopwordRemover.nltk_dir))
        
        # Check if the NLTK data has already been downloaded.
        if not downloader.is_installed('stopwords'):
            logger.info('Downloading NLTK stopword data...')
            downloader.download('stopwords', StopwordRemover.nltk_dir, True)
            logger.info('NLTK stopword data downloaded.')

        for word in stopwords.words(lang):
            self.stopword_list.add(word)

예제 #6

파일 보기

파일: preprocessor.py 프로젝트: pshken/cherami

    def build_list_from_nltk(self, lang):
        downloader = Downloader()
        tempdir = None
        
        # Check if the NLTK data has already been downloaded.
        if not downloader.is_installed('stopwords'):
            # Create temporary directory for download
            tempdir = tempfile.mkdtemp(prefix='cherami')
            logger.info('Downloading NLTK stopword data into "{0}"'
                '...'.format(tempdir))

            downloader.download('stopwords', tempdir, True)
            logger.info('NLTK stopword data downloaded.')

            nltk.data.path = [tempdir]

        for word in stopwords.words(lang):
            self.stopword_list.add(word)

        # Clean up after we're done.
        if tempdir is not None:
            shutil.rmtree(tempdir)

예제 #7

파일 보기

파일: __init__.py 프로젝트: jhpyle/pattern

from nltk.corpus import sentiwordnet as swn
from nltk.corpus import wordnet_ic as wn_ic
from nltk.corpus.reader.wordnet import Synset as WordNetSynset

# Make sure the necessary corpora are downloaded to the local drive
for token in ("wordnet", "wordnet_ic", "sentiwordnet"):
    try:
        nltk.data.find("corpora/" + token)
    except LookupError:
        try:
            nltk.download(token, quiet = True, raise_on_error = True)
        except ValueError:
            # Sometimes there are problems with the default index.xml URL. Then we will try this...
            from nltk.downloader import Downloader as NLTKDownloader
            d = NLTKDownloader("http://nltk.github.com/nltk_data/")
            d.download(token, quiet = True, raise_on_error = True)

# Use the Brown corpus for calculating information content (IC)
brown_ic = wn_ic.ic('ic-brown.dat')
IC_CORPUS, IC_MAX = brown_ic, {}
for key in IC_CORPUS:
    IC_MAX[key] = max(IC_CORPUS[key].values())

# This will hold the WordNet version
VERSION = wn.get_version() or "3.0"

#---------------------------------------------------------------------------------------------------

DIACRITICS = {
    "a": ("á", "ä", "â", "à", "å"),
    "e": ("é", "ë", "ê", "è"),

예제 #8

파일 보기

파일: __init__.py 프로젝트: clips/pattern

from nltk.corpus import sentiwordnet as swn
from nltk.corpus import wordnet_ic as wn_ic
from nltk.corpus.reader.wordnet import Synset as WordNetSynset

# Make sure the necessary corpora are downloaded to the local drive
for token in ("wordnet", "wordnet_ic", "sentiwordnet"):
    try:
        nltk.data.find("corpora/" + token)
    except LookupError:
        try:
            nltk.download(token, quiet = True, raise_on_error = True)
        except ValueError:
            # Sometimes there are problems with the default index.xml URL. Then we will try this...
            from nltk.downloader import Downloader as NLTKDownloader
            d = NLTKDownloader("http://nltk.github.com/nltk_data/")
            d.download(token, quiet = True, raise_on_error = True)

# Use the Brown corpus for calculating information content (IC)
brown_ic = wn_ic.ic('ic-brown.dat')
IC_CORPUS, IC_MAX = brown_ic, {}
for key in IC_CORPUS:
    IC_MAX[key] = max(IC_CORPUS[key].values())

# This will hold the WordNet version
VERSION = wn.get_version() or "3.0"

#---------------------------------------------------------------------------------------------------

DIACRITICS = {
    "a": ("á", "ä", "â", "à", "å"),
    "e": ("é", "ë", "ê", "è"),

예제 #9

파일 보기

파일: preprocessor.py 프로젝트: jessyarbrough/mech-jung

import os, nltk
from nltk.downloader import Downloader
from nltk.stem import WordNetLemmatizer
from nltk import word_tokenize, pos_tag, map_tag

nltk_packages = [
	'punkt',
	'maxent_treebank_pos_tagger',
	'universal_tagset',
	'wordnet'
]
nltk_path = os.path.dirname(os.path.realpath(__file__)) + '/nltk'
nltk.data.path.append(nltk_path)
nltk_dl = Downloader(download_dir = nltk_path)
for package in nltk_packages:
	nltk_dl.download(package)

primary_tags = set(['NOUN', 'VERB', 'ADJ', 'ADV', 'PRON'])

processes = [
	'parts_all',
	'tokens_adj',
	'tokens_adv',
	'tokens_all',
	'tokens_dense',
	'tokens_noun',
	'tokens_other',
	'tokens_pron',
	'tokens_verb'
	]

예제 #10

파일 보기

파일: text-extract.py 프로젝트: nicolewhitee/autosuggest

import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import nltk
from nltk.downloader import Downloader
from nltk.probability import FreqDist
from nltk.probability import FreqDist
from nltk.corpus import stopwords as stopwords_corpus
from nltk import pos_tag
from nltk.util import ngrams
from nltk.collocations import BigramCollocationFinder, BigramAssocMeasures

from sklearn.metrics import f1_score

downloader = Downloader()
downloader.download("stopwords")
nltk.download('averaged_perceptron_tagger')

with open("../data/full.csv", "r") as csvfile:
    reader = csv.reader(csvfile, quoting=csv.QUOTE_ALL)
    documents = [t[0] for t in reader]

matplotlib.rcParams.update({'font.size': 22})
stop_words = set(stopwords_corpus.words("english"))

_non_alpha = re.compile("[^a-zA-Z ]")


def normalize(text):
    """Map a token to a canonical form, e.g. lower case it, remove non-alpha characters, etc.