Python StanfordSegmenter.default_configの例

プログラミング言語: Python

名前空間/パッケージ名: nltk.tokenize

クラス/型: StanfordSegmenter

メソッド/関数: default_config

hotexamples.comのコード掲載数: 9

Python StanfordSegmenter.default_config - 9件のコード例が見つかりました。すべてオープンソースプロジェクトから抽出されたPythonのnltk.tokenize.StanfordSegmenter.default_configの実例で、最も評価が高いものを厳選しています。コード例の評価を行っていただくことで、より質の高いコード例が表示されるようになります。

よく使われるメソッド

表示非表示

StanfordSegmenter(16)

segment(8)

default_config(7)

segment_file(2)

コード例 #1

ファイルを表示

ファイル: test_tokenize.py プロジェクト: zhangminglei/nltk

 def test_stanford_segmenter_arabic(self):
     """
     Test the Stanford Word Segmenter for Arabic (default config)
     """
     try:
         seg = StanfordSegmenter()
         seg.default_config('ar')
         sent = u'يبحث علم الحاسوب استخدام الحوسبة بجميع اشكالها لحل المشكلات'
         segmented_sent = seg.segment(sent.split())
         assert segmented_sent.split() == [
             'يبحث',
             'علم',
             'الحاسوب',
             'استخدام',
             'الحوسبة',
             'ب',
             'جميع',
             'اشكال',
             'ها',
             'ل',
             'حل',
             'المشكلات',
         ]
     except LookupError as e:
         raise SkipTest(str(e)) from e

コード例 #2

ファイルを表示

ファイル: test_tokenize.py プロジェクト: rmalouf/nltk

 def test_stanford_segmenter_arabic(self):
     """
     Test the Stanford Word Segmenter for Arabic (default config)
     """
     try:
         seg = StanfordSegmenter()
         seg.default_config('ar')
         sent = u'يبحث علم الحاسوب استخدام الحوسبة بجميع اشكالها لحل المشكلات'
         segmented_sent = seg.segment(sent.split())
         assert segmented_sent.split() == [
             'يبحث',
             'علم',
             'الحاسوب',
             'استخدام',
             'الحوسبة',
             'ب',
             'جميع',
             'اشكال',
             'ها',
             'ل',
             'حل',
             'المشكلات',
         ]
     except LookupError as e:
         raise SkipTest(str(e))

コード例 #3

ファイルを表示

ファイル: test_tokenize.py プロジェクト: siawayforward/the-library-is-open

def load_stanford_segmenter():
    try:
        seg = StanfordSegmenter()
        seg.default_config("ar")
        seg.default_config("zh")
        return True
    except LookupError:
        return False

コード例 #4

ファイルを表示

ファイル: test_tokenize.py プロジェクト: siawayforward/the-library-is-open

 def test_stanford_segmenter_chinese(self):
     """
     Test the Stanford Word Segmenter for Chinese (default config)
     """
     seg = StanfordSegmenter()
     seg.default_config("zh")
     sent = "这是斯坦福中文分词器测试"
     segmented_sent = seg.segment(sent.split())
     assert segmented_sent.split() == ["这", "是", "斯坦福", "中文", "分词器", "测试"]

コード例 #5

ファイルを表示

 def test_stanford_segmenter_chinese(self):
     """
     Test the Stanford Word Segmenter for Chinese (default config)
     """
     try:
         seg = StanfordSegmenter()
         seg.default_config('zh')
         sent = u"这是斯坦福中文分词器测试"
         segmented_sent = seg.segment(sent.split())
         assert segmented_sent.split() == ['这', '是', '斯坦福', '中文', '分词器', '测试']
     except LookupError as e:
         pytest.skip(str(e))

コード例 #6

ファイルを表示

ファイル: test_tokenize.py プロジェクト: rmalouf/nltk

 def test_stanford_segmenter_chinese(self):
     """
     Test the Stanford Word Segmenter for Chinese (default config)
     """
     try:
         seg = StanfordSegmenter()
         seg.default_config('zh')
         sent = u"这是斯坦福中文分词器测试"
         segmented_sent = seg.segment(sent.split())
         assert segmented_sent.split() == ['这', '是', '斯坦福', '中文', '分词器', '测试']
     except LookupError as e:
         raise SkipTest(str(e))

コード例 #7

ファイルを表示

def setup_module(module):
    import pytest

    try:
        seg = StanfordSegmenter()
        seg.default_config("ar")
        seg.default_config("zh")
    except LookupError as e:
        pytest.skip("Tests for nltk.tokenize.stanford_segmenter skipped: %s" %
                    str(e))

    try:
        StanfordTokenizer()
    except LookupError:
        pytest.skip(
            "Tests for nltk.tokenize.stanford are skipped because the stanford postagger jar doesn't exist"
        )

コード例 #8

ファイルを表示

ファイル: test_tokenize.py プロジェクト: siawayforward/the-library-is-open

 def test_stanford_segmenter_arabic(self):
     """
     Test the Stanford Word Segmenter for Arabic (default config)
     """
     seg = StanfordSegmenter()
     seg.default_config("ar")
     sent = "يبحث علم الحاسوب استخدام الحوسبة بجميع اشكالها لحل المشكلات"
     segmented_sent = seg.segment(sent.split())
     assert segmented_sent.split() == [
         "يبحث",
         "علم",
         "الحاسوب",
         "استخدام",
         "الحوسبة",
         "ب",
         "جميع",
         "اشكال",
         "ها",
         "ل",
         "حل",
         "المشكلات",
     ]

コード例 #9

ファイルを表示

from polyglot.text import Text
from rake_nltk import Rake

import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

os.environ[
    'STANFORD_MODELS'] = 'stanford-segmenter-2018-10-16/data/;stanford-postagger-full-2018-10-16/models/'
os.environ['STANFORD_PARSER'] = 'stanford-parser-full-2018-10-17'
os.environ['CLASSPATH'] = 'stanford-parser-full-2018-10-17'
os.environ['JAVAHOME'] = 'C:/Program Files/Java/jdk-11.0.1'

segmenter = StanfordSegmenter(
    'stanford-segmenter-2018-10-16/stanford-segmenter-3.9.2.jar')
segmenter.default_config('ar')
text = segmenter.segment_file('sample.txt')
print(text)

tagger = STag.StanfordPOSTagger(
    'arabic.tagger',
    'stanford-postagger-full-2018-10-16/stanford-postagger.jar')
for tag in tagger.tag(text.split()):
    print(tag[1])

parser = SParse.StanfordParser(
    model_path='edu/stanford/nlp/models/lexparser/arabicFactored.ser.gz')
sentences = parser.raw_parse_sents(text.split('.'))
for line in sentences:
    for sentence in line:
        print(sentence)