Python CustomAnalyzer 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: elasticsearch_dsl.analysis

메소드/함수: CustomAnalyzer

hotexamples.com에서의 예제들: 5

Python CustomAnalyzer - 5개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 elasticsearch_dsl.analysis.CustomAnalyzer에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

예제 #1

파일 보기

파일: test_analysis.py 프로젝트: zwjwhxz/elasticsearch-dsl-py

def test_analyzer_has_definition():
    a = analysis.CustomAnalyzer('my_analyzer',
                                tokenizer='keyword',
                                filter=['lowercase'])

    assert {
        'type': 'custom',
        'tokenizer': 'keyword',
        'filter': ["lowercase"],
    } == a.get_definition()

예제 #2

파일 보기

파일: test_analysis.py 프로젝트: xiaoshiyi123/elasticsearch-dsl-py

def test_analyzer_has_definition():
    a = analysis.CustomAnalyzer(
        "my_analyzer", tokenizer="keyword", filter=["lowercase"]
    )

    assert {
        "type": "custom",
        "tokenizer": "keyword",
        "filter": ["lowercase"],
    } == a.get_definition()

예제 #3

파일 보기

파일: elasticsearch.py 프로젝트: samuelhwilliams/data-hub-api

)

# Trigram tokenizer enables us to support partial matching
trigram = analysis.tokenizer(
    'trigram',
    'nGram',
    min_gram=3,
    max_gram=3,
    token_chars=('letter', 'digit'),
)

# Filters out "-" so that t-shirt and tshirt can be matched
special_chars = analysis.char_filter('special_chars', 'mapping', mappings=('-=>',))
trigram_analyzer = analysis.CustomAnalyzer(
    'trigram_analyzer',
    tokenizer=trigram,
    char_filter=special_chars,
    filter=('lowercase',),
)

space_remover = analysis.token_filter(
    'space_remover',
    type='pattern_replace',
    pattern=' ',
    replacement='',
)

AREA_REGEX = r'[a-z]{1,2}'
DISTRICT_REGEX = r'(?:[0-9][a-z]|[0-9]{1,2})'
SECTOR_REGEX = r'[0-9]'
UNIT_REGEX = r'[a-z]{2}'

예제 #4

파일 보기


analysis.Tokenizer._builtins = analysis.TOKENIZERS = frozenset(
    ('keyword', 'standard', 'path_hierarchy', 'whitespace'))


class PathHierarchyTokenizer(analysis.Tokenizer):
    name = 'path_hierarchy'


class WhitespaceTokenizer(analysis.Tokenizer):
    name = 'whitespace'


path_analyzer = analysis.CustomAnalyzer('path',
                                        tokenizer='path_hierarchy',
                                        filter=['lowercase'])

lower_whitespace_analyzer = analysis.analyzer('lower_whitespace',
                                              tokenizer='whitespace',
                                              filter=['lowercase', 'stop'],
                                              char_filter=['html_strip'])


class DocumentDocType(ImprovedDocType):
    """
    The main documentation doc type to be used for searching.
    It stores a bit of meta data so we don't have to hit the db
    when rendering search results.

    The search view will be using the 'lang' and 'version' fields

예제 #5

파일 보기

파일: elasticsearch.py 프로젝트: jakub-kozlowski/data-hub-leeloo

# Trigram tokenizer enables us to support partial matching
trigram = analysis.tokenizer(
    'trigram',
    'nGram',
    min_gram=3,
    max_gram=3,
    token_chars=('letter', 'digit'),
)

# Filters out "-" so that t-shirt and tshirt can be matched
special_chars = analysis.char_filter('special_chars',
                                     'mapping',
                                     mappings=('-=>', ))
trigram_analyzer = analysis.CustomAnalyzer(
    'trigram_analyzer',
    tokenizer=trigram,
    char_filter=special_chars,
    filter=('lowercase', ),
)

english_possessive_stemmer = analysis.token_filter(
    'english_possessive_stemmer',
    type='stemmer',
    language='possessive_english',
)

english_stemmer = analysis.token_filter(
    'english_stemmer',
    type='stemmer',
    language='english',
)