Python Series.reset_index 예제들

프로그래밍 언어: Python

네임스페이스/패키지 이름: cudf

클래스/타입: Series

메소드/함수: reset_index

hotexamples.com에서의 예제들: 1

Python Series.reset_index - 1개의 예제가 발견되었습니다. 이것들은 오픈소스 프로젝트에서 추출된 Python의 cudf.Series.reset_index에 대한 실세계 최고 등급의 예제들입니다. 예제들을 평가하여 예제의 품질 향상에 도움을 줄 수 있습니다.

자주 사용되는 메소드들

보기 숨기기

Series(30)

astype(11)

from_pandas(9)

from_masked_array(6)

unique(5)

to_pandas(5)

to_array(5)

can_cast_safely(4)

applymap(3)

sort_values(3)

isin(3)

sum(2)

map(2)

floor(2)

fillna(2)

to_numpy(2)

dropna(2)

ceil(2)

set_mask(1)

take(1)

sum_of_squares(1)

sort_index(1)

max(1)

reset_index(1)

product(1)

nsmallest(1)

nlargest(1)

nans_to_nulls(1)

min(1)

abs(1)

label_encoding(1)

equals(1)

copy(1)

argsort(1)

value_counts(1)

예제 #1

파일 보기

파일: _vectorizers.py 프로젝트: st071300/cuML

    def get_char_ngrams(self, ngram_size, str_series, doc_id_sr):
        """
        Handles ngram generation for characters analyzers.

        When analyzer is 'char_wb', we generate ngrams within word boundaries,
        meaning we need to first tokenize and pad each token with a delimiter.
        """
        if self.analyzer == 'char_wb' and ngram_size != 1:
            token_count = str_series.str.token_count(self.delimiter)
            tokens = str_series.str.tokenize(self.delimiter)
            del str_series

            padding = Series(self.delimiter).repeat(len(tokens))
            tokens = tokens.str.cat(padding)
            padding = padding.reset_index(drop=True)
            tokens = padding.str.cat(tokens)
            tokens = tokens.reset_index(drop=True)

            ngram_sr = tokens.str.character_ngrams(n=ngram_size)

            doc_id_df = cudf.DataFrame({
                'doc_id':
                doc_id_sr.repeat(token_count).reset_index(drop=True),
                # formula to count ngrams given number of letters per token:
                'ngram_count':
                tokens.str.len() - (ngram_size - 1)
            })
            del tokens
            ngram_count = doc_id_df.groupby('doc_id',
                                            sort=True).sum()['ngram_count']
            return ngram_sr, ngram_count, token_count

        if ngram_size == 1:
            token_count = str_series.str.len()
            ngram_sr = str_series.str.character_tokenize()
            del str_series
        elif self.analyzer == 'char':
            token_count = str_series.str.len()
            ngram_sr = str_series.str.character_ngrams(n=ngram_size)
            del str_series

        ngram_count = token_count - (ngram_size - 1)

        return ngram_sr, ngram_count, token_count