Spark Stemming

Snowball is a small string processing language designed for creating stemming algorithms for use in Information Retrieval. This package allows to use it as a part of Spark ML Pipeline API.

Linking

Link against this library using SBT:

libraryDependencies += "com.github.master" %% "spark-stemming" % "0.2.1"

Using Maven:

<dependency>
    <groupId>com.github.master</groupId>
    <artifactId>spark-stemming_2.10</artifactId>
    <version>0.2.0</version>
</dependency>

Or include it when starting the Spark shell:

$ bin/spark-shell --packages com.github.master:spark-stemming_2.10:0.2.1

Features

Currently implemented algorithms:

Arabic
English
English (Porter)
Romance stemmers:
- French
- Spanish
- Portuguese
- Italian
- Romanian
Germanic stemmers:
- German
- Dutch
Scandinavian stemmers:
- Swedish
- Norwegian (Bokmål)
- Danish
Russian
Finnish
Greek

More details are on the Snowball stemming algorithms page.

Usage

Stemmer Transformer can be used directly or as a part of ML Pipeline. In particular, it is nicely combined with Tokenizer.

import org.apache.spark.mllib.feature.Stemmer

val data = sqlContext
  .createDataFrame(Seq(("мама", 1), ("мыла", 2), ("раму", 3)))
  .toDF("word", "id")

val stemmed = new Stemmer()
  .setInputCol("word")
  .setOutputCol("stemmed")
  .setLanguage("Russian")
  .transform(data)

stemmed.show

Name	Name	Last commit message	Last commit date
Latest commit master Bump to 0.2.1 Nov 27, 2018 c5345d4 · Nov 27, 2018 History 30 Commits
project	project	Add developers & fix plugin versions	Dec 6, 2017
src	src	Add missing imports	Oct 11, 2018
.gitignore	.gitignore	Initial commit	Mar 1, 2016
.travis.yml	.travis.yml	Update Travis build	Jul 23, 2016
LICENSE	LICENSE	Initial import	Mar 1, 2016
README.md	README.md	Bump to 0.2.1	Nov 27, 2018
build.sbt	build.sbt	Bump to 0.2.1	Nov 27, 2018

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Spark Stemming

Linking

Features

Usage

About

Releases

Packages

Contributors 5

Languages

License

master/spark-stemming

Folders and files

Latest commit

History

Repository files navigation

Spark Stemming

Linking

Features

Usage

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 5

Languages

Packages