Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Albanian stopwords added #205

Open
wants to merge 1 commit into
base: gh-pages
Choose a base branch
from

Conversation

ArditXhaferi
Copy link

I love this package and noticed the absence of Albanian stopwords. I am eager to help by providing them, and I've gathered them from two sources:

https://en.wikipedia.org/wiki/Albanian_morphology
https://huggingface.co/datasets/Kushtrim/Kosovo-Parliament-Transcriptions

The second link contains an extensive dataset of all Kosovo Parliament speeches, facilitating the extraction of common stopwords. Meanwhile, the first link offers the fundamental ones.

I intend to include stopwords with special Albanian characters and without, as they are often replaced by other characters. For instance, both "tanë" and "tane" will be included.

Here is the issue: Albanian stopwords missing #204
Here is the list I came up with: albanian.txt

tyre rreth le atyre këta megjithëse kemi per ndonëse dytë pse tha aty ndaj ke këtë duhet pa perket veç ndonje një keshtu s janë jane ti ia megjithese prej ishte tjerë ai se tillë do si ja tonë keta pastaj ndersa siç unë gjate di kësaj cilin kjo dhënë da teper ketij ama pasi fjalë kanë vetem za d.m.th. ose pas ndonjë cila ndodhur dyte ardhur kësi nga vete atij ta jenë rendit tane keso deri tone të prandaj bëjë domethënë dhe qi mirepo tona që u këtu cilet jene tjere gjë së gjatë duhej t dhene thuhet po une dy cfare ndërsa sepse edhe cilen to meqenese meje tij qene jeni them përket keto ni këso asaj ajo sic vetëm ketyre andaj na sa kesaj cili këtyre domethene mirëpo cilën mos madh qenë cilët thënë jemi fjale soje neve gjitha kështu vet kur ty meqë meqenëse jush ketë para kush i mua dite ate për tepër nesh meqe ketu ku disa ato mbi gje ne është tille teje megjithate ju nese saj ashtu më mbasi te thene jo ditë nuk gjithe shume nje tanë mund aqsa sot këto tjera tjetër tjeter atë kisha megjithatë këtij nëse dimë eshte vazhdojmë ka kam kesi je vazhdojme duke dime kinse por kane pika keni beje ky parasysh apo gjithë me ata çfarë jam juve kete a pra qe tash në vetë vec as ndonese tani pak e shumë

@KushtrimVisoka
Copy link

Great initiative, Ardit!

Made a new list of words by combining some other great sources:

albanian.txt

@stevenbird stevenbird self-assigned this Jun 17, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

3 participants