Discrete Analysis coursework - Spell Checker

Используется алгоритм Noisy Channel. В качестве модели ошибки берутся все слова с расстоянием Дамерау-Левенштейна = 2 (присутствующие в словаре), языковая же модель это Knesser-Ney Smoothing, натренированный на 200 метровом сборнике статей из англоязычных блогов на ЖЖ. Lang Model базируется на 3-gram и 20 вариантном просмотре каждого слова (20-е - само слово, на случай когда словарное представленное слово, если есть в словаре, не ошибочно).

Перед использованием нужно распаковать текстовый файл с языковой моделью из архива. В процессе использования создает в начале рабочий файл "fdict_bin" для ускоренной загрузки в дальнейшем.

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
x_workdicts		x_workdicts
Makefile		Makefile
README.md		README.md
spell.cpp		spell.cpp
spell.h		spell.h
tools.cpp		tools.cpp
tools.h		tools.h
typos.cpp		typos.cpp
typos.h		typos.h

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Discrete Analysis coursework - Spell Checker

About

Releases

Packages

Languages

alex-paru/da_course

Folders and files

Latest commit

History

Repository files navigation

Discrete Analysis coursework - Spell Checker

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages