Проект реалізує універсальну лексичну модель Української мови, її зв'язків з російською мовою та іншими мовами.
Модель реализована в структуре MySQL DB и наполнена данными из открытых источников:
Функціональним прототипом проекту став проект
Горох //goroh.pp.ua
Доступ до моделі реалізується telegram-ботом @UklexBot //t.me/UklexBot
Лингвистические основы проекта
Основная единица лексической системы языка - это Лексема, которая обозначает определенный смысловой элемент. Лексема представляет собой слово или словосочетание с определенным значением и грамматическими характеристиками. Она является основой для образования различных словоформ, относящихся к одной и той же лексеме.
!!! Лекси́ческое значе́ние слова — предметно-понятийное содержание слова, обобщённо отражающее знание о предмете.
Основная форма лексемы, которая является ее начальной или неизменяемой формой - это Лемма, которая обычно выступает в качестве словарной формы слова и может быть использована для описания его грамматических характеристик и семантики.
!!! Ле́мма (англ. lemma) — начальная, словарная форма слова. В для существительных и прилагательных это форма именительного падежа единственного числа, для глаголов и глагольных форм — форма инфинитива. Базовое понятие в области корпусной лингвистики, и автоматической обработки естественного языка.
Определенную форма лексемы, которая может быть получена по грамматическим категориям - это Парадигма или грамматическая форма.
!!! inflection
!!! Паради́гма (от греч. παράδειγμα, «пример, модель, образец») — совокупность (или класс) языковых единиц в лингвистике, связанных парадигматическими отношениями (объединённых по одному общему признаку и противопоставленных — по другому), а также упорядоченная схема или модель, определяющая такие языковые единицы. В узком смысле (в словоизменении) — «морфологическая парадигма» — список словоформ, принадлежащих одной лексеме и имеющих разные грамматические значения. Обычно представлена в виде таблицы
!!! Слова с одинаковым написанием, но разным смыслом считаются разными лексемами. В лингвистике такие слова называются гомонимами. Гомонимы - это слова, которые звучат или пишутся одинаково, но имеют различные значения и могут принадлежать разным частям речи. Каждое из этих значений считается отдельной лексемой.
!!! Семанти́ческое по́ле — самая крупная смысловая парадигма, объединяющая слова различных частей речи, значения которых имеют один общий семантический признак. Например: «свет» — свет, вспышка, молния, сиять, сверкать, светлый, ярко и др.
Для упорядочивания поля выделяют доминанту в поле. Доминанта — слово, которое может служить наименованием поля в целом. Доминанта входит в состав поля.
Поля бывают синонимические и гипонимические. В синонимическом поле доминанта входит в состав поля наравне с другими членами этого поля. Если же доминанта возвышается над другими элементами поля, то такое поле называется гипонимическим.
+ В лингвистике термин Корпус (от лат. corpus - тело) относится к коллекции текстов, которые могут быть использованы для лингвистических исследований. Корпус представляет собой большой объем текстов, собранных в цифровой форме, которые могут быть анализированы с помощью различных инструментов компьютерной лингвистики.
В корпусе тексты могут быть различных типов: например, разговорные диалоги, письма, научные статьи, новостные сообщения, литературные произведения и т.д. Корпусы могут быть построены для разных языков и для разных целей, например, для изучения грамматики, лексики, семантики, стилей и т.д.
Использование корпусов для лингвистических исследований позволяет ученым обнаружить закономерности и тенденции в употреблении языка, выявить частотность употребления слов и фраз, изучить контексты употребления слов и т.д. Корпусы также используются для создания компьютерных программ и инструментов для обработки и анализа текстов на естественном языке.
!!!
word, token - единица измерения корпусов
То́кен (token) — объект, создающийся из лексемы в процессе лексического анализа
Word per million - частотная характеристика феномена в корпусе
Семанти́ческое по́ле — самая крупная смысловая парадигма, объединяющая слова различных частей речи, значения которых имеют один общий семантический признак. Например: СП «свет» — свет, вспышка, молния, сиять, сверкать, светлый, ярко и другое.
Доминанта — слово, которое может служить наименованием поля в целом. Доминанта входит в состав поля.
Hyponymy Гипо́ним (греч. ὑπό «под, внизу» + όνομα «имя») — понятие, выражающее частную сущность по отношению к другому, более общему понятию.
Hypernymy Гиперо́ним (греч. ὑπερ «сверх» + όνομα «имя») — слово с более широким значением, выражающее общее, родовое понятие, название класса (множества) предметов (свойств, признаков).
Граммати́ческая катего́рия — замкнутая система взаимоисключающих и противопоставленных друг другу грамматических значений (граммем), задающая разбиение обширной совокупности словоформ (или небольшого набора высокочастотных словоформ с абстрактным типом значения) на непересекающиеся классы, различие между которыми существенно сказывается на степени грамматической правильности текста (род, лицо, число, падеж, время)
Грамме́ма (англ. grammeme) — грамматическое значение, понимаемое как один из элементов грамматической категории; различные граммемы одной категории исключают друг друга и не могут быть выражены вместе[1]. Так, в русском языке единственное и множественное число — граммемы категории числа; обязательно должно быть выражено то или другое значение, но не одновременно оба.
orthograms Орфограмма — правильное написание по соответствующему правилу или по традиции, избираемому из нескольких возможных. Является одной из основных единиц орфографии.
!!! Общие грамматические признаки
- Род (Genus):
- Mужской (masculinum);
- Женский (femininum);
- Средний (neutrum);
- Число (Numerus):
- Единственное (Singular);
- Множественное (Plural);
- Собирательное (Multiplex);
- Двойственное (Dual) — в современном русском языке остаточные формы древнерусской парадигмы после числительных 2,3,4.
- Лицо(Person):
- первое (говорящий или группа, в которую он входит — я, мы);
- второе (слушающий или группа, в которую он входит — ты, вы);
- третье (участник, не являющийся ни говорящим, ни слушающим; он, она, оно, они).
- Падеж (Casus):
- Називний
Nominativus Позначає підмет у реченні друг, стіл Хто? Що? - Знахідний
Accusativus Позначає прямий додаток друга, стіл Кого? Що? - Давальний
Dativus Позначає непрямий додаток другу (другові), столу Кому? Чому? - Відкладний
Ablativus Позначає місце, від якого йде рух лат. ab horto («від саду») Від кого? Від чого? У слов'янських мовах зник, злившись з родовим - Родовий
Genetivus Позначає приналежність, посідання друга, стола/столу Кого? Чого? - Кличний
Vocativus Вживається для звертання друже, столе - Місцевий
Locativus Позначає місцерозташування на другу (на другові), на столі На кому? На чому? У латині зник, злившись з відкладним - Орудний
Instrumentalis Позначає знаряддя або учасника опосередкованої дії другом, столом Ким? Чим? У латині зник, злившись з відкладним - ру
- Именительный Номинатив (Nominativus) Кто? Что?
- Родительный Генитив (Genitivus) Кого? Чего?
- Дательный Датив (Dativus) Кому? Чему?
- Винительный Аккузатив (Accusativus) Кого? Что?
- Творительный Аблатив (объединяет инструментатив [Instrumentativus], локатив и аблатив)
- Кем? Чем?
- Предложный Препозитив (Prepositivus) О ком? О чём? (И т. п.)
- Називний
- Склонение (declinare):
- Первое (слова мужского и женского рода, оканчивающиеся на -а или -я: мама, папа, разиня, шея);
- Второе (все остальные слова мужского рода + все слова среднего рода: окно, свидание, шок, конь, гений, волчище);
- Третье (все остальные слова женского рода: мышь, любовь, мать).
Модель данных
//
Таблица лексем lx_lexemes
//
Таблица lx_
Таблица lx_articles
Таблица lx_corpora
Таблица lx_corpus
Таблица lx_links
Таблица парадигм lx_paradigms
В лингвистике определенную форму слова, которая может быть изменена по грамматическим категориям, называют грамматической формой или грамматическим парадигмой.
//
lg_semalexems
lg_semantics
Таблица lx_grammes
Содержит все грамматические категории
Таблица lx_grammemes
Содержит значения грамматических категорий
Таблица lx_grammaticals
Содержит Грамматические значения в форме связи лексемы, значения грамматической категории и орфограммы.
Таблица написаний lg_orthograms
Содержит все различающиеся написания с ударением всех словоформ всех лексем во всех языках
Name | Type | Value | Comment |
---|---|---|---|
id | int | ||
spell | varchar | Написание символами в нижнем регистре | |
accent | tinyint | Номер символа под ударением | |
capital | tinyint | Признак прописных символов (битовая маска):
|
ul_chats
ul_cores
ul_texts
ul_log