Проект Ukrainian Lexicon

Проект реалізує універсальну лексичну модель Української мови, її зв'язків з російською мовою та іншими мовами.

Модель реализована в структуре MySQL DB и наполнена данными из открытых источников:

Функціональним прототипом проекту став проект
Горох //goroh.pp.ua

Доступ до моделі реалізується telegram-ботом @UklexBot //t.me/UklexBot

Лингвистические основы проекта

Основная единица лексической системы языка - это Лексема, которая обозначает определенный смысловой элемент. Лексема представляет собой слово или словосочетание с определенным значением и грамматическими характеристиками. Она является основой для образования различных словоформ, относящихся к одной и той же лексеме.

!!! Лекси́ческое значе́ние слова — пред­мет­но-по­ня­тий­ное со­дер­жа­ние сло­ва, обоб­щён­но от­ра­жаю­щее знание о пред­ме­те.

Основная форма лексемы, которая является ее начальной или неизменяемой формой - это Лемма, которая обычно выступает в качестве словарной формы слова и может быть использована для описания его грамматических характеристик и семантики.

!!! Ле́мма (англ. lemma) — начальная, словарная форма слова. В для существительных и прилагательных это форма именительного падежа единственного числа, для глаголов и глагольных форм — форма инфинитива. Базовое понятие в области корпусной лингвистики, и автоматической обработки естественного языка.

Определенную форма лексемы, которая может быть получена по грамматическим категориям - это Парадигма или грамматическая форма.

!!! inflection

!!! Паради́гма (от греч. παράδειγμα, «пример, модель, образец») — совокупность (или класс) языковых единиц в лингвистике, связанных парадигматическими отношениями (объединённых по одному общему признаку и противопоставленных — по другому), а также упорядоченная схема или модель, определяющая такие языковые единицы. В узком смысле (в словоизменении) — «морфологическая парадигма» — список словоформ, принадлежащих одной лексеме и имеющих разные грамматические значения. Обычно представлена в виде таблицы

!!! Слова с одинаковым написанием, но разным смыслом считаются разными лексемами. В лингвистике такие слова называются гомонимами. Гомонимы - это слова, которые звучат или пишутся одинаково, но имеют различные значения и могут принадлежать разным частям речи. Каждое из этих значений считается отдельной лексемой.

!!! Семанти́ческое по́ле — самая крупная смысловая парадигма, объединяющая слова различных частей речи, значения которых имеют один общий семантический признак. Например: «свет» — свет, вспышка, молния, сиять, сверкать, светлый, ярко и др.

Для упорядочивания поля выделяют доминанту в поле. Доминанта — слово, которое может служить наименованием поля в целом. Доминанта входит в состав поля.

Поля бывают синонимические и гипонимические. В синонимическом поле доминанта входит в состав поля наравне с другими членами этого поля. Если же доминанта возвышается над другими элементами поля, то такое поле называется гипонимическим.

+ В лингвистике термин Корпус (от лат. corpus - тело) относится к коллекции текстов, которые могут быть использованы для лингвистических исследований. Корпус представляет собой большой объем текстов, собранных в цифровой форме, которые могут быть анализированы с помощью различных инструментов компьютерной лингвистики.

В корпусе тексты могут быть различных типов: например, разговорные диалоги, письма, научные статьи, новостные сообщения, литературные произведения и т.д. Корпусы могут быть построены для разных языков и для разных целей, например, для изучения грамматики, лексики, семантики, стилей и т.д.

Использование корпусов для лингвистических исследований позволяет ученым обнаружить закономерности и тенденции в употреблении языка, выявить частотность употребления слов и фраз, изучить контексты употребления слов и т.д. Корпусы также используются для создания компьютерных программ и инструментов для обработки и анализа текстов на естественном языке.

!!!

word, token - единица измерения корпусов

То́кен (token) — объект, создающийся из лексемы в процессе лексического анализа

Word per million - частотная характеристика феномена в корпусе

Семанти́ческое по́ле — самая крупная смысловая парадигма, объединяющая слова различных частей речи, значения которых имеют один общий семантический признак. Например: СП «свет» — свет, вспышка, молния, сиять, сверкать, светлый, ярко и другое.
Доминанта — слово, которое может служить наименованием поля в целом. Доминанта входит в состав поля.

Hyponymy Гипо́ним (греч. ὑπό «под, внизу» + όνομα «имя») — понятие, выражающее частную сущность по отношению к другому, более общему понятию.

Hypernymy Гиперо́ним (греч. ὑπερ «сверх» + όνομα «имя») — слово с более широким значением, выражающее общее, родовое понятие, название класса (множества) предметов (свойств, признаков).

Граммати́ческая катего́рия — замкнутая система взаимоисключающих и противопоставленных друг другу грамматических значений (граммем), задающая разбиение обширной совокупности словоформ (или небольшого набора высокочастотных словоформ с абстрактным типом значения) на непересекающиеся классы, различие между которыми существенно сказывается на степени грамматической правильности текста (род, лицо, число, падеж, время)

Грамме́ма (англ. grammeme) — грамматическое значение, понимаемое как один из элементов грамматической категории; различные граммемы одной категории исключают друг друга и не могут быть выражены вместе[1]. Так, в русском языке единственное и множественное число — граммемы категории числа; обязательно должно быть выражено то или другое значение, но не одновременно оба.

orthograms Орфограмма — правильное написание по соответствующему правилу или по традиции, избираемому из нескольких возможных. Является одной из основных единиц орфографии.

!!! Общие грамматические признаки
  • Род (Genus):
    • Mужской (masculinum);
    • Женский (femininum);
    • Средний (neutrum);
  • Число (Numerus):
    • Единственное (Singular);
    • Множественное (Plural);
    • Собирательное (Multiplex);
    • Двойственное (Dual) — в современном русском языке остаточные формы древнерусской парадигмы после числительных 2,3,4.
  • Лицо(Person):
    • первое (говорящий или группа, в которую он входит — я, мы);
    • второе (слушающий или группа, в которую он входит — ты, вы);
    • третье (участник, не являющийся ни говорящим, ни слушающим; он, она, оно, они).
  • Падеж (Casus):
    • Називний
      Nominativus Позначає підмет у реченні друг, стіл Хто? Що?
    • Знахідний
      Accusativus Позначає прямий додаток друга, стіл Кого? Що?
    • Давальний
      Dativus Позначає непрямий додаток другу (другові), столу Кому? Чому?
    • Відкладний
      Ablativus Позначає місце, від якого йде рух лат. ab horto («від саду») Від кого? Від чого? У слов'янських мовах зник, злившись з родовим
    • Родовий
      Genetivus Позначає приналежність, посідання друга, стола/столу Кого? Чого?
    • Кличний
      Vocativus Вживається для звертання друже, столе
    • Місцевий
      Locativus Позначає місцерозташування на другу (на другові), на столі На кому? На чому? У латині зник, злившись з відкладним
    • Орудний
      Instrumentalis Позначає знаряддя або учасника опосередкованої дії другом, столом Ким? Чим? У латині зник, злившись з відкладним
    • ру
      • Именительный Номинатив (Nominativus) Кто? Что?
      • Родительный Генитив (Genitivus) Кого? Чего?
      • Дательный Датив (Dativus) Кому? Чему?
      • Винительный Аккузатив (Accusativus) Кого? Что?
      • Творительный Аблатив (объединяет инструментатив [Instrumentativus], локатив и аблатив)
      • Кем? Чем?
      • Предложный Препозитив (Prepositivus) О ком? О чём? (И т. п.)
  • Склонение (declinare):
    • Первое (слова мужского и женского рода, оканчивающиеся на -а или -я: мама, папа, разиня, шея);
    • Второе (все остальные слова мужского рода + все слова среднего рода: окно, свидание, шок, конь, гений, волчище);
    • Третье (все остальные слова женского рода: мышь, любовь, мать).

Модель данных

//

Таблица лексем lx_lexemes

//

Таблица lx_

Таблица lx_articles

Таблица lx_corpora

Таблица lx_corpus

Таблица lx_links

Таблица парадигм lx_paradigms

В лингвистике определенную форму слова, которая может быть изменена по грамматическим категориям, называют грамматической формой или грамматическим парадигмой.

//

lg_semalexems

lg_semantics

Таблица lx_grammes

Содержит все грамматические категории

Таблица lx_grammemes

Содержит значения грамматических категорий

Таблица lx_grammaticals

Содержит Грамматические значения в форме связи лексемы, значения грамматической категории и орфограммы.

Таблица написаний lg_orthograms

Содержит все различающиеся написания с ударением всех словоформ всех лексем во всех языках

Name Type Value Comment
id int
spell varchar Написание символами в нижнем регистре
accent tinyint Номер символа под ударением
capital tinyint Признак прописных символов (битовая маска):

  • 0 not
  • 1 first
  • 3 all
  • 5 every first
  • 7 all and point separated

ul_chats

ul_cores

ul_texts

ul_log

 

 

Реформація комп'ютерних систем