Публикация
О валентностях, актантах, предикатах и грамматической основе в составе предложения
Куда-то проебался предыдущий пост о семантическом парсере Тузова (с одной интересной книжкой) и приветом VitVVS. Видать, хостер накосячил. Ну и х*й с ним.
Сегодня речь пойдет о синтаксических связях в предложении.
Итак, чтобы собрать не бредоподобное (естественное) предложение надо определить синтаксические связи между семантическими категориями слов. Вдумайтесь.:) Это действительно важно, для тех, кто хочет генерить естественные тексты.
Современная русс.лингвистика говорит, что у большинства слов есть валентность – способность присоединять другие слова. О ней вы можете почитать где угодно. Написано достаточно, хоть и не так много, как хотелось бы. Кто то даже составлял специальные комбинаторные словари, где указаны все возможные комбинации слов РЯ. Но, на самом деле, жизни не хватить охватить весь объем комбинаций лемм. Потому, нужен другой подход.
Считаю, что другой подход заключается в выявлении набора связей между семантическим категориями. Т.е. задания правил о том какие категории могут выступать в качестве актантов (субъекты и объекты) для других.
Простой пример – глагол «писать», простейшая возможность для построения предикатного отношения – это дествительный залог глагола и существительное из семант. категории «Человек», например, «Ученик». Получаем грамматическую основу простейшего предложения – «Ученик пишет», другой пример – «Учитель учит» итд. Здесь существительное «учитель» является первым актантом и заполняет первую валентность глагола «учит». Однако, большинство глаголов имеет от 2 до 4 валентностей (часто на разные падежи). В таких случаях нам нужен уже страдательный залог для глагола, ситуация в которой присутствует не только субъект, но и объект действия. Например «Вася учит стих.»
Вышеописаное – простейшие варианты построения синтаксической структуры единицы текста. Всего же наш любимый яшка при пристальном анализе текста выделяет около 60 разных синтаксических связей. Пруф не покажу. Но он есть.
Моя же основная задача на данный момент – сосвтавить простейшие правила синтеза простейших предложений. Дальше – больше и глубже.
Хэв фан. Продолжение слудует.
з.ы. SEOблог превращается в техноблог, млять
UPDATE
первые нефильтрованные результаты
слева структура предложения на XML, справа – резал генерации по лимиту 10-словной выборки вариантов из базы. уменьшил базу до 5к лемм – все равно покрытие текста остается ~82%. А ресурсы здорово экономит.
Умаялся бля. Дальше все намного проще пойдет. имхо.
6 пользователя прокомментировали «О валентностях, актантах, предикатах и грамматической основе в составе предложения»
Просто переходите на следующий этап. Успехов Вам
)
red, спс, что в виду имеешь? про новый этап?
и тебе привет
red имеет ввиду, что он офигенно настроил свою спамилку по блогам, раз прошиб Акисмет (или что у тебя там стоит).
Я тебе таких каментов миллион могу дать ![]()
P.S. Дал ссылку на этот пост VitVVS. Если цитировать дословно: «Х…ня всё это».
Smiler, спс.
Хуйня, это как то очень уж обобщенно… ![]()
red не оставлял ссылок.
vitvvs, ты таки сделал свой тексген?
Интересно, каков же итог? Он виден в обозримом будущем? А вообще то посмотрел результат по ссылке, все же читается достойно, похожести на безумного писателя нет)))