Ru-Net-Biz

Все самое интересное о .Ru-Net бизе.

Публикация

О валентностях, актантах, предикатах и грамматической основе в составе предложения

8 марта 2011
В рубриках: Генерация текста

Куда-то проебался предыдущий пост о семантическом парсере Тузова (с одной интересной книжкой) и приветом VitVVS. Видать, хостер накосячил. Ну и х*й с ним.

Сегодня речь пойдет о синтаксических связях в предложении.

Итак, чтобы собрать не бредоподобное (естественное) предложение надо определить синтаксические связи между семантическими категориями слов. Вдумайтесь.:) Это действительно важно, для тех, кто хочет генерить естественные тексты.

Современная русс.лингвистика говорит, что у большинства слов есть валентность – способность присоединять другие слова. О ней вы можете почитать где угодно. Написано достаточно, хоть и не так много, как хотелось бы. Кто то даже составлял специальные комбинаторные словари, где указаны все возможные комбинации слов РЯ. Но, на самом деле, жизни не хватить охватить весь объем комбинаций лемм. Потому, нужен другой подход.

Считаю, что другой подход заключается в выявлении набора связей между семантическим категориями. Т.е. задания правил о том какие категории могут выступать в качестве актантов (субъекты и объекты) для других.

Простой пример – глагол «писать», простейшая возможность для построения предикатного отношения – это дествительный залог глагола и существительное из семант. категории «Человек», например, «Ученик». Получаем грамматическую основу простейшего предложения – «Ученик пишет», другой пример – «Учитель учит» итд. Здесь существительное «учитель» является первым актантом и заполняет первую валентность глагола «учит». Однако, большинство глаголов имеет от 2 до 4 валентностей (часто на разные падежи). В таких случаях нам нужен уже страдательный залог для глагола, ситуация в которой присутствует не только субъект, но и объект действия. Например «Вася учит стих.»

Вышеописаное – простейшие варианты построения синтаксической структуры единицы текста. Всего же наш любимый яшка при пристальном анализе текста выделяет около 60 разных синтаксических связей. Пруф не покажу. Но он есть. :)

Моя же основная задача на данный момент – сосвтавить простейшие правила синтеза простейших предложений. Дальше – больше и глубже.

Хэв фан. Продолжение слудует.

з.ы. SEOблог превращается в техноблог, млять

UPDATE
первые нефильтрованные результаты
слева структура предложения на XML, справа – резал генерации по лимиту 10-словной выборки вариантов из базы. уменьшил базу до 5к лемм – все равно покрытие текста остается ~82%. А ресурсы здорово экономит.
Умаялся бля. Дальше все намного проще пойдет. имхо.

6 пользователя прокомментировали «О валентностях, актантах, предикатах и грамматической основе в составе предложения»

red пишет,
8 марта 2011 в 15:01 .     

Просто переходите на следующий этап. Успехов Вам :) )

SciFi пишет,
8 марта 2011 в 21:33 .     

red, спс, что в виду имеешь? про новый этап?

vitvvs пишет,
10 марта 2011 в 08:15 .     

и тебе привет

Smiler пишет,
10 марта 2011 в 08:16 .     

red имеет ввиду, что он офигенно настроил свою спамилку по блогам, раз прошиб Акисмет (или что у тебя там стоит).
Я тебе таких каментов миллион могу дать :)
P.S. Дал ссылку на этот пост VitVVS. Если цитировать дословно: «Х…ня всё это».

SciFi пишет,
10 марта 2011 в 16:31 .     

Smiler, спс.
Хуйня, это как то очень уж обобщенно… :)
red не оставлял ссылок.
vitvvs, ты таки сделал свой тексген?

Сергей пишет,
13 апреля 2011 в 14:56 .     

Интересно, каков же итог? Он виден в обозримом будущем? А вообще то посмотрел результат по ссылке, все же читается достойно, похожести на безумного писателя нет)))

Оставьте свой комментарий

 Имя

 Почта

 Сайт

Внимание: Пожалуйста, дважды проверяйте свои комментарии перед отправкой Замечание: Может быть активна процедура проверки, так что нет необходимости добавлять комментарий повторно

О проекте

Проект админят: chayka
SciFi