Ru-Net-Biz

Все самое интересное о .Ru-Net бизе.

Публикация

Первые попытки построение связного текста

28 марта 2011
В рубриках: Генерация текста

Если генерировать более-менее удачные (приближенные к естественным) предложения относительно легко, то связать из них хотябы приближенно-человеческие текст – занятие не для слабонервных. :) Вчера весь день программил разного рода связки между предложениями, тестил… Это совсем не просто, как оказалось.

Рассуждал примерно так:
1. Текст – набор связных предложений.
2. Предложения связаны последовательно.
3. Последовательная связь выражается путем употребления слов (я взял существительные) из предыдущего предложения в последующем. Т.н. «сохранение контекста».

И что же получается? Получается не ахти… Вот простой генеренный пример на 10 предложений, с ограничением длины (от 60 до 100 симв.) в предложении, порядок цепи – 3:

Не зная, как назвать его книгу сложно соглашаться с женщиной...
Женщина боится показаться мужу слабой в родах и эпизиотомии ..
Род породил подобающих различным системам Богов, являющих собой продолжение Рода.
Род Рипсалис семейства кактусовых объединяет около шестидесяти человек.
Человек принадлежит к гетеродонтам, так как зубы мелкие.
Зубы протеза должны гармонично имитировать возрастные особенности зубов пациентов.
Пациент производит маятникообразное покачивание туловищем или ногой - всегда успокаивает Гжелку.
Нога движется пальцами вперед, около самого пола, другая лежит на плече.
Плечом называется многолетняя ветка, отходящая прямо от пляжа.
Пляжи объявляют о начале супер-пупер-мега-гипер конкурса под бодрым пионерским названием Найди 10 отличий.

Как видно, хоть и есть какое-никакое соблюдение контекста – оно очень уж слабо выраженное.
Пример с цепочкой 4го порядка:

В книгу Гиннеса внесен самый крохотный молитвенник высотой в полсантиметра.
Высота стекла аквариума 120 см, материал аквариума - триплекс.
Триплекс остекления – светопрозрачные конструкци с трёхмерным стеклом ЗАО Фиакон.
Стекло является традиционным материалом, используемым в строительстве...
Строительство дач занятие довольно хлопотное, поэтому начинать я рекомендую с Solo.

И все в таком духе. Проблема вычисления контекста последующего предложения налицо. Надо работать дальше. :(
Кстати альтернативные варианты пстроения текста (предложений) я что то пока совсем забросил… Все чаще приходит мысль о том, что как бы ни был совершенен алгоритм, все равно наполнять СДЛ на таком тексте не станешь. Для сателлита, может и подойдет, однако, не для каждого. Хз, многое еще надо сделать, но боюсь, потребуются большие временные затраты.

ps Дело это ни в коем случае не оставляю, но тратить время в том объеме, как ранее – уже не могу.
pps У кого есть мысли/предложения – велкам!
pps привет саперам. мб, у вас, будет что сказать?

До новых встречь…

18 пользователя прокомментировали «Первые попытки построение связного текста»

Кирилл пишет,
28 марта 2011 в 14:48 .     

А мне понравилось :)
На сателлиты пойдёт, а для СДЛ «потребуются большие временные затраты»

Диман пишет,
29 марта 2011 в 03:54 .     

Хочешь прям совсем «человеческий» текст замутить? Думаешь реально?

Johnny пишет,
29 марта 2011 в 08:09 .     

Надо смотреть не на логическую связность предложений текста, а больше в сторону семантической правильности построения отдельных предложений и соответствия всего текста закону Ципфа

chayka пишет,
29 марта 2011 в 12:32 .     

Медленно но верно :) Эта маниакальная идея будет нас мучить, наверное, и еще эдак лет через 20… Семья, дети уже будут, а по ночам леммы будут семантические связи создавать :)

SciFi пишет,
29 марта 2011 в 18:05 .     

Johnny, отдельные предложения это не текст. Надо генерить именно текст. Контекст решает многое.

Johnny пишет,
30 марта 2011 в 12:25 .     

Не существует математических методов, которые могут дать однозначный ответ, является ли набор предложений единым текстом или нет (только в некоторых крайних случаях и далеко не со 100% вероятности). Поэтому, любой набор разрозненных, но грамотно построенных предложений можно скормить поисковику как единый текст. А тематичность легко регулируется вставкой ключей.

SciFi пишет,
30 марта 2011 в 15:02 .     

Johnny, у меня другое мнение. Вставка ключей – вообще отдельная сложная тема.
Текст должен быть сгенерен под ключи, а не ключи вставлены в левый текст.

Hathi пишет,
1 апреля 2011 в 20:53 .     

А разбивать текст на n-граммы не пробовали? третьего четвертого порядка?

SciFi пишет,
2 апреля 2011 в 09:02 .     

Hathi, это примерно тоже самое, что марков большого порядка, имхо.

Che пишет,
11 апреля 2011 в 14:06 .     

Мне кажется нужно делать по несколько предложений по каждому существительному. А то как-то резко теряется смысл :) В каждом предложении уже о чем-то новом.

И для лучшей связи можно заменять главное существительное, о котором идет речь, местоимением. Так будет связь более очевидной.

А так же употреблять вводные слова, например: «Кстати, Между прочим, Кроме того, Словом, и т.д.»

SciFi пишет,
11 апреля 2011 в 15:46 .     

Che, одного существительного явно мало. Если начало предложения еще предсказуемо, то его окончание – совсем не очевидно…

Che пишет,
12 апреля 2011 в 17:38 .     

Тогда так:

Парсим миллиард статей по какой-то теме. Разбираем предложения по словам. Ну все как и раньше, но также добавляем перечень возможных слов из следующих предложений и перечень слов которые употребляются в данном предложении(с ними нужно что-то делать.. Еще не придумал что..). Это должно обеспечить большую тематичность. :)

И еще наверное нужно разбивать текст на части, т.к. обычно в начале текста будет какое-то вступление, потом сама суть темы, а потом какие-то выводы.. И думаю если это все учитывать будет тот же бред, но по теме и с более-менее законченными мыслями :)

Половина чего сказал по моему бред, но мало ли :) вдруг на какие-то мысли натолкну..

Che пишет,
12 апреля 2011 в 18:13 .     

Я тут подумал.. нифига не получится.. все пишут по-разному и связать это в нормальный текст думаю не выйдет.

Разве что брать слова из начала и конца предложения и искать в нете тексты где они встречаются вместе в одном предложении. если есть, то возможно прокатит.. Но пофиг будет бред.. Хотя возможно смешной :)

Origina1 пишет,
13 апреля 2011 в 07:11 .     

Лично я бы время на это не убивал, чисто мое мнение, доры и без текстовки сидят хорошо, на одних кеях..
как альтернатива клепать доры ,что то вроде бабулера)

Origina1 пишет,
13 апреля 2011 в 07:12 .     

Первоначально текстовка нужны была чтобы доры дольше и плотнее сидели в топе, патом началось перемещивание уник не уник генерация

Сергей пишет,
13 апреля 2011 в 12:53 .     

Мда, очевидно то, что нам так далеко еще до искусственного интеллекта! А так бы было неплохо, напряг некий домашний Искусственный Интеллект «ЛЮСЯ», мол дорогая, у тебя ночь впереди, «начирикай» ка пару сотен статеек в мои сателлиты))) А может жену напрягать так?))))

Slo пишет,
17 июня 2011 в 16:25 .     

Приватные ИИ типа Люси уже работают, мы этого УЖЕ не замечаем. Если уйдёт в паблик – хана инету – триллионы сатов ведущих вникуда. Смысл в поисковика тогда? Смысл в инете?..

SciFi пишет,
19 июня 2011 в 15:21 .     

Slo, только однажды за все время встречал упоминания (в виде отзывов от юзеров умакса лет пять назад) о том, что система генерации текста на естественном языке создана и успешно функционирует. более нигде не замечал ничего подобного. хотя возвращаюсь к этой теме с завидной периодичностью :)

Оставьте свой комментарий

 Имя

 Почта

 Сайт

Внимание: Пожалуйста, дважды проверяйте свои комментарии перед отправкой Замечание: Может быть активна процедура проверки, так что нет необходимости добавлять комментарий повторно

О проекте

Проект админят: chayka
SciFi