Публикация
Первые попытки построение связного текста
Если генерировать более-менее удачные (приближенные к естественным) предложения относительно легко, то связать из них хотябы приближенно-человеческие текст – занятие не для слабонервных.
Вчера весь день программил разного рода связки между предложениями, тестил… Это совсем не просто, как оказалось.
Рассуждал примерно так:
1. Текст – набор связных предложений.
2. Предложения связаны последовательно.
3. Последовательная связь выражается путем употребления слов (я взял существительные) из предыдущего предложения в последующем. Т.н. «сохранение контекста».
И что же получается? Получается не ахти… Вот простой генеренный пример на 10 предложений, с ограничением длины (от 60 до 100 симв.) в предложении, порядок цепи – 3:
Не зная, как назвать его книгу сложно соглашаться с женщиной...
Женщина боится показаться мужу слабой в родах и эпизиотомии ..
Род породил подобающих различным системам Богов, являющих собой продолжение Рода.
Род Рипсалис семейства кактусовых объединяет около шестидесяти человек.
Человек принадлежит к гетеродонтам, так как зубы мелкие.
Зубы протеза должны гармонично имитировать возрастные особенности зубов пациентов.
Пациент производит маятникообразное покачивание туловищем или ногой - всегда успокаивает Гжелку.
Нога движется пальцами вперед, около самого пола, другая лежит на плече.
Плечом называется многолетняя ветка, отходящая прямо от пляжа.
Пляжи объявляют о начале супер-пупер-мега-гипер конкурса под бодрым пионерским названием Найди 10 отличий.
Как видно, хоть и есть какое-никакое соблюдение контекста – оно очень уж слабо выраженное.
Пример с цепочкой 4го порядка:
В книгу Гиннеса внесен самый крохотный молитвенник высотой в полсантиметра.
Высота стекла аквариума 120 см, материал аквариума - триплекс.
Триплекс остекления – светопрозрачные конструкци с трёхмерным стеклом ЗАО Фиакон.
Стекло является традиционным материалом, используемым в строительстве...
Строительство дач занятие довольно хлопотное, поэтому начинать я рекомендую с Solo.
И все в таком духе. Проблема вычисления контекста последующего предложения налицо. Надо работать дальше. ![]()
Кстати альтернативные варианты пстроения текста (предложений) я что то пока совсем забросил… Все чаще приходит мысль о том, что как бы ни был совершенен алгоритм, все равно наполнять СДЛ на таком тексте не станешь. Для сателлита, может и подойдет, однако, не для каждого. Хз, многое еще надо сделать, но боюсь, потребуются большие временные затраты.
ps Дело это ни в коем случае не оставляю, но тратить время в том объеме, как ранее – уже не могу.
pps У кого есть мысли/предложения – велкам!
pps привет саперам. мб, у вас, будет что сказать?
До новых встречь…
18 пользователя прокомментировали «Первые попытки построение связного текста»
А мне понравилось ![]()
На сателлиты пойдёт, а для СДЛ «потребуются большие временные затраты»
Хочешь прям совсем «человеческий» текст замутить? Думаешь реально?
Надо смотреть не на логическую связность предложений текста, а больше в сторону семантической правильности построения отдельных предложений и соответствия всего текста закону Ципфа
Медленно но верно
Эта маниакальная идея будет нас мучить, наверное, и еще эдак лет через 20… Семья, дети уже будут, а по ночам леммы будут семантические связи создавать
Johnny, отдельные предложения это не текст. Надо генерить именно текст. Контекст решает многое.
Не существует математических методов, которые могут дать однозначный ответ, является ли набор предложений единым текстом или нет (только в некоторых крайних случаях и далеко не со 100% вероятности). Поэтому, любой набор разрозненных, но грамотно построенных предложений можно скормить поисковику как единый текст. А тематичность легко регулируется вставкой ключей.
Johnny, у меня другое мнение. Вставка ключей – вообще отдельная сложная тема.
Текст должен быть сгенерен под ключи, а не ключи вставлены в левый текст.
А разбивать текст на n-граммы не пробовали? третьего четвертого порядка?
Hathi, это примерно тоже самое, что марков большого порядка, имхо.
Мне кажется нужно делать по несколько предложений по каждому существительному. А то как-то резко теряется смысл
В каждом предложении уже о чем-то новом.
И для лучшей связи можно заменять главное существительное, о котором идет речь, местоимением. Так будет связь более очевидной.
А так же употреблять вводные слова, например: «Кстати, Между прочим, Кроме того, Словом, и т.д.»
Che, одного существительного явно мало. Если начало предложения еще предсказуемо, то его окончание – совсем не очевидно…
Тогда так:
Парсим миллиард статей по какой-то теме. Разбираем предложения по словам. Ну все как и раньше, но также добавляем перечень возможных слов из следующих предложений и перечень слов которые употребляются в данном предложении(с ними нужно что-то делать.. Еще не придумал что..). Это должно обеспечить большую тематичность.
И еще наверное нужно разбивать текст на части, т.к. обычно в начале текста будет какое-то вступление, потом сама суть темы, а потом какие-то выводы.. И думаю если это все учитывать будет тот же бред, но по теме и с более-менее законченными мыслями
Половина чего сказал по моему бред, но мало ли
вдруг на какие-то мысли натолкну..
Я тут подумал.. нифига не получится.. все пишут по-разному и связать это в нормальный текст думаю не выйдет.
Разве что брать слова из начала и конца предложения и искать в нете тексты где они встречаются вместе в одном предложении. если есть, то возможно прокатит.. Но пофиг будет бред.. Хотя возможно смешной
Лично я бы время на это не убивал, чисто мое мнение, доры и без текстовки сидят хорошо, на одних кеях..
как альтернатива клепать доры ,что то вроде бабулера)
Первоначально текстовка нужны была чтобы доры дольше и плотнее сидели в топе, патом началось перемещивание уник не уник генерация
Мда, очевидно то, что нам так далеко еще до искусственного интеллекта! А так бы было неплохо, напряг некий домашний Искусственный Интеллект «ЛЮСЯ», мол дорогая, у тебя ночь впереди, «начирикай» ка пару сотен статеек в мои сателлиты))) А может жену напрягать так?))))
Приватные ИИ типа Люси уже работают, мы этого УЖЕ не замечаем. Если уйдёт в паблик – хана инету – триллионы сатов ведущих вникуда. Смысл в поисковика тогда? Смысл в инете?..
Slo, только однажды за все время встречал упоминания (в виде отзывов от юзеров умакса лет пять назад) о том, что система генерации текста на естественном языке создана и успешно функционирует. более нигде не замечал ничего подобного. хотя возвращаюсь к этой теме с завидной периодичностью