Ru-Net-Biz

Все самое интересное о .Ru-Net бизе.

Публикация

О генерации текста, его качестве, базах данных статистики и прочем всяком сопутствующем

28 февраля 2011
В рубриках: Генерация текста

В настоящее время алгоритмы выявления бредотекста у ПС Яндекс развиты в гораздо большей степени, чем у Гугла. Яндекс довольно шустро определяет неестественные тексты, созданные по примитивным алгоритмам такими же примитивными программами-генераторами. А нормальный беспалевный генератор так еще никто и не написал… Хотя многие кричат, что дескать есть у меня мегагенератор, который выдает читаемые тексты – это все мелочи и не достойно внимания. Потому что те, у кого он есть (а вдруг?) просто молчат. :)

В последнюю неделю опять вернулся к данной теме. Вдруг вспомнил, что нормального текстгена я так и не написал. Хотя попыток было множество. А ввиду того, что давно уже не не программил, решил вернуться к этому увлекательному занятию. Дня четыре уже тестирую разные алгоритмы и подходы. Пока рано говорить о каких-то положительных результатах, но положительные тенденции, определенно, вырисовываются.

Как обычно столкнулся с проблемами производительности, ибо чтобы хранить всякую статистику (какой на данный момент оперирую) хотя бы по 20 метрам исходного человеческого текста, обработанного майстемом требуется 230 метров в виде плэйн-текста или 600 (!!!) метров (примерно 4 миллиона записей в двух таблицах суммарно) в формате БД MS Access 2003. Ладно еще просто хранить, так ведь надо и кое-какие манипуляции производить с этим объемом – поиск, выборки, сравнения итд. Работа сборщика-построителя предложений совершенно не ускорилась при переводе его механизма на работу с БД. А по моему субъективному мнению, еще и замедлилась. И пох на все индексированные поля для ускорения выборок и все остальное. Т.е. никакого прироста производительности. Вот и думай тут…

Опять решил вернуться к простым текстовым спискам внутри программы, а искать по ним нужные данные в несколько десятков потоков – хотя еще эту часть не переделал и про эффективность сказать пока не могу. Теоритечески при нормальном процессоре скорость должна возрасти. Проверю уже на днях.

Сам алгоритм, как сейчас уже понимаю, получается очень ресурсозатратным – чтобы построить одно правильное человеческое предложение уходит от 1 до 10 минут, взависимости от сложности самого предложения и объема словаря статистики. Предложение получается более-менее, но есть над чем работать. Лучшие результаты – на коротких предложениях, где по минимуму всяких повторяющихся частей речи. Тут самое время изучать возможности, которые дают распределенные вычисления, но к сожалению, не имею на то ни времени, ни лишних компьютеров. :(

Что могу сказать – в этот раз, видимо, доведу все до конца :) Если комп не загнется от генерации одной статьи за всю ночь. Мда. Думать и думать.

Хотелось бы найти того, кто занимается тем же. Обменяться опытом, так сказать.

Всего хорошего. Продолжение следует…

5 пользователя прокомментировали «О генерации текста, его качестве, базах данных статистики и прочем всяком сопутствующем»

SciFi пишет,
28 февраля 2011 в 02:29 .     

UP.
слишком много тупиковых (неестественных) вариантов реализации предложений, чтобы проверить их все – нужно много времени, алгоритм надо упрощать. как все гениальное…
примеров пока не привожу – убил старую базу и создал новую в несколько раз больше, для тестирования многопоточного поиска.
Структура все усложняется, мать ее… неправильно это.

Smile пишет,
1 марта 2011 в 13:32 .     

Дароф как предложения строишь? По шаблонам? {Существительное} {глагол} и т.д. :)

jekson пишет,
2 марта 2011 в 11:25 .     

Привет! На каком языке пишешь, и если не секрет, какую библиотеку используешь для работы с морфологией?

SciFi пишет,
2 марта 2011 в 12:02 .     

Smile. хай, нет используется система эээ… «коэффициентов уместности» данного слова в данной ситуации. что-то вроде «карты» локальных и глобальных контекстов (ближайшее и не очень окружение словоформы в естественном тексте). :) моя стат. база очень обширная, хранит много всего… как то так примерно.

SciFi пишет,
2 марта 2011 в 12:06 .     

jekson делфи, хотя есть реализация на vba для ms access, как показала практика – несостоятельная. от БД отказался. с морфологией работаю только на уровне статистики морф.характеристик. Т.е. морфологию слов не меняю. Не к чему это. естественный текст содержит предостаточно форм слов. в 90% случаев их хватает.

Оставьте свой комментарий

 Имя

 Почта

 Сайт

Внимание: Пожалуйста, дважды проверяйте свои комментарии перед отправкой Замечание: Может быть активна процедура проверки, так что нет необходимости добавлять комментарий повторно

О проекте

Проект админят: chayka
SciFi