Публикация
Вытягиваем из гугла линки ресурсов на экзотических языках или language-pack для hrefer’а
Т.к. в сети существует не только англоговорящие юзеры, но и немножко других =), задумался как бы достать ресурсы созданные на их родном языке.
Собственно решение оказалось, как всегда, простым. У нас ведь есть переводчик гугла с его хорошим набором языков. Беда только в том, что символы то там – сплошной юникод да и только. Возмите, например, японский или китайский, а может есть любители арабского? А ведь арабский сегмент нета – наиболее стремительно развивающийся.
Так вот, хрефер создан таким образом что при парсинге он не юзает такую функцию как URLENCODE, дабы перевести все символы из «ероглифов» в понятный формат для ПС. И о такой вещи как кодировка юникод он тоже почему то не слышал. Так что пришлось немного помочь программе
И да, содержание словаря: 1к существительных, 1к прилагательных, 1к глаголов – топовые по частоте употребления в русском языке.
В общем, результатом проделанной работы является полностью готовый к использованию набор словарей для hrefer’а на таких языках:
- китайский
- японский
- корейский
- испанский
- французский
- немецкий
- португальский
- арабский
- итальянский
+ микс-словарь из всех словарей, отфльтрованный на дубли
т.е. 9 самых распространенных языков в онлайне. Скачать можно тута. Расширяйте свои базы, камрады. Приятного парсинга
ps если нужны какие-то еще нативные словари для парсинга – пишите, постораюсь сделать
1 пользователь прокомментировали «Вытягиваем из гугла линки ресурсов на экзотических языках или language-pack для hrefer’а»
отлично, спасибо)