[Ищу] Парсер текста ??

XSlaid · 19 Окт 2006

Помогите с парсером текста, а то сколка не ищу нахожу толька парсеры для ключевых слов но нигде не вижу чтобы текст парсил.
Тут на форуме видел прогу для Яндекса, а для MSN или Google есть у кого?

morze · 19 Окт 2006

XSlaid написал(а):
Помогите с парсером текста, а то сколка не ищу нахожу толька парсеры для ключевых слов но нигде не вижу чтобы текст парсил.
Тут на форуме видел прогу для Яндекса, а для MSN или Google есть у кого?

Грабит сниппеты по кею с гугла, чистит их и форматирует в текст.

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Granat · 20 Окт 2006

morze написал(а):
Грабит сниппеты по кею с гугла, чистит их и форматирует в текст.
*** скрытое содержание ***

а можно по подробнее что это такое?

Юрец · 20 Окт 2006

Granat написал(а):
а можно по подробнее что это такое?

Ну ты ДАЕШЬ!

)))
ВКЛЮЧИ МОЗГИ, ЮЗАЙ ПОИСК!
ОТ КОРКИ ДО КОРКИ УМАХФОРУМ И БЛОГ ГРИНА Прочти!
И будет тебе ШАСТЬЕ!

morze · 20 Окт 2006

Granat написал(а):
а можно по подробнее что это такое?

Десктопная программа которая парсит сниппеты серпа google по ключевому слову.
Может использоваться для создания релевантного текста при генерировании дорвеев.

Термины поисковой оптимизации - Для просмотра ссылки Войди или Зарегистрируйся
Парсить - автоматически обрабатывать (разбирать) с целью получения нужных данных. Парсить можно выдачу на предмет позиций сайта, можно страницы на предмет нахождения там нужной ссылки и т.п. Парсер — это программа, которая и обеспечивает эту автообработку.
Сниппет (от англ. snippet) — небольшие кусочки текста найденной поисковой машиной страницы сайта, которые показываются в результатах поиска.
СЕРП - страница результатов поиска, выдаваемая поисковой системой по запросу пользователя.
Релевантность - оценка страницы, рассчитываемая каждой машиной поиска согласно специальному алгоритму. Релевантность определяет, насколько информация в HTML-документе соответствует запросу пользователя, выполняющего поиск.
Дорвей - автоматически созданная страница, насыщенная ключевыми словами, перенаправляющая посетителей на другие страницы. Сама по себе не представляет интереса для пользователя, считается спамдексингом, засоряет интернет и выдачу поисковой машины, за что последние накладывают на такие страницы бан и удалаяют из своего индекса.

XSlaid · 20 Окт 2006

morze написал(а):
Грабит сниппеты по кею с гугла, чистит их и форматирует в текст.
*** скрытое содержание ***

Спасибо, будем пробовать работать...

maks3000 · 21 Окт 2006

попробуй web data extracto rv4.3
У нее есть настройки разные. Думаю тебе подойдет

diez · 2 Ноя 2006

а на php скрипта такого не завалялось ни у кого?

AFrost · 2 Ноя 2006

diez написал(а):
а на php скрипта такого не завалялось ни у кого?

Код:

function striptext($document)
    {
        
        // I didn't use preg eval (//e) since that is only available in PHP 4.0.
        // so, list your entities one by one here. I included some of the
        // more common ones.
                                
        $search = array("'<script[^>]*?>.*?</script>'si",    // strip out javascript
                        "'<[\/\!]*?[^<>]*?>'si",            // strip out html tags
                        "'([\r\n])[\s]+'",                    // strip out white space
                        "'&(quot|#34|#034|#x22);'i",        // replace html entities
                        "'&(amp|#38|#038|#x26);'i",            // added hexadecimal values
                        "'&(lt|#60|#060|#x3c);'i",
                        "'&(gt|#62|#062|#x3e);'i",
                        "'&(nbsp|#160|#xa0);'i",
                        "'&(iexcl|#161);'i",
                        "'&(cent|#162);'i",
                        "'&(pound|#163);'i",
                        "'&(copy|#169);'i",
                        "'&(reg|#174);'i",
                        "'&(deg|#176);'i",
                        "'&(#39|#039|#x27);'",
                        "'&(euro|#8364);'i",                // europe
                        "'&a(uml|UML);'",                    // german
                        "'&o(uml|UML);'",
                        "'&u(uml|UML);'",
                        "'&A(uml|UML);'",
                        "'&O(uml|UML);'",
                        "'&U(uml|UML);'",
                        "'&szlig;'i",
                        "'/{.*?}/si'",                        //strip {...} tags не работает
                        "'<a href'",
                        );
        $replace = array(    "",
                            "",
                            "\\1",
                            "\"",
                            "&",
                            "<",
                            ">",
                            " ",
                            chr(161),
                            chr(162),
                            chr(163),
                            chr(169),
                            chr(174),
                            chr(176),
                            chr(39),
                            chr(128),
                            "д",
                            "ц",
                            "ь",
                            "Д",
                            "Ц",
                            "Ь",
                            "Я",
                            " ",
                            " ",
                        );
                    
        $text = preg_replace($search,$replace,$document);
                                
        return $text;
    }

Это от snoopy кажется

tomcat · 2 Ноя 2006

Я когда-то писал сам на пхп... скрипт дергает урлы с гугля по заданным кивордам, затем ходит по этим урлам и грабит с них текст, чистит его от всякой шняги, ищет и удаляет уникальные слова и выдает получившееся...
только найти не могу....

на каком-то из серваков лежит, а времени нет все обшаривать...
найду - выложу, но там писать-то при минимальных знаниях пхп - полдня.

[Ищу] Парсер текста ??

XSlaid

Постоялец

morze

Постоялец

Granat

Создатель

Юрец

Постоялец

morze

Постоялец

XSlaid

Постоялец

maks3000

Прохожие

diez

Гуру форума

AFrost

Создатель

tomcat

Постоялец