Меню
Разработки
Разработки  /  Информатика  /  Разное  /  11 класс  /  Методическое пособие по информатике "Поисковые системы"

Методическое пособие по информатике "Поисковые системы"

В методическом пособии рассмотрены основные вопросы работы поисковых систем в сети Интернет. Раскрыты сложные задачи и технологии решения этих задач «поисковыми роботами» при прочтении набранной информации. Приведены возможности поисковой системы Google и Yandex, их отличительные особенности, достоинства и недостатки.
02.02.2015

Описание разработки

ВВЕДЕНИЕ

Все «готовые» подборки ссылок, независимо от их размера и структуры, пригодны лишь в качестве инструментов для грубого поиска. Подумайте, ведь чаще всего мы с вами ищем в Сети не абстрактный сайт, будь он хоть трижды специализированным, а конкретную информацию, участок текста, содержащий нужные нам сведения.

Но выход есть – воспользоваться поисковыми системами, которые не ждут, пока пользователь внесет сайт в их каталог, а сами периодически обшаривают все пространство Сети.

Иногда эти системы называют «поисковыми роботами» или даже «пауками».

Ползая по хитрым переплетениям Сети, «пауки» ежедневно и даже ежечасно заползают практически на все доступные страницы и заносят их в специальный индекс, громадную базу данных, по которой впоследствии и ведется поиск. Эта база данных обновляется гораздо чаще, чем в каталогах, – примерно раз в месяц производится ее переиндексация.

Конечно, даже при такой частоте обновления в базах поисковиков со временем образуются залежи «мертвых» ссылок, зато по сравнению с каталогами их доля в несколько раз меньше. А уж об объеме информации и вовсе не приходится говорить: если большинство поисковиков знакомо только с небольшой долей содержимого Сети, то поисковым роботам доступен каждый ее уголок, каждая страничка. Не проводится здесь и цензуры, селекции, а значит, поисковики гораздо более беспристрастны, чем те же каталоги.

Поисковый робот, в отличие от человека, беспристрастен и равнодушен к рекламным завлекал очкам. Его задача проста: «сфотографировать» содержимое каждой странички на сайте и занести его в общий индекс. Создатели сайтов «пауков» уважают и даже заискивают перед ними, поднося мохнатому чудищу готовый список кодовых слов, определяющих тематику сайта. Например, страничка книжного издательства может содержать кодовые слова:

«книги», «литература», «издания», «детективы», «фантастика», «книга – почтой»…

Однако поисковые роботы редко полагаются только на внутренний «индекс» странички. Нередки случаи, когда авторы сайтов намеренно заполняли «индекс» словечками

типа «секс», «порно» и им подобными. Разумеется, в результате наблюдался необъяснимо высокий интерес к этим в общем - то невинным и чаще всего неинтересным страничкам.

Поэтому большинство серьезных поисковых систем не ограничиваются взглядом на индекс, а добросовестно сканируют всю страничку – на всякий случай.

Что происходит потом? Пользователь, зайдя на страничку «поисковика», вводит слово, по которому должен будет осуществляться поиск. А затем лицезреет долгожданный результат – гору полезных и бесполезных ссылок.

Увы, осуществлять поиск по отдельным словам – работа весьма неблагодарная. Особенно трудно совладать с разбушевавшимся конем - поисковиком тем, кому нужно задать поиск по очень специфической теме, оперируя при этом самыми простыми словами. Например, автор является давним поклонником группы Software, работающей в жанре «электронной симфонии». Понятно, что слово software для поисковика может ассоциироваться со многим – но только в последнюю очередь с музыкальной группой. Если же добавить к запросу еще и electronic music , то возникнет объясненная выше информационная каша.

Именно для решения этой проблемы на большинстве серверов введен так называемый «сложный поиск». Часто для его реализации применяются «расширенные» формы запроса на них можно выйти, выбрав меню Сложный поиск или Расширенный поиск на любом поисковом сервере.

Впрочем, «матерые» ветераны интернет - поиска относятся к готовым «формам» весьма критически и поражают воображение новичков, самостоятельно составляя сложные

запросы - формулы с использованием специальных команд - операторов. Большинство же пользователей предпочитает ограничиваться простыми запросами.

Поисковикам приходится лишь признавать этот прискорбный факт и самим делать шаг навстречу незадачливым искателям. Сегодня большинство поисковых машин оснащены сложным механизмом сортировки, который позволяет частично отфильтровать заведомый мусор и оттеснить его в конец списка результатов. А на первые места в нем будут претендовать странички, обладающие большей степенью релевантности, то есть ожидаемой степени соответствия ответа запросу пользователя.

Мы помним, что, индексируя страницу, поисковик работает сразу с несколькими элементами ее содержания:

• заголовок страницы;

• перечень «ключевых слов», составленный ее автором;

• краткое описание странички, также содержащееся в ее теле. Для пользователей эта информация, как и список ключевых слов, остается невидимой;

• собственно содержимое странички.

Получается, что если заданные вами ключевые слова будут найдены в заголовке, описании, да еще вдобавок и в самом тексте странички, то степень ее релевантности будет доста -

точно высокой. И велика вероятность, что в виде ссылки на эту страничку вы обрели бесценный информационный клад. А вот если ключевые слова будут найдены только в описании, но не на самой страничке, то «робот» наверняка занесет ее в список подозрительных: уж не пустышку ли вы нам подсовываете, господин веб - мастер?

Но даже если хозяева «паука» и облегчили ему задачу, исключив из перечня обыскиваемых элементов странички ее описание (мало ли что там эти пользователи понапишут!), он всегда найдет, на что обратить внимание при определении степени релевантности.

Например, где именно расположена фраза, содержащая ключевое слово, насколько часто оно повторяется в тексте странички…

Впрочем, иногда механизм забывает про свое теоретическое «совершенство» и на первых местах в списке результатов поиска мы обнаруживаем все ту же «пустую породу». Окажется интересной одна ссылка из десятка – великолепно, редкая удача. К сожалению, поисковые роботы не слишком интеллектуальны, к тому же на их машинную логику порой накладывается глупость самих пользователей.

Было бы удивительно, если бы поисковые возможности не были востребованы создателями программ для путешествия по Сети – браузеров. Вы еще не забыли, что на панели вашего Internet Explorer есть кнопка Поиск! Нажав на нее, вы сможете обратиться сразу к нескольким крупнейшим поисковым серверам, в том числе и к русскоязычным. Ведь если поначалу российским пользователям Интернета приходилось довольствоваться исключительно англоязычными «поисковиками», не слишком уверенно справляющимися с русским текстом, то теперь все изменилось – в Сети исправно функционирует добрый десяток русских поисковых машин.

…Конечно, для русскоязычного пользователя Яndeх был, есть и останется основным поисковым инструментом. Но неразумно забывать о его заокеанском коллеге – Google, во владениях которого находится весь Интернет! Google – крупнейший из поисковиков Сети, и с его помощью мы сможем выковырять из нее те крупицы информации, которые другие серверы в упор не замечают. Включая, кстати, и Яndex…

 Google появился пять лет назад словно бы из ниоткуда. Рынок поисковых систем уже давно поделили между собой всемогущие Yahoo! и Altavista, и третьему, казалось, на этом узком поле делать было нечего! И все же Google нашел, чем привлечь пользователей. Прежде всего – интерфейсом: его конкуренты давным - давно превратились из поисковиков в навороченные мегапорталы, перегруженные графикой и рекламой. Титульная же страница Google являла чудеса минимализма: ее девственную белизну нарушали только логотип сайта, строчка запроса и кнопка Поиск! Со временем, правда, на страничке появились новые кнопки и ссылки, но и сегодня она выглядит белой и очень практичной вороной на фоне кичливых сетевых павлинов. Более того, интерфейс Google можно еще и настроить по своему вкусу, например перевести его на добрую сотню языков, включая телугу, эсперанто и «поросячью латынь».

Интересно, что в списке нашлось место для большинства языков бывшего СССР, включая, конечно, украинский и русский! Это, впрочем, и неудивительно – одним из двух создателей Google был наш экс - соотечественник, программист Сергей Брин.

Для перевода интерфейса Google достаточно один раз выбрать нужный пункт в меню.

Языковые настройки – в дальнейшем страничка будет самостоятельно загружаться в «правильном» режиме. Кстати, с русским языком Google справляется отлично не хватает разве что излюбленного яндексовского Поиски со словоформами. То есть, набрав с Google запрос

«Большой Слон», вы найдете только те страницы, на которых оба слова встречаются в именительном падеже. «Слона, Слону, о Слоне» и прочие формы найдены не будут. Однако за счет того, что Google работает не только с зоной ги, как отечественные поисковики, а со всем информационным пространством Сети, благодаря ему вы зачастую сможете найти множество новых ресурсов! Уже этих «изюминок» хватило бы для того, чтобы заинтересовать «искателей» со всего мира… И счастье, что Google не ограничился одними интерфейсными красотами! Создатели сервера понимали: одной одежки для успеха мало, нужна еще и качественная «начинка».

И она была изготовлена – в виде уникального механизма индексации и сортировки данных. Google работает намного быстрее своих коллег, а главное – его результаты отличаются высокой степенью релевантности (соответствия результатов поиска реальному состоянию дел в Сети). В отличие от других поисковых систем, в «первой десятке» результатов, выданных Google, вы не встретите никакого информационного мусора и случайных сайтов:

место сайта в списке напрямую связано с количеством ссылок на него с других серверов аналогичной тематики.

К тому же база данных Google значительно полнее, чем даже у запасливой Altavista например, по эталонному запросу «Rutles» (это название пародийной английской группы удобно тем, что слово rutles , выдуманное и уникальное. А значит, процент ссылок на не связанные с группой ресурсы будет минимален) Google выдал 11 тысяч ссылок, a Altavista– всего 7 тысяч. При этом «домашняя страница» группы у Google присутствовала уже на первой строчке, в то время как весь «топ» Альтависты был занят ссылками на диски группы в интернет - магазинах.

Интересной особенностью Google является кнопка «Мне повезет!» рядом со строкой поиска. Если кнопка «Поиск в Google» запускает традиционный механизм поиска, то «везучая» кнопка сразу же перебросит пользователя на максимально соответствующий его запросу сайт. И, кстати, частенько этот прием срабатывает!

Наконец, третьим и главным козырем Google стал отлично продуманный набор сервисов поиска. На сегодня Google предлагает своим посетителям следующее:

Традиционный поиск по сайтам и страничкам Интернета, внесенным в базу данных в автоматическом режиме с помощью «паука». Помимо простого поиска доступен еще и расширенный – в этом режиме вы можете, в частности, составить выборку документов на определенном языке, указать, сколько результатов будет выведено на страничке. Наконец, можно задать поиск в границах одного сайта или странички.

При работе со стандартной поисковой строкой вы можете пользоваться операторами поиска:

+ (AND) – для поиска страниц, содержащий ВСЕ указанные слова: beetles Неппоп;

– (NONE) – для поиска страниц, содержащих первое из указанных слов, но не содержащее второго: gates —bill;

OR – для поиска страниц, содержащих либо одно, либо второе из разделенных этим оператором слов и сочетаний: osho OR rajneesh «» – для поиска страниц с указанными неразрывными словосочетаниями: «rollingstones» Поиск по каталогу. Не так давно Google обзавелся собственным каталогом, в который уже внесено несколько сот тысяч страниц и сайтов со всего мира. Система «региональных настроек» действует и здесь: помимо основного каталога Google предлагает вам еще и «локальный». Имеется, кстати, и каталог русских ресурсов, однако его крохотный объем вряд ли соблазнит нас, привыкших к тучным пастбищам

Rambler или Refer.

Поиск по группам новостей (http://groups. google. com). Став обладателем знаменитого архива рассылок DejaNews, Google смог порадовать своих посетителей возможностью

поиска информации в группах новостей. Сегодня благодаря Google вы можете найти любое сообщение, отправленное в одну из сотни тысяч групп новостей за последние пять - семь лет!

Впрочем, об этой возможности Google речь пойдет ниже – ведь с группами новостей мы с вами еще не познакомились…

Поиск изображений. Вот уж действительно эксклюзив – ранее искать в Сети картинки по заданным пользователем ключевым словам мог только «многостаночник» Lycos! Найденные картинки можно, в числе прочего, отсортировать по размерам, выведя на экран только список изображений требуемого формата.

Весь материал – смотрите документ.

Содержимое разработки












ПОИСКОВЫЕ СИСТЕМЫ

Методическое пособие

по дисциплине: «Информатика»

















2015 год













В данном методическом пособии рассмотрена тема: «Поисковые системы» применение которой обеспечивает эффективность обучения студентов по дисциплине: «Информатика». Данное методическое пособие так же можно использовать для преподавателей, студентов учебных заведений различного уровня по дисциплине: «Информатика».






















СОДЕРЖАНИЕ



  1. Введение 4

  2. Google 8

  3. Вид из космоса на Google. Maps 13

  4. Yandex 15

  5. Сервисы Яндекса 16

  6. Особенности поисковой системы 20

  7. Определение области поиска 23

  8. Поисковая строка Яндекса 24

  9. Сложный поиск и язык запросов 24

  10. Вопросы для самоконтроля 30

  11. Использованная литература 31


















ВВЕДЕНИЕ

Все «готовые» подборки ссылок, независимо от их размера и структуры, пригодны лишь в качестве инструментов для грубого поиска. Подумайте, ведь чаще всего мы с вами ищем в Сети не абстрактный сайт, будь он хоть трижды специализированным, а конкретную информацию, участок текста, содержащий нужные нам сведения.

Но выход есть – воспользоваться поисковыми системами, которые не ждут, пока пользователь внесет сайт в их каталог, а сами периодически обшаривают все пространство Сети.

Иногда эти системы называют «поисковыми роботами» или даже «пауками».

Ползая по хитрым переплетениям Сети, «пауки» ежедневно и даже ежечасно заползают практически на все доступные страницы и заносят их в специальный индекс, громадную базу данных, по которой впоследствии и ведется поиск. Эта база данных обновляется гораздо чаще, чем в каталогах, – примерно раз в месяц производится ее переиндексация.

Конечно, даже при такой частоте обновления в базах поисковиков со временем образуются залежи «мертвых» ссылок, зато по сравнению с каталогами их доля в несколько раз меньше. А уж об объеме информации и вовсе не приходится говорить: если большинство поисковиков знакомо только с небольшой долей содержимого Сети, то поисковым роботам доступен каждый ее уголок, каждая страничка. Не проводится здесь и цензуры, селекции, а значит, поисковики гораздо более беспристрастны, чем те же каталоги.

Поисковый робот, в отличие от человека, беспристрастен и равнодушен к рекламным завлекал очкам. Его задача проста: «сфотографировать» содержимое каждой странички на сайте и занести его в общий индекс. Создатели сайтов «пауков» уважают и даже заискивают перед ними, поднося мохнатому чудищу готовый список кодовых слов, определяющих тематику сайта. Например, страничка книжного издательства может содержать кодовые слова:

«книги», «литература», «издания», «детективы», «фантастика», «книга – почтой»…

Однако поисковые роботы редко полагаются только на внутренний «индекс» странички. Нередки случаи, когда авторы сайтов намеренно заполняли «индекс» словечками

типа «секс», «порно» и им подобными. Разумеется, в результате наблюдался необъяснимо высокий интерес к этим в общем-то невинным и чаще всего неинтересным страничкам.

Поэтому большинство серьезных поисковых систем не ограничиваются взглядом на индекс, а добросовестно сканируют всю страничку – на всякий случай.

Что происходит потом? Пользователь, зайдя на страничку «поисковика», вводит слово, по которому должен будет осуществляться поиск. А затем лицезреет долгожданный результат – гору полезных и бесполезных ссылок.

Увы, осуществлять поиск по отдельным словам – работа весьма неблагодарная. Особенно трудно совладать с разбушевавшимся конем-поисковиком тем, кому нужно задать поиск по очень специфической теме, оперируя при этом самыми простыми словами. Например, автор является давним поклонником группы Software, работающей в жанре «электронной симфонии». Понятно, что слово software для поисковика может ассоциироваться со многим – но только в последнюю очередь с музыкальной группой. Если же добавить к запросу еще и electronic music , то возникнет объясненная выше информационная каша.

Именно для решения этой проблемы на большинстве серверов введен так называемый «сложный поиск». Часто для его реализации применяются «расширенные» формы запроса на них можно выйти, выбрав меню Сложный поиск или Расширенный поиск на любом поисковом сервере.

Впрочем, «матерые» ветераны интернет-поиска относятся к готовым «формам» весьма критически и поражают воображение новичков, самостоятельно составляя сложные

запросы-формулы с использованием специальных команд-операторов. Большинство же пользователей предпочитает ограничиваться простыми запросами.

Поисковикам приходится лишь признавать этот прискорбный факт и самим делать шаг навстречу незадачливым искателям. Сегодня большинство поисковых машин оснащены сложным механизмом сортировки, который позволяет частично отфильтровать заведомый мусор и оттеснить его в конец списка результатов. А на первые места в нем будут претендовать странички, обладающие большей степенью релевантности, то есть ожидаемой степени соответствия ответа запросу пользователя.

Мы помним, что, индексируя страницу, поисковик работает сразу с несколькими элементами ее содержания:

• заголовок страницы;

• перечень «ключевых слов», составленный ее автором;

• краткое описание странички, также содержащееся в ее теле. Для пользователей эта информация, как и список ключевых слов, остается невидимой;

• собственно содержимое странички.

Получается, что если заданные вами ключевые слова будут найдены в заголовке, описании, да еще вдобавок и в самом тексте странички, то степень ее релевантности будет доста-

точно высокой. И велика вероятность, что в виде ссылки на эту страничку вы обрели бесценный информационный клад. А вот если ключевые слова будут найдены только в описании, но не на самой страничке, то «робот» наверняка занесет ее в список подозрительных: уж не пустышку ли вы нам подсовываете, господин веб-мастер?

Но даже если хозяева «паука» и облегчили ему задачу, исключив из перечня обыскиваемых элементов странички ее описание (мало ли что там эти пользователи понапи-

шут!), он всегда найдет, на что обратить внимание при определении степени релевантности.

Например, где именно расположена фраза, содержащая ключевое слово, насколько часто оно повторяется в тексте странички…

Впрочем, иногда механизм забывает про свое теоретическое «совершенство» и на первых местах в списке результатов поиска мы обнаруживаем все ту же «пустую породу». Ока-

жется интересной одна ссылка из десятка – великолепно, редкая удача. К сожалению, поисковые роботы не слишком интеллектуальны, к тому же на их машинную логику порой накладывается глупость самих пользователей.

Было бы удивительно, если бы поисковые возможности не были востребованы создателями программ для путешествия по Сети – браузеров. Вы еще не забыли, что на панели

вашего Internet Explorer есть кнопка Поиск! Нажав на нее, вы сможете обратиться сразу к нескольким крупнейшим поисковым серверам, в том числе и к русскоязычным. Ведь если поначалу российским пользователям Интернета приходилось довольствоваться исключительно англоязычными «поисковиками», не слишком уверенно справляющимися с русским текстом, то теперь все изменилось – в Сети исправно функционирует добрый десяток русских поисковых машин.




Google

(http://www.google.com)


Рис. 1.

…Конечно, для русскоязычного пользователя Япёех был, есть и останется основным поисковым инструментом. Но неразумно забывать о его заокеанском коллеге – Google, во

владениях которого находится весь Интернет! Google – крупнейший из поисковиков Сети, и с его помощью мы сможем выковырять из нее те крупицы информации, которые другие серверы в упор не замечают. Включая, кстати, и Яndex…

Google появился пять лет назад словно бы из ниоткуда. Рынок поисковых систем уже давно поделили между собой всемогущие Yahoo! и Altavista, и третьему, казалось, на

этом узком поле делать было нечего! И все же Google нашел, чем привлечь пользователей. Прежде всего – интерфейсом: его конкуренты давным-давно превратились из поисковиков в навороченные мегапорталы, перегруженные графикой и рекламой. Титульная же стра-

ница Google являла чудеса минимализма: ее девственную белизну нарушали только логотип сайта, строчка запроса и кнопка Поиск! Со временем, правда, на страничке появились новые кнопки и ссылки, но и сегодня она выглядит белой и очень практичной вороной на фоне кичливых сетевых павлинов. Более того, интерфейс Google можно еще и настроить по своему вкусу, например перевести его на добрую сотню языков, включая телугу, эсперанто и «поросячью латынь».

Интересно, что в списке нашлось место для большинства языков бывшего СССР, включая, конечно, украинский и русский! Это, впрочем, и неудивительно – одним из двух создателей Google был наш экс-соотечественник, программист Сергей Брин.

Для перевода интерфейса Google достаточно один раз выбрать нужный пункт в меню.

Языковые настройки – в дальнейшем страничка будет самостоятельно загружаться в «правильном» режиме. Кстати, с русским языком Google справляется отлично не хватает разве что излюбленного яндексовского Поиски со словоформами. То есть, набрав с Google запрос

«Большой Слон», вы найдете только те страницы, на которых оба слова встречаются в именительном падеже. «Слона, Слону, о Слоне» и прочие формы найдены не будут. Однако за счет того, что Google работает не только с зоной ги, как отечественные поисковики, а со всем

информационным пространством Сети, благодаря ему вы зачастую сможете найти множество новых ресурсов! Уже этих «изюминок» хватило бы для того, чтобы заинтересовать «искателей» со всего мира… И счастье, что Google не ограничился одними интерфейсными красотами! Создатели сервера понимали: одной одежки для успеха мало, нужна еще и качественная «начинка».

И она была изготовлена – в виде уникального механизма индексации и сортировки данных. Google работает намного быстрее своих коллег, а главное – его результаты отличаются высокой степенью релевантности (соответствия результатов поиска реальному состоянию дел в Сети). В отличие от других поисковых систем, в «первой десятке» результатов, выданных Google, вы не встретите никакого информационного мусора и случайных сайтов:

место сайта в списке напрямую связано с количеством ссылок на него с других серверов аналогичной тематики.

К тому же база данных Google значительно полнее, чем даже у запасливой Altavista например, по эталонному запросу «Rutles» (это название пародийной английской группы удобно тем, что слово rutles , выдуманное и уникальное. А значит, процент ссылок на не связанные с группой ресурсы будет минимален) Google выдал 11 тысяч ссылок, a Altavista– всего 7 тысяч. При этом «домашняя страница» группы у Google присутствовала уже на первой строчке, в то время как весь «топ» Альтависты был занят ссылками на диски группы в интернет-магазинах.

Интересной особенностью Google является кнопка «Мне повезет!» рядом со строкой поиска. Если кнопка «Поиск в Google» запускает традиционный механизм поиска, то

«везучая» кнопка сразу же перебросит пользователя на максимально соответствующий его запросу сайт. И, кстати, частенько этот прием срабатывает!

Наконец, третьим и главным козырем Google стал отлично продуманный набор сервисов поиска. На сегодня Google предлагает своим посетителям следующее:

Традиционный поиск по сайтам и страничкам Интернета, внесенным в базу данных в автоматическом режиме с помощью «паука». Помимо простого поиска доступен еще и расширенный – в этом режиме вы можете, в частности, составить выборку документов на определенном языке, указать, сколько результатов будет выведено на страничке. Наконец, можно задать поиск в границах одного сайта или странички.

При работе со стандартной поисковой строкой вы можете пользоваться операторами поиска:

+ (AND) – для поиска страниц, содержащий ВСЕ указанные слова: beetles Неппоп;

– (NONE) – для поиска страниц, содержащих первое из указанных слов, но не содержащее второго: gates —bill;

OR – для поиска страниц, содержащих либо одно, либо второе из разделенных этим оператором слов и сочетаний: osho OR rajneesh «» – для поиска страниц с указанными неразрывными словосочетаниями: «rollingstones» Поиск по каталогу. Не так давно Google обзавелся собственным каталогом, в который уже внесено несколько сот тысяч страниц и сайтов со всего мира. Система «региональных настроек» действует и здесь: помимо основного каталога Google предлагает вам еще и «локальный». Имеется, кстати, и каталог русских ресурсов, однако его крохотный объем вряд ли соблазнит нас, привыкших к тучным пастбищам

Rambler или Refer.

Поиск по группам новостей (http://groups.google.com). Став обладателем знаменитого архива рассылок DejaNews, Google смог порадовать своих посетителей возможностью

поиска информации в группах новостей. Сегодня благодаря Google вы можете найти любое сообщение, отправленное в одну из сотни тысяч групп новостей за последние пять-семь лет!

Впрочем, об этой возможности Google речь пойдет ниже – ведь с группами новостей мы с вами еще не познакомились…

Поиск изображений. Вот уж действительно эксклюзив – ранее искать в Сети картинки по заданным пользователем ключевым словам мог только «многостаночник» Lycos! Найденные картинки можно, в числе прочего, отсортировать по размерам, выведя на экран только

список изображений требуемого формата.









Вид из космоса на Google. Maps


Рис. 2.

В 2004 году Google нанес мощнейший удар по конкурентам, а заодно – по нервам военных и спецслужб всего мира, открыв сервис Google Maps (http://maps.google.com). сразу жеставший сенсацией года. Новая фишка от Google тут же стала сенсацией года и любимой игрушкой изнывающих от скуки «юзеров». Неудивительно – в базе Google нашлось место для спутниковых фотографий практически любого участка планеты: при этом большинство участков карты можно увеличить до такой степени детализации, чтобы разглядеть дажеотдельные автомобили! Правда, по вполне понятным причинам на картах США появились «белые пятна», соответствующие засекреченным военным и правительственным объектам. Забавно другое: для всех остальных стран, включая Россию, такой «поблажки» сделано не было. И теперь мы совершенно свободно можем рассматривать в Сети снимки собственного дома – равно как и всех прочих объектов. Парадокс – но карты с гораздо худшим разрешением у нас до сих пор числятся среди «секретных материалов»…

Напоследок упомянем еще один немаловажный козырь Google – возможность работы со всеми службами сервера… без захода на его страничку! Специально для тех, кому приходится отправлять запросы в Google десятки раз на дню, создатели сервера придумали специальную поисковую панель Google Toolbar, которая встраивается в ваш браузер и постоянно маячит у вас перед глазами.

Но маячит не просто так: после установки Google Toolbar вы получаете в браузере как бы вторую адресную строку, в которой можно набирать текст запроса. Рядом с панелью

предусмотрены кнопки быстрого поиска как по всей Сети, так и по текущему сайту. Наконец, на панели имеется специальный индикатор, который позволит оценить популярность сайта или странички, на котором вы находитесь в данную минуту. Не слишком понятно, правда,

какая может быть РЕАЛЬНАЯ польза от такого индикатора… Но кашу маслом, как известно, не испортишь…

Чтобы установить Google Toolbar, вам надлежит отправиться на его личную страничку по адресу http://toolbar.google.com, а затем просто следовать подробным инструкциям по установке. Если в этом режиме установка программы по каким-то причинам буксует, не расстраивайтесь – загрузить Google Toolbar можно и обычным путем, в виде готового комплекта для установки. Найти программу можно по следующему адресу:

http://toolbar.google.com/data/en/deleon/GoogleToolbarInstaller.exe.

Словом, развитие Google идет полным ходом и, если его темп сохранится и далее, звание «поисковой системы номер один» закрепится за этим сервером уже навсегда. В России, по крайней мере, Google уже давно признан фаворитом «зарубежного» поиска. Кстати, использовать Google можно и для поиска русскоязычных страничек, расположенных за пределами России, – таким образом можно отыскать документы, с которыми не справится даже вездесущий Yandex.

Yandex

(http://www.yandex.ru)


Рис. 3.


Скажите, вы можете представить себе то время, когда Яндекса – самого популярного и умелого российского поисковика – просто не существовало? Вероятно, нет – кажется, что он был всегда, такой же нарядный и удобный… И такой же популярный! А ведь прошло не

более пяти лет с тех пор, когда эта «искалка» в одночасье лишила королевского титула знаменитый Рамблер – с тем чтобы самой обосноваться на опустевшем троне. И хотя с каждым годом у Яндекса появляется все больше конкурентов (с некоторыми из них мы встретимся

в свой черед), его господство в умах пользователей и в сетевой вселенной в целом по-прежнему не вызывает сомнений. Яндекс. Нет сомнений и в том, что именно Яндексу суждено стать вашей Главной Русской Искалкой. Не единственной, конечно, но самой важной.

И поскольку именно с этим сервером нам придется работать едва ли не чаще всего, то и экскурсию по его возможностям придется провести весьма обстоятельную…


Сервисы Яндекса


Осмотритесь, приглядитесь к многочисленным ссылкам на страничке… А ну как что и заинтересует? Ведь сегодняшний Yandex перестал быть ПРОСТО поисковой системой, превратившись в полноценный портал типа Yahoo! (как видим, сходством названий дело не ограничивается). А значит, помимо простого (и сложного) поиска, вас ждет еще энное количество нужных (и не очень) разделов, служб, возможностей и т. д.

Так почему же не познакомиться сейчас хотя бы с некоторыми из них? Итак, в состав поискового портала Яндекс входят:

Служба электронной почты (mail.yandex.ru). Очередная возможность абсолютно бесплатно заполучить лишний (а лишний ли?) адрес электронной почты вида mail@yandex. ru и прилагающийся к нему почтовый ящик емкостью до 10 Мб, с возможностью доступа как через Web-интерфейс (то есть через браузер), так и по протоколу РОРЗ (то есть почту можно принимать и отправлять посредством обычной почтовой программы). Кстати, зарегистрировав почто-

вый ящик на Яндексе, вы получите возможность настраивать и весь поисковик по своему вкусу, создав собственный вариант портала. Помните службу My Yahoo на одноименном сервере? Что ж, тогда общение с его российским «клоном» не доставит вам ни малейших неудобств! Подобно своему «двойнику», «Мой Яндекс» позволяет вывести на стартовую страницу интересующие вас блоки новостей, прогноз погоды, программу телеканалов, курсы валют и прочую полезную информацию.

Яндекс-Новости (http://news.vandex.ru). Самые важные известия (точнее – их заголовки) выносятся прямо на главную страницу Яндекса, аккурат над поисковой строкой.

Однако Яндекс предлагает и собственную «электронную газету», в которой вы найдете более подробную информацию по основным тематическим группам: Политика, Экономика, Культура, Спорт и т. д.

Поиск по блогам и форумам (http://blogs.yandex.ru). Этот сервис был запущен лишь в конце 2004 года и позволил Яндексу обойти одного из своих главных конкурентов – Google. Последний, как известно, долгое время предъявлял в качестве одной из козырных карт поиск по группам новостей, чем не мог похвастаться ни один из его соперников. Однако сегодня популярность ньюсгрупп значительно снизилась – в первую очередь за счет расцвета блогов и форумов. Яндекс способен «обыскивать» несколько сот популярных русскоязычных форумов (их число постоянно растет), а также популярное хранилище блогов «Живой Журнал».

Яндекс-Лента (http://lenta.yandex.ru). В одном из предыдущих разделов «Энциклопедии» мы говорили о сервисе RSS, который позволяет представить содержимое любого сайта (конечно, если он поддерживает RSS) в виде «ленты новостей». Благодаря RSS нет нужды загружать весь сайт со всей его графикой и текстовой начинкой. На RSS-ленте мы видим только самое важное – заголовки новостей и краткие анонсы. Яндекс-Лента – своеобразная «копилка», которая умеет создавать дайджест сразу из нескольких RSS-лент. Для этого надо добавить в ваш лист адреса нужных RSSktyn или просто указать имя интересующего вас сайта. В том случае, если на нем будет найден RSS-поток, Яндекс сам добавит нужный адрес в ваш список. Кстати, на Ленту можно добавить и результаты поиска по блогам и форумам

хотя результаты обычного поиска вывести почему-то не удается. Каталог (http://vaca.vandex.ru). Как и положено любому уважаемому поисковику, Яндекс имеет в «загашнике» еще и собственный каталог! Его основные разделы доступны прямо на главной странице, но, как и большинство сервисов Яндекса, каталог имеет и собственную «квартиру». Кстати, с помощью специальных параметров поиска вы можете ограничить «обшариваемое» Яндексом пространство исключительно рамками каталога для этого нужно активировать на главной странице, прямо под поисковой строчкой, меню «Каталог», или воспользоваться поисковой формой на странице самого Каталога. В 2004 году Яндекс прекратил свободную регистрацию сайтов в своем каталоге – теперь она осуще-

ствляется лишь на платной основе. Яндекс-Закладки (http://zakladki.yandex.ru). Как вы понимаете, простым каталогом сегодня уже никого не удивишь… Но Яндекс исхитрился-таки это сделать, заведя вместо одного каталога целых два! «Альтернативный» каталог Яндекса – это обширная библиотека «закладок», собранная самими пользователями! Всего в базе данных находится свыше полутора миллионов закладок, и вы можете добавить в нее собственную выборку, загрузив в Яндекс коллекцию закладок из папки Избранное вашего браузера. Конечно, этот каталог выглядит более хаотичным, чем его «официальный» коллега [на один и тот же сайт могут

вести сотни(!) закладок под разными названиями], – но и более живым, по-человечески теплым…

Яндекс-Энциклопедии(http://encycl.yandex.ru). Энциклопедический «мини-портал»…

Хотя почему это «мини»? – как-никак, здесь опубликованы виртуальные «аватары» целых полутора десятков энциклопедий! Вряд ли нужно добавлять, что вся эта коллекция снабжена системой «сквозного» поиска, кроме того, найти нужную статью в любой энциклопедии можно с главной страницы Яндекса (для этого не забудьте выбрать пункт Энциклопедии в меню под строкой поиска).

Яндекс-Товары (http://tovar.yandex.ru). Система быстрого поиска товаров (от книг и дисков до автомобилей, лекарств и аппаратуры) в крупнейших «виртуальных магазинах»

России. Яндекс-Гуру (http://guru.yandex.ru). Нет, это не занудный учитель жизни с далекого Востока, а весьма забавный каталог-«мастер», который поможет подобрать нужную модель любого из четырех десятков товаров – от компьютерных комплектующих до бытовой техники и даже… пива! Гуру демонстрирует вам полные «тактико-технические» характеристики каждого объекта, позволяет сравнивать модели разных производителей, а также дает

сводку цен в электронных магазинах России.

В запасе у Яндекса есть еще не менее десятка разделов и служб. Тут вам и «онлайновые» игры, и гостиная, где общения с вами ожидает весьма солидная компания VIP-персон, и служба статистики Сказки, и даже собственный электронный банк! Что самое удивительное – в отличие от идеологически чуждого нашему народу Yahoo!

практически все службы Яндекса приносят РЕАЛЬНУЮ пользу! И любой, даже не слишком искушенный пользователь может извлечь из общения с ними немалую выгоду. Главное – не забывать, что, как говорилось в одном старом фильме, «кролик – это не только ценный мех»…


Особенности поисковой системы


О первой и главной особенности этого сервера – региональной «привязке» – мы уже осведомлены. И уже вызубрили, как таблицу умножения: Yandex – поисковик прежде всего РОССИЙСКИЙ. То есть, работая с ним, мы сможем обшаривать не весь сетевой мир, а лишь небольшую его часть, заключенную в границах нашей страны. Верно? Не совсем. Ведь все-таки рабочее пространство Яндекса не ограничивается территорией Российской Федерации: система с легкостью отыскивает сайты, расположенные в доменных зонах республик бывшего СССР, а иногда – и вовсе за пределами постсо-

ветского пространства (Яндекс может легко отыскать и западный сайт в том случае, если на него ведет прямая ссылка с одной из отечественных страничек).

Но не думайте, что «патриотизм» этого поисковика выражается в одних лишь географических пристрастиях! Хороши были бы его создатели, если бы не приспособили свое детище к особенностям русского языка, а именно в этом, кстати сказать, и скрывается самое

важное отличие Яндекса от его зарубежных коллег.

Словоформы – вот оно, ключевое, самое важное понятие. Известно, что большинство западных языков (ну хорошо, ограничимся хотя бы английским!) отнюдь не блещет богатством всяческого рода падежей, склонений и прочих языковых изысков. Правда, сами носители этих языков от такого «недостатка» страдать и не думают. И принимаются за это мало приятное занятие только в тот момент, когда судьба сталкивает их с тем же «великим и могучим», где едва ли не каждое слово имеет привычку изменяться, подобно хамелеону!

Тяжело людям – но поисковым системам гораздо труднее: они тоже привыкли к стабильности форм, вот только рассуждать не обучены, в отличие от их двуногих и прямоходящих создателей. И потому каждая из форм слова – например, «кот», «кота», «коту», «котом»;

– для них являет собой ОТДЕЛЬНУЮ словарную единицу!

Яндекс же от этого недостатка свободен и он умеет находить заданные слова независимо от формы, в которой они употребляются в документах. Так что набирайте с легким сердцем своего «кота» в поисковой строчке, не опасаясь, что система подойдет к вашему запросу с излишним педантизмом. Интересно, что система может образовывать словоформы даже для тех слов, которых нет в словаре! Эту возможность, впрочем, можно (и иногда очень нужно!) отключить… Как это сделать, мы узнаем из главы, посвященной «сложному поиску». А пока что вернемся к яндексовским талантам. Еще одна интересная «фишка» связана с использованием регистра букв. Большинство

поисковиков его попросту игнорирует, то есть напишете ли вы doors или Doors, или даже DOORS – итог будет одинаков. Яндекс же поступает иначе, разрешая уточнять регистр первой буквы, – это позволит хотя бы отделить имена собственные от нарицательных. Если вы наберете слово с маленькой буквы, Яндекс будет искать все варианты этого слова, как с прописной, так и со строчной. Но стоит задать поиск ТОЛЬКО по слову с большой буквы… Что ж, именно их вы и получите. Например, наберите в строке слово лужков – и Яндекс выдаст не только страницы, посвя- щенные мэру Москвы, но и документы, в коих повествуется о неких «лужках» (в родительном падеже). А вот по запросу Лужков никаких полянок вы уже не найдете – только мэра

и его однофамильцев. Создатели Яндекса утверждают, что благодаря своему, пусть искусственному, но довольно мощному интеллекту, этот поисковик способен понимать даже запросы на естественном языке! То есть, если вы скормите Яндексу запрос типа:

«Сколько стоит кактус?» «Кто такая Масяня?»,

«Где потусоваться в деревне Скнятино?» и он его бодренько проглотит, переварит и даже выдаст вам по принципу обратной связи что-то полезное. В виде ссылок на сайты нужной тематики, разумеется.

Забавляться таким поиском можно. Но не слишком часто – все-таки мозгов Яндексу покамест не прикрутили, и ожидать от него излишней сообразительности не приходится. В большинстве случаев он, конечно, выкинет из вашего запроса мусорные словечки типа «кто», «что» и прочие, сосредоточившись на ключевых словах.

Однако лучше, если эти слова вы определите сами, составив правильный, корректный запрос.

И тогда найдется все – не зря же именно эти слова Яндекс выбрал своим девизом.


Определение области поиска


Раз, два, три, четыре, пять – начинаем мы искать! Вначале – простенько, без всяких там фокусов и ухищрений.

Набираем запрос в поисковой строке… И уже рука тянется к кнопке Найти! И совершенно напрасно тянется – нажать ее мы всегда успеем. А пока давайте глянем чуть ниже

поисковой строки, где расположены специальные кнопочки (или, как говорят веб-мастера, «чек-боксы») для определения области поиска. Вообще-то эти кнопочки можно и не трогать – в этом случае Яндекс будет чувствовать себя свободным, аки птица в ясном небе, и искать везде, где ему только пожелается.

Но иногда на эту ретивую птичку стоит надеть уздечку, малость ограничив буйство ее фантазии («А-а-а! – заходится в крике читатель. – Где вы видели птицу в уздечке?» Гм…

Отнесем это за счет того же буйства фантазии на этот раз авторского). Проще говоря, Яндексу можно указать, где именно искать нужную вам информацию. Помимо «умол-чального» Везде нам предлагаются следующие варианты:


• Каталог

• Новости

• Товары

• Энциклопедии

• Картинки



Поисковая строка Яндекса


Рис.4

Подробно расписывать каждый из этих пунктов нет нужды, благо с соответствующими сервисами Яндекса мы уже познакомились. К сожалению, Яндекс позволяет задать лишь одну область тематического поиска, то есть искать нужную фразу или слово в «Новостях» и одновременно в «Картинках» не получится…


Сложный поиск и язык запросов


О сложном поиске мы уже мимоходом упоминали во время знакомства с другими поисковиками, например Google. Однако теперь настало время уделить ему максимум внимания ведь именно от выбора правильного алгоритма сложного поиска напрямую зависит результативность вашей работы. Вы уже поняли, что при сложном поиске в строке поискового сервера набираются не только ключевые слова, но и специальные логические операторы, иногда называемые «операторами Буля». С их помощью можно составлять настоящие формулы, которые позволят

максимально точно описать нужную страничку.

У разных поисковых серверов существует свой собственный язык запросов, с использованием самых различных операторов. Стандартными, то есть подходящими для работы с любыми серверами, считаются первые три из нижеперечисленных:

+ или &. Значение – AND («и»). Этот оператор подразумевает, что в искомом документе обязательно должны содержаться все слова, которые оператор разделяет в запросе. При этом совершенно безразлично, стоят ли они рядом или находятся в разных частях документа. Как правило, логическому И в запросе соответствует простой пробел между словами:

при наборе нескольких ключевых слов через пробел Яндекс будет искать документы, в котором эти слова встречаются в пределах одной фразы. Однако использование + помогает еще более ужесточить критерии запроса: при использовании этого знака Яндекс будет выводить ссылки только на те документы, в которых ОБЯЗАТЕЛЬНО присутствуют отмеченные «плюсом» слова.

Допустим, вы хотите найти в Яндексе информацию о книге «Новейшая энциклопедия персонального компьютера». Какие ключевые слова можно использовать? Допустим,

мы выбрали три:

энциклопедия

компьютер

Леонтьев

Если просто набрать эти слова одно за другим, то вы получите куда больше ссылок, чем это необходимо на самом деле. Яндексу будет дан слишком большой простор для импровизации – в результате в списке найденных документов окажутся страницы, содержащие всего лишь два из указанных трех слов. А поскольку компьютерных энциклопедий более чем достаточно, да и связанных с компьютерами Леонтьевых тоже, то шанс быстро найти нужную книгу будет не слишком велик.

А вот составив запрос с использованием знака +, мы получим значительно более удобные для работы результаты:

+компьютер +энциклопедия +Леонтьев

Учтите, что знаки + и – в запросе размещаются не так, как в математической формуле:

перед любым из них обязательно ставится пробел, а вот с последующим словом они должны находиться в близком соседстве. И еще: не забывайте, что при использовании «плюсов» их нужно ставить перед всеми словами, в том числе и первым. Ведь несмотря на распространенные заблуждения, запросы

типа:

+компьютер +энциклопедия +Леонтъев

компьютер +энциклопедия +Леонтъев

компьютер энциклопедия Леонтьев

дадут совершенно разные результаты!

– или ~. Значение – NOT («без»). Подразумевает, что выбраны будут все документы, содержащие слово перед этим оператором, за исключением тех, которые содержат слова после него. Идеальный инструмент для сужения поля поиска!

Допустим, вы хотите найти в Сети подробную информацию о лечебном массаже, но так, чтобы вас не донимали многочисленные странички с описаниями его «тайской» модификации. Нет ничего проще:

+массаж +лечебный – тайский

Как видите, «минус» подчиняется тем же законам, что и его «положительный» коллега и может использоваться вместе с ним. Условия, обозначенные этими операторами, действуют только в пределах абзаца. Если же вы хотите, чтобы заданные условия относились ко всему тексту документа, а не к отдельной фразе, операторы нужно «удвоить» – например, вместо & поставить &&. Так, по запросу

«Виталий && леонтьев» сервер радостно вывалит перед вами все документы, в которых встречаются имя и фамилия автора этой книги. Пусть даже имя будет в начале страницы, а фамилия – далеко в конце…

|. Значение – OR («или»). В документе должно находиться хотя бы одно слово из тех, которые разделяет этот оператор. Например:

расписание \ график \ перечень

() – скобки. Как и в математике, скобки необходимо использовать при составлении

сложных поисковых формул – в них можно заключить целые выражения.

Например:

(фотографии\фотокарточки) +(реставрация\восстановление)

!. Значение – «точная форма». Использование восклицательного знака, размещенного

перед одним из ключевых слов, заставит Яндекс отказаться от своей любимой забавы со словоформами и ограничиться лишь одной, конкретной формой этого слова или фразы.

Например, по запросу:

!Масяня —!Масяню будут найдены документы, содержащие имя «Масяня» только в именительном падеже

и не содержащие оного в родительном.

Наконец, при поиске в Яндексе используется ряд дополнительных символов, позволяющих определять, на каком расстоянии друг от друга должны располагаться в тексте странички слова, включенные в запрос:

/n где n равно количеству слов-«разделителей»

Так, по запросу: персональный /3 компьютер

будут найдены все странички, в тексте которых встречаются слова «персональный» и «компьютер», отделенные друг от друга не более чем тремя словами.

Число n можно также дополнить знаками + и —, в зависимости от того, в какую сторону будет вестись отсчет слов-разделителей (вперед и назад соответственно).

…Ну что, не так все просто? Представьте себе, какую форму примет запрос (ищем книгу «Новейшая энциклопедия Интернета»), если вы как следует освоите язык «сложногопоиска».

Например, такую:

+Леонтьев +«новейшая энциклопедия» +Интернета-программ.

И это еще не самый тяжелый случай…

Расширенный поиск. Быть может, использование языка запросов и логических операторов покажется вам

не самым рациональным выходом. Особенно гуманитариям – автор и сам принадлежит к этому славному племени и хорошо понимает тот мистический ужас, который охватывает его представителей при необходимости оперировать математическими понятиями и формулами,

пусть даже и в столь упрощенном виде.

Что ж, «сложный поиск» можно выполнить и без операторов. Точнее, использовать

их все равно придется, только на сей раз все эти «плюсы» и «минусы» будут скрыты за вполне понятными текстовыми формулировками, внесенными в специальную поисковую

форму. Воспользоваться ею можно, щелкнув по ссылке Расширенный поиск в нижней части страницы Яндекса, или набрав в адресной строке браузера следующий URL:

http://www.yandex.ru/advanced.htrnl.

Форма «расширенного поиска» предоставляет даже более широкие возможности, чем использование стандартных операторов языка запросов, – так, с ее помощью можно ограничить круг поиска страницами, созданными или измененными в пределах заданного временного интервала, уточнить язык документа, исключить из «обыскиваемой» зоны отдельные странички или сайты либо наоборот, искать заданный текст только в их границах… Заполнение этой формы – дело довольно трудоемкое (все ее поля даже не помещаются на одном экране!), однако для профессионалов сетевого поиска это не станет препятствием.

Учтите, что форма «расширенного поиска» сама по себе не отменяет обычного поиска с использованием операторов у каждого вида поиска есть своя специфика и свои преиму-

щества. Поэтому: не пренебрегайте возможностями ни одного из них.













Вопросы для самоконтроля

  1. Позволяет ли ПС* Google перевести его на добрую сотню языков?

  2. Есть ли ПС в Google Поиски со словоформами?

  3. Есть ли в ПС Google индексация и сортировка данных?

  4. Есть ли в ПС Google расширенный поиск?

  5. Обладает ли ПС Google возможностью поиска информации в группах новостей?

  6. Есть ли в ПС Yandex служба электронной почты?

  7. Предлагает ли ПС Yandex собственную «электронную газету»?

  8. Способен ли ПС Yandex понимать даже запросы на естественном языке?

  9. Дайте названия кнопочкам, расположенных ниже поисковой строки ПС Yandex и предназначенные для определения области поиска?

  10. Работает ли в ПС Yandex форма расширенного поиска?

  _________________________________________________________________

ПС*- поисковая система







Использованная литература



  1. В.П. Леонтьев. «Компьютер. Настольная книга школьника». ОЛМА Медиа Групп. 2007 год.

  2. http://mexalib.com/view/24311





33


-75%
Курсы повышения квалификации

Методика преподавания информатики в начальной школе в соответствии с ФГОС НОО

Продолжительность 72 часа
Документ: Удостоверение о повышении квалификации
4000 руб.
1000 руб.
Подробнее
Скачать разработку
Сохранить у себя:
Методическое пособие по информатике "Поисковые системы" (1.45 MB)

Комментарии 0

Чтобы добавить комментарий зарегистрируйтесь или на сайт