Интернет как средство поиска информации: Основы поиска информации в сети Интернет

Основы поиска информации в сети Интернет

c Вячеслав Тихонов, Ноябрь 2000 atomzone.hypermart.net

Содержание

1. Введение

2. Поисковые системы

2.1. Как работают механизмы поиска 2.2. Сравнительный обзор поисковых систем

3. Поисковые роботы

3.1. Использование поисковых роботов

3.1.1. Статистический анализ 3.1.2. Обслуживание гипертекстов 3.1.3. Зазеркаливание 3.1.4. Исследование ресурсов 3.1.5. Комбинированное использование

3.2. Повышение затрат и потенциальные опасности при использовании поисковых роботов

3.2.1.Сетевой ресурс и загрузка сервера 3.2.2.Обновление документов

3.

3. Роботы / агенты клиента

3.3.1.Плохие программные реализации роботов

4. Проблемы при каталогизации информации

4.1. Определение роботом, какую информацию включать / исключать 4.2. Формат файла /robots.txt. 4.3. Записи (records) файла /robots.txt 4.4. Расширенные комментарии формата. 4.5. Определение порядка перемещения по Сети 4.6. Подведение итоговых данных

5. Заключение

6. Список использованной литературы

1. Введение

Основные протоколы, используемые в Интернет (в дальнейшем также Сеть), не обеспечены достаточными встроенными функциями поиска, не говоря уже о миллионах серверах, находящихся в ней. Протокол HTTP, используемый в Интернет, хорош лишь в отношении навигации, которая рассматривается только как средство просмотра страниц, но не их поиска.

То же самое относится и к протоколу FTP, который даже более примитивен, чем HTTP. Из-за быстрого роста информации, доступной в Сети, навигационные методы просмотра быстро достигают предела их функциональных возможностей, не говоря уже о пределе их эффективности. Не указывая конкретных цифр, можно сказать, что нужную информацию уже не представляется возможным получить сразу, так как в Сети сейчас находятся миллиарды документов и все они в распоряжении пользователей Интернет, к тому же сегодня их количество возрастает согласно экспоненциальной зависимости. Количество изменений, которым эта информация подвергнута, огромно и, самое главное, они произошли за очень короткий период времени. Основная проблема заключается в том, что единой полной функциональной системы обновления и занесения подобного объема информации, одновременно доступного всем пользователям Интернет во всем мире, никогда не было.
Для того, чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы.

2. Поисковые системы

Поисковые cистемы обычно состоят из трех компонент:

  • агент (паук или кроулер), который перемещается по Сети и собирает информацию;

  • база данных, которая содержит всю информацию, собираемую пауками;

  • поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

2.1 Как работают механизмы поиска

Cредства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Cредства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктирова-ны, что нужно просматривать прежде всего наиболее популярные страницы.

  • Агенты — самые «интеллектуальные» из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

  • Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

  • Кроулеры просматривают заголовки и возращают только первую ссылку.

  • Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее.

Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

  1. Количество слов запроса в текстовом содержимом документа (т. е. в html-коде).

  2. Тэги, в которых эти слова располагаются.

  3. Местоположение искомых слов в документе.

  4. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).

  1. Время — как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.

  2. Индекс цитируемости — как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка — некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.

2.2 Сравнительный обзор поисковых систем

Lycos. В Lycos используется следующий механизм индексации:

  • слова в title заголовке имеют высший приоритет;

  • слова в начале страницы;

  • слова в ссылках;

  • если в его базе индекса есть сайты, ссылка с которых указывает на индексируемый документ — релевантность этого документа возрастает.

Как и большинство систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной. Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом. Таким образом, видно, что Lycos относится к системе с языком запросов типа «Like this», но намечается его расширение и на другие способы организации поисковых предписаний.

AltaVista. Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты:

  • слова содержащиеся в теге title имеют высший приоритет; ключевые фразы в тэгах;

  • ключевые фразы, находящиеся в начале странички;

  • ключевые фразы в ALT — ссылках

  • ключевые фразы по количеству вхожденийприсутствия словфраз;

Если тэгов на странице нет, использует первые 30 слов, которые индексирует и показывает вместо описания (tag description)

Наиболее интересная возможность AltaVista — это расширенный поиск. Здесь стоит сразу оговориться, что, в отличие от многих других систем AltaVista поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

Yahoo. Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR. При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на «общие» слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

OpenText. Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.

Infoseek. В этой системе индекс создает робот, но он индексирует не весь сайт, а только указанную страницу. При этом робот имеет такие приоритеты:

  • слова в заголовке title имеют наивысший приоритет;

  • слова в теге keywords, description и частота вхожденийповторений в самом тексте;

  • при повторении одинаковых слов рядом выбрасывает из индекса

  • Допускает до 1024 символов для тега keywords, 200 символов для тэга description;

  • Если тэги не использовались, индексирует первые 200 слов на странице и использует как описание;

Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков «+» — термин обязан быть в документе, и «-» — термин должен отсутствовать в документе. Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.

WAIS. WAIS является одной из наиболее изощренных поисковых систем Internet. В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии «Британика» на Internet.

3. Поисковые роботы

За последние годы Всемирная паутина стала настолько популярной, что сейчас Интернет является одним из основных средств публикации информации. Когда размер Сети вырос из нескольких серверов и небольшого числа документов до огромных пределов, стало ясно, что ручная навигация по значительной части структуры гипертекстовых ссылок больше не представляется возможной, не говоря уже об эффективном методе исследования ресурсов.

Эта проблема побудила исследователей Интернет на проведение экспериментов с автоматизированной навигацией по Сети, названной «роботами». Веб-робот — это программа, которая перемещается по гипертекстовой структуре Сети, запрашивает документ и рекурсивно возвращает все документы, на которые данный документ ссылается. Эти программы также иногда называют «пауками», » странниками», или » червями» и эти названия, возможно, более привлекательны, однако, могут ввести в заблуждение, поскольку термин «паук» и «странник» cоздает ложное представление, что робот сам перемещается, а термин «червь» мог бы подразумевать, что робот еще и размножается подобно интернетовскому вирусу-червю. В действительности, роботы реализованы как простая программная система, которая запрашивает информацию из удаленных участков Интернет, используя стандартные cетевые протоколы.

3.1 Использование поисковых роботов

Роботы могут использоваться для выполнения множества полезных задач, таких как статистический анализ, обслуживание гипертекстов, исследования ресурсов или зазеркаливания страниц. Рассмотрим эти задачи подробнее.

3.1.1 Статистический Анализ

Первый робот был создан для того, чтобы обнаружить и посчитать количество веб-серверов в Сети. Другие статистические вычисления могут включать среднее число документов, приходящихся на один сервер в Сети, пропорции определенных типов файлов на сервере, средний размер страницы, степень связанности ссылок и т.д.

3.1.2 Обслуживание гипертекстов

Одной из главных трудностей в поддержании гипертекстовой структуры является то, что ссылки на другие страницы могут становиться » мертвыми ссылками» в случае, когда страница переносится на другой сервер или cовсем удаляется. На сегодняшний день не существует общего механизма, который смог бы уведомить обслуживающий персонал сервера, на котором содержится документ с сылками на подобную страницу, о том, что она изменилась или вобще удалена. Некоторые серверы, например, CERN HTTPD, будут регистрировать неудачные запросы, вызванные мертвыми ссылками наряду с рекомендацией относительно страницы, где обнаружена мертвая cсылка, предусматривая что данная проблема будет решаться вручную. Это не очень практично, и в действительности авторы документов обнаруживают, что их документы содержат мертвые ссылки лишь тогда, когда их извещают непосредственно, или, что бывает очень редко, когда пользователь cам уведомляет их по электронной почте.

Робот типа MOMSPIDER, который проверяет ссылки, может помочь автору документа в обнаружении подобных мертвых ссылок, и также может помогать в обслуживании гипертекстовой структуры. Также роботы могут помочь в поддержании содержания и самой структуры, проверяя соответствующий HTML-документ, его соответствие принятым правилам, регулярные модернизации, и т.д., но это обычно не используется. Возможно, данные функциональные возможности должны были бы быть встроены при написании окружающей среды HTML-документа, поскольку эти проверки могут повторяться в тех случаях, когда документ изменяется, и любые проблемы при этом могут быть решены немедленно.

3.1.3 Зазеркаливание

Зазеркаливание — популярный механизм поддержания FTP архивов. Зеркало рекурсивно копирует полное дерево каталогов по FTP, и затем регулярно перезапрашивает те документы, которые изменились. Это позволяет распределить загрузку между несколькими серверами, успешно справиться с отказами сервера и обеспечить более быстрый и более дешевый локальный доступ, так же как и автономный доступ к архивам. В Сети Интернет зазеркаливание может быть осуществлено с помощью робота, однако на время написания этой статьи никаких сложных средств для этого не существовало. Конечно, существует несколько роботов, которые восстанавливают поддерево страниц и сохраняют его на локальном сервере, но они не имеют средств для обновления именно тех страниц, которые изменились. Вторая проблема — это уникальность страниц, которая состоит в том, что ссылки в скопированных страницах должны быть перезаписаны там, где они ссылаются на страницы, которые также были зазеркалены и могут нуждаться в обновлении. Они должны быть измененены на копии, а там, где относительные ссылки указывают на страницы, которые не были зазеркалены, они должны быть расширены до абсолютных ссылок. Потребность в механизмах зазеркаливания по причинам показателей производительности намного уменьшается применением сложных кэширующих серверов, которые предлагают выборочную модернизацию, что может гарантировать, что кэшированный документ не обновился, и в значительной степени самообслуживается. Однако, ожидается, что cредства зазеркаливания в будущем будут развиваться должным образом.

3.1.4 Исследование ресурсов

Возможно, наиболее захватывающее применение роботов — использование их при исследовании ресурсов. Там, где люди не могут справиться с огромным количеством информации, довольно возможность переложить всю работу на компьютер выглядит довольно привлекательно. Существует несколько роботов, которые собирают информацию в большей части Интернет и передают полученные результаты базе данных. Это означает, что пользователь, который ранее полагался исключительно на ручную навигацию в Сети, теперь может объединить поиск с просмотром страниц для нахождения нужной ему информации. Даже если база данных не содержит именно того, что ему нужно, велика вероятность того, что в результате этого поиска будет найдено немало ссылок на страницы, которые, в свою очередь, могут ссылаться на предмет его поиска.

Второе преимущество состоит в том, что эти базы данных могут автоматически обновляться за определенный период времени так, чтобы мертвые ссылки в базе данных были обнаружены и удалены, в отличие от обслуживания документов вручную, когда проверка часто является спонтанной и не полной. Использование роботов для исследования ресурсов будет обсуждаться ниже.

3.1.5 Комбинированное использование

Простой робот может выполнять более чем одну из вышеупомянутых задач. Например робот RBSE Spider выполняет статистический анализ запрошенных документов и обеспечивает ведение базы данных ресурсов. Однако, подобное комбинированное использование встречается, к сожалению, весьма редко.

3.2 Повышение затрат и потенциальные опасности при использовании поисковых роботов

Использование роботов может дорого обойтись, особенно в случае, когда они используются удаленно в Интернете. В этом разделе мы увидим, что роботы могут быть опасны, так как они предъявляют слишком высокие требования к Сети.

3.2.1 Сетевой ресурс и загрузка сервера

Роботы требуют значительной пропускной способности канала сервера. Во-первых роботы работают непрерывно в течение длительных периодов времени, часто даже в течение месяцев. Чтобы ускорить операции, многие роботы делают параллельные запросы страниц с сервера, ведущие в последствии к повышенному использованию пропускной способности канала сервера. Даже удаленные части Сети могут чувствовать сетевую нагрузку на ресурс, если робот делает большое количество запросов за короткий промежуток времени. Это может привести к временной нехватке пропускной способности сервера для других пользователей, особенно на серверах с низкой пропускной способностью, поскольку Интернет не имеет никаких cредств для балансирования нагрузки в зависимости от используемого протокола.

Традиционно Интернет воспринимался как «свободный», поскольку индивидуальные пользователи не должны были платить за его использование. Однако теперь это поставлено под сомнение, так как особенно корпоративные пользователи платят за издержки, связанные с использованием Сети. Компания может чувствовать, что ее услуги (потенциальным) клиентам стоят оплаченных денег, а страницы, автоматически переданные роботам — нет.

Помимо предъявления требований к Сети, робот также предъявляет дополнительные требования к самому серверу. В зависимости от частоты, с которой он запрашивает документы с сервера, это может привести к значительной загрузке всего сервера и снижению скорости доступа других пользователей, обращающихся к серверу. К тому же, если главный компьютер используется также для других целей, это может быть вообще неприемлемо. В качестве эксперимента автор управлял моделированием 20 параллельных запросов от своего сервера, функционирующего как Plexus сервер на Sun 4/330. Несколько минут машину, замедленную использованием паука, вообще невозможно было использовать. Этот эффект можно почувствовать даже последовательно запрашивая страницы.

Все это показывает, что нужно избегать ситуаций с одновременным запросом страниц. К сожалению, даже современные браузеры (например, Netscape) создают эту проблему, параллельно запрашивая изображения, находящиеся в документе. Сетевой протокол HTTP оказался неэффективным для подобных передач и как средство борьбы с подобными эффектами сейчас разрабатываются новые протоколы.

3.2.2 Обновление документов

Как уже было упомянуто, базы данных, создаваемые роботами, могут автоматически обновляться. К сожалению, до сих пор не имеется никаких эффективных механизмов контроля за изменениями, происходящими в Сети. Более того, нет даже простого запроса, который мог бы определить, которая из cсылок была удалена, перемещена или изменена. Протокол HTTP обеспечивает механизм «If-Modified-Since», посредством которого агент пользователя может определить время модификации кэшированного документа одновременно с запросом самого документа. Если документ был изменен, тогда сервер передаст только его содержимое, так как этот документ уже был прокэширован.

Это средство может использоваться роботом только в том случае, если он сохраняет отношения между итоговыми данными, которые извлекаются из документа: это сама ссылка и отметка о времени, когда документ запрашивался. Это ведет к возникновению дополнительных требований к размеру и сложности базы данных и широко не применяется.

3.3 Роботы / агенты клиента

Загрузка Сети является особой проблемой, связанной с применением категории роботов, которые используются конечными пользователями и реализованы как часть веб-клиента общего назначения (например, Fish Search и tkWWW робот). Одной из особенностей, которая является обычной для этих роботов, является способность передавать обнаруженную информацию поисковым системам при перемещении по Сети. Это преподносится как усовершенствование методов исследования ресурсов, так как запросы к нескольким удаленным базам данных осуществляются автоматически. Однако, по мнению автора, это неприемлемо по двум причинам. Во-первых, операция поиска приводит к большей загрузке сервера, чем даже простой запрос документа, поэтому обычному пользователю могут быть причинены значительные неудобства при работе на нескольких серверах с большими издержками, чем обычно. Во-вторых, ошибочно предполагать, что одни и те же ключевые слова при поиске одинаково релевантны, синтаксически правильны, не говоря уже об оптимальности для различных баз данных, и диапазон баз данных полностью скрыт от пользователя. Например, запрос » Форд и гараж » мог бы быть послан базе данных, хранящей литературу 17-ого столетия, базе данных, которая не поддерживает булевские операторы или базе данных, которая определяет, что запросы относительно автомобилей должны начаться со слова «автомобиль: «. И пользователь даже не знает это.

Другой опасный аспект использования клиентского робота заключается в том, что как только он был распространен по Сети, никакие ошибки уже не могут быть исправлены, не могут быть добавлены никакие знания проблемных областей и никакие новые эффективные свойства не могут его улучшить, как не каждый пользователь впоследствии будет модернизировать этого робота самой последней версией.

Наиболее опасный аспект, однако — большое количество возможных пользователей роботов. Некоторые люди, вероятно, будут использовать такое устройство здраво, то есть ограничиваться некоторым максимумом ссылок в известной области Сети и в течение короткого периода времени, но найдутся и люди, которые злоупотребят им из-за невежества или высокомерия. По мнению автора, удаленные роботы не должны передаваться конечным пользователям, и к счастью, до сих пор удавалось убедить по крайней мере некоторых авторов роботов не распространять их открыто.

Даже не учитывая потенциальную опасность клиентских роботов, возникает этический вопрос: где использование роботов может быть полезно всему Интернет-сообществу для объединения всех доступных данных, а где они не могут быть применены, поскольку принесут пользу только одному пользователю.

«Интеллектуальные агенты» и » цифровые помощники», предназначенные для использования конечным пользователем, который ищет информацию в Интернет, являются в настоящее время популярной темой исследований в компьютерной науке, и часто рассматриваются как будущее Сети. В то же время это действительно может иметь место, и уже очевидно, что автоматизация неоценима для исследований ресурсов, хотя требуется проводить еще больше исследований для того, чтобы их сделать их использование эффективным. Простые управляемые пользователем роботы очень далеки от интеллектуальных сетевых агентов: агент должен иметь некоторое представление о том, где найти определенную информацию (то есть какие услуги использовать) вместо того, чтобы искать ее вслепую. Рассмотрим ситуацию, когда человек ищет книжный магазин; он использует «Желтые страницы» для области, в которой он проживает, находит список магазинов, выбирает из них один или несколько, и посещает их. Клиентский робот шел бы во все магазины в области, спрашивая о книгах. В Сети, как и в реальной жизни, это неэффективно в малом масштабе, и совсем должно быть запрещено в больших масштабах.

3.3.1 Плохие программные реализации роботов

Нагрузка на сеть и серверы иногда увеличивается плохой программной реализацией особенно недавно написанных роботов. Даже если протокол и ссылки, посланные роботом, правильны, и робот правильно обрабатывает возвращенный протокол (включая другие особенности вроде переназначения), имеется несколько менее очевидных проблем.

Автор наблюдал, как несколько похожих роботов управляют вызовом его сервера. В то время, как в некоторых случаях негативные последствия были вызваны людьми, использующими свой сайт для испытаний (вместо локального сервера), в остальных случаях стало очевидно, что они были вызваны плохим написанием самого робота. При этом могут произойти повторные запросы страниц в том случае, если нет никаких записей об уже запрошенных ссылках (что является непростительным), или когда робот не распознает, когда несколько ссылок синтаксически эквивалентны, например, где различаются DNS псевдонимы для одного и того же адреса IP, или где ссылки не могут быть обработаны роботом, например » foo/bar/ baz.html » является эквивалентным «foo/baz.html».

Некоторые роботы иногда запрашивают документы типа GIF и PS, которые они не могут обработать и поэтому игнорируют.

Другая опасность состоит в том, что некоторые области Сети являются почти бесконечными. Например, рассмотрим сценарий, который возвращает страницу со ссылкой на один уровень, расположенный ниже. Он начнет, например, с » /cgi-bin/pit / «, и продолжит с » /cgi-bin/pit/a / «, » /cgi-bin/pit/a/a / «, и т. д. Поскольку такие cсылки могут заманить в робота в ловушку, их часто называют «черными дырами».

4. Проблемы при каталогизации информации

Бесспорен тот факт, что базы данных, наполняемые роботами, популярны. Автор непосредственно регулярно использует такие базы данных для нахождения нужных ему ресурсов. Однако, имеется несколько проблем, которые ограничивают применение роботов для исследования ресурсов в Сети. Одна из них заключается в том, что здесь находится слишком много документов, и все они постоянно динамически изменяются.

Одной из мер эффективности подхода к поиску информации является «отзыв» (recall), содержащий информацию о всех релевантных документах, которые были найдены. Брайен Пинкертон утверждает, что отзыв в индексирующих системах Интернет является вполне приемлемым подходом, так как обнаружение достаточно релевантных документов не проблема. Однако, если сравнивать все множенство информации, доступной в Интернет, с информацией в базе данных, созданной роботом, то отзыв не может быть слишком точным, поскольку количество информации огромно и она очень часто изменяется. Так что практически база данных может не содержать специфического ресурса, который доступен в Интернет в данный момент, и таких документов будет множество, поскольку Сеть непрерывно растет.

4.1. Определение роботом, какую информацию включать / исключать

Робот не может автоматически определить, была ли данная страница в Сети включена в его индекс. К тому же веб-сервера в Интернет могут содержать документы, которые являются релевантными только для локального контекста, документы, которые существуют временно, и т. д. На практике роботы сохраняют почти всю информацию о том, где они побывали. Заметьте, что, даже если робот смог определить, должна ли указанная страница быть исключена из его базы данных, он уже понес накладные расходы на запрос самого файла, а робот, который решает игнорировать большой процент документов, очень расточителен. Пытаясь исправить эту ситуацию, Интернет-сообщество приняло » Стандарт исключений для роботов». Этот стандарт описывает использование простого структурированного текстового файла, доступного в известном месте на сервере («/robots.txt») и используемого для того, чтобы определить, какая из частей их ссылок должна игнорироваться роботами. Это средство может быть также использовано для того, чтобы предупредить роботов о черных дырах. Каждому типу роботов можно передавать определенные команды, если известно, что данный робот специализируется в конкретной области. Этот стандарт является свободным, но его очень просто осуществить и в нем имеется значительное давление на роботов с попыткой их подчинения.

4.2. Формат файла /robots.txt.

Файл /robots.txt предназначен для указания всем поисковым роботам индексировать информационные сервера так, как определено в этом файле, т.е. только те директории и файлы сервера, которые НЕ описаны в /robots.txt. Это файл должен содержать 0 или более записей, которые связаны с тем или иным роботом (что определяется значением поля agent_id), и указывают для каждого робота или для всех сразу что именно им НЕ НАДО индексировать. Тот, кто пишет файл /robots.txt, должен указать подстроку Product Token поля User-Agent, которую каждый робот выдает на HTTP-запрос индексируемого сервера. Например, нынешний робот Lycos на такой запрос выдает в качестве поля User-Agent:

Lycos_Spider_(Rex)/1.0 libwww/3.1

Если робот Lycos не нашел своего описания в /robots.txt — он поступает так, как считает нужным. При создании файла /robots.txt следует учитывать еще один фактор — размер файла. Поскольку описывается каждый файл, который не следует индексировать, да еще для многих типов роботов отдельно, при большом количестве не подлежащих индексированию файлов размер /robots.txt становится слишком большим. В этом случае следует применять один или несколько следующих способов сокращения размера /robots.txt:

  • указывать директорию, которую не следует индексировать, и, соответственно, не подлежащие индексированию файлы располагать именно в ней

  • создавать структуру сервера с учетом упрощения описания исключений в /robots. txt

  • указывать один способ индексирования для всех agent_id

  • указывать маски для директорий и файлов

4.3. Записи (records) файла /robots.txt

Общее описание формата записи.

[ # comment string NL ]*

User-Agent: [ [ WS ]+ agent_id ]+ [ [ WS ]* # comment string ]? NL

[ # comment string NL ]*

Disallow: [ [ WS ]+ path_root ]* [ [ WS ]* # comment string ]? NL

[

# comment string NL

|

Disallow: [ [ WS ]+ path_root ]* [ [ WS ]* # comment string ]? NL

]*

[ NL ]+

Параметры

Описание параметров, применяемых в записях /robots.txt

  • […]+ Квадратные скобки со следующим за ними знаком + означают, что в качестве параметров должны быть указаны один или несколько терминов. Например, после «User-Agent:» через пробел могут быть указаны один или несколько agent_id.

  • […]* Квадратные скобки со следующим за ними знаком * означают, что в качестве параметров могут быть указаны ноль или несколько терминов. Например, Вы можете писать или не писать комментарии.

  • […]? Квадратные скобки со следующим за ними знаком ? означают, что в качестве параметров могут быть указаны ноль или один термин. Например, после «User-Agent: agent_id» может быть написан комментарий.

  • ..|.. означает или то, что до черты, или то, что после.

  • WS один из символов — пробел (011) или табуляция (040)

  • NL один из символов — конец строки (015) , возврат каретки (012) или оба этих символа (Enter)

  • User-Agent: ключевое слово (заглавные и прописные буквы роли не играют). Параметрами являются agent_id поисковых роботов.

  • Disallow: ключевое слово (заглавные и прописные буквы роли не играют). Параметрами являются полные пути к неиндексируемым файлам или директориям.

  • # начало строки комментариев, comment string — собственно тело комментария.

  • agent_id любое количество символов, не включающих WS и NL, которые определяют agent_id различных поисковых роботов. Знак * определяет всех роботов сразу.

  • path_root любое количество символов, не включающих WS и NL, которые определяют файлы и директории, не подлежащие индексации.

4.4. Расширенные комментарии формата.

Каждая запись начинается со строки User-Agent, в которой описывается каким или какому поисковому роботу эта запись предназначается. Следующая строка: Disallow. Здесь описываются не подлежащие индексации пути и файлы. КАЖДАЯ запись ДОЛЖНА иметь как минимум эти две строки (lines). Все остальные строки являются опциями. Запись может содержать любое количество строк комментариев. Каждая строка комментария должна начинаться с символа # . Строки комментариев могут быть помещены в конец строк User-Agent и Disallow. Символ # в конце этих строк иногда добавляется для того, чтобы указать поисковому роботу, что длинная строка agent_id или path_root закончена. Если в строке User-Agent указано несколько agent_id, то условие path_root в строке Disallow будет выполнено для всех одинаково. Ограничений на длину строк User-Agent и Disallow нет. Если поисковый робот не обнаружил в файле /robots.txt своего agent_id, то он игнорирует /robots. txt.

Если не учитывать специфику работы каждого поискового робота, можно указать исключения для всех роботов сразу. Это достигается заданием строки

User-Agent: *

Если поисковый робот обнаружит в файле /robots.txt несколько записей с удовлетворяющим его значением agent_id, то робот волен выбирать любую из них.

Каждый поисковый робот будет определять абсолютный URL для чтения с сервера с использованием записей /robots.txt. Заглавные и строчные символы в path_root ИМЕЮТ значение.

Пример 1:

User-Agent: *

Disallow: /

User-Agent: Lycos

Disallow: /cgi-bin/ /tmp/

В примере 1 файл /robots.txt содержит две записи. Первая относится ко всем поисковым роботам и запрещает индексировать все файлы. Вторая относится к поисковому роботу Lycos и при индексировании им сервера запрещает директории /cgi-bin/ и /tmp/, а остальные — разрешает. Таким образом сервер будет проиндексирован только системой Lycos.

4.5. Определение порядка перемещения по Сети

Определение того, как перемещаться по Сети является относительной проблемой. Учитывая, что большинство серверов организовано иерархически, при первом перемещении вширь по ссылкам от вершины на ограниченной глубине вложенности ссылок, более вероятно быстрее найти набор документов с более высоким уровнем релевантности и услуг, чем при перемещении в глубину вложенности ссылок, и поэтому этот метод намного предпочтительнее для исследования ресурсов. Также при перемещении по ссылкам первого уровня вложенности более вероятно найти домашние страницы пользователей с ссылками к другим, потенциально новым, серверам, и поэтому при этом существует большая вероятность найти новые сайты.

4.6. Подведение итоговых данных

Проиндексировать произвольный документ, находящийся в Сети, очень сложно. Первые роботы просто сохраняли название документа и якори (anchor) в самом тексте, но новейшие роботы уже используют более продвинутые механизмы и вообще рассматривают полное содержание документа.

Эти методы являются хорошими общими мерами и могут автоматически применяться для всех страниц, но, к сожалению, не могут быть столь же эффективны, как индексация страницы самим ее автором. Язык HTML обеспечивает автора документа средством для того, чтобы присоединить к нему общую информацию. Это средство заключается в определении элемента , например » . Однако, здесь не определяется никакая семантика для специфических значений атрибутов данного HTML-тэга, что серьезно ограничивает его применение, а поэтому и его полноценность. Это ведет к низкой «точности» относительно общего количества запрошенных документов, которые являются релевантными для конкретного запроса. Включение особенностей типа применения булевских операторов, нахождение весов слов, как это делается в WAIS или обратной связи для релевантности, могут улучшить точность документов, но учитывая, что информация, находящаяся в данный момент в Интернет, чрезвычайно разнообразна, эта проблема продолжает быть серьезной и наиболее эффективные пути ее решения пока не найдены.

5. Заключение

Данная работа, естественно, не претендует ни на полноту, ни на точность изложения. Большая часть материала была взята из иностранных источников, в частности, основой послужили обзоры Мартина Костера (Martijn Koster). Поэтому я не исключаю возможности, что данный документ содержит какие-либо неточности, связанные как с переводом, так и с феноменально быстрым развитием информационных технологий. Однако, я все же надеюсь, что данная статья окажется полезной всем, кого интересует Всемирная Сеть Интернет, ее развитие и будущее. В любом случае я буду рад получить отклики о моей работе по E-Mail: [email protected]

6. Список использованной литературы

Павел Храмцов «Поиск и навигация в Internet». http://www.osp.ru/cw/1996/20/31.htm

How Intranet Search Tools and Spiders Work http://linux.manas.kg/books/how_intranets_work/ch42.htm

Martijn Koster «Robots in the Web: threat or treat?» http://info.webcrawler.com/mak/projects/robots/threat-or-treat.html

Обучение Интернет-профессиям. Search engine Expert. http://searchengine.narod.ru/archiv/se_2_250500.htm

Андрей Аликберов «Несколько слов о том, как работают роботы поисковых машин». http://www.citforum.ru/internet/search/art_1.shtml

Источник: www.citforum.ru

9. Системы информационного поиска сети Интернет

В Интернет представлена информация на любые темы, которые только можно себе представить. Но найти в ней нужную информацию не так-то легко из-за того, что сеть по своей природе не имеет чёткой структуры. Поэтому для ориентировки в Интернет и быстрого получения свежей справочной информации разработаны системы поиска информации.

Все системы поиска информации Интернет располагаются на специально выделенных компьютерах с мощными каналами связи. Ежеминутно они бесплатно обслуживают огромное количество клиентов.

Поисковые системы можно разбить на два типа:

  • предметные каталоги, формируемые людьми-редакторами;

  • автоматические индексы, формируемые специальными компьютерными программами, без участия людей.

Системы, основанные на предметных каталогах. Используют базы данных, формируемые специалистами-редакторами, которые отбирают информацию, устанавливают связи для баз данных, организуют и снабжают данные в разных поисковых категориях перекрёстными ссылками. Кампании, владеющие предметными каталогами, непрерывно исследуют, описывают и каталогизируют содержимое WWW-cерверов и других сетевых ресурсов, разбросанных по всему миру. В результате этой работы клиенты Интернет имеют постоянно обновляющиеся иерархические (древовидные) каталоги, на верхнем уровне которых собраны самые общие категории, такие как “бизнес”, “наука”, “искусство” и т.п., а элементы самого нижнего уровня представляют собой ссылки на отдельные WWW-страницы и серверы вместе с кратким описанием их содержимого.

Каталоги, составленные людьми, более осмыслены, чем автоматические индексы. Их очень мало, так как их создание и поддержка требуют огромных затрат.

Автоматические индексы. Переоценить их трудно. Поиск по ключевым словам в одной базе данных, занимающий в худшем случае несколько секунд, принесёт те же результаты, что и обшаривание всех WWW-страниц во всей сети Интернет.

Автоматический индекс состоит из трёх частей:

  • программы-робота;

  • базы данных, собираемой этим роботом;

  • интерфейса для поиска в этой базе, с которым и работает пользователь.

Все эти компоненты функционируют без вмешательства человека.

К автоматическим индексам следует прибегать только тогда, когда ключевые слова точно известны, например, фамилия человека или несколько специфических терминов из соответствующей области. Индексы получают информацию из каждого отдельного узла, регистрируют и индексируют её и добавляют к своим базам данных.

В Интернет один и тот же узел сети может одновременно работать по нескольким протоколам. Поэтому крупные узлы сети сейчас обладают полным набором серверов, и к ним можно обращаться почти по любому из существующих протоколов.

К системам автоматизированного поиска информации в сети Internet принадлежат следующие системы.

Gopher — наиболее широко распространенное средство поиска информации в сети Internet, позволяющее находить информацию по ключевым словам и фразам. Gopher позволяет получить информацию без указания имен и адресов авторов, благодаря чему пользователь не тратит много времени и нервов. Он просто сообщит системе Gopher, что именно ему нужно, и система находит соответствующие данные. Gopher-серверов свыше двух тысяч, поэтому с их помощью не всегда просто найти требуемую информацию. В случае возникших затруднений можно воспользоваться службой VERONICA. VERONICA осуществляет поиск более чем в 500 системах Gopher, освобождая пользователя от необходимости просматривать их вручную.

WAIS — еще более мощное средство получения информации, чем Gopher, поскольку оно осуществляет поиск ключевых слов во всех текстах документов. Запросы посылаются в WAIS на упрощенном английском языке. Это значительно легче, чем формулировать их на языке алгебры логики, и это делает WAIS более привлекательной для пользователей-непрофессионалов.

WWW — система для работы с гипертекстом. Потенциально она является наиболее мощным средством поиска. Гипертекст соединяет различные документы на основе заранее заданного набора слов. Например, когда в тексте встречается новое слово или понятие, система, работающая с гипертекстом, дает возможность перейти к другому документу, в котором это слово или понятие рассматривается более подробно.

WWW часто используется в качестве интерфейса к базам данных WAIS, но отсутствие гипертекстовых связей ограничивает возможности WWW до простого просмотра.

Практически все услуги сети построены на принципе клиент-сервер. Сервером в сети Internet называется компьютер способный предоставлять клиентам (по мере прихода от них запросов) некоторые сетевые услуги. Взаимодействие клиент-сервер строится обычно следующим образом. По приходу запросов от клиентов сервер запускает различные программы предоставления сетевых услуг. По мере выполнения запущенных программ сервер отвечает на запросы клиентов.

Все программное обеспечение сети также можно поделить на клиентское и серверное. При этом программное обеспечение сервера занимается предоставлением сетевых услуг, а клиентское программное обеспечение обеспечивает передачу запросов серверу и получение ответов от него.

Интернет как источник информации — Школа журналистики

Искать факты, события, явления или информацию о них можно в реальном мире и виртуальном. Интернет занимает все больше места в нашей жизни, и количество информации, которую можно получить в интернете, растет очень быстро, считает известный журналист и продюсер Би-Би-Си Марк Григорян.

Обычно у каждого журналиста с течением времени вырабатывается привычка обращаться к некоторому числу источников, которые, по его мнению, являются самыми оперативными и дают наиболее полную информацию.

Но надо помнить: хотя информация, взятая из какого-либо источника может представляться нам совершенно точной, для того, чтобы мы были профессионально по-журналистски в ней уверены, она обязательно должна подтверждаться из другого источника, не связанного с первым.

Потенциальные источники информации в интернете можно разделить на три типа:
? Источники, связанные с профессиональной журналистикой – информационные агентства, сетевые СМИ, вебсайты традиционных СМИ.
? Справочные источники – словари, энциклопедии, базы данных.
? Социальные сети.

Информационные агентства

Как правило, информационные агентства распространяют новости по подписке. Но большинство агентств выставляет информацию и на сайте – правда, с некоторой задержкой.

На сайтах некоторых агентств можно провести поиск специфической информации, в том числе, по ключевым словам, часто также по датам, регионам и тематике.

Сетевые СМИ

Это средства массовой информации, существующие только в интернете. Информационные сетевые СМИ схожи с агентствами, так как публикуют свои материалы оперативно. Однако у них есть и важное преимущество – интерактивность. На сайтах многих сетевых СМИ читатели могут комментировать материалы.

Правда, такое комментирование часто превращается в пустой обмен колкостями (или хуже – ругательствами), но это можно отнести, скорее, к издержкам интерактивного общения в интернете.

Сайты средств массовой информации

В эту категорию входят сайты газет, теле- или радиокомпаний. Сайты крупных мировых газет сейчас функционируют как самостоятельные сетевые СМИ.

Правда, не все газеты могут себе позволить содержать такие продвинутые и самостоятельные сайты. Многие ограничиваются тем, что просто выставляют в интернет печатную версию газеты. Может случиться, что последний номер газеты окажется в интернете не полностью или с опозданием.

Некоторые газеты вводят платный доступ к своим материалам в интернете. Так поступают, например, Times и Sun.
Но это все равно важный источник информации для журналиста.

На сайтах теле- и радиокомпаний, как правило, можно увидеть и услышать большую часть их продукции – не только отдельные новостные сюжеты, но и целые программы. Обычным делом стала уже параллельная трансляция всего эфира по интернету, за исключением некоторых художественных фильмов, что связано с проблемой авторских прав.

Многие профессиональные журналистские сайты активно используют возможности представления информации в мультимедийном формате – выставляют аудио- и видеофайлы, фотографии и слайд-шоу. При освещении важных событий ведущие сайты часто пользуются форматом «live», когда читателям сайта предоставляется возможность следить за событиями в режиме реального времени.

К минусам всех перечисленных сайтов можно отнести некоторую задержку в публикации информации (кроме освещения в режиме «live»). Она происходит потому, что информагентства заинтересованы в том, чтобы их материалы сначала получали подписчики, и лишь потом их выставляют в открытый доступ, а сетевые СМИ, в свою очередь, должны сначала обработать получаемую информацию.

Кроме того, «обычные» СМИ не всегда выставляют свои материалы в открытый доступ в полном объеме.

Современные поисковики, такие как Google, Bing, Yahoo или Yandex, имеют специальный формат поиска по новостям, где индексируются материалы, появляющиеся на сайтах информагентств, газет или в сетевых СМИ.

И наконец, есть базы данных в интернете, где можно по ключевым словам искать информацию, опубликованную в СМИ. Самой популярной такой базой данных на английском языке является LexisNexis, имеющая, кстати, и возможности поиска по-русски. Но информация этой базы данных доступна только по подписке. В открытом доступе ее нет.

Онлайн справочники, словари, энциклопедии

Без онлайн справочников и энциклопедий сегодня трудно представить работу журналиста. В повседневной работе то и дело приходится проверять написание имен и фамилий, географических названий или исторические данные о том или ином событии.

В интернете есть онлайн-версии множества словарей и энциклопедий, в том числе, например, БСЭ – Большой советской энциклопедии, энциклопедии Брокгауза и Эфрона, десятков словарей и справочников, начиная со справочников по правописанию и пунктуации, заканчивая, скажем, Вокально-энциклопедическим словарем или Полной энциклопедией пород собак. Все большим авторитетом пользуется Википедия, хотя определенную информацию, взятую оттуда, надо перепроверять.

Социальные сети

Важность социальных сетей для работы журналиста нельзя недооценивать. Они уже не только средство для ведения личных или корпоративных блогов, не просто платформа для общения с друзьями или виртуальными «френдами», а способ быстро обмениваться информацией, связанной с событиями общественной значимости.

Все более универсальным источником информации становится Twitter, куда агентства и сетевые издания выставляют ссылки на самые последние новости и статьи. Twitter является той самой платформой, откуда мы узнаем, например, о массовых задержаниях в ходе уличных акций, о ходе судебных прений или о выходе в свет новой книги.

Иметь свои странички на Twitter считается сейчас необходимым для крупнейших политиков, кинозвезд, знаменитостей в самых разных областях. Даже у Папы римского есть несколько страничек – на разных языках.

Преимуществом Twitter является его быстрота и оперативность: сообщение объемом не более 140 знаков пишутся быстро и загружаются в интернет при помощи мобильных телефонов.

Не менее важны и интересны и другие социальные сети. Это, в первую очередь, Facebook, и Google+, а также популярные среди русскоязычных пользователей ВКонтакте и Живой журнал, он же Livejournal.

 

Узнать подробнее об онлайн-курсах Школы журналистики можно на главной странице.

Методы поиска информации в Интернете (стр. 1 из 3)

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

1 СРЕДСТВА ПОИСКА

1.1 Средства поиска файлов

1. 2 Средства WWW – World Wide Web (Всемирная сеть)

2 ОСНОВНЫЕ ПРИЕМЫ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ

2.1 Основные требования к поиску

2.2 Методика поиска информации в Интернете

2.3 Развитие информационного ресурса

2.4 Требования к инструментам поиска

2.5 Структура поисковых сервисов

2.6 Глобальные поисковые машины WWW

2.7 Планирование поиска

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

ВВЕДЕНИЕ

Сеть Интернет похожа на огромную мировую библиотеку, имеющую только одно, но существенное отличие: для поиска книги в библиотеке есть каталог, в крайнем случае, можно обратиться к опытному библиотекарю. Полного каталога Интернета не существует. Но, тем не менее, поиск в глобальной компьютерной сети возможен, и это, пожалуй, является одной из наиболее важных его сторон. Для поиска данных в сети используются специальные серверы, информация на которых поддерживается и обновляется практически автоматически.

Сегодня, когда Интернет стал одним из основных источников информации, поиск в Сети приобретает все большую практическую ценность. Но с быстрым увеличением объема доступных данных все более усложняется и сама процедура поиска.

Интернет – это глобальная компьютерная сеть, которая связывает между собой как пользователей компьютерных сетей, так и пользователей ПК. Интернет медленно, но верно становится основным средством корпоративного общения, уступая пока телефону.

В Сети наличествует гигантское количество информационных ресурсов. По некоторым оценкам, число документов превысило 65 млн. и продолжает стремительно расти. Такой объем информации требует правильной организации процесса поиска и применения специальных технических средств, таких как поисковые машины. Простой поиск по достаточно распространенному ключевому слову дает обычно от десятков тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим количеством документов практически невозможна, тем более что подавляющая их часть содержит информацию, не относящуюся к делу.

Источники информации в Интернете различаются по способу представления информации, а следовательно, и по методу доступа к ним.

1.1 Средства поиска файлов

Поиск файла вручную в сложной структуре каталогов ftp-сервера может занять достаточно много времени. Для упрощения и ускорения поиска была разработана поисковая служба Интернета Archie, представляющая собой специальные Archie-сервера, хранящие содержание каталогов анонимных ftp-серверов. При обращении с поисковым запросом на Archie-сервер результатом поиска является список адресов анонимных ftp-серверов, на которых имеется искомый файл.

Но возникает задача отыскать среди множества файлов этого сервера искомый, что достаточно сложно из-за маловыразительных и непонятных имен файлов и каталогов. Для решения этой проблемы используется система Gopher, позволяющая перемещаться по системе контекстных меню, показывающих содержимое фай лов с использованием понятых обозначений. Существует очень много Gopher-серверов, которые содержат архивы данных в виде иерархически структурированных каталогов, упорядоченных по содержанию. Работа с ними очень проста и соответствует работе с обычным отображением файловой системы.

Существует расширение этой системы — Veronica, которое содержит в своей базе данных каталоги всех Gopher-серверов. После ввода поискового запроса Veronicaавтоматически просматривает все Gopher-каталоги на наличие искомой информации и тем самым избавляет от долгого поиска вручную по многим Gopher-серверам.

С таким способом навигации Gopherв определенной степени был предшественником WWW. В настоящее время применение Gopherуменьшается пропорционально росту использования WWW.

1.2 Средства WWW — WorldWideWeb (Всемирная сеть)

В 1993 году была разработана информационно-поисковая система WWW, которая благодаря простоте навигации и доступности открыла информационные источники Интернета неподготовленным пользователям. WWW вызвал бум в сети Интернет, который продолжается по настоящее время, и объемы доступной информации Интернета ежегодно удваиваются.

WWW основывается на принципе гипертекста (уже знакомого читателю), то есть на системе документов, связанных гиперссылками. Гипертекст представляет собой ключевые Слова, особым образом выделенные из обычного текста. Гипертекстовые ссылки отправляют пользователя на другие документы того же сервера либо на другие сервера, которые могут располагаться в любом месте Интернета. Если этот текстовый документ тоже гипертекстовый, то его ссылки позволяют перейти далее на соответствующие документы. Каждая переадресация происходит для пользователя незаметно, так что он может просматривать информационный состав Интернета но содержательному принципу, не заботясь об адресации конкретных компьютеров.

С развитием мультимедийных приложений изначально чисто гипертекстовые документы все больше и больше становятся гипермедийными. Таким образом, WWW-документы могут существовать в любом формате данных: текст, графика, звук/музыка или видеоклип. Ориентация и навигация во Всемирной сети происходят с использованием специальных программ, называемых WWW-браузерами, обеспечивающими пользовательский интерфейс, как, например, NetscapeNavigator или MicrosoftInternetExplorer.

Отправной точкой поиска информации служит, как правило, основная (базовая, домашняя) страница (сайт) информационного ресурса, которой можно достичь, введя соответствующий адрес в браузере (например, http://ncpi.gov.byили www.iparegistr.com). WWW-сайты создаются и обновляются фирмами либо специальными организациями, публикующими информацию и следящими за содержанием своих WWW-страниц. Использование WWW, таким образом, не является пассивным, и каждый пользователь Интернета при помощи специальных программ-редакторов гипертекста может самостоятельно создавать собственные интерактивные WWW-страницы. Это и открыло путь для растущей коммерциализации и расширения Интернета.

В настоящее время вновь создаваемая информация, как правило, изготавливается с учетом необходимости обеспечения WWW-доступа, а более ранние документы постепенно преобразуются под него, однако во всем мире существуют еще миллионы файлов в форм отличных от требований WWW. Для использования этой информации и через WWW в браузеры включены вышеописанные службы Интернета, обеспечивающие доступ к ней (telnet, ftp, Archie, Gopher). Через WWW можно использовать и другие службы Интернета, которые предназначены для общения (eMail, NetNews). Поэтому WWW-браузер стал в настоящее время универсальной коммуникационной программой Интернета.

С появлением WWW-службы и начался бум в сети Интернет. Благодаря этой простой в применении и единой для всех служб пользовательской среде Интернет заинтересовал множество людей и организаций. Оказалось вдруг, что не надо быть специалистом в области Интернета, чтобы пользоваться службами сети. Это можно сравнить с успехом фирмы Microsoft, связанным с выпуском MicrosoftWindows в качестве графической пользовательской оболочки. До появления Windows у каждого DOS-приложения было собственное руководство пользователя и тем самым требовалось отдельно изучать каждое приложение.


2.1 Основные требования к поиску

К результатам поиска предъявляются требования полноты охвата ресурсов, достоверности полученной информации, минимальных затрат времени и максимальная скорость поиска.

Требование полноты охвата ресурсов не нуждается в дополнительных пояснениях, за исключением необходимости использовать при поиске ресурсы не только WWW, но и других служб Интернета.

Достоверность информации, учитывая природу Интернета, становится чрезвычайно важным требованием. Оценка достоверности может производиться как традиционными методами (проверка легальности публикаций на бумажных носителях, получение сведений об организациях и авторах, выяснение действительности их электронных ресурсов и т.п.), так и с Использованием возможностей Интернета (ознакомление с альтернативными источниками информации, сверка фактического материала, установление частоты его использования другими источниками; выяснение статуса документа и рейтинга источника средствами поисковых систем, получение информации о компетентности и статусе автора материала с помощью специальных поисковых сервисов Интернета; анализ отдельных элементов организации сайта с целью оценки квалификации поддерживающих его специалистов и другое).

Время поиска, не считая затрат времени, связанных с техническими характеристиками подключения, в основном зависит от планирования поиска и навыков работы специалиста по поиску с ресурсом выбранного типа. Планирование поиска заключается в определении требуемых для разрешения поискового требования поисковых служб и порядка их применения. Кроме того, многое зависит от навыков и опыта конкретного специалиста по поиску.

Как уже отмечалось, информация в Интернете доступна из источников разного типа. Прежде всего — это WWW-ресурсы (гипертекстовая система, каталоги ресурсов, поисковые машины). Кроме того, это уже известные читателю электронная почта, почтовые роботы, Usenet и другие телеконференции, а также ftp-системы и архивы (с применением Gopher и Veronica). WWW позволяет производить поиск требуемых ресурсов на основе своих гиперсвойств, то есть имеющиеся поисковые системы работают с использованием гиперссылок в автоматическом режиме, не исключая возможности ручного просмотра. В WWW имеется целый ряд поисковых сервисов как общего, так и специализированного назначения.

Предметный указатель — Информационные исследования





[A B C D E F G H I J К Л М Н O P Q R С Т У В W X Y Z]
Тема Название
реферирование Человек создание рефератов с помощью выбранных компьютерных вспомогательных средств
академический начальники отделов Расследование информационные потребности академических руководителей кафедр: подход критических факторов успеха
г. информационные потребности академических заведующих кафедрами в университеты Великобритании
г. информационные потребности академических заведующих кафедрами в университеты Великобритании: критические факторы успеха подход.(Отчет Британской библиотеки о исследованиях и разработках 6252)
академический удар г. потенциал альтметрик для измерения других типов воздействия в научное производство: динамика академического и социального воздействия в социальные сети и сети
академический библиотеки Бенчмаркинг стратегическое взаимодействие с информационной грамотностью в высших образование: к действующей модели.
Межотраслевое сравнение предметных руководств и инструментов для поиска ресурсов
Электронные книги в академических библиотеках: результаты опроса, проведенного в Швеции и Литва
Эффективный методы продвижения библиотечных услуг и ресурсов
Пять что нужно изменить в первую очередь, когда академические библиотеки переходят на веб-доступ
Первокурсников использование электронных ресурсов библиотеки и самоэффективность
Информация характеристики источника и сканирование окружающей среды академическим менеджеры библиотеки
Партнерства или параллельные линии? Вклад практиков и от академиков к библиотечным и информационным исследованиям
г. роль библиотекаря данных в академических и исследовательских библиотеках
Наука и технопарки и их отношения с университетом библиотеки
г. социальное влияние исследований информационного поведения на развитие модели академической информационной экологии
Тематический анализ ценности работы Кюльтау для исследования информационное поведение в творческих рабочих местах академических библиотек
Через глаза коренных народов: ищут услуги коренных народов в Австралии и Библиотеки университетов Новой Зеландии
Всего управление качеством, аккредитация British Standard, инвесторы в Народные и академические библиотеки
Навстречу стратегия предоставления информации для университетских библиотек в Гана
Использование Электронные материалы для обучения: восприятие студентов vs.восприятие академических библиотекарей и учителей
Использование феноменография для преодоления разрыва между исследованиями и практикой: метаанализ трех феноменографических исследований
Когда определения на практике не согласуются с литературой: определение новые технологии в академических библиотеках
академический производительность А более глубоко изучить сложную взаимосвязь между использованием социальных сетей академические результаты и отношение
академический рейтинг сравнительный анализ видимости домашней страницы и академических рейтингов для Университеты Великобритании
академиков г. применение теории структурирования в изучении сотрудничества между библиотекарями и преподавателями университетов Австралии и Вьетнам.
Comunicación de conocimiento. ¿Habilidad de los profesores Universitarios?
Эффективный использование дополнительных функций и сервисов проприетарных баз данных в академическом контексте
А рамки для понимания обмена информацией: исследование опыт обмена информацией женщин-ученых в Саудовской Аравии Аравия
Информация поведение словенских исследователей: расследование деятельности, предпочтения и характеристики
Информация Школьные преподаватели и ценность их личных цифровых архивов
Ищу актуальность в использовании академической информации
А улица с двусторонним движением: сотрудничество и обмен информацией в академических кругах.Теоретически обоснованное сравнительное австралийско-вьетнамское исследование
г. использование Интернета английскими учеными
Использование феноменография для преодоления разрыва между исследованиями и практикой: метаанализ трех феноменографических исследований
приемка Исследование факторы, влияющие на принятие и использование цифровых видеобиблиотек
доступ к информации г. создание наклонных знаний: как лесбиянки, геи и бисексуалы согласовывать и переконфигурировать гомофобный и гетеросексистский дискурс
Содействие доступ и использование биоинформатических ресурсов
‘Just Google it »- объем свободно доступных источников информации для написание докторской диссертации
Библиотека законодательства и свободный доступ к информации как новые темы в библиотечно-информационное образование
Проектирование Задания для интернет-исследований: создание основы для преподавателя сотрудничество
действие обучение Генерация и анализ данных для прикладных исследований новых технологий: подход к обучению на основе обоснованных действий
действие исследования
см. также: научные круги
An исследовательский подход к разработке учебных программ
Недавние тенденции в исследованиях пользователей: исследования действий и качественные методы
Когда определения на практике не согласуются с литературой: определение новые технологии в академических библиотеках
активизм и активисты Информация практики молодых активистов в Руанде
Социальные медиаактивизм на Мальдивах: информационная практика и гражданские общество.
активность теория Активность систем, обмена информацией и развития организационных знания в двух финских фирмах: предварительное исследование с использованием Теория деятельности
An основанная на теории деятельности модель для анализа веб-приложений требования
Активность теория в исследовании и практике информационных систем — теоретическая основы метода разработки информационных систем
Дом фундамент для изучения поведения распределенной информации
Культурно-исторический теория деятельности и анализ предметной области: метатеоретические последствия для информатики.
Ежедневно инклюзивный веб-дизайн: перспектива деятельности
От деятельность к обучению: использование культурно-исторической теории деятельности для типовые школьные библиотечные программы и практики
Как рабочие должности влияют на исследовательскую деятельность и информацию поведение ученых-лаборантов в жизненном цикле исследования: применение теории деятельности
Человек деятельность — вклад в антропологические науки от перспектива теории деятельности.
Информация поведение ученых, переехавших в исследовательскую сеть в Шведское высшее образование: отчет о пилотном проекте
. Информация в движении: использование мобильных информационных систем полицией Великобритании Силы
А повторная проверка поведения при поиске информации в контексте теория деятельности
Напряжение и противоречия в информационном поведении членов Совета директоров общественной организации
актор-сеть теория Документы в качестве социальных акторов: исследование цифровых обучающих программ с использованием актер-сетевая теория и концепция документальной практики
Электронное обучение объекты и актор-сети как конфигурирующие информационную грамотность обучение.
Информация стабилизация и — дестабилизация как потенциально полезные концепции на практике теоретические подходы
Ищет за делегированные знания в начальной школе
Навстречу расширение теории сети акторов с помощью графического синтаксиса для исследования информационных систем
адаптивный информационные системы Навстречу адаптивные информационные системы: индивидуальные отличия и гипермедиа
подростки см. : молодежь
взрослый образование А библиометрический анализ австралийской публичной библиотеки для взрослых научно-популярные сборники
Информация грамотность в противоречии между школьной дискурсивной практикой и Самостоятельное обучение студентов
аффективный барьеры Приближается аффективные барьеры на пути к поиску информации: точка зрения теория оценки
аффективный нужно Приближается аффективные факторы поиска информации: точка зрения модель процесса поиска информации
An информационная потребность в эмоциональных подсказках: раскрытие роли эмоции в создании смысла.
Окончание танец: программа исследования аффекта и эмоций в исследованиях информационное поведение
сельское хозяйство Консультанты Поиск информации поведение иранских менеджеров по расширению и специалистов
сельское хозяйство информационные системы Сельское хозяйство информационные системы и сети связи: пример молочного фермеры в провинции Самсун в Турции
альтметрики Внимание и альтметрики.
г. потенциал альтметрик для измерения других типов воздействия в научное производство: динамика академического и социального воздействия в социальные сети и сети
антропология Человек деятельность — вклад в антропологические науки от перспектива теории деятельности.
археология ‘Если мы просто знали, кто должен это делать », или социальную организацию архивирование археологии в Швеции
Информация анализ работы: подход к исследованию информационных взаимодействий и информационное поведение в контексте
архив Приемка онлайн-сервисов аудиовизуального архива культурного наследия: исследование населения
Архивисты о студентах как пользователях архивов.
Изменить и стабильность в архивах, библиотеках и музеях: картографирование профессиональный опыт в Швеции.
Подключение личные и общественные воспоминания: группы в Facebook как зарождающиеся архив сообщества
Digitality, эпистолярность и восстановленные архивы писем
От сосуществование к конвергенции: изучение партнерства и сотрудничество между библиотеками, архивами и музеями
‘Если мы просто знали, кто должен это делать », или социальную организацию архивирование археологии в Швеции
Институциональный конвергенция в секторе библиотек, архивов и музеев: вклад в концептуальную основу
Ищу в архивах красных кхмеров через призму записей модель континуума: к соответствующей модели архива континуума
г. значение интероперабельности и ее значение для архивирования институты: проблемы и возможности в Хорватии, Финляндии и Швеция.
Качественный анкеты как метод исследования информации
Трансцендент разрозненность, развитие синергизма: библиотеки и архивы
‘Us и их »: точки зрения экспертов и практиков на маленькую Новую Зеландию архив сообщества
архивариуса ALM в публичной сфере: как архивисты, библиотекари и музейные профессионалы понимают соответствующие роли своих учреждений в публичной сфере?
Аргентина Лас revistas argentinas de Ciencias Antropológicas: visibilidad en Базы международных данных
Азиатский иммигранты Ежедневно информационное поведение азиатских иммигрантов в Южной Австралии: смешанные методы разведки
астрофизика Когнитивный стили и модели движения глаз: эмпирическое исследование взаимодействие пользователя с элементами интерфейса и визуализацией объекты научной информационной системы
одновременно и сопоставимые числовые показатели международных, национальных и местные практики сотрудничества в англоязычной астрофизике научные статьи
отношение сдача Последствия разоблачения контр-отношения информации в дальнейшем поиск информации и изменение отношения
аудиовизуальные ресурсы Приемка онлайн-сервисов аудиовизуального архива культурного наследия: исследование населения
Австралия г. применение теории структурирования в изучении сотрудничества между библиотекарями и преподавателями университетов Австралии и Вьетнам.
А библиометрический анализ австралийской публичной библиотеки для взрослых научно-популярные сборники
Австралия Соответствие политике открытого доступа первого спонсора в Австралии
Эффективный методы продвижения библиотечных услуг и ресурсов
Ежедневно информационное поведение азиатских иммигрантов в Южной Австралии: смешанные методы разведки
г. опыт доказательной практики в австралийской общественности библиотека: этнография
Исследование использование доказательств на практике специальными библиотекарями Австралии
Свобода информации и право знать: противоречия между открытостью и секретность
Коренной Информационное поведение австралийцев и использование Интернета в повседневной жизнь: поисковое исследование
г. онлайн-жизнь людей, испытывающих социально-экономические Недостаток: как они воспринимают информацию?
Общественные веб-сайты библиотек как электронные отделения: многострановой количественная оценка
Избирательная традиция: роль пожертвований в области романтической фантастики и практика публичных библиотек в Новом Южном Уэльсе, Австралия
Через глаза коренных народов: ищут услуги коренных народов в Австралии и Библиотеки университетов Новой Зеландии
А улица с двусторонним движением: сотрудничество и обмен информацией в академических кругах.Теоретически обоснованное сравнительное австралийско-вьетнамское исследование
г. использование коллекций цифровых изображений и социальных сетей среди Австралийские исторические общества
Что делает объект странным? Сбор и демонстрация ЛГБТ-историй в областные музеи и архивы
Где информация имеет первостепенное значение: смешанные методы, междисциплинарные расследование австралийских онлайн-инвесторов
авторство Понимание текстовое авторство в цифровой среде: уроки исторические перспективы
аутизм Информация потребности и поведение родителей детей с аутистическим спектром расстройства: отчеты родителей об их опыте и восприятии
автоэтнография Падение вместе — концептуальный документ о сложности информации взаимодействия и пробелы в исследованиях в эмпатической заботе об умирающих
г. информационное поведение пешеходов Pacific Crest Trail: Автоэтнографическое пилотное исследование
автомат классификация Классификация и управление информацией для патентных коллекций: литература обзор и некоторые вопросы исследования
избежание информации А Типология поиска, сканирования и избегания информации о раке: результаты исследовательского кластерного анализа

банан фермеры г. информационное поведение фермеров, выращивающих бананы в Уганде, в контексте совместное развитие коммуникации
банки см. финансовый услуги
Бейтс, Марсия Дж. Замки и перевернутые замки: работа Марсии Дж. Бейтс
библиографический базы данных Покрытие социальных наук Испании

Руководство для авторов — Internet Interventions

перейти к содержанию
  • О Эльзевире
    • О нас
    • Elsevier Connect
    • Карьера
  • Продукты и решения
    • Решения НИОКР
    • Клинические решения
    • Исследовательские платформы
    • Исследовательский интеллект
    • Образование

Что такое исследования — определение, типы, методы и примеры

Что такое исследования: определение

Тщательное рассмотрение исследования, касающегося конкретного беспокойства или проблемы, с использованием научных методов.По словам американского социолога Эрла Роберта Бэбби, «Исследование — это систематическое исследование для описания, объяснения, предсказания и контроля наблюдаемого явления. В исследованиях используются индуктивные и дедуктивные методы ».

Индуктивные методы исследования используются для анализа наблюдаемого события. Дедуктивные методы используются для проверки наблюдаемого события. Индуктивные подходы связаны с качественными исследованиями, а дедуктивные методы чаще связаны с количественными исследованиями.

Исследование проводится с целью выяснить:

  • Что на самом деле хотят узнать организации или предприятия?
  • Какие процессы необходимо соблюдать, чтобы реализовать идею?
  • Какие аргументы необходимо строить вокруг концепции?
  • Какие доказательства потребуются людям, чтобы поверить в идею или концепцию?

Характеристика исследования

  1. Для получения точных данных необходимо применять систематический подход.Правила и процедуры являются неотъемлемой частью процесса, который ставит цель. Исследователи должны придерживаться этических норм и кодекса поведения, делая наблюдения или делая выводы.
  2. Исследования основаны на логических рассуждениях и включают как индуктивные, так и дедуктивные методы.
  3. Данные или знания, полученные в реальном времени на основе реальных наблюдений в естественных условиях.
  4. Все собранные данные подвергаются тщательному анализу, поэтому с ними не связаны аномалии.
  5. Исследования открывают путь для генерации новых вопросов. Существующие данные помогают создать больше возможностей для исследований.
  6. Исследования носят аналитический характер. Он использует все доступные данные, чтобы не было двусмысленности в выводах.
  7. Точность — один из важнейших аспектов исследования. Получаемая информация должна быть точной и соответствовать своему характеру. Например, лаборатории обеспечивают контролируемую среду для сбора данных. Точность измеряется используемыми инструментами, калибровкой инструментов или инструментов и конечным результатом эксперимента.

Какие бывают виды исследований?

Типы методов исследования:

Фундаментальные исследования : Определение базового исследования — это данные, собранные для расширения знаний. Основная мотивация — расширение знаний. Это некоммерческое исследование, которое не способствует созданию или изобретению чего-либо. Например: эксперимент по установлению простого факта.

Прикладные исследования : Прикладные исследования сосредоточены на анализе и решении реальных проблем.К этому типу относится исследование, которое помогает решать практические задачи с использованием научных методов. Исследования играют важную роль в решении вопросов, влияющих на общее благополучие людей. Например: найти конкретное лекарство от болезни.

Проблемно-ориентированное исследование : Как следует из названия, проблемно-ориентированное исследование проводится для понимания точной природы проблемы с целью поиска подходящих решений. Термин «проблема» относится к множественному выбору или проблемам при анализе ситуации.

Например, выручка автомобильной компании за последний год снизилась на 12%. Возможные причины: отсутствие оптимального производства, низкое качество продукта, отсутствие рекламы или экономических условий.

Исследование решения проблем : Этот тип исследования проводится компаниями, чтобы понять и решить свои собственные проблемы. Метод решения проблем использует прикладные исследования для поиска решений существующих проблем.

Качественное исследование esearch : Качественное исследование — это процесс исследования.Это помогает глубже понять проблемы или проблемы в их естественных условиях. Это нестатистический метод.

Качественное исследование во многом зависит от опыта исследователей и вопросов, используемых для проверки выборки. Размер выборки обычно ограничивается 6-10 людьми. Открытые вопросы задаются таким образом, чтобы стимулировать ответы, ведущие к другому вопросу или группе вопросов. Задача открытых вопросов — собрать как можно больше информации из выборки.

Для качественного исследования используются следующие методы:

  1. Индивидуальное интервью
  2. Фокус-группы
  3. Этнографические исследования
  4. Анализ содержимого / текста
  5. Пример исследования

Подробнее: методы качественного исследования

Количественное исследование esearch : Качественное исследование — это структурированный способ сбора данных и их анализа для создания выводов. В отличие от качественных методов, этот метод использует вычислительный и статистический процесс для сбора и анализа данных.Количественные данные — это все о числах.

Количественные исследования охватывают большее количество людей — больше людей означает больше данных. Имея больше данных для анализа, вы можете получить более точные результаты. В этом методе используются закрытые вопросы, поскольку исследователи обычно стремятся собрать статистические данные.

Онлайн-опросы, анкеты и опросы — предпочтительные инструменты сбора данных, используемые в количественных исследованиях. Существуют различные методы развертывания опросов или анкет.

Онлайн-опросы позволяют создателям опросов охватить большое количество людей или меньшие фокус-группы для различных типов исследований, которые преследуют разные цели. Респонденты опроса могут получать опросы по мобильным телефонам, по электронной почте или просто использовать Интернет для доступа к опросам.

Подробнее: что такое количественное исследование?

Какова цель Исследования ?

Есть три цели исследования:

  1. Исследовательский: Как следует из названия, поисковое исследование проводится для изучения группы вопросов.Ответы и аналитика могут не дать окончательного решения предполагаемой проблемы. Он проводится для решения новых проблемных областей, которые ранее не исследовались. Этот исследовательский процесс закладывает основу для более убедительных исследований и сбора данных.
  2. Descriptive: Описательные исследования фокусируются на расширении знаний по текущим вопросам посредством процесса сбора данных. Описательные исследования используются для описания поведения выборочной совокупности. В описательном исследовании для проведения исследования требуется только одна переменная.Три основные цели описательного исследования — описание, объяснение и подтверждение результатов. Например, исследование, проведенное с целью выяснить, обладают ли руководители высшего звена в 21 веке моральным правом на получение огромной суммы денег от прибыли компании.
  3. Пояснительная информация: Разъяснительное исследование или причинно-следственное исследование проводится для понимания влияния определенных изменений в существующих стандартных процедурах. Проведение экспериментов — самая популярная форма случайных исследований.Например, исследование, посвященное влиянию ребрендинга на лояльность клиентов.

Чтобы понять характеристики дизайна исследования с использованием исследовательских целей, вот сравнительный анализ:

Поисковые исследования Описательные исследования Пояснительные исследования
Использованный исследовательский подход неструктурированный Структурированный Высокоструктурированный
Исследования, проведенные до Задаем исследовательские вопросы Задаем исследовательские вопросы Используя исследовательские гипотезы.
Когда проводится? Ранние стадии принятия решений Более поздние этапы принятия решения Более поздние этапы принятия решения

Подробнее: первичное исследование — примеры, методы и цель

Метод исследования определяется как инструменты или инструменты, используемые для достижения целей и свойств исследования. Думайте о методологии как о систематическом процессе, в котором будут использоваться инструменты или инструменты.Инструмент бесполезен, если он используется неэффективно.

Исследование начинается с того, что задают правильные вопросы и выбирают подходящий метод исследования проблемы. Собрав ответы на свои вопросы, вы можете проанализировать полученные данные или наблюдения, чтобы сделать соответствующие выводы.

Что касается клиентов и исследований рынка, то чем тщательнее вы зададите вопросы, тем лучше. Тщательно собирая данные от клиентов с помощью опросов и анкет, вы получаете важную информацию о восприятии бренда и потребностях в продуктах.Вы можете использовать эти данные, чтобы принимать разумные решения о своих маркетинговых стратегиях для эффективного позиционирования вашего бизнеса.

Виды методов исследования и пример исследования

Методы исследования подразделяются на качественные и количественные.

Оба метода имеют отличительные свойства и методы сбора данных.

Качественные методы

Качественное исследование — это метод сбора данных с использованием диалоговых методов.Участникам задаются открытые вопросы. Собранные ответы, по сути, не являются числовыми. Этот метод не только помогает исследователю понять, что думают участники, но и почему они думают определенным образом.

Типы качественных методов включают:

  • Индивидуальное интервью: Это интервью проводится с одним участником в определенный момент времени. Индивидуальные собеседования требуют, чтобы исследователь заранее подготовил вопросы. Исследователь задает участнику только самые важные вопросы.Этот тип интервью длится от 20 минут до получаса. За это время исследователь собирает как можно больше значимых ответов от участников, чтобы сделать выводы.
  • Фокус-группы: Фокус-группы — это небольшие группы, состоящие примерно из 6-10 участников, которые обычно являются экспертами в предметной области. К фокус-группе назначается модератор, который способствует обсуждению между членами группы. Важную роль играет опыт модератора в проведении фокус-группы.Опытный модератор может проверить участников, задав правильные вопросы, которые помогут им собрать значительный объем информации, связанной с исследованием.
  • Этнографическое исследование: Этнографическое исследование — это углубленная форма исследования, при которой люди наблюдаются в их естественной среде без этого метода. Этот метод является востребованным из-за необходимости проникновения исследователя в естественную среду других людей. Географическое положение также может быть ограничением. Вместо того, чтобы проводить интервью, исследователь переживает обычную обстановку и повседневную жизнь группы людей.
  • Анализ текста: Анализ текста немного отличается от других качественных методов, поскольку он используется для анализа социальных конструкций путем декодирования слов с помощью любой доступной формы документации. Исследователь изучает и понимает контекст, в котором написаны документы, а затем пытается сделать из этого содержательные выводы. Сегодня исследователи следят за деятельностью в социальных сетях, чтобы попытаться понять шаблоны мыслей.
  • Пример из практики: Пример из практики используется для изучения организации или юридического лица.Этот метод является одним из наиболее ценных вариантов для современных исследований. Этот тип исследований используется в таких областях, как сектор образования, философские исследования и психологические исследования. Этот метод предполагает глубокое погружение в текущие исследования и сбор данных.

Количественный Исследования Методы

Количественные методы имеют дело с числами и измеримыми формами. Он использует систематический способ исследования событий или данных. Он используется для ответа на вопросы с точки зрения обоснования отношений с измеримыми переменными для объяснения, прогнозирования или контроля явления.

Исследователи часто используют три метода:

  • Опросное исследование — Конечная цель опросного исследования — узнать о большой популяции с помощью опроса. Сегодня онлайн-опросы популярны, поскольку они удобны и могут быть отправлены по электронной почте или размещены в Интернете. В этом методе исследователь составляет опрос, включающий наиболее актуальные вопросы, и распространяет опрос. Получив ответы, исследователь суммирует их, чтобы свести в таблицу значимые выводы и данные.
  • Описательное исследование — Описательное исследование — это метод, который определяет характеристики наблюдаемого явления и собирает дополнительную информацию. Этот метод разработан для систематического и точного изображения участников. Проще говоря, дескриптивное исследование — это описание явления, его наблюдение и выводы из него.
  • Корреляционное исследование — Корреляционное исследование исследует взаимосвязь между двумя или более переменными. Представьте, что исследователь изучает корреляцию между раком и замужними женщинами. Замужние женщины имеют отрицательную корреляцию с раком.В этом примере есть две переменные: рак и замужние женщины. Когда мы говорим об отрицательной корреляции, это означает, что у замужних женщин меньше шансов заболеть раком. Однако это не означает, что брак напрямую помогает избежать рака.

Определение методологии исследования

Чтобы выбрать подходящие типы исследования, необходимо четко обозначить цели. Некоторые цели, которые следует учитывать для вашего бизнеса, включают:

  • Узнайте потребности своих клиентов.
  • Знайте их предпочтения и понимайте, что для них важно.
  • Найдите подходящий способ познакомить клиентов с вашими продуктами и услугами.
  • Найдите способы улучшить свои продукты или услуги в соответствии с потребностями ваших клиентов.

Определив, что вам нужно знать, вы должны спросить, какие методы исследования предложат вам эту информацию.

Организуйте свои вопросы в рамках семи маркетинговых составляющих, которые влияют на вашу компанию — продукт, цена, продвижение, место, люди, процессы и физические испытания.

Хорошо организованный процесс исследования клиентов дает достоверные, точные, надежные, своевременные и полные результаты. Результаты, которые точно отражают мнения и потребности ваших клиентов, помогут вам увеличить продажи и улучшить вашу деятельность. Чтобы получить результаты, вам необходимо установить и следовать процессам, которые вы подробно определили для своей организации:

Ставьте цели

Обдумайте цели клиента и определите те, которые соответствуют вашим.Убедитесь, что вы ставите разумные цели и задачи. Не предполагайте результатов ваших опросов.

Спланируйте свое исследование

Хорошее планирование позволяет использовать творческий и логический подход к выбору методов, позволяющих собрать наиболее точную информацию. На ваш план будут влиять тип и сложность необходимой вам информации, навыки вашей группы по исследованию рынка и то, как скоро вам понадобится информация. Ваш бюджет также играет большую роль в вашей способности собирать данные.

Соберите и сопоставьте свои результаты

Составьте список того, как вы собираетесь проводить исследование, данные, которые вам нужно собрать, и методы сбора. Это поможет вам отслеживать свои процессы и понимать свои выводы. Это также позволит вам убедиться, что ваше исследование точно отражает мнение ваших клиентов и вашего рынка. Создайте таблицу записей с:

  • Исследования потребителей
  • Необходимые данные
  • Методы сбора данных
  • Действия, которые необходимо выполнить для анализа данных.

Помните, исследования ценны и полезны только тогда, когда они достоверны, точны и надежны. Опасно полагаться на несовершенные исследования. Неправильные результаты могут привести к оттоку клиентов и снижению продаж.

Важно получить информацию о том, как проводился сбор информации о клиентах, и убедиться, что ваши данные:

  • Действителен — обоснован, логичен, строг и беспристрастен.
  • Точно — без ошибок и с необходимыми деталями.
  • Надежный — это может быть воспроизведено другими людьми, которые исследуют таким же образом.
  • Своевременно — текущие и собранные в установленный срок.
  • Complete — включает все данные, необходимые для поддержки ваших бизнес-решений.

Проанализируйте и поймите свое исследование

Анализ данных может варьироваться от простых и прямых шагов до технических и сложных процессов. Примите подход и выберите метод анализа данных, основанный на методах, которые вы использовали.

Держите выводы наготове

Выберите электронную таблицу, которая позволит вам легко вводить данные. Если у вас нет большого количества данных, вы сможете управлять ими с помощью основных инструментов, доступных в программном обеспечении для съемки. Если вы собрали более полные и сложные данные, возможно, вам придется подумать об использовании определенных программ или инструментов, которые помогут вам управлять своими данными.

Просмотрите и интерпретируйте информацию, чтобы сделать выводы

После того, как вы собрали все данные, вы можете сканировать свою информацию и интерпретировать ее, чтобы делать выводы и принимать обоснованные решения.Вам следует просмотреть данные, а затем:

  • Определите основные тенденции и проблемы, возможности и проблемы, которые вы наблюдаете. Напишите предложение с описанием каждого из них.
  • Следите за частотой, с которой появляется каждый из основных выводов.
  • Составьте список ваших выводов от наиболее распространенных до наименее распространенных.
  • Оцените список сильных и слабых сторон, возможностей и угроз, выявленных в ходе SWOT-анализа.
  • Подготовьте выводы и рекомендации по вашему исследованию.

Просмотрите свои цели, прежде чем делать какие-либо выводы о своем исследовании. Помните, как процесс, который вы завершили, и собранные данные помогут ответить на ваши вопросы. Спросите себя, помогает ли то, что выявило ваше исследование, сделать ваши выводы и рекомендации. Просмотрите свои выводы и, исходя из того, что вы знаете сейчас:

Выберите несколько стратегий, которые помогут вам улучшить ваш бизнес

  • Действуйте в соответствии со своими стратегиями
  • Найдите пробелы в информации и при необходимости рассмотрите возможность проведения дополнительных исследований
  • Запланируйте обзор результатов исследования и рассмотрите эффективные стратегии анализа и анализа результатов для интерпретации.

Предикация. Средство выражения сказуемости — Мегаобучалка

Предложение характеризуется особой категорией сказуемости, которая устанавливает отношение названной информации к реальной жизни. => Предикация — это отношение информации, выраженной в высказывании, к реальности; это соотношение между высказыванием и реальностью.

И сказуемое, и подлежащее важны для структуры предложения, их отношения взаимны.Подлежащее доминирует над сказуемым, определяя личность и число, а сказуемое доминирует над предметом, приписывая ему какое-то действие или качество.

Но основным средством выражения сказуемого является сказуемое , потому что центром сказуемого в предложении является конечный глагол. Он выражает предикацию в основном через формы времени и настроения (а также через личность и число — см .выше)

— События представлены как факты, имевшие место в прошлом: Она улыбнулась, когда Том вернулся в комнату.

— События представлены как факты, происходящие в настоящее время: Я путешествую с парой друзей. Они все еще собирают вещи.

— События представлены не как факты, как что-то воображаемое: / интересно, насколько другой была бы моя жизнь, если бы я вырос где-нибудь еще.

Но это не единственное средство. Предикация выражается не только формами конечного глагола, которые связывают его с подлежащим, но и всеми другими формами и элементами предложения, которые устанавливают связь между данной информацией и реальностью:

— интонация (универсальное средство)

— порядок слов

— разные функциональные слова

19.Предрасположенность. Средство выражения предикации .

Предикация — это выражение отношения предложения к действительности или выражение отношения между содержанием предложения (именительная и предикативная стороны) и действительностью ( Прибыл доктор ). Предикативная связь слов, объединяющая подлежащее и сказуемое, составляет основу предложения. Субъект доминирует над предикатом, определяющим человека предикации, в то время как предикат доминирует над субъектом, определяя событие предиката и приписывая предикативному человеку какое-то действие, состояние или качество.Доминирование предмета раскрывается рефлексивным характером словесной категории лиц и существительных. (Я иду , он идет ). Предикат доминирует над подлежащим, когда предложение трансформируется в существительную-фразу, помещая сказуемое в позицию заглавного слова ( прибыл поезд — прибытие поезда ).

Существуют предикативные группы, образованные сочетанием нефинитной глагольной формы с существенным элементом (i n конечный (предикативное лицо выражается предложным для фразы), герундий (притяжательным или объективным). форма субстантивного), причастных (по именительной (общей) форме субстантивного) конструкций: Ученик знает свою ошибку -> , чтобы ученик знал — > ученик (и) знает его ошибка -> ученик зная свою ошибку).

СИНТАКТИЧЕСКИЕ ОТНОШЕНИЯ между Ws: координация, подчинение, взаимозависимость, кумуляция, сопоставление. Средства выражения отношений Syn: согласие, управление, порядок слов, служебные слова, скобки.

Координация — отношение равенства. Мы находим эту связь между однородными (-однородными) членами S.

# Туда пошли Петр и Мария (подчиняются одному сказуемому)

Петр пошел туда один, а возвратил с опозданием (предикаты к тому же поддельному)

Мы слышали их веселый, счастливый смех (атрибуты того же существительного)

Подчинение — отношение неравенства между составляющими.В этом случае у нас есть одно заглавное слово и модификаторы к нему. Атрибуты, объекты и модификаторы adv находятся в подчиненном положении по отношению к другим компонентам S.



# Я слышал ее счастливый смех (смех — главное слово)

Она была счастливо смеялась (заглавное слово — смеялась)

Она посмотрела на меня внимательно (заглавное слово — посмотрела)

Накопление

# Его новое пальто; Некоторые старые буквы

его и новые (некоторые и старые) подчинены пальто (буквы). При этом «его и новое» определенным образом связаны друг с другом. Их положение фиксировано и не может быть изменено.

# Отдать кому-л. Что-л.

Отдать что-л. В сб

Аппозиция

# Королева Мэри

Обе буквы W являются головами и обе являются атрибутами. Но буквы W в приложении идентичны по ссылке. У них один и тот же референт. Обычно два существительных имеют разные обозначения для одного и того же предмета или человека.

# Mr.Что-то доктор

English — это аналитический L. Есть несколько способов сформировать Gr Str-re S:

Соглашение является одним из основных средств (вместе с порядком слов), чтобы показать связь между подлежащим и сказуемым. По англ. Договор может быть формальным, или условным. В большинстве случаев это формально: subj и сказуемое согласуются по форме — по количеству, а иногда и лично.

# Я здесь

СТУЛЬЕВ несколько

БЫЛА ЖЕНЩИНА с детьми

Однако в некоторых случаях соглашение является условным и изменяется для одного и того же слова в соответствии с понятием, которое оно выражает (один объект — более одного объекта).

# Хлеб и масло — важные продукты питания

Хлеб с маслом на тарелке.

Функция Ws — служат разъемами между основными. Эти зависимые буквы W — это предлоги и союзы. Предлоги действуют в пределах одного предложения, союзы могут соединять Ws, придаточные предложения, отдельные Ss. Таким образом, предлоги и союзы выражают отношения, но никогда не обозначают объекты и понятия. Однако отношения, которые они обозначают, не являются чисто формальными b / c, каждый предлог и союз имеет определенное лексическое значение.

Для них характерно нечеткое значение: как lex, так и грамматическое.

# Мальчик видел это в книге.

Они не выполняют никакой синтаксической функции, они выражают отношения между прочим. Ws в S.

Их использование иногда обязательно

# зависит от

Они никогда не используются по отдельности в Ss без условного Ws

# Мэри пришла домой вчера вечером.

Координация использует союзы, а кумуляция использует несколько функций Ws.

Круглая скобка — либо показывает отношение говорящего к мысли, выраженной в S, либо связывает данное S с другим, либо резюмирует сказанное в S. Это связано с остальной частью S скорее семантически или грамматически. К этому нельзя поставить никаких вопросов. Очень часто он отделен от остальной части S и, следовательно, часто отделяется от него запятыми или тире. Может быть выражено: модальных слов (действительно, конечно, на самом деле, действительно, обязательно, на самом деле), наречий, которые служат связками (во-первых, во-вторых, таким образом, наконец, следовательно, затем, во всяком случае, но все же) , предложных фраз, (одним словом, по правде, на мой взгляд, короче, на руку), инфинитивов и причастных фраз { конечно, честно говоря, для начала, вообще говоря, строго говоря ).

# Очевидно, он не был человеком, это должно быть какое-то другое животное.

Кроме того, я хочу вернуться как можно скорее.

Честно говоря, я не хочу ему звонить.

Порядок слов — поскольку англ. W почти не имеют флексий и их отношение друг к другу выражается их местом в S, а не их формой, порядок слов в англ. Фиксирован. Мы не можем менять положение различных частей буквы S по желанию, особенно. субъект и объект.

Синтаксические отношения между словами в предложении: согласованность, подчиненность, взаимозависимость, кумуляция, сопоставление. Средства выражения синтаксических отношений: согласие, управление, порядок слов, служебные слова, скобки.

Грамматически слова объединяются в предложения на основе их семантики. Иногда лексическая связь между словами оказывается решающей для определения грамматической структуры предложения. м) Ее старшая сестра преподает английский язык .-по лексическому значению слов мы понимаем, что «учит», — это настоящее непрерывное. 2) Ее хобби — обучение английскому языку. — мы понимаем, что «is» — глагол-связь, «обучение» — герундий в функции предикатива, хотя оба выглядят одинаково. Традиционная грамматика распознала 2 типа отношений: согласования и подчинения . Координация подразумевает грамматическое равенство слов , соединенных вместе с помощью координирующих союзов #Jane & Bob.Сочетать можно только однородные члены предложения.

Подчинение подразумевает неравенство в грамматическом статусе слов, соединенных вместе. Основным является заглавное слово (~ его книга ).

Соглашение — подчиненное слово принимает форму, аналогичную слову, которому оно подчинено. Согласованность можно найти только в указательных местоимениях «это и то», , число которых совпадает со словом, которое они изменяют.Но другие лингвисты (Горрел, Лэрд): «Соглашение можно использовать в отношении слов, принадлежащих к разным группам слов. « His » согласуется с « всем » в « ». Когда каждый высказал свое мнение, комитет может решить «» (хотя в разговорной речи есть тенденция использовать «их»). Куирк, Гринбаум: например. Повредил себя в ногу — число, лицо и пол совпадают. Отношения между подлежащим и сказуемым — спорная проблема.Куирк, Палмер и другие интерпретируют эти отношения как согласие. Другие предполагают, что согласование относится к уровню групп слов, которые образуют части предложения, в то время как n + конечное v образуют предложение и не могут рассматриваться как группа слов. Свит, Круисинга и другие называют «ан + конечное v» предложением, чтобы отличить его от группы слов. Смирницкий и Бархударов называют эти синтаксические отношения «предикативными отношениями». Мнение 2 и лучше.

Правительство — это вид отношения, в котором форма подчиненного слова определяется заглавным словом, но отличается от заглавного слова.В современном английском языке сфера управления очень ограничена. Предикатный глагол управляет объектом, выраженным личным местоимением, поскольку здесь используется форма объективного падежа ( me, him и т. Д.). Понятие правительства также может применяться к использованию родительного падежа.

Современный английский использует аналитические средства для выявления подчиненности в предложениях — слов и функциональные слова , из которых предлоги являются наиболее важными. Порядок слов во фразах относится к определенному месту заглавного и подчиненного слова; в предложениях важен порядок частей предложений.Союзы играют большую роль, например, копулятивных союзов (и, ни… ни и т.д.) используются для перечисления событий; дизъюнктивное союзов (или, иначе, или… или и т. Д.) Используются для обозначения выбора между словами или событиями; и противостоящие союзы (но, тем не менее, тем не менее, и т.д.) используются для обозначения оппозиции или противоречия.

Не все отношения можно назвать согласованными или подчиненными. Между подлежащим и предикатом — взаимные отношения: субъект доминирует над предикатом, определяющим личность (Я.Он читает), в то же время сказуемое доминирует над подлежащим, приписывая ему какое-то действие (Он пошел), или состояние (Он женат), или качество (Он умен). Датский лингвист Ельмслев ввел термин « взаимозависимость» чтобы указать на это дерьмо.

Другой тип синтаксических отношений — кумуляция . Например. 1) это новое пальто, 2) какие-то старые буквы. В 1) his & new подчинены пальто (они являются атрибутами существительного). Во 2) то же самое. При этом его & новое или некоторые & старые связаны между собой: их положение фиксировано (не могу сказать новое его пальто).Мы также находим отношения кумуляции между существительными в слове «написать Иоанну письмо» — тот факт, что существует синтаксическая связь между «Иоанном» и «буквой», становится ясным, если мы изменим их расположение с помощью предлога (to writer a письмо Джону).

В последнее время лингвисты выделяют приложение как особый тип отношений между компонентами словесной группы. Гл. Хокетт: например, Королева Мария — оба слова — головы, и оба — атрибуты. Таким образом, это не подчинение.При согласовании составляющие имеют разные референты, в то время как слова в приложении идентичны в референции: обычно два существительных дают разные обозначения для одного и того же предмета или человека ( Мистер Смит, доктор — титул, профессия, социальное положение и т.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *