On-Line Библиотека www.XServer.ru - учебники, книги, статьи, документация, нормативная литература.
       Главная         В избранное         Контакты        Карта сайта   
    Навигация XServer.ru








 

История Интернета: первый поисковик в Сети

A.Kryvenia & Nika

В конце 80-х еще не было World Wide Web. В те времена информация передавалась с одного компьютера на другой по FTP, или протоколу передачи файлов (file transfer protocol). FTP - это текстовый предок Web. Обмен файлами представлял собой следующую процедуру: вы закачиваете имеющуюся у вас игрушку (например, в виде game.zip) на ftp-сервер, сообщаете друзьям по email'у о ftp-адресе, где вы игру оставили; друзья с помощью ftp-клиента обращаются по указанному адресу к ftp-серверу, получают с него список файлов в данной директории и, наконец-то, закачивают game.zip себе на локальный компьютер.

Просто, да? Тут выявляется еще одна проблема: не знающий адреса game.zip игру никак не сможет найти, даже если очень захочет.
В те древние времена уже существовали конференции, новостные группы, и ftp-юзеры вывешивали объявления типа "пацаны, помогите плиз найти monro909.bmp!" или "где взять драйвера к...?".
Но потом появилась ARCHIE. И многое изменилось.
Для справки. ARCHIE - это база данных содержимого анонимных ftp-серверов. Программа для этой БД была написана Archie Group в университете McGill (Монреаль, Канада). ARCHIE хранит пути к файлам большого количества анонимных ftp-серверов.
Чтобы история ARCHIE попала к вам из первых рук, я написал три email'а: Алану Имтэджу (Alan Emtage), Питеру Дойчу (Peter Deutsch) и Биллу Хилану (Bill Heelan). Они - три создателя ARCHIE, та самая Archie Group. 
Ответил только один, зато очень качественно и скромно, извиняясь за долгий reply. Интервью (назавем это так) с Биллом Хиланом (Bill) я (Kolm) буду дополнять цитатами из статьи П.Дойча (Peter) "ARCHIE - эволюционная теория Дарвина" ( http://www.computer.org/internet/v4n1/deutsch.htm ).

История первого поискового сервиса

Kolm: Первое, что я бы хотел узнать, так это о том времени, когда Вы, Алан и Питер создали свою программу. Насколько я знаю, вы все были студентами университета McGill, что в Монреале.

Bill: На самом деле, Питер и Алан были аспирантами и одновременно работали на факультете компьютерных исследований. А я только работал на факультете, учась в Университете Консордии (то же в Монреале).
Peter: "Зерна ARHIE были засеяны в 1987 году, когда нас попросили изучить возможность подключения факультета компьютерных исследований к Интернету... Интернет почти целиком был населен инженерами и учеными-информатиками, и мы были уверены, что доступ туда окажется для нас очень полезным".

Kolm: Работа над ARHIE началась как какая-то программа университета или ваша личная инициатива?

Bill: В то время, когда она была создана, она не имела ничего общего с McGill, кроме того, что мы учились и/или работали там. Вскоре после ее создания, однако, она послужила тезисами диссертации Алана, в этом смысле ARCHIE имела отношение к университету.

Kolm: Расскажите теперь, пожалуйста, немного о самом процессе создания программы.

Bill: В то время, когда ARCHIE была впервые разработана, я работал сисадмином и программистом на кафедре компьютерных исследований (я никогда не был студентом университета McGill). Алан Имтэдж и Питер Дойч, как я уже говорил, были аспирантами и тоже работали на кафедре, а Питер ко всему был нашим боссом (т.е. старшим сисадмином). 
Питер часто помещал объявления в группах новостей о помощи в поисках различных программ, отвечал людям на их запросы, роясь в листингах ftp-серверов, которые хранились на наших компьютерах. (Я не помню, он или Алан обслуживали листинги.) Это была целая директория листингов с популярных в то время ftp-серверов. Люди начали спрашивать, где они сами могут найти эти списки. Вместо того, чтобы дать людям возможность иметь собственные копии, Питер решил предоставить сервис на основе telnet.
Peter: "В 1989 году была дюжина архивных мест в Интернете. Один из моих подчиненных, Алан Имсэдж, изучал расположение и содержание этих мест. Когда была необходима определенная информация, Алан, наша резидентская крыса, внедрялся в эти списки...
Информатика определена как "искусство снижения нажатий клавиш". Имтэдж написал простой сценарий, чтобы автоматизировать задачу внедрения в листинги на ftp-серверах, которые затем переносились в локальные файлы. А уже потом в локальных файлах осуществлялся быстрый поиск необходимой информации, поиск основывался на стандартной grep-команде Unix (команда поиска в файлах - kolm).
Сначала я упомянул свои возможности поиска файлов в Usenet и был завален просьбами людей ищущих информацию... Собранная Аланом информация была слишком объемной, чтобы распространяться каждому вопрошавшему, поэтому я решил организовать доступ к нашим данным на основе telnet. Я доверил это Алану и Биллу Хилану, другому члену моей группы. В этот момент ARCHIE родилась".
Bill: Я полагаю, я написал первую версию ARCHIE, которая просто позволяла людям входить в специальный аккаунт и указать в обычных выражения, что нужно найти. По существу, запускалась grep-комманда UNIX, которая работала с необработанными листингами с сайтов. Это стало достаточно популярно для того, чтобы вылиться во что-то большее.
Мы решили обработать листинги, привести данные к более эффективному представлению. Мы разбили данные на отдельные базы, одна из которых содержала только текстовые названия файлов; а другая - записи со ссылками на иерархические директории тысячи хостов; и еще одна, соединяющая первые две. Несмотря на это, поиск все еще производился линейно по именам файлов: от элемента к элементу. Но эта версия ARCHIE была эффективней предыдущей, так как поиск производился только по именам файлов, исключая множество существующих ранее повторов. Я верю, что эта версия послужила основой тезисов диссертации Алана.
Peter: "Началось с тридцати посещений в день, потом у нас было тридцать запросов в час, потом - в минуту... Трафик продолжал расти, в один прекрасный день половина трафика в сторону Монреаля направлялась уже на университетскую машину с ARCHIE. Тогда мы поняли: настало время придумать механизм управления ростом".
Bill: Со временем были сделаны многие доработки, однако, с моей точки зрения, следующая основная версия ARCHIE была интересна больше с технической стороны. Упомянутая выше база данных была заменена на другую, основанную на теории сжатого дерева (compressed tries, структура построения баз данных с цифровым ключом, предназначенным для организации и поиска данных - kolm), описанной в черновой версии докторских тезисов Хепинга Шанга (Heping Shang), в то время студента McGill. Это было осуществлено в компании Bunyip Information Systems, так называемой Archie Group, которая состояла из Биби Али (Bibi Ali), Сандро Маццукато (Sandro Mazzucato) и меня. (Bunyip был создан частично для получения дивидендов с ARCHIE.) Новая версия по существу создала полнотекстную базу данных вместо списка имен файлов и была значительно быстрее, чем раньше. В дополнение, второстепенные изменения позволили системе ARCHIE индексировать web-страницы. К сожалению, по различным причинам, работа над ARCHIE вскоре прекратилась, поэтому мы никогда не узнаем, как бы она соперничала с современными поисковыми web-системами. При дальнейшем развитии, нам казалось, что ARHIE запросто бы справилась.:)

Kolm: Значит вы работали над ARHIE ни где-нибудь в трейлере за 5 баксов в месяц, а сидя в кабинетах университета?

Bill: Да, вся работа над первой основной версией велась в McGill. Позже Питер и Алан перешли с кафедры компьютерных исследований в компьютерный центр, в то время как я остался там, где и был. Работа над ARCHIE в то время продолжалась. В конце концов Питер и Алан основали Bunyip Information Systems, с некоторыми инвестициями от McGill. Я присоединился к Bunyip вскоре после ее создания.

Kolm: С последовательностью создания и эволюцией идеи разобрались. Но все же, по Вашему, кто был непосредственным изобретателем, автором этой самой идеи?

Bill: Если нужно выделить одного человека, то я бы сказал, что это Питер. Я уверен, что это у него появилась идея создания аккаунта, для того чтобы другие могли осуществлять поиск в наших списках, т.е. Питер предложил идею предоставить поисковый сервис.

Kolm: Между прочим, интересно было бы услышать, на каких компьютерах Вы работали над ARCHIE?

Bill: Я не помню достаточно точно такие детали. Я думаю, что начальная работа в Школе информатики в McGill, возможно, была сделана на Sun 4/280 (одна из первых SPARC машин Sun), может быть даже 3/280 (ранние машины Motorola). Позже сервер Школы переместился на IBM RS6000 под AIX. После создания Bunyip, компьютерный центр McGill перешел на services.bunyip.com, также известный как archie.mcgill.ca. Я думаю, это были Sun Sparcstation 20, на операционных системах SunOS 4.x и AIX. Нам не очень нравилось работать с AIX и RS6000, да я и не думаю, что кому-то вообще нравилось когда-нибудь их поддерживать.
В McGill работа была сделана независимо от конфигурации доступных нам рабочих станций (например, Sun 4), в Bunyip мы работали на машинах подобных Sparcstation 1, 2 и 5. Ни McGill, ни Bunyip не могли себе позволить тратить много денег на дорогие компьютеры.

Чем занимаются в Америке бывшие аспиранты, ставшие серьезными программистами

Kolm: Теперь давайте поговорим о Вас. В целом, ARCHIE сделала Вас достаточно известным. В связи с этим хотелось бы знать, чем Вы занимаетесь сейчас? Над какими проектами трудитесь, что программируете?

Bill: Я не согласился бы с тем, что ARCHIE сделала меня известным. Да, услуга была популярной и известной в свое время, но рост Интернета изменяет взгляд на некоторые вещи очень быстро. Я могу только догадываться, как много людей стали пользоваться Интернетом с подачи ARCHIE, с тех времен, когда ARCHIE была в зените своей славы.
После McGill я пошел в Bunyip продолжать работу над ARCHIE и проработал там четыре или пять лет. После ухода из Bunyip я работал на несколько компаний, три с половиной года назад я устроился в Zero-Knowledge Systems ( http://www.zeroknowledge.com/ ). В ZKS я был в составе первой нанятой группы разработчиков и работал над серверным компонентом системы "Свободы" (Freedom system, об этой системе много пишут и у нас, например, в КГ ?45(337)'01 - kolm), работавшей под Linux и Solaris, также я работал над клиентскими библиотеками, работавшими в основном под Windows. В основном же я входил в группу безопасности, которая была ответственной за шифровальные аспекты программного обеспечения.
Основная сеть 'Свободы' анонимных прокси-серверов (AIP) недавно стала недоступной, но была создана новая услуга для ее замены, она называется WebSecure. (Посмотрите http://www.freedom.net/products/websecure/index.html?product=websecure,  если вам интересно.) В настоящее время над этой системой я и работаю.
Интересно, что в тех различных местах, где я работал, мне посчастливилось быть вместе с моими друзьями из McGill. Например, я начал работать в ZKS вместе с тремя людьми, с которыми я прежде работал либо в McGill, либо в Bunyip.

Вот и вся история одной программы, которая, по словам одного американского журналиста, "перевернула представления о поиске информации в Интернете". Пообщавшись с Биллом, я посожалел о том, что времена зарождения и начального развития Интернета прошли мимо нас. Ну, разве только слегка задели.



Литература по Internet