Новый масштаб науки

Организация поиска знаний в пиринговой манере, конечно, не является чем-то новым в науке. Однако последние исследования показывают, что рост сотрудничества имеет взрывной характер. Одно исследование, проведенное Институтом Санта-Фе (Santa Fe Institute), показало, что средний физик-исследователь высоких энергий имеет в своей лаборатории около 173 сотрудников. По результатам того же исследования, среднее количество авторов научной статьи удвоилось и утроилось во многих областях. Все большее количество статей цитируется от двухсот до пятисот раз, а самая высокорейтинговая публикация имеет индекс цитирования 1,681.

Стабильно растет и среднее количество авторов научных работ. За последние шестьдесят лет оно увеличилось примерно от 1 до 2.22 в области компьютерных наук, 2.66 в области физики твердых тел, 3.35 в области астрофизики, 3.75 в области биомедицины и 8.96 в области ядерной физики больших энергий. Количество ссылок на работы других авторов колеблется между 200 и 500, а рекордное количество ссылок в одной работе составляло поразительные 1,681 ссылку. См. M. E. J. Newman, "Who is the best connected scientist? A study of scientific co-authorship networks," Working Paper, Santa Fe Institute (2000 г.).

Агрегаторы знаний должны принять новые условия, например, рост использования баз данных в Интернете и все большее развитие масштабных совместных проектов в Сети. Рассмотрим в качестве примера эксперимент Large Hadron Collider (LHC), проведенный Европейским советом по ядерным исследованиям (European Council for Nuclear Research (CERN)). Ожидается, что с 2007 года крупнейший в мире ускоритель частиц начнет производить петабайты сырых данных в год, данных, которые будут предварительно обработаны, структурированы и проанализированы командами из тысяч физиков по всему миру (заметьте, что петабайт - это квадрильон байтов, другими словами, очень много данных!). В ходе этого процесса данных будет создано еще больше. Появится необходимость управлять сотнями миллионов файлов, что включает их размещение в сотнях институтов.

Помимо этого существует еще Earth System Grid (ESG), опытная таблица данных, включающая возможности суперкомпьютера с масштабными серверами для сохранения и анализа данных, созданная для ученых, занимающихся совместными исследованиями климатических явлений. Будучи когда-то единственным в своем роде, данный проект создает виртуальное пространство для сотрудничества, которое объединяет распределенные центры, пользователей, модели и данные на территории США. Данные для этого проекта собираются из самых разных источников, включая наземные и спутниковые датчики, компьютерное моделирование, а также тысячи независимых исследователей, размещающих в системе свои файлы. Специальные программы, работающие в таблице, ускорят построение климатических моделей в сотни раз и позволят ученым выполнять долгосрочное моделирование высокого разрешения, используя распределенные системы данных сообщества. Основатели ESG предполагают, что проект приведет к революции в нашем понимании глобальных изменений климата.

Такие проекты вдохновляют исследователей во многих областях знаний на генерирование изменений, которые уже замещают такие дисциплины, как биоинформатика и физика частиц высоких энергий. Возьмите, например, астрономию. Редакторы журнала Nature недавно заметили: "Десятилетие назад астрономия во многом касалась групп, хранящих результаты своих наблюдений в секрете и публикующих частные выводы. Сейчас данная наука организована вокруг больших объемов данных, которыми обмениваются, которые кодируют и которые становятся доступны общественности".

В рамках проекта Sloan Digital Sky Survey, сотни исследователей из пятидесяти организаций, разбросанных по всему миру, могут использовать потенциал десяти тысяч компьютеров, а объем данных для исследования миллионов планет и звезд составляет более пятнадцати терабайтов. Свободный и открытый обмен информацией и идеями даст ученым невиданную ранее картину вселенной, причем данные могут быть получены в сотни раз быстрее, чем при использовании традиционных методов. См."Let data speak to data," Nature, том 438, номер 531 (1 декабря 2005 г.).

По мере того, как масштабные научные совместные проекты становятся нормой, ученые больше полагаются на распределенные методы сбора данных, проверяя точность открытий, тестируя гипотезы не только для ускорения работы, но и для повышения достоверности самих научных знаний. Быстрое, повторяющееся раскрытие информации привлечет намного большую часть научного сообщества к пиринговому процессу. Результаты будут проверены сотнями участников сообщества в один момент, а не пятеркой анонимных рецензентов чуть ли не через год. Это, в результате, позволит новым знаниям быстрее поступать к практикам и предпринимателям.

В быстроразвивающихся дисциплинах, например, в физике частиц высоких энергий и биоинформатике, этот совместный метод сбора и оценки публикаций уже становится реальностью. В 1991 году Пол Джинспарг (Paul Ginsparg) основал arXiv - общественный сервер, на котором физики могли размещать цифровые копии своих рукописей до публикации. Начав жизнь как механизм для обмена допечатными текстами в теоретической физике, ресурс быстро стал главной библиотекой для большой части исследовательской литературы по физике, компьютерным наукам, астрономии, и многим математическим дисциплинам.

"Изначально я ожидал около ста поступлений в год от двух сотен людей в одной узкой области, на которую первоначально ориентировался", - объясняет Джинспарг, - "Но с первого дня ежедневно поступало множество рукописей и к концу года подключилось несколько тысяч человек". Сегодня более половины всех исследовательских публикаций по физике размещается на этом ресурсе. Они продолжают поступать со скоростью около 4,5 тысяч в месяц. Пользователи могут даже получать RSS-потоки, которые сообщают им о новых публикациях в их области.

Цит. по "From the Los Alamos Preprint Archive to the arXiv: An Interview with Paul Ginsparg," Science Editor 25, номер 2 (март-апрель 2002 г.), стр. 43.

Доктор Пол Кемп (Dr. Paul Camp) из колледжа Спелман (Spelman College), активный пользователь сайта, говорит, что "[arXiv] намного быстрее традиционного издательского цикла". Однако самоорганизующееся вокруг arXiv сообщество справляется с сохранением важных элементов пиринговой оценки публикаций. "Мы хотим получить ценную, прошедшую пиринговое рецензирование информацию", - говорит Кемп, - "Какая разница, получили ли мы ее от издателя, который организовал стороннее рецензирование публикации, или с помощью прямой обратной связи от сообщества людей, заинтересованных в предмете, по электронной почте в ответ на предпечатный текст на arXiv? Результат один и тот же".

Цит. по "Royal Society: Rent-seeking is more important than science," Boing Boing (25 ноября 2005 г.) (http://www.boingboing.net/2005/11/25/royal_society_rentse.html).

Недавние попытки, такие как Google Book Search, Public Library of Science и World Digital Library сейчас строятся на концепции открытого доступа. Эти проекты собирают огромные объемы научных исследований и человеческой культуры в легкодоступных формах. Результаты новых исследований, которые могли бы быть доступны только богатым подписчикам, сейчас широко доступны на бесплатной основе для изучения и исследований. Более старые источники, которые при другом сценарии валялись бы в пыльных архивах, сейчас, в цифровом формате, получат новую жизнь и новых читателей.

Полностью укомплектованные, открытые библиотеки смогут предоставить беспрецедентный доступ к человеческим знаниям. Улучшенный доступ к знаниям, в результате, поможет углубить и расширить научный прогресс, дав каждому - от школьника до предпринимателя - возможность использовать его результаты.