МедиаВики как исследовательская среда
Содержание |
Изучение сетевых феноменов
Сеть, как отдельная категория информатики, обозначает нестабильное, развивающееся множество различных элементов, разными способами связанных между собой. Множество различных компьютеров и разнообразных электронных устройств, объединенных при помощи разнообразных связующих каналов, представляют впечатляющий, но далеко не единственный пример сети. Изучение Сети как самостоятельного объекта исследования началось совсем недавно. Развитие компьютерных сетей стимулировало создание нового научного направления, которое в качестве своего основного предмета рассматривает сетевые феномены в различных областях человеческой деятельности. Интерес к сетевым феноменам был продиктован, прежде всего, развитием компьютерной сети Интернет. Дальнейший рост популярности сети был связан с созданием Всемирной Паутины – всемирной коллекции взаимосвязанных гипертекстовых документов. Можно утверждать, что сеть является, прежде всего, информационной категорией или, если пользоваться терминологией Ершова, натуральной сущностью информатики. Именно с развитием компьютерных технологий для такого сложного объекта как сеть были созданы адекватные вычислительные средства. Общие закономерности сетевых образований, методы их описания и анализа представлены в работах Ласло Барабаши (Barabasi A.-L., 2002).
Примеры сетей:
- компьютерная сеть Интернет;
- сети транспортных перевозок;
- сети поселений;
- сети киноактеров;
- сети научных публикаций;
- сети брачных объявлений;
- террористические сети;
- сети распространение инфекционных заболеваний;
- вирусные и спаммерские сети.
Оказалось, что все протекающие в сетях процессы, будь то процессы метаболизма, распространение инфекционных заболеваний, поведение групп людей и животных, развитие сети Интернет и сети Web-документов, имеют между собой много общего. Все перечисленные образования являются сетями, внутри которых работают общие принципы и стратегии. Известным феноменом определяющим формирование безмасштабных сетей является предпочтительное присоединение.
МедиаВики как сеть
Страницы МедиаВики формируют Scale-free network - безмаштабную сеть, где распределение связей узлов - степенное и основные свойства сети не зависят от размера сети. Социальные, коммуникационные сети, документы WWW, биологические и другие системы хорошо моделируются безмасштабными графами.
Правки статей
Феномен формирования сети за счет предпочтительного присоединения новых узлов к наиболее популярным узлам сети может быть продемонстрирован и на материалах самой летописи. Если мы рассмотрим частоту правок статей «Летописи», то увидим распределение соответствующее безмаштабной сети. Огромное количество статей с небольшим количеством правок и очень небольшое число популярных узлов.
Таблица и график на Гугл от 06.05.2007
Данные на 6 мая 2007 года
Распределение статей по числу ссылок
Тот же феномен предпочтительного присоединения к популярным узлам сети может быть продемонстрирован при сравнении числа обратных ссылок (backlinks), которые характеризуют каждую статью коллективного гипертекста (Рис. 3). Как показывает диаграмма – распределение обратных ссылок внутри гипертекста носит крайне неравномерный характер, свойственный безмаштабной сети – большинство статей связаны с очень не большим числом других документов и только небольшое количество статей действительно популярны и с ними связано множество других документов.
Используя записи и связи, существующие внутри базы данных коллективного гипертекста, мы можем анализировать вклад отдельных участников, динамику роста страниц, вклад отдельных категорий и т.д. Самое главное – мы можем вовлекать студентов в реальную сетевую исследовательскую деятельность.
Программа Графвиз может быть использована не только для внедрения графических элементов внутрь текста статьи МедиаВики, но и для представления отношений между категориями в форме дерева категорий. Важно, что это полностью автоматизированная процедура и расширение МедиаВики по представлению графических связей между категориями выполняет все необходимые действия, используя данные, лежащие в пространстве имен-категорий. Программа самостоятельно представляет на экране отношения между категориями. Благодаря программе GraphViz мы можем увидеть все категории и кластеры категорий, существующие в МедиаВики в настоящий момент. Например, на следующем рисунке программа графвиз представляет категории, которые входят в категорию «История» и категории верхнего уровня, в которую авторы включают категорию «История».
см. Категория:История
На следующем рисунке представлена категория «Информатика».
см. Категория:Информатика
Количество статей, авторов и файлов
Для наблюдения динамики роста числа авторов и объектов внутри вики-сетей мы воспользовались тем, что MediaWiki отдает в открытый доступ свою статистику. И если мы обратимся к конкретной вики с запросом, то она нам некоторые данные о себя отдаст — количество авторов, число страниц и т. д. Например, на запрос в строке броузера:
http://letopisi.ru/index.php/Special:Statistics?action=raw
Мы получаем страницу с данными:
total=155844;good=39806;views=28670594;edits=714795;users=38594;activeusers=209;admins=19;images=65180;jobs=0
Это динамические данные и они постоянно обновляются. Для обработки и представления данных использовались таблицы Google. У сетевой электронной таблицы есть неочевидное преимущество — данные могут поступать в нее из внешних источников. Нам достаточно определить источник и форму обработки и представления данных, а все дальнейшие действия будет выполнять наша таблица. Например, если мы хотим исследовать динамику развития российских образовательных площадок, основанных на технологии MediaWiki, то нам предстоит утомительная работа по еженедельному сбору статистических данных с 10–15 площадок. С использованием электронных таблиц Google эта работа может быть делегирована электронной таблице. Достаточно указать в ячейках электронной таблицы:
=ImportData("http://letopisi.ru/index.php/Special:Statistics?action=raw") для Летописи
Или
=ImportData("http://resource.ippk.ru/mediawiki/index.php/Special:Statistics?action=raw") для ХабаВики
Динамические данные о количестве авторов, статей, и файлов в российских образовательных вики сетях доступны по адресу:
http://spreadsheets.google.com/pub?key=pQ7RVZh28cQfm90J9wjLSIg&output=html
Связи между авторами и статьями
Для каждой вики-статьи хранится ее полная история, в которой указано время всех изменений, имя участника внесшего редактирования и количество байтов, которые он добавил в файл статьи. Стандартная строка в истории страницы выглядит следующим образом:
- (текущ.) (пред.) 22:11, 13 марта 2010 Имя Фамилия (Обсуждение | вклад | заблокировать) (10 636 байт) (отменить)
Здесь можно просто загрузить данные и получить готовый граф.
Литература
- Roth, C. (2007). Viable wikis: struggle for life in the wikisphere. Proceedings of the 3rd international symposium on Wikis - WikiSym 2007, 119-124, New York, NY, USA. ACM.
- C. Roth, D. Taraborelli, and N. Gilbert. Measuring wiki viability. An empirical assessment of the social dynamics of a large sample of wikis. In Proceedings of the 4th International Symposium on Wikis – WikiSym2008, New York, NY, USA, 2008. ACM. (PDF, 311KB) ↩