CLvsNEB

Центральный экономико-математический институт РАН по заказу Фонда развития интернет-инициатив (ФРИИ) представил отчёт о научно-исследовательской работе по теме «Разработка стратегии проекта «Общественное достояние» и оценка экономического эффекта её реализации», в котором эксперты ЦЭМИ РАН дают свою оценку крупнейшему российскому библиотечному проекту НЭБ, на который Минкультуры РФ потратило уже в общей сложности более миллиарда рублей (некоторое время назад мы также обращались к этой теме), и сравнивают его с КиберЛенинкой.

Развитие открытой науки привело к появлению огромного количества электронных библиотек, которые предоставляют открытый доступ к своему содержимому. Открытый доступ представляет собой большую ценность для пользователей, в то время как коммерческую ценность могут генерировать различные сервисы-надстройки над электронными библиотеками. Напротив, стремление ограничить доступ к публикациям и к заработку через платный доступ создаёт такие неудобства пользователям, что остаются лишь самые стойкие читатели. Невозможность пользоваться чужими результатами для развития знаний, безусловно, оказывает негативный эффект на скорость получения и качество научных результатов. Оценки показывают, что статьи в журналах с открытым доступом цитируются значительно чаще, чем те, которые можно найти только в библиотеках и закрытых коллекциях. Потребность в знаниях высока, и настоящий раздел иллюстрирует связь между механизмами доступа к информации и востребованностью её источников.

Национальная электронная библиотека – это проект, развиваемый Российской государственной библиотекой (РГБ). Краткий анализ описания проекта показывает, что цифровая версия НЭБ унаследовала от классической, «бумажной» версии РГБ некоторые черты, которые иначе, как атавизмами, назвать трудно. Концепция виртуальных читальных залов или выдача электронных книг оффлайн выглядят попыткой переноса технологий бумажной эпохи в электронный мир, где уже достаточно давно отработаны более эффективные (менее затратные) методы работы с информацией.

КиберЛенинка заявляет о себе следующим образом.

Zl_oIOX1hfg

Научная электронная библиотека «КиберЛенинка» несёт идею открытой науки в массы. Судя по баталиям в комментариях, которые сопровождают различные статьи основателей библиотеки Дмитрия Семячкина и Михаила Сергеева, открытый доступ к научным трудам — тема не менее дискуссионная и жаркая, чем веганство и квантовое бессмертие.

Ценность моделей доступа для пользователей

Для целей настоящего исследования представляют интерес два обстоятельства. Первое – это частный/государственный статус проекта. В то время как НЭБ – это проект государственного масштаба, заявляющий универсальное покрытие всех потребностей в чтении всех категорий граждан, КиберЛенинка является частной инициативой, работающей преимущественно (если не исключительно) с научной литературой. Второе обстоятельство – это тип доступа к публикуемому контенту. НЭБ заявляет поддержку как открытого доступа, так и доступа к контенту, защищённому авторским правом. КиберЛенинка поддерживает только модель открытого доступа.

Первое и второе обстоятельство тесно связаны. Если контент не «отягощён» никакими специальными обременениями, следовательно, проект создания и функционирования электронной библиотеки является более «лёгким», так как не содержит механизмов работы с обременениями. Реализация таких механизмов, по-видимому, является запретительным барьером для частных инициатив по созданию электронных библиотек, которые отказываются взаимодействовать со структурами, обеспечивающими защиту авторских прав. Причинами такого отказа является сложность, непрозрачность и, выражаясь техническим языком, отсутствие API – то есть, технического интерфейса – к механизмам учёта авторского прав и денежных выплат. Частным инициаторам остаётся два пути – либо работать со свободным контентом, либо становиться на путь «пиратства». В противоположность частной инициативе, государственные проекты могут работать только в легальных рамках с одной стороны, при этом обеспечивать общественные блага для всех категорий читателей, вне зависимости от закрытости контента (см. цели НЭБ, выше).

НЭБ реализует доступ как к защищённому авторским правом контенту, так и к свободному контенту. Для реализации доступа к защищённому авторским правом контенту используется специально написанное программное обеспечение, которое должно быть установлено на клиентском терминале (ПК, смартфон). Программное обеспечение, созданное для защиты, существенно ограничивает доступный пользователю набор привычных операций: разрешает просматривать документы с ограничением по количеству документов, просмотренных в единицу времени, без возможности печати, копирования или сохранения на устройство фрагментов документа, отказывается работать с некоторыми прикладными программами третьих фирм (в числе которых — Microsoft Office), и наконец, требует оффлайновой регистрации пользователя, хотя заплатить за услугу, уже после регистрации, можно онлайн. Доступ к открытому контенту, конечно, проще, но только в том случае, если пользователь прошел все муки доступа к защищённому контенту. Но и в случае, если читатель «просто ищет» текст по известным атрибутам с помощью универсальных поисковых систем, вероятность нахождения его в НЭБ невелика, из чего можно сделать вывод, что оформление контента в НЭБ не является дружелюбным по отношению к поисковым системам.

КиберЛенинка реализует доступ к открытому контенту. Из технических требований – наличие современного браузера. Контент специально погружается в мета-среду, эффективно взаимодействующую с краулерами Google и Яндекс, что даёт в руки пользователя мощный механизм поиска. Регистрация не требуется, хотя её наличие добавляет некоторые приятные и полезные функции (история чтения и т.п.).

Безусловно, анализ двух столь различных проектов цифровых библиотек не может быть полным, но исследование сознательно ограничивается двумя сравниваемыми параметрами. Параметр наличия свободного доступа к контенту или ограничения доступа к контенту имеет далеко идущие последствия, когда дело доходит до реализации UX (user experience). Реализация «запретительного» UХ-парадигмы сдерживания и ограничения доступа — порождает крайне неудобный UI (user interface). Крайне неудобный UI ведёт к тому, что человек отказывается его использовать. Смысл существования библиотеки, в условиях конкурентного окружения «пиратских» библиотек, практически исчезает.

В заключение посмотрим на плоды функционирования двух анализируемых библиотек, измерим KPI, которые Министерство культуры рекомендует использовать в своём документе «Модельный стандарт деятельности общедоступной библиотеки», Раздел 5.1.3. Предоставление библиотечных электронных ресурсов.

«Выданные электронные документы», с точки зрения web-технологий, не что иное, как различные показатели посещаемости сайта. С этой точки зрения, разница в посещаемости сайтов не оставляет никаких сомнений – см. Рисунки 1 и 2. КиберЛенинка на порядок (!) более популярна, чем нэб.рф.

Alexa: НЭБ
Рисунок 1. Индекс популярности нэб.рф. Глобальный и российский.

Alexa: КиберЛенинка
Рисунок 2. Индекс популярности cyberleninka.ru. Глобальный и российский.

Если углубиться в анализ конкретных данных потребления контента, то ситуация выглядит следующим образом.

Данные взяты из Яндекс.Метрика – КиберЛенинка, и на странице статистики НЭБ.

Таблица 1. Статистика просмотров объектов книговыдачи за девять месяцев 2015 г., шт.
Статистика просмотров объектов книговыдачи за девять месяцев 2015 г.
Источник: ЦЭМИ на основе данных Яндекс.Метрика – КиберЛенинка, сайт НЭБ

Статистика обращений к документам, за девять месяцев 2015 г.
Рисунок 3. Статистика обращений к документам, за девять месяцев 2015 г., шт.

Очевидно, что контент КиберЛенинки действительно востребован, что показывают сезонные колебания. При этом абсолютные цифры говорят сами за себя. Количество обращений к контенту КиберЛенинки существенно превышает количество обращений к НЭБ, несмотря на разницу в масштабах проектов.

В Таблице 1 и на Рисунке 3 присутствует отдельный столбец и соответствующий ему график, который показывает количество обращений к контенту из помещений РГБ. Это те книги, которые пришли почитать люди непосредственно в читальный зал. Фактически, это ничем не отличается от чтения бумажных книг, в читальном зале библиотеки. График показывает, что интерес к цифровым книгам «изнутри» библиотеки исчезающе мал, в сравнении с сетевым доступом к контенту «снаружи». Это ещё одна иллюстрация и ещё одно доказательство новой природы цифровой библиотеки, по отношению к традиционной библиотеке. Традиционная библиотека – обстановка медленного, вдумчивого выбора и чтения, запах пыли, клея и старины. Цифровая библиотека – первые строки в выдаче Google и мгновенное предоставление мультимедийного контента. Это романтическая дифференциация, однако ведёт за собой существенно разную инфраструктуру и специализацию провайдеров библиотечной услуги. Если Интернет в целом является своего рода конкурентом библиотечной деятельности, то библиотека может и должна являться, для пользователя, эффективным шлюзом качества контента – контента, который часто скрывается за защитой авторского права, а потому слабо доступен.

В основе деятельности библиотеки лежит принцип доступа к информации. В основе системы авторского права лежит принцип ограничения доступа к информации. Наилучшим способом защиты информации является отсутствие доступа к информации. Очевидно, требуется некоторый компромисс между «лёгкостью» доступа, с одной стороны, и обеспечением ограничительных правил, с другой стороны.

В случае с НЭБ мы имеем, практически, предельный случай реализации «запретительного» принципа доступа к информации. В UX оставлено чтение и исключены почти все остальные функции работы с информацией – копирование, запись или печать, распространение.

Воспользуемся формулой исчисления ценности информации:

Value = ContentValue + Discoverable + Available + Readable + Derivable + Shareable + Commercial — AccessCharges

ContentValue – первичная ценность контента. Информация изложена и инкапсулирована в некоторый контейнер, который предлагается читателю (лист, книга, файл).
Discoverable – информацию возможно найти.
Available – информация доступна для потребления.
Readable – в понятие «читаемость» вкладывается достаточно глубокий смысл. Информация может оказаться на языке, неизвестном читателю, документ может быть плохо отсканирован. Поэтому «читаемость» понимается как возможность декодировать и понять информацию потребителем.
Derivable [works] – возможность изменять, преобразовывать, развивать или перерабатывать части или целое, с целью получения производной информации. Нормативно может специально регулироваться: например, в Creative Commons за это свойство отвечает атрибут No Derivative Works. Термин derivative широко используется в финансах, а термин «производная» – в математике, но по смыслу данного анализа, в рамках данного текста используется термин «Производная» [работа].
Sharaeble – возможность передать копию оригинала и/или производную работу другому лицу.
Commercial – возможность извлечь коммерческую выгоду из использования оригинала информации или производной работы (Атрибут Creative Commons Non-Commercial).

На все свойства налагается временной фактор – если информация не найдена в течение разумного и приемлемого, для ищущего, периода времени, то ценность информации стремится к нулю. Также и для других слагаемых. Если информацию невозможно найти, или она недоступна, или её невозможно прочитать, то ценность информации равна нулю. Возможность скопировать, распространить, создать производную или извлечь прибыль – опциональные слагаемые, равенство их нулю не приводит к тому, что ценность информации становится равной нулю.

В случае с НЭБ информацию сложно найти (собственно, это основной функционал библиотеки). Однако, чтобы её получить, требуется предпринять ряд весьма затратных оффлайн шагов – регистрация и оплата – после чего информация приобретает свойство доступности. Но барьер оффлайн регистрации становится запретительным в случае, когда потенциальный читатель находится за пределами Москвы. Читаемость информации можно принять равной единице. Таким образом, НЭБ преодолевает барьер нулевой полезности информации, но далее ситуация заметно ухудшается. Скопировать и распространить информацию запрещено техническими средствами, более того, ограничено количество информации, которую разрешено прочитать одному человеку в день и в месяц. Создание производных произведений в таком случае остаётся на крайне примитивном уровне: используя приёмы, заимствованные из эпохи бумажных документов, методом переписывания с книги в блокнот.

В случае КиберЛенинки проблем с нахождением, доступностью и читаемостью не обнаруживается, процедуры копирования, распространения и создания производных работы технически обеспечиваются стандартными средствами, принятыми на веб-сайтах.

В случае с НЭБ информация обременяется наличием платежей, которые отчисляются в пользу правообладателей. КиберЛенинка работает только с контентом, публикуемым под лицензией Creative Commons, поэтому свободна от такого рода платежей.

Выводы

В условиях, когда сфера бесплатного образования сужается, возрастает значение возможностей для самообразования, включая свободный доступ к учебным материалам, прежде всего, книгам, а именно, к учебникам, учебным пособиям, справочным материалам, а также изучаемым в школе литературным произведениям.

Должен быть обеспечен свободный доступ к этому массиву полезной для образования информации. При этом свободный доступ следует понимать достаточно широко, т.е. это не свалка файлов, а библиотека с поиском по разным параметрам и другими сервисами, как в проекте «КиберЛенинка».

Проведённое сравнение различных моделей доступа к знаниям показывает, что модель «КиберЛенинки» на порядок эффективнее модели НЭБ. Более того, это различие в эффективности можно перевести в цифры, оценив и затем сложив потери тех, кто пошел в библиотеку по схеме НЭБ, и тех, кто не пошел в библиотеку по причине неудобства сервиса, провоцирующего большие издержки на стороне пользователя. Напомним, заказанную НЭБ книгу можно прочитать в ближайшей библиотеке, подключенной к общей базе. Это означает, что читатель должен выбрать время, пойти в библиотеку, там читать книгу на мониторе компьютера. Время на дорогу туда и обратно, предположим, составит в среднем 1 час (у тех, кто пошел). Еще час надо взять на потери, связанные с тем, что подходящее время надо выбрать, собраться и так далее. При цене часа 250 рублей, а это не так уж много, потери читателя составят 500 рублей, а за эту сумму лучше купить книгу в цифровой форме, если она продаётся. Следовательно, пойдут в библиотеку те, кто ценит свое время ниже, чем покупка цифровой книги, или те, кто не нашел её в другом месте. Сопоставляя динамику посещений КиберЛенинки и НЭБ, можно оценить издержки и потери тех, кто не пошел в библиотеку в силу неудобства и затрат времени. Причины могут быть в том, что они ценят свое время выше 250 рублей в час. Если при этом речь идет о миллионах потенциальных читателей, то умножая те же 500 рублей на их число, получим потерянные миллиарды. Их можно вернуть людям.

Но самое главное – все закрытые коллекции и экосистемы отключены от центров цифровой инфраструктуры: поисковых систем, социальных сетей, мессенджеров. Таким образом, потребность в них у типичного интернет-пользователя может не возникнуть никогда просто потому, что он никогда о них не узнает, так как та же НЭБ, к примеру, не индексируется основными поисковыми системами.

Источник: Отчёт о научно-исследовательской работе по теме «Разработка стратегии проекта «Общественное достояние» и оценка экономического эффекта ее реализации», выполненной в Центральном экономико-математическом институтом Российской академии наук, Москва 2016 г.