Свалка каталогов по старым проектам
С коллегами по “Институту регионального развития” столкнулись с проблемой доступности данных и отчётов из прошедших ранее исследований. Непонятно, где найти во всём ворохе папок и файлов именно тот SPSS-массив или текстовый документ, который нужен. Имена каталогов с разными проектами придумываются без единых правил, каждый проект содержит разный набор документов.
Чтобы не изобретать велосипед, решили посмотреть, какие инструменты для этих проблем уже существует в мире.
Да здравствует стандартизация! или Инициатива по документированию данных
Ещё работая в проекте “Датско-российская программа содействия экономическому развитию Псковской и Калининградской областей”, я искал инструмент по автоматическому оформлению (вёрстке) дизайн-макета анкеты. Результатом стала связка из проектов с открытым исходным кодом LimeSurvey и queXML. LimeSurvey использовался как графический интерфейс для создания структуры анкеты, а queXML генерировал из этой структуры красивую анкету в формате PDF. Тогда я обратил внимание на то, что queXML, как схема для описания анкет, совместим со стандартом Data Documentation Initiative (DDI).
DDI – это “намерение создать международный стандарт для описания данных из социальных, поведенческих и экономических наук”. Стандарт DDI поддерживает описание всего “жизненного цикла” исследовательских данных от техзадания для исследования до хранения полученных и обработанных данных.
На практике DDI выглядит как свод правил по описанию всех этапов исследования в формате XML. Замысел разработчиков DDI заключается в том, что разработчики исследовательского программного обеспечения (например, SPSS или мой любимый R) будут следовать этому стандарту, и тогда нам, исследователям-пользователям, станет жить гораздо проще, поскольку все [социологические] программы будут “разговаривать” на одном языке.
Возможно ли уже сегодня получить выгоду от DDI?
Сайт DDI содержит библиотеку инструментов, которые могут работать со стандартом. Здесь представлено множество утилит, позволяющих получать DDI из широкораспространенных форматов данных, например, из SPSS. Понятно, что стандартный файл SPSS не содержит исчерпывающей информации об исследовании. Здесь на помощь, видимо, должен приходить редактор файлов DDI. Здесь перспективным выглядит DdiEditor, разработчики которого позиционируют его как “центральный в наборе инструментов по обработке опросных данных”. Результатом применения DdiEditor является набор документов, описывающий массив данных. Программа кроссплатформенная, т.е. может работать в любых операционных системах, распространяется под лицензией LGPL, т.е. может бесплатно использоваться даже в коммерческих целях.
На роль следующего элемента мозаики подходит приложение DDI Index производства Австралийского архива данных социальных наук (корни вышеупомянутого queXML растут из той же части планеты). Эта программа индексирует документы в формате DDI, а затем позволяет пользователям проводить поиск по созданной базе. Доступ к поиску осуществляется через браузер. DDI Index распространяется также под свободной лицензией.
Что на выходе?
Данные, получаемые по каждому опросу, мы храним в формате DDI, используя программу DdiEditor. Весь массив DDI-документов индексируется программой DDI Index и через неё же осуществляется доступ к этим документам. Теоретическая картинка выглядит красиво, осталось попробовать.