Описание профессии фотограф для детей. История профессии фотографа

Семантическая паутина

Семанти?ческая паути?на (англ. Semantic Web ) - часть глобальной концепции развития сети Интернет, целью которой является реализация возможности машинной обработки информации, доступной во Всемирной паутине. Основной акцент концепции делается на работе с метаданными , однозначно характеризующими свойства и содержание ресурсов Всемирной паутины, вместо используемого в настоящее время текстового анализа документов. Термин впервые введён сэром Тимом Бернерсом-Ли в мае 2001 года в журнале «Scientific American», и называется им «следующим шагом в развитии Всемирной паутины». В семантической паутине предполагается повсеместное использование, во-первых, универсальных идентификаторов ресурсов (URI), а во-вторых - онтологий и языков описания метаданных.

Эта концепция была принята и продвигается Консорциумом W3. Для её внедрения предполагается создание сети документов, содержащих метаданные о ресурсах Всемирной паутины и существующей параллельно с ними. Тогда как сами ресурсы предназначены для восприятия человеком, метаданные используются машинами (поисковыми роботами и другими интеллектуальными агентами) для проведения однозначных логических заключений о свойствах этих ресурсов.

Основная идея

Семантическая паутина - это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в ней информацию более понятной для компьютеров. Машинная обработка возможна в семантической паутине благодаря двум её важнейшим характеристикам:

Граф визитной карточки основателя Википедии в формате RDF . Все элементы этого графа (как узлы, так и дуги) являются URI, включая литерал, изображённый в оранжевом прямоугольнике.

Повсеместное использование универсальных идентификаторов ресурсов (URI). Традиционная схема использования таких идентификаторов в современном Интернете сводится к установке ссылок, ведущих на объект, им адресуемый. Очевидным свойством такой ссылки является возможность «загрузки» объекта, на который она указывает. Таким объектом может быть веб-страница, файл произвольного содержания, фрагмент веб-страницы, а также неявное указание на обращение к реально существующему физическому ресурсу по протоколу, отличному от HTTP (например, ссылки mailto:). Концепция семантической паутины расширяет это понятие, включая в него ресурсы, недоступные для скачивания. Адресуемыми с помощью URI ресурсами могут быть, например, отдельные люди, города и другие географические сущности, художественные артефакты и т. д. К идентификатору предъявляются несколько простых требований: он должен быть строкой определённого формата, уникальной, а также адресующей реально существующий объект. Повсеместное использование онтологий и языков описания метаданных. Современные методы автоматической обработки данных, доступных в Интернете, как правило, основаны на частотном и лексическом анализе текстового содержимого (хотя есть и исключения: Swoogle или Intellidimension Semantic Web Search Engine, например), которое прежде всего предназначено для восприятия человеком. В семантической паутине предлагается использовать форматы описания, доступные для машинной обработки (например, семейство форматов, часто упоминаемое в литературе как «Semantic Web family»: RDF , RDF Schema или RDF-S, и OWL), в свою очередь, использующие URI для адресации описываемых и описывающих объектов, а также онтологии и дескриптивные логики в качестве базовых математических формализмов. Критика Практическая реализуемость

Несмотря на все преимущества, предоставляемые семантической паутиной в случае её внедрения, существуют сомнения в возможности её полной реализации.

Разные комментаторы высказывают различные причины, которые могут быть препятствием к этому, начиная с человеческого фактора (люди склонны избегать работы по поддержке документов с метаданными, открытыми остаются проблемы истинности метаданных, и т. д.), и заканчивая косвенным указанием Аристотеля на отсутствие очевидного способа деления мира на концепты, что ставит под сомнение возможность существования онтологии верхнего уровня , критической для семантической паутины (см. понятие differentia specifica в «Топике »).

Дублирование информации

Необходимость описания метаданных так или иначе приводит к дублированию информации. Каждый документ должен быть создан в двух экземплярах: размеченным для чтения людьми, а также в машинно-ориентированном формате. Этот недостаток семантической паутины был главным толчком к созданию так называемых микроформатов.

Реализация Языки описания

Стек понятий семантической паутины

Техническую часть семантической паутины составляет семейство стандартов на языки описания, включающее XML, XML Schema, RDF, RDF Schema , OWL, а также некоторые другие. Располагая их в порядке повышения уровня абстракции, реализуемого тем или иным языком, получаем:

XML предоставляет синтаксис для определения структуры документа, подлежащего машинной обработке. Синтаксис XML не несёт семантической нагрузки. XML Schema определяет ограничения на структуру XML-документа. Стандартный синтаксический анализатор языка XML в состоянии проверить произвольный XML-документ на соответствие его структуры так называемой схеме документа , описанной в XML Schema. RDF представляет собой простой способ описания экземплярных данных в формате субъект-отношение-объект , в котором в качестве любого элемента этой тройки используются только идентификаторы ресурсов. Существует стандартизованное отображение этих троек на XML-документы предопределённой структуры (т. е. консорциумом W3 определена схема XML-документов, содержащих RDF-описания), а также на другие форматы представления (например, в нотацию N3). RDF Schema опи сывает набор атрибутов (здесь их точнее назвать отношениями ), таких, как rdfs:Class, для определения новых типов RDF-данных. Языком поддерживается также отношение наследования типов rdfs:subClassOf. OWL расширяет возможности по описанию новых типов (в частности, добавлением перечислений), а также позволяет описывать новые типы данных RDF Schema в терминах уже существующих (например, определять тип, являющийся пересечением или объединением двух существующих). Логический вывод

Форматы описания метаданных в семантической паутине предполагают проведение логического вывода на этих метаданных, и разрабатывались с оглядкой на существующие математические формализмы в этой области. Математическое обоснование тех или иных конструкций языка описания необходимо для проведения заключений о свойствах программ, обрабатывающих данные в этом формате.

Особенно сильно это относится к языку OWL. Базовым формализмом для него являются дескриптивные логики, а сам язык разбит на три вложенных подмножества (в порядке вложенности): OWL Lite, OWL DL и OWL Full. Доказано, что логический вывод на метаданных с выразительностью OWL Lite выполняется за полиномиальное время (другими словами, задача вывода принадлежит к классу P). OWL DL описывает максимальное разрешимое в данный момент подмножество дескриптивных логик, но некоторые запросы по таким данным могут требовать экспоненциального времени выполнения. OWL Full реализует все существующие конструкторы дескриптивных логик, но не каждый запрос в этом подмножестве языка может быть разрешён (слово «разрешён» здесь употребляется в значении, основанном на корне «решать»).

Простая структура предикатов языка RDF, в свою очередь, позволяет использовать при его обработке опыт из теорий логических баз данных , логики предикатов, и т. д.

Проекты Дублинское ядро

Одним из первых серьёзных и популярных проектов, основанным на принципах семантической паутины, стал проект «Дублинское ядро» (англ. Dublin Core ), реализуемый инициативной организацией Dublin Core Metadata Initiative (DCMI). Это открытый проект, цель которого - разработать стандарты метаданных, которые были бы независимы от платформ и подходили бы для широкого спектра задач. Конкретнее, DCMI занимается разработкой словарей метаданных общего назначения, стандартизирующих описания ресурсов в формате RDF.

RSS (версий 0.90 и 1.0)

Версии 0.90 и 1.0 формата RSS основаны на RDF. Информация в нём представляется как и в RDF, тройками субъект-отношение-объект . Необходимо отметить, что несмотря на то, что ему присущи многие недостатки семантической паутины (дублирование информации, например), этот простейший формат быстро стал чрезвычайно популярным за счёт узкой категоризации подмножества используемых метаданных. Отличие RSS от RDF состоит в том, что субъектом тройки всегда является сайт-источник RSS-файла, а в качестве отношений используются самые очевидные свойства документов, имеющие отношение к часто обновляющимся источникам информации: дата написания, автор, постоянная ссылка, и т. д. Другими словами, RSS - узкоспециализированное подмножество RDF.

Помимо недостатков, RSS унаследовал и все достоинства форматов из семейства семантической паутины: гибкость RSS позволяет использовать его не только для проверки на наличие новой информации на регулярно обновляющихся сайтах, но и для подкастов, и торренткастов.

Заметим, что формат RSS версии 2.0, хотя и не является форматом, основанным на RDF, позволяет внедрение произвольного XML-содержимого, находящегося в собственных пространствах имён XML. Это позволяет использовать RDF-описания также и в нём (используя пространство имён rdf).

Проект «Friend of a Friend» («Друг друга») позволяет описывать отношение знакомства с помощью RDF. Любой его участник может идентифицировать себя уникальным образом с помощью URI (например, mailto-адресом электронной почты, адресом блога, и т. п.), создать свой профиль, используя предопределённые для FOAF отношения на языке RDF, и перечислить идентификаторы людей, которых этот участник знает. Это описание может обрабатываться автоматически; на его основе можно строить сети доверия, анализировать структуру социальных групп, и т. д.

Семантические веб-сервисы

В то время как совокупность ресурсов и их метаданных можно считать статической частью семантической паутины, её динамическую часть представляют т. н. семантические веб-сервисы - законченные элементы программной логики с однозначно описанной семантикой, доступные через Интернет и пригодные для поиска, композиции и выполнения.

Технически, семантический веб-сервис отличается от обычного веб-сервиса наличием не только описания интерфейса (обычно на языке WSDL) в терминах типов данных, передаваемых сервису, возвращаемых значений и генерируемых ошибок, но и семантического описания всех его характеристик. Заметим, что дублирования данных, упомянутого в числе недостатков семантической паутины, здесь не происходит: WSDL-описания изначально были предназначены для машинной обработки.

Потенциальная выгода от использования семантических веб-сервисов заключается в возможности автоматического поиска (а также композиции) программными агентами подходящих сервисов для решения поставленных задач. Тем не менее, сложность этой задачи в её общей формулировке пока позволяет добиваться некоторых положительных результатов только в узкоспециализированных отраслях, явным образом выигрывающих от внедрения сервисно-ориентированной архитектуры, например в интеграции корпоративных приложений.,

Метаданные

Метаданные , в общем случае

Метаданные это информация о данных.. информация об информации. Пример: Имя автора правки в тексте. Этот термин в широком смысле слова используется для любой информации о данных: именах таблиц, колонок в таблице в реляционных базах данных, номер версии в файле программы (т.е как информативная часть в бинарном файле) и т. п. структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими. набор допустимых структурированных описаний, которые доступны в явном виде и предназначение которых помочь найти объект. термин используется в контексте поиска объектов, сущностей, ресурсов. данные из более общей формальной системы, описывающей заданную систему данных. // Иерархии метаданных

Структурированные в виде иерархии метаданные более правильно называть онтологией или схемой метаданных (например, XML-схема).

Различие между данными и метаданными

Обычно невозможно провести однозначное разделение на данные и метаданные в документе, поскольку:

Что-то может являться как данными, так и метаданными. Так, заголовок статьи можно одновременно отнести как к метаданным (как элемент метаданных - заголовок), так и к собственно данным (поскольку заголовок является частью самого текста). Данные и метаданные могут меняться ролями. На стихотворение, рассматриваемое как данные, может быть написана музыка, в этом случае всё стихотворение может быть «прикреплено» к музыкальному файлу и в этом случае рассматриваться как метаданные. Таким образом, отнесение к одной или другой категории зависит от точки зрения (или, пространства имен, системы отсчета). Возможно создание мета-мета-…-метаданных (см. аксиома выбора). Поскольку, в соответствии с обычным определением, метаданные являются данными, то можно создать метаданные на метаданные, метаданные на метаданные на метаданные и так далее. На первый взгляд это может показаться бесполезным, но на самом деле это является очень существенным и полезным свойством данных и метаданных.

Эти рассуждения применимы независимо от выбора определения метаданных (из приведённых выше и не только).

Использование

Метаданные используются для повышения качества поиска. Поисковые запросы, использующие метаданные могут спасти пользователя от лишней ручной работы по фильтрации. Информируя компьютер о том, какие элементы данных связаны и как эти связи учитывать, становится возможным осуществлять достаточно сложные операции по фильтрации и поиску. Например, если поисковая система «знает» о том, что «Ван Гог» является «голландским художником», то она может выдать в ответ на запрос о голландских художниках веб-страницу о Ван Гоге, даже если слова «голландский художник» не встречаются на этой странице. Такой подход, называемый представлением знаний, находится в сфере интересов Семантической паутины и искусственного интеллекта.

В частности, метаданные создаются для оптимизации алгоритмов сжатия с потерей качества. Например, если к видео прилагаются метаданные, позволяющие компьютеру разделить изображение на основную часть и фоновую, то последняя может быть сжата сильнее, что позволит достичь большего коэффициента сжатия.

Некоторые виды метаданных предназначены для обеспечения возможности различных видов представления некоторых данных. Например, если к изображению прилагаются метаданные, содержащие информацию о том, какая часть изображения наиболее важная (допустим, изображение человека), то программа для просмотра изображений на маленьком экране (таком, как на мобильном телефоне), может отобразить только эту наиболее важную часть изображения. Аналогично используются метаданные, позволяющие сделать доступными для слепых диаграммы и изображения, путём их преобразования для вывода на специальные устройства, либо чтения их описания с использованием программного обеспечения, преобразующего текст в речь.

Другие описательные метаданные могут использоваться автоматизированными рабочими потоками. Например, если некоторая «умная» программа «знает» содержимое и структуру данных, то данные могут быть автоматически преобразованы и переданы другой «умной» программе как входные данные. В результате, пользователи будут спасены от необходимости выполнения множества рутинных операций, если данные предоставлены для работы такими «немногословным» программам.

Метаданные становятся важны в World Wide Web по причине необходимости обеспечения поиска полезной информации среди огромного количества доступной. Метаданные, созданные вручную имеют большую ценность, поскольку это гарантирует осмысленность. Если веб-страница на какую-то определённую тему содержит слово или фразу, то все другие веб-страницы на эту тему могут содержать такое же слово или фразу. Метаданные также обладают разнообразием, поэтому если с какой-то темой связаны два значения, то каждое из них может быть использовано. Например, статья про Живой Журнал может быть обозначена с помощью нескольких значений: «Живой Журнал», «ЖЖ», «LiveJournal».

Метаданные используются для хранения информации о записях audio CD. Аналогично MP3 файлы хранят метаданные в формате ID3.

Классификация метаданных

Метаданные можно классифицировать по:

Содержанию. Метаданные могут либо описывать сам ресурс (например, название и размер файла), либо содержимое ресурса (например, «в этом видеофайле показано как парень играет в футбол»). По отношению к ресурсу в целом. Метаданные могут относиться к ресурсу в целом или к его частям. Например, «Title» (название фильма) относится к фильму в целом, а «Scene description» (описание эпизода фильма) отдельное для каждого эпизода фильма. По возможности логического вывода. Метаданные можно подразделить на три слоя: нижний слой - это «сырые» данные сами по себе; средний слой - метаданные, описывающие эти данные; и верхний слой - метаданные, которые позволяют делать логический вывод, используя второй слой. Формат метаданных

Метаданными на практике обычно называют данные, представленные в соответствии с одним из форматов метаданных.

Формат метаданных - представляет собой стандарт, предназначенный для формального описания некоторой категории ресурсов (объектов, сущностей и т. п.). Такой стандарт обычно включает в себя набор полей (атрибутов, свойств, элементов метаданных), позволяющих характеризовать рассматриваемый объект. Например, формат MARC позволяет описывать книги (и не только книги), содержит поля для описания названия, автора, тематики и огромного множества других характеристик (формат MARC позволяет описать сотни характеристик).

Форматы можно классифицировать, во-первых, по охвату и подробности типов описываемых ресурсов. Во-вторых, по ширине и подробности области описания ресурсов и мощности структуры элементов метаданных. Кроме этого, можно классифицировать по предметным областям, или целям разработки и использования формата метаданных.

Форматы метаданных часто разрабатываются международными организациями или консорциумами, включающими в себя заинтересованные в появлении стандарта государственные организации и частные компании. Разработанный формат часто закрепляется как стандарт в одной или нескольких организациях, занимающихся разработкой и принятием стандартов (например W3C, ISO, ANSI и т. п.)

Классификация форматов метаданных по описываемой предметной области:

DCMI является одним из наиболее распространённых в интернет форматов метаданных для описания ресурсов любого типа (как электронных документов, так и реальных физических объектов). Другие форматы метаданных, предназначенные для описания архивов и электронных ресурсов GILS, EAD. для описания персон и организаций vCard и FOAF для описания библиографических ресурсов предназначены форматы семейства MARC (MARC 21 иcпользуемый в США и Великобритании и UNIMARC используемый в Европе и Азии); UNIMARC в свою очередь подразделяется на национальные расширения этого формата, так в России используется RUSMARC; в силу большой сложности форматов семейства MARC для решения задач интеграции данных был разработан формат MODS. для описания музейных и исторических ценностей используется формат CDWA для описания издательской продукции используются PRISM и ONIX для кристаллографической информации CIF для хранения и обмена информацией о погоде в бинарной форме GRIB для работы с изображениями со спутников VICAR для описания новостей NewsXML

семантическая паутина шарлотты, семантическая паутина 5
Семанти́ческая паути́на (англ. semantic web) - это общедоступная глобальная семантическая сеть, формируемая на базе Всемирной паутины путём стандартизации представления информации в виде, пригодном для машинной обработки.

В обычной Всемирной паутине, основанной на HTML-страницах, информация заложена в тексте страниц и предназначена для чтения и понимания человеком. Семантическая паутина состоит из машинно-читаемых элементов - узлов семантической сети, с опорой на онтологии. Благодаря этому программы-клиенты получают возможность непосредственно получать из интернета утверждения вида «предмет - вид взаимосвязи - другой предмет» и вычислять по ним логические заключения. Семантическая паутина работает параллельно с обычной Всемирной паутиной и на её основе, используя протокол HTTP и идентификаторы ресурсов URI.

Название «Семантическая паутина» было впервые введено сэром Тимом Бернерсом-Ли (изобретателем Всемирной паутины) в сентябре 1998 года, и называется им «следующим шагом в развитии Всемирной паутины». Позже в своём блоге он предложил в качестве синонима термин «гигантский глобальный граф» (англ. giant global graph, GGG, по аналогии с WWW). Концепция семантической паутины была принята и продвигается консорциумом Всемирной паутины.

  • 1 Основная идея
  • 2 Архитектура
    • 2.1 Логический вывод
  • 3 Критика
    • 3.1 Проблемы реализации
    • 3.2 Дублирование информации
    • 3.3 Последствия реализации
  • 4 Проекты
    • 4.1 Дублинское ядро
    • 4.2 RSS (версий 0.90 и 1.0)
    • 4.3 FOAF
    • 4.4 DBpedia
  • 5 См. также
  • 6 Примечания
  • 7 Литература
  • 8 Ссылки

Основная идея

Семантическая паутина - это надстройка над существующей Всемирной паутиной, придуманная для того, чтобы сделать размещаемую в Интернете информацию пригодной для машинной обработки. Доступная в сети информация удобна для прочтения человеком. Семантическая паутина создана для того, чтобы сделать информацию пригодной для автоматического анализа, синтеза выводов и преобразования как самих данных, так и сделанных на их основе заключений в различные представления, полезные на практике.

Граф визитной карточки основателя Википедии в формате RDF. Элементы этого графа - как узлы, так и дуги (кроме литерала, изображённого в оранжевом прямоугольнике) - являются URI.

Машинная обработка возможна благодаря двум характеристикам семантической паутины:

  • наличию URI;
  • использованию семантических сетей и онтологий.

URI - унифицированный идентификатор ресурса или адрес, используемый для указания ссылок на какой-либо объект (например, веб-страницу, файл или ящик электронной почты). URI используются для именования объектов. Каждый объект глобальной семантической сети имеет уникальный URI. URI однозначно называет некоторый объект. Отдельные URI создают не только для страниц, но и для объектов реального мира (людей, городов, художественных произведений и так далее), и даже для абстрактных понятий (например, «имя», «должность», «цвет»). Благодаря уникальности URI одни и те же предметы можно называть одинаково в разных местах семантической паутины. Используя URI, можно собирать информацию об одном предмете из разных мест. Рекомендуется включать в адрес URI название одного из протоколов Всемирной паутины (HTTP или HTTPS). То есть адрес URI рекомендуют начинать с «http://» или «https://»). Такой адрес можно одновременно использовать как адрес URI и как адрес веб-страницы (URL). На веб-страницах, адреса URL которых совпадают с URI, W3C рекомендует размещать описание предмета. Описание желательно предоставлять в двух форматах:

  • в формате, удобном для чтения человеком;
  • в формате, удобном для чтения машиной.

Использование семантических сетей и онтологий . Данные во Всемирной паутине, как правило, представлены в виде текста, записанного на естественных языках. Такие тексты предназначены для восприятия человеком, но машина может понять их смысл, используя один из методов обработки естественного языка. Методы выполняют частотный анализ и/или лексический анализ текста.

В качестве формата, удобного для чтения машиной, W3C предлагает использовать язык RDF. Язык RDF позволяет описывать структуру семантической сети в виде графа. Каждому узлу и каждой дуге графа можно назначить отдельный URI. Утверждения, записанные на языке RDF, можно интерпретировать с помощью онтологий. Для создания онтологий рекомендуют использовать языки RDF Schema (англ.) и OWL. Онтологии создаются для получения из данных логических заключений. основе онтологий лежат математические формализмы, называемые дескрипционными логиками.

Архитектура

Стек понятий Семантической паутины

Техническую часть Семантической паутины составляет семейство стандартов на языки описания, включающее XML, XML Schema, RDF, RDF Schema, OWL, а также некоторые другие. Располагая их в порядке повышения уровня абстракции, реализуемого тем или иным языком, получаем:

  • XML предоставляет синтаксис для определения структуры документа, подлежащего машинной обработке. Синтаксис XML не несёт семантической нагрузки.
  • XML Schema определяет ограничения на структуру XML-документа. Стандартный синтаксический анализатор языка XML в состоянии проверить произвольный XML-документ на соответствие его структуры так называемой схеме документа, описанной в XML Schema.
  • RDF представляет собой простой способ описания экземплярных данных в формате субъект-отношение-объект, в котором в качестве любого элемента этой тройки используются только идентификаторы ресурсов. Существует стандартизованное отображение этих троек на XML-документы предопределённой структуры (то есть консорциумом W3 определена схема XML-документов, содержащих RDF-описания), а также на другие форматы представления (например, в нотацию N3).
  • RDF Schema описывает набор атрибутов (здесь их точнее назвать отношениями), таких, как rdfs:Class, для определения новых типов RDF-данных. Языком поддерживается также отношение наследования типов rdfs:subClassOf.
  • OWL расширяет возможности по описанию новых типов (в частности, добавлением перечислений), а также позволяет описывать новые типы данных RDF Schema в терминах уже существующих (например, определять тип, являющийся пересечением или объединением двух существующих).
  • Микроданные (HTML microdata) - это международный стандарт семантической разметки HTML-страниц, с помощью атрибутов, описывающих смысл информации, содержащейся в тех или иных HTML-элементах. Такие атрибуты делают контент страниц машиночитаемым, то есть позволяют в автоматическом режиме находить и извлекать нужные данные.

Логический вывод

Форматы описания метаданных в Семантической паутине предполагают проведение логического вывода на этих метаданных, и разрабатывались с оглядкой на существующие математические формализмы в этой области. Формализм, лежащий в основе формата, даёт возможность делать заключения о свойствах программ, обрабатывающих данные в этом формате.

Особенно сильно это относится к языку OWL. Базовым формализмом для него являются дескрипционные логики, а сам язык разбит на три вложенных подмножества (в порядке вложенности): OWL Lite, OWL DL и OWL Full. Доказано, что логический вывод на метаданных с выразительностью OWL Lite выполняется за полиномиальное время (другими словами, задача вывода принадлежит к классу P). OWL DL описывает максимальное обладающее разрешимостью подмножество дескрипционных логик, но некоторые запросы по таким данным могут требовать экспоненциального времени выполнения. OWL Full реализует все существующие конструкторы дескрипционных логик за счёт отказа от обязательной разрешимости запросов.

Простая структура предикатов языка RDF, в свою очередь, позволяет использовать при его обработке опыт из теорий логических баз данных, логики предикатов и т. д.

Критика

Проблемы реализации

В 2006 году журнал «IEEE Intelligent Systems» опубликовал новую статью Тима Бернерса-Ли «Semantic Web Revisited» («Семантическая паутина: пересмотр»), в которой автор называет описанный подход к организации информации в вебе «простой идеей, до сих пор в большой степени нереализованной», несмотря на все преимущества, предоставляемые Семантической паутиной в случае её внедрения.

На сегодняшний день нет общедоступных средств просмотра и прямого использования информации, предоставляемой сайтами в Семантическую паутину. Редкие образцы разрозненны, а программы-клиенты не выходят за уровень локальных исследовательских проектов отдельных энтузиастов.

Комментаторы указывают на различные причины, которые препятствуют активному развитию Семантической паутины, начиная с человеческого фактора (люди склонны избегать работы по поддержке документов с метаданными, открытыми остаются проблемы истинности метаданных, и т. д.), и заканчивая косвенным указанием Аристотеля на отсутствие очевидного способа деления мира на различимые концепты. Это ставит под сомнение возможность существования онтологии верхнего уровня, критической для Семантической паутины. Аристотель в «Топике» использует понятие differentia specifica, или наличие у понятий различимого качества, как основу для группировки понятий в классы. Философ уверен в наличии бесконечного числа понятий, из чего следует бесконечность числа классов, в которые их можно объединить. Для выделения такого количества классов необходимо бесконечно много различимых качеств, наличие которых Аристотель подвергает сомнению.

Дублирование информации

Необходимость описания метаданных так или иначе приводит к дублированию информации. Каждый документ должен быть создан в двух экземплярах: размеченным для чтения людьми, а также в машинно-ориентированном формате. Этот недостаток Семантической паутины был главным толчком к созданию так называемых микроформатов и языка RDFа. Последний является вариантом языка RDF и отличается от него тем, что не определяет собственного синтаксиса, а предназначен для внедрения в XML-атрибуты XHTML-страниц. Кроме того, в самих стандартах HTML появляются семантические теги.

Последствия реализации

  • Лёгкость машинной обработки позволяет посреднику вроде поисковой системы выбирать, какую информацию предоставлять пользователю.
    • Это делает возможным предоставление только необходимой части информации. результате пользователь может получать информацию, не посещая сайт-источник, а посредник может выводить информацию, не давая ссылки на источник (или давая её при условии, что посредник узнает о переходе). Таким образом уменьшается посещаемость сайта-источника, и увеличивается посещаемость посредника; а от посещаемости зависит действие Интернет-рекламы, обеспечивающей основное финансирование многих сайтов. Цитирование частей новостей веб-агрегаторами было предметом судебных разбирательств с разными исходами. Для сайтов, публикующих контент для привлечения читателей к размещаемой рядом рекламе, предоставление контента в машинно-читаемом виде не выглядит выгодным, однако для сайтов, чей контент сам по себе является информацией о рекламируемом объекте - например, для сайтов производителей товаров и услуг - предоставление информации о рекламируемых объектах в машинно-читаемом виде выгодно, так как способно облегчать её распространение и использование.
    • Это облегчает автоматическую цензуру.
  • Предпочтение поисковыми системами размеченных страниц делает неразмеченные частью (относительно) Глубокой паутины.
  • Облегчается нахождение персональных данных и их связей с другой информацией (авторы, местонахождения, социальные связи).

Проекты

Дублинское ядро

Одним из первых серьёзных и популярных проектов, основанных на принципах Семантической паутины, стал проект «Дублинское ядро» (англ. Dublin Core), реализуемый инициативной организацией Dublin Core Metadata Initiative (DCMI). Это открытый проект, цель которого - разработать стандарты метаданных, которые были бы независимы от платформ и подходили бы для широкого спектра задач. Конкретнее, DCMI занимается разработкой словарей метаданных общего назначения, стандартизирующих описания ресурсов в формате RDF.

RSS (версий 0.90 и 1.0)

Версии 0.90 и 1.0 формата RSS основаны на RDF. Информация в нём представляется как и в RDF, тройками субъект-отношение-объект. Необходимо отметить, что несмотря на то, что ему присущи многие недостатки Семантической паутины (например, дублирование информации), этот простейший формат быстро стал чрезвычайно популярным за счёт узкой категоризации подмножества используемых метаданных. Отличие RSS от RDF состоит в том, что субъектом тройки всегда является сайт-источник RSS-файла, а в качестве отношений используются самые очевидные свойства документов, имеющие отношение к часто обновляющимся источникам информации: дата написания, автор, постоянная ссылка, и т. д. Другими словами, RSS - узкоспециализированное подмножество RDF.

Заметим, что формат RSS версии 2.0, хотя и не является форматом, основанным на RDF, позволяет внедрение произвольного XML-содержимого, находящегося в собственных пространствах имён XML. Это позволяет использовать RDF-описания также и в нём (используя пространство имён rdf).

FOAF

Проект «Friend of a Friend» («Друг друга») позволяет описывать отношение знакомства с помощью RDF. Любой его участник может идентифицировать себя уникальным образом с помощью URI (например, mailto-адресом электронной почты, адресом блога, и т. п.), создать свой профиль, используя предопределённые для FOAF отношения на языке RDF, и перечислить идентификаторы людей, которых этот участник знает. Это описание может обрабатываться автоматически; на его основе можно строить сети доверия, анализировать структуру социальных групп, и т. д.

DBpedia

DBpedia - проект, направленный на извлечение структурированной информации из данных, созданных в рамках проекта Wikipedia. DBpedia позволяет пользователям запрашивать информацию, основанную на отношениях и свойствах ресурсов Википедии, в том числе ссылки на соответствующие базы данных. Начат группой добровольцев из Свободного университета Берлина и Лейпцигского университета, в сотрудничестве с OpenLink Software, и впервые был опубликован в 2007 году. Проект DBpedia использует Resource Description Framework (RDF) для представления извлеченной информации. По состоянию на апрель 2010, базы данных DBpedia состоят из более чем 1 млрд единиц информации, из которых 257 млн были взяты из английской версии Википедии и 766 млн извлечены из версий на других языках.

См. также

  • Отображение онтологий
  • Семантическая вики
  • Семантические веб-сервисы
  • Семантический рабочий стол
  • «Haystack», проект Массачусетского технологического института

Примечания

  1. Tim Berners-Lee. Semantic Web Road map (09.1998).
  2. Giant Global Graph., русский перевод: Тим Бёрнерс-Ли. Гигантский Глобальный Граф
  3. Раздел о семантической паутине на сайте W3C (англ.)
  4. Resource description framework (RDF): concepts and abstract syntax (англ.). Консорциум Всемирной паутины (10 февраля 2004 года). - W3C Recommendation. Проверено 12 сентября
  5. Cool URIs for the Semantic Web (англ.). Консорциум Всемирной паутины (3 декабря 2008 года). - W3C Interest Group Note. Проверено 12 сентября 2010. Архивировано из первоисточника 24 августа 2011.
  6. The Species of OWL in OWL Language Guide
  7. OWL Full, OWL DL and OWL Lite in OWL Language Reference
  8. Semantic Web Revisited, IEEE Intelligent Systems, июнь 2006
  9. Cory Doctorow, Metacrap: Putting the torch to seven straw-men of the meta-utopia, август 2001
  10. Rohit Khare, Tantek Çelik, Microformats: A Pragmatic Path to the Semantic Web, январь 2006
  11. RDFa Primer
  12. Бессмертный И. А. / Управление контекстом в информационных системах. - Статья. - Информационные технологии, Приборостроение.- октябрь, 2012 - УДК 004.89
  13. Виктор Шепелев. Ахиллесова пята Семантического Веба. Компьютерра (15 июл 2008).
  14. См. en:Media monitoring service#Law cases, en:Google News#Copyright variations.
  15. Dublin Core Metadata Initiative (DCMI)
  16. RSS 1.0 Specification
  17. RSS 2.0 Specification
  18. Friend of a Friend
  19. DBpedia Mappings

Литература

  • Dieter Fensel, Wolfgang Wahlster, Henry Lieberman, James Hendler. Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential. - The MIT Press, 2002. - ISBN 0262062321.
  • Towards the Semantic Web: Ontology-driven Knowledge Management. - John Wiley & Sons, 2003. - ISBN 0470848677.
  • Toby Segaran, Colin Evans, Jamie Taylor. Programming the Semantic Web. - 2009. - ISBN 0596153813.
  • Luciano Floridi Web 2.0 vs. the Semantic Web: A Philosophical Assessment // Episteme. - 2009. - Т. 6, № 1. - С. 25--37. - DOI:10.3366/E174236000800052X.

Ссылки

  • Официальный портал (англ.)
    • Books (англ.) - книги, посвящённые конкретно Semantic Web и Linked data
  • Общественный портал (англ.)
  • Русскоязычный сайт о Семантической паутине (технологии, проекты, инструменты)
  • Спецификации языка OWL: OWL Language Reference и OWL Language Guide
  • Dublin Core Metadata Initiative (DCMI) (англ.)
  • Microformats (англ.)
  • Rohit Khare, Tantek Çelik, Microformats: A Pragmatic Path to the Semantic Web (англ.)
  • Начальное руководство по RDFa разметке для HTML и xHTML верстальщиков
  • Лекция в PDF «Семантический веб» курса Юрия Лифшица «Алгоритмы для интернета»

семантическая паутина 5, семантическая паутина интернет, семантическая паутина сериал, семантическая паутина шарлотты

Семантическая паутина Информацию О

И называется им «следующим шагом в развитии Всемирной паутины ». В семантической паутине предполагается повсеместное использование, во-первых, унифицированных идентификаторов ресурсов (URI), а во-вторых - онтологий и языков описания метаданных.

Эта концепция была принята и продвигается Консорциумом W3 . Для её внедрения предполагается создание сети документов, содержащих метаданные о ресурсах Всемирной паутины и существующей параллельно с ними. Тогда как сами ресурсы предназначены для восприятия человеком, метаданные используются машинами (поисковыми роботами и другими интеллектуальными агентами) для проведения однозначных логических заключений о свойствах этих ресурсов.

Основная идея

Семантическая паутина - это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в ней информацию более понятной для компьютеров . Машинная обработка возможна в семантической паутине благодаря двум её важнейшим характеристикам:

  • Повсеместное использование унифицированных идентификаторов ресурсов (URI). Традиционная схема использования таких идентификаторов в современном Интернете сводится к установке ссылок , ведущих на объект, им адресуемый. Очевидным свойством такой ссылки является возможность «загрузки» объекта, на который она указывает. Таким объектом может быть веб-страница, файл произвольного содержания, фрагмент веб-страницы, а также неявное указание на обращение к реально существующему физическому ресурсу по протоколу, отличному от HTTP (например, ссылки mailto:). Концепция семантической паутины расширяет это понятие, включая в него ресурсы, недоступные для скачивания. Адресуемыми с помощью URI ресурсами могут быть, например, отдельные люди, города и другие географические сущности, художественные артефакты и т. д. К идентификатору предъявляются несколько простых требований: он должен быть строкой определённого формата, уникальной, а также адресующей реально существующий объект.
  • Повсеместное использование онтологий и языков описания метаданных. Современные методы автоматической обработки данных, доступных в Интернете, как правило, основаны на частотном и лексическом анализе текстового содержимого (хотя есть и исключения: например, Swoogle или Intellidimension Semantic Web Search Engine), которое прежде всего предназначено для восприятия человеком. В семантической паутине предлагается использовать форматы описания, доступные для машинной обработки (например, семейство форматов, часто упоминаемое в литературе как «Semantic Web family»: RDF , RDF Schema или RDF-S, и OWL), в свою очередь, использующие URI для адресации описываемых и описывающих объектов, а также онтологии и дескрипционные логики в качестве базовых математических формализмов.

Критика

Практическая нереализуемость

Несмотря на все преимущества, предоставляемые семантической паутиной в случае её внедрения, существуют сомнения в возможности её полной реализации.

Разные комментаторы высказывают различные причины, которые могут быть препятствием к этому, начиная с человеческого фактора (люди склонны избегать работы по поддержке документов с метаданными, открытыми остаются проблемы истинности метаданных, и т. д.), и заканчивая косвенным указанием Аристотеля на отсутствие очевидного способа деления мира на концепты, что ставит под сомнение возможность существования онтологии верхнего уровня , критической для семантической паутины (см. понятие differentia specifica в «Топике »).

Дублирование информации

Необходимость описания метаданных так или иначе приводит к дублированию информации. Каждый документ должен быть создан в двух экземплярах: размеченным для чтения людьми, а также в машинно-ориентированном формате. Этот недостаток семантической паутины был главным толчком к созданию так называемых микроформатов и языка RDFa . Последний является вариантом языка RDF и отличается от него тем, что не определяет собственного синтаксиса, а предназначен для внедрения в XML-атрибуты XHTML-страниц.

Невозможность получения коммерческой выгоды

Известно, что основное финансирование современных интернет-ресурсов (за исключением строго некоммерческих проектов) обеспечивают рекламодатели . Главный критерий , от которого зависит стоимость рекламного места - посещаемость сайта. Однако в случае реализации семантических поисковых систем, которые будут сами отбирать и сразу предоставлять нужную пользователю информацию, отпадает необходимость посещать сайт - источник материала, а значит пользователь не увидит рекламу, и как следствие прекратится финансирование интернет-проектов.

Реализация

Языки описания

Техническую часть семантической паутины составляет семейство стандартов на языки описания, включающее XML , XML Schema , RDF , RDF Schema , OWL , а также некоторые другие. Располагая их в порядке повышения уровня абстракции, реализуемого тем или иным языком, получаем:

  • XML предоставляет синтаксис для определения структуры документа, подлежащего машинной обработке. Синтаксис XML не несёт семантической нагрузки.
  • XML Schema определяет ограничения на структуру XML-документа. Стандартный синтаксический анализатор языка XML в состоянии проверить произвольный XML-документ на соответствие его структуры так называемой схеме документа , описанной в XML Schema.
  • RDF представляет собой простой способ описания экземплярных данных в формате субъект-отношение-объект , в котором в качестве любого элемента этой тройки используются только идентификаторы ресурсов. Существует стандартизованное отображение этих троек на XML-документы предопределённой структуры (т. е. консорциумом W3 определена схема XML-документов, содержащих RDF-описания), а также на другие форматы представления (например, в нотацию ).
  • RDF Schema описывает набор атрибутов (здесь их точнее назвать отношениями ), таких, как rdfs:Class , для определения новых типов RDF-данных. Языком поддерживается также отношение наследования типов rdfs:subClassOf .
  • OWL расширяет возможности по описанию новых типов (в частности, добавлением перечислений), а также позволяет описывать новые типы данных RDF Schema в терминах уже существующих (например, определять тип, являющийся пересечением или объединением двух существующих).

Логический вывод

Форматы описания метаданных в семантической паутине предполагают проведение логического вывода на этих метаданных, и разрабатывались с оглядкой на существующие математические формализмы в этой области. Математическое обоснование тех или иных конструкций языка описания необходимо для проведения заключений о свойствах программ, обрабатывающих данные в этом формате.

Особенно сильно это относится к языку OWL . Базовым формализмом для него являются дескрипционные логики , а сам язык разбит на три вложенных подмножества (в порядке вложенности): OWL Lite, OWL DL и OWL Full. Доказано , что логический вывод на метаданных с выразительностью OWL Lite выполняется за полиномиальное время (другими словами, задача вывода принадлежит к классу P). OWL DL описывает максимальное разрешимое в данный момент подмножество дескрипционных логик, но некоторые запросы по таким данным могут требовать экспоненциального времени выполнения . OWL Full реализует все существующие конструкторы дескрипционных логик, но не каждый запрос в этом подмножестве языка может быть разрешён (слово «разрешён» здесь употребляется в значении, основанном на корне «решать»).

Простая структура предикатов языка RDF , в свою очередь, позволяет использовать при его обработке опыт из теорий логических баз данных , логики предикатов , и т. д.

Проекты

Дублинское ядро

Одним из первых серьёзных и популярных проектов, основанным на принципах семантической паутины, стал проект «Дублинское ядро » (англ. Dublin Core ), реализуемый инициативной организацией Dublin Core Metadata Initiative (DCMI). Это открытый проект, цель которого - разработать стандарты метаданных, которые были бы независимы от платформ и подходили бы для широкого спектра задач. Конкретнее, DCMI занимается разработкой словарей метаданных общего назначения, стандартизирующих описания ресурсов в формате RDF.

RSS (версий 0.90 и 1.0)

Заметим, что формат RSS версии 2.0, хотя и не является форматом, основанным на RDF, позволяет внедрение произвольного XML-содержимого, находящегося в собственных пространствах имён XML. Это позволяет использовать RDF-описания также и в нём (используя пространство имён rdf).

FOAF

См. также

Примечания

Литература

  • Dieter Fensel, Wolfgang Wahlster, Henry Lieberman, James Hendler, «Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential», MIT Press,
  • John Davies, Dieter Fensel, Frank van Harmelen, «Towards the Semantic Web: Ontology-Driven Knowledge Management», John Wiley & Sons,

Ссылки

  • Официальный портал (англ.)
  • Общественный портал (англ.)

Семантическая паутина - это концепция сети, в которой каждый ресурс на человеческом языке был бы снабжён описанием, понятным компьютеру.

Семантическая паутина открывает доступ к чётко структурированной информации для любых приложений, независимо от платформы и независимо от языков программирования.

Программы смогут сами находить нужные ресурсы, обрабатывать информацию, классифицировать данные, выявлять логические связи, делать выводы и даже принимать решения на основе этих выводов.

При широком распространении и грамотном внедрении семантическая паутина может вызвать революцию в Интернете. Для создания понятного

компьютеру описания ресурса, в семантической паутине используется формат RDF (англ. Resource Description Framework ), который основан на синтаксисе XML и использует идентификаторы URI для обозначения ресурсов.

Новинки в этой области - это RDFS (англ. RDF Schema ) и SPARQL (англ.Protocol And RDF Query Language ) (произносится как «спааркл»), новый язык запросов для быстрого доступа к данным RDF.

4.5. Web-технологии: HTML, DHTML,

JavaScript, PHP, MySQL, XML+XLST, Ajax

Web-страницы (Web-pages) всемирной паутины создаются при помощи языка разметки гипертекста (HyperТext Markup Language, HTML).

HTML - это язык разметки. HTML используется для разметки текстового документа, точно так же, как это делает редактор при помощи жирного красного карандаша. Эти пометки служат для определения формата (или стиля), который будет использован при выводе текста на экран монитора.

Общий вид HTML-файла, теги

M в аббревиатуре HTML означает "mark-up" -- разметка.

Текст размечается тегами, которые являют собой ключевые слова языка, заключенные в угловые скобки "<" и ">" (большеменьше).

Чаще их употребляют парами, чтобы отметить начало и конец некоторого куска текста. Отмечают же его для того, чтобы браузер показывал текст на экране в заданном тегами виде.

В приведенном примере три пары тегов:

--

Пара, которая показывает, что содержимое файла -- документ в формате HTML.

--

Пара обрамляющая текст, не выводимый на экран, и предназначенный для машин.

--

Пара обрамляющая текст, выводимый на экран.

DHTML

DHTML (динамический HTML) - это набор средств, которые позволяют создавать интерактивные Webстраницы без увеличения загрузки сервера.

DHTML построен на объектной модели документа (Document Object Model, DOM ), которая расширяет традиционный статический HTML-документ.

DOM обеспечивает динамический доступ к содержимому документа, его структуре и стилям. В DOM каждый элемент Web-страницы является объектом, который можно изменять.

DOM не определяет новых тэгов и атрибутов, а просто обеспечивает возможность программного управления всеми тэгами, атрибутами и каскадными листами стилей (CSS).

JavaScript

JavaScript предназначен для написания сценариев для активных HTML-страниц. JavaScript не предназначен для создания автономных приложений.

Программа на JavaScript встраивается непосредственно в исходный текст HTML-документа и интерпретируется брaузером по мере загрузки документа.

С помощью JavaScript можно динамически изменять текст загружаемого HTML-документа и реагировать на события, связанные с действиями посетителя или изменениями состояния документа или окна.

Важная особенность JavaScript - объектная ориентированность. Программисту доступны многочисленные объекты, такие, как документы, гиперссылки, формы, фреймы и т.д.

PHP

PHP (Personal Home Page) - серверный язык создания сценариев. Первая версия PHP была создана Расмусом Лердорфом в 1994 г. и представляла собой набор инструментов для отслеживания посетителей Web-страницы.

Сегодня это полноценный мощный язык программирования, его название было изменено как рекурсивное образование PHP HyperText Preprocessor (препроцессор гипертекста PHP).

Конструкции PHP, вставленные в HTML-текст, выполняются сервером при каждом посещении страницы. Результат их обработки вместе с обычным HTML-текстом передается браузеру.

XML (eXtensible Markup Language) - расширяемый язык разметки. Основное внимание в XML сосредоточено на данных. В XML структурная разметка данных и представление данных строго разделены.

XSLT

XSLT (eXtensible Stylesheet Language Transformations) - расширяемый язык преобразования листов стилей.

Язык XSLT служит транслятором, с помощью которого можно свободно модифицировать исходный текст. XLST играет решающую роль в утверждении XML в качестве универсального языка хранения и передачи данных. Область применения XSLT широка - от электронной коммерции до беспроводного Web.

AJAX

Ajax расшифровывается как Asynchronous Javascript And XML (Асинхронные Javascript И XML) и технологией в строгом смысле слова не является.

Если в стандартном веб-приложении обработкой всей информации занимается сервер, тогда как браузер отвечает только за взаимодействие с пользователем, передачу запросов и вывод поступившего HTML, то в Ajax-приложении между пользователем и сервером появляется еще один посредник - движок Ajax. Он определяет, какие запросы можно обработать "на месте", а за какими необходимо обращаться на сервер.

Чем большую популярность завоевывает Web, тем сложнее становятся Web-узлы. Статические гипертекстовые страницы, подготовленные средствами HTML, встречаются все реже. Практически на каждой домашней странице можно встретить счетчик посещений или часы; большинство сайтов позволяют получить доступ к статистике посещения как отдельных страниц, так и всей их совокупности.

Многие организации включают в свои страницы формы регистрации пользователей или формы заказов на услуги. Все перечисленные функции не реализованы в Web-серверах. И счетчик посещений,

и работа с формой предполагают использование

внешней по отношению к серверу программы.

RDF графы, без какой-либо локальной обработки.
  • RDF API;
  • чтение и запись RDF из RDF / XML , N3 и N-Triples;
  • OWL API;
  • создания запросов SPARQL .

20.1.5. Проекты

20.1.5.1. Дублинское ядро

Одним из первых серьезных и популярных проектов, основанным на принципах семантической паутины , стал проект "Дублинское ядро" ( Dublin Core ) , реализуемый инициативной организацией Dublin Core Metadata Initiative (DCMI) . Это открытый проект, цель которого – разработать стандарты метаданных , которые были бы независимы от платформ и подходили бы для широкого спектра задач. Конкретнее, DCMI занимается разработкой словарей метаданных общего назначения, стандартизирующих описания ресурсов в формате RDF .

20.1.5.2. RSS (версий 0.90 и 1.0)

Версии 0.90 и 1.0 формата RSS основаны на RDF . Информация в нем представляется, как и в RDF , тройками субъект-отношение-объект . Необходимо отметить, несмотря на то, что ему присущи многие недостатки Семантической паутины (дублирование информации, например), этот простейший формат быстро стал чрезвычайно популярным за счет узкой категоризации подмножества используемых метаданных . Отличие RSS от RDF состоит в том, что субъектом тройки всегда является сайт-источник RSS-файла, а в качестве отношений используются самые очевидные свойства документов, имеющие отношение к часто обновляющимся источникам информации: дата написания, автор, постоянная ссылка, и т. д. Другими словами, RSS – узкоспециализированное подмножество RDF .

Помимо недостатков, RSS унаследовал и все достоинства форматов из семейства семантической паутины : гибкость RSS позволяет использовать его не только для проверки на наличие новой информации на регулярно обновляющихся сайтах, но и для подкастов, и торренткастов.

Заметим, что формат RSS версии 2.0, хотя и не является форматом, основанным на RDF , позволяет внедрение произвольного XML -содержимого, находящегося в собственных пространствах имен XML . Это позволяет использовать RDF -описания также и в нем (используя пространство имен RDF ).

20.1.5.3. FOAF

Проект "Friend of a Friend" ("Друг друга") позволяет описывать отношение знакомства с помощью RDF . Любой его участник может идентифицировать себя уникальным образом с помощью URI (например, mailto-адресом электронной почты, адресом блога, и т. п.), создать свой профиль, используя предопределенные для FOAF отношения на языке RDF , и перечислить идентификаторы людей, которых этот участник знает. Это описание может обрабатываться автоматически; на его основе можно строить сети доверия , анализировать структуру социальных групп, и т. д.

20.1.5.4. DBin

DBin работает примерно также, как и файлообменные сети (emule, kazaa, и т.д.), но для метаданных . В этой системе вместо того, чтобы обмениваться данными (музыкой, файлами, видео, и т.д.), пользователи обмениваются "упорядоченными метаданными ", такими как: " X является автором Y ", " Z родился в K ", или "моя фотография в R , в прошлом декабре опубликована по адресу P ". С помощью DBin можно обмениваться информацией о том, что пользователи знают о разных вещах. Это может быть что угодно: песни, фотографии, WEB-сайты. Метаданные передаются в специальном формате – RDF , при этом система поддерживает развитые средства для работы с онтологиями , а это позволяет очень быстро и эффективно находить нужную информацию.

По способу взаимодействия пользователя и системы DBin чем-то напоминает Wiki, однако использование технологий Semantic Web выводит этот проект на совершенно новый уровень. Средства для поиска информации, возможности для кооперации среди участников сообщества позволяют организовать работу значительно более эффективно.

Когда пользователь DBin вводит те или иные данные, система сохраняет их в базе данных вместе с цифровой подписью автора. Это позволяет надежно идентифицировать источник информации. Поэтому система достаточно хорошо защищена от спама, недостоверной или, заведомо ложной информации. Если пользователь начинает злоупотреблять своим правом добавлять данные в DBin , то он лишается доверия, и его информация просто отфильтровывается.

DBin имеет развитый пользовательский интерфейс для редактирования, просмотра, поиска и вообще, использования информации. Если пользователь является продвинутым пользователем и экспертом в какой-нибудь области, то он может создавать специальные расширения для DBin (так называемые "брейнлеты"), ориентированные на работу в данной области знаний. Такие брейнлеты обычно включают в себя пользовательский интерфейс, онтологии , правила, типы аннотаций предопределенные запросы к системе, и, тем самым, предоставляют удобные средства для работы в рамках заданной предметной области.

Кроме брейнлетов DBin поддерживает и другие модули расширения – плагины. Плагины позволяют организовать взаимодействие DBin с внешними приложениями, с файловой системой и с рабочим столом пользователя, с базами данных. С помощью плагинов можно обеспечить более сложное отображение информации. Например, географические данные могут быть продемонстрированы пользователю на карте.

DBin реализует очень интересный способ организации совместной работы, позволяет, с одной стороны эффективно обмениваться информацией, а с другой накапливать семантически размеченные данные.

20.1.5.5. Семантические WEB-сервисы

В то время как совокупность ресурсов и их метаданных можно считать статической частью семантической паутины , ее динамическую часть представляют т. н. семантические Веб-сервисы – законченные элементы программной логики с однозначно описанной семантикой, доступные через Интернет и пригодные для поиска, композиции и выполнения. Часто называются в тематической литературе "динамической составляющей семантической паутины " .

Технически, семантический Веб-сервис отличается от обычного Веб-сервиса тем, что пользователю предоставляется не только описание интерфейса (обычно на языке WSDL) в терминах типов передаваемых сервису данных, возвращаемых значений и генерируемых ошибок, но и описание его семантики, т.е. того, что сервис делает, его предметной области, назначения и т.п. WSDL-описания сервисов изначально были предназначены для машинной обработки, кроме того, стандарт WSDL допускает наличие в этих описаниях произвольного дополнительного XML -содержимого, которое должно игнорироваться программами, не предполагающими обработки этого содержимого – таким образом, метаданные не приходится выносить из WSDL-файлов.

Консорциум W3 предполагает использование для описания Веб-сервисов тех же языков разметки, что и для статической части семантической паутины (RDF , RDF Schema , OWL ), а также онтологии OWL -S, описывающей базовую терминологию предметной области. Онтология OWL -S состоит из четырех онтологий – онтологии сервиса, онтологии модели сервиса, онтологии процесса и онтологии базы. Можно рассматривать OWL -S как семантическое расширение UDDI -описания Веб-сервиса. При использовании этой онтологии и языков ра зметки, семантика сервиса характеризуется семантикой четырех его характеристик ( IOPE , по первым буквам названия каждой характеристики):

  • входные параметры (inputs );
  • выходные параметры (outputs );
  • предварительные условия (preconditions );
  • эффекты выполнения (effects ).

Потенциальная выгода от использования семантических Веб-сервисов заключается в возможности автоматического поиска (а также композиции) программными агентами подходящих сервисов для решения поставленных задач. Тем не менее, сложность этой задачи в ее общей формулировке пока позволяет добиваться некоторых положительных результатов только в узкоспециализированных отраслях, явным образом выигрывающих от внедрения сервисно-ориентированной архитектуры, например, в интеграции корпоративных приложений.

20.1.6. Критика

20.1.6.1. Практическая реализуемость

Несмотря на все преимущества, предоставляемые семантической паутиной в случае ее внедрения, существуют сомнения в возможности ее полной реализации .

Разные критики высказывают различные причины, которые могут быть препятствием к этому, начиная с человеческого фактора (люди склонны избегать работы по поддержке документов с метаданными , открытыми остаются проблемы истинности метаданных , и т. д.), и заканчивая косвенным указанием Аристотеля на отсутствие очевидного способа деления мира на концепты, что ставит под сомнение возможность существования онтологии верхнего уровня, критической для семантической паутины .

20.1.6.2. Дублирование информации
20.1.6.4. Анонимность и сохранение авторских прав

Semantic Web способствует уничтожению анонимности в Сети . Каждый раз как, только пользователь регистрируетсяь на каком-либо сайте вроде moikrug.ru , или ]. При первом способе начинаем с самого низа, то есть добавляем семантическую разметку в документы, опубликованные в Сети. Таким образом, пользовательские агенты получают доступ к метаданным . Этот процесс понемногу начинает набирать темп. Все чаще и чаще можно встретить данные в формате RDF , встроенные в те или иные странички. Каковы перспективы этого подхода?

Во-первых, нужно отметить, что существует огромная разница в психологии людей, занимающихся созданием контента. Большинство людей крайне скептически воспринимают перспективу не просто излагать свои мысли виде обычного текста, но еще и предпринимать особые шаги для того, чтобы объяснить свои идеи компьютеру. Тем не менее, многие склонны видеть эту ситуацию в ином свете. Они готовы часами приводить в порядок свои данные, расставлять метки и писать комментарии, составлять каталоги и рейтинги. Все ради того, чтобы обеспечить удобный, хорошо структурированный доступ к информации.

Во-вторых, все больше и больше в Интернете публикуется автоматически генерируемой информации. Всевозможные базы данных, отчеты, прогнозы погоды, списки и т.д. и т.п. Конечно, добавление семантической информации в автоматически генерируемые документы требует значительно меньших усилий.

В-третьих, сейчас активно развиваются инструменты для семантической разметки документов. Нужно понимать, что семантическая информация, которую вы добавляете в свой документ, способна немедленно оказать вам помощь. Причем, у компьютера появляются уникальные возможности для того, чтобы подстраиваться именно под ваши интересы, предпочтения и стиль работы, а возможность кооперации с другими компьютерами в Сети позволит ему выполнять эту работу весьма качественно. Таким образом, пользователь будет стимулироваться к тому, чтобы наполнять семантической информацией все, что он делает. Более того, вполне можно представить себе ситуацию, когда пользователь предпочтет указывать информацию только в виде понятном машине, предоставляя компьютеру всю остальную работу, связанную с формулированием и оформлением данных для потенциального читателя. Сколько разного рода формальных бумаг нам приходится создавать: справки, счета, отчеты, заявления. Значительную часть этой рутины компьютер может взять на себя.

Natural Language Processing – NLP ). Такие инструменты должны прочитать и обработать существующие в Сети документы, чтобы извлечь из них семантические данные. К сожалению, средства NLP еще далеки от совершенства. Сегодня, они не способны, в автоматическом режиме, семантически размечать документы. Однако не надо недооценивать возможностей таких инструментов. Например: современные системы извлечения фактов позволяют найти в тексте (для английского языка) до 96% именованных объектов, то есть имен людей, названий компаний, адресов, телефонов, названий технологий, брендов и т.д. Программы синтаксического разбора русского языка позволяют правильно определить подлежащее и сказуемое примерно в 60% предложений. Уже этого достаточно, для того, чтобы извлечь из текста огромное количество семантически значимой информации. При этом следует отметить, что технологии