светлое будущее
Mike Potanin potan
Previous Entry Share Next Entry
Иммунтология.
Начал создавать онтологию иммунной системы.
В RDF в человекочитаемом формате.
Сейчас туда занесена только таблица интерлекинов из Википедии. Сначала скриптом, потом руками - в надежности того и другого я не уверен, надо проверять.

Работает с этим protégé, а так же базы данных Virtuoso и Jena/Fuseki.
Стандартный язык запросов - SPARQL.

Я не большой специалист ни в онтологиях, ни в иммунологии. Буду благодарен за отзывы биологов о том, какие данные туда надо записать и на какие вопросы она должна уметь отвечать, а так же инженерам по знаниям за советы, как эти данные лучше организовать.

А какие цели у проекта (практические, академические, ...)?

Для пользователей RDF лучше всегда указывать rdf:type. И избавиться от owl:sameAs (заменить на что-то типа :dbpedia_entry) - authority датасетов разные, в будущем возможны противоречия.

Остальное зависит от планируемой сложности данных. Для простых - визуальные редакторы (Protégé, .15926 Editor, ...). Для сложных вместо turtle (и вообще RDF) можно использовать более человекочитаемые скрипты, тогда будут кошерные N-ary relationships и автогенерация того же RDF (или что ещё потребуется) из них. Например:
action(component = interleukin.Interleukin_17, target = cell.Endothelium, description = "...")

rdf:type это то же самое, что и "a", разве нет?
Если в dbpedia схему именований поменяют, то и :dbpedia_entry станет бесполезной. Чем она тогда лучше owl:sameAs?

С визуальными средами я не дружу, а для разработки DSL надо хорошо понимать предметную область.

Цель - приучить биологов к машинночитаемым данным. Большая часть знаний в области биологии представлены в лучшем случае слабо структурированными текстами с неформальными таблицами, а чаще - картинками. Я с такой информацией работать не умею, а биологией заинтересовался. Если удастся сделать что-то полезное для биологов по интересным мне технологиям, можно будет надеяться, что для меня в науке найдется ниша :-).

Да, в ряде нотаций rdf:type сокращается как "a". Относительно dbpedia - вопрос не в именованиях, а в том, что это разные датасеты, управляемые разными людьми. Разойдутся таксономии у тебя и на dppedia - с dbpedia_entry всё будет ок, а с sameAs получится логическая жопа.

Про визуальные среды надо думать относительно спецов, которые будут пользоваться данными. Им же не сорцы на черепашке нужны, а средства просмотра и поиска. Если неудобно смотреть то до "самим дописать" уже никогда не дойдёт.

Импортировать лучше с помощью Karma.


PS ну и протеже не любит этот файл :)

org.xml.sax.SAXParseException; systemId: file:/home/petrov/ontologies/immunology/immuntology.ttl; lineNumber: 1; columnNumber: 1; Content is not allowed in prolog.

uk.ac.manchester.cs.owl.owlapi.turtle.parser.ParseException: Encountered " "@prefix" "@prefix "" at line 8, column 1.
Was expecting:
"." ...

PPS если точку пропущенную в префиксе легко исправить, то заставить протеже съесть "%xx" я не знаю :(

Edited at 2014-08-06 10:00 pm (UTC)

Thanks!
Я в Jena проверял, она все съела. Посмотрю как можно исправить.

% не работает только с префиксом. Заменил на полные URI, protege съел.

а) Да, теперь загружает.

б) Я посмотрел, поискал и вот что нашел:

http://ncorwiki.buffalo.edu/index.php/Immunology_Ontologies

1. Там опубликовано пару pdf (постер и презентация) с описанием подхода к онтологии в исследовании и практической медицине.

2. Есть ссылки на живые онтологии, например сразу очевидно что нужно использовать: structured controlled vocabulary for cell types

http://www.obofoundry.org/cgi-bin/detail.cgi?id=cell

надо опираться на неё думаю, а не на википедию. (то есть данные из википедии в части названия клеток должны быть в замаплены именно в данный словарь)

(может пойдет инференция, если часть терминов окажется более общими-частными понятиями)

3. Ну и несколько именно иммунологических онтологий готовых.

Thanks!
Ссылки на cell type ontology я находил, но они тогда были битые. А immunology ontology найти не смог.

А скажи, где почитать внятное интро в то, как из онтологий получать пользу, и где их полезных накопать можно?

Интересный вопрос...
Из dbpedia полезную инфу иногда удается вытащить. Хотя там далеко не все, что в wikipedia доступно.
На сайте protégé есть интересный список, правда не все ссылки работающие.

Но область мутная, внятного интро врядли удастся найти.

Практическая польза я думаю будет например (от подмножества данной онтологии) в таком вопросе как поддержка автоиндексации научных текстов на тему иммунологии.

Например есть controlled vocabularies в kea при автоиндексации:

list of controlled vocabularies is available on http://www.nzdl.org/Kea/download.html.
You can use any other thesaurus in SKOS format. Their number is constantly increasing,
latest SKOS vocabularies are listed on http://esw.w3.org/topic/SkosDev/DataZone.

То есть возможность найти статьи, где описано, например, действие такого-то цитокина на такой-то тип клеток?
Спасибо за идею, должно быть полезно.

Кеа автоматически извлекает ключевые слова о смысле статьи. Соревнуется с экспертами в точности выбора слов-терминов. Онтология крепко помогает в этом процессе статистической процедуре.

RKEA: R/KEA interface

An R interface to KEA (Version 5.0). KEA (for Keyphrase Extraction Algorithm) allows for extracting keyphrases from text documents. It can be either used for free indexing or for indexing with a controlled vocabulary.

Для индексации статей по иммунологии должно быть бесценно. В данный момент там только статпроцедура ключевые слова ищет, а так станет возможной тонкая индексация внутри раздела иммунология.

вот такое для визуализации подвернулось:

http://www.visualdataweb.org/tools.php

RelFinder просто обалденный (а в дбпедии куча пробелов информации r-language + ess + emacs + org-mode хорошо "слинковался" только используя проперти из музыки :)

PS кто нибудь это пробовал на labels отличных от латиницы?

?

Log in