О ВОЗМОЖНОСТИ ПРИМЕНЕНИЯ НОВЫХ ТЕХНОЛОГИЙ СЕМАНТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ В ГЕРОНТОЛОГИИ

Б.А. Кауров

Филиал ГОУ ВПО РГМУ "Научно-клинический центр геронтологии", Москва, Россия

    В настоящее время количество публикаций в области геронтологии и смежных дисциплин растет настолько быстро, что неизбежно остро встает вопрос о разработке адекватных технологий для систематизации этой информации и получения на ее основе новых знаний. Например, количество рефератов только в одной области биомолекулярно-генетических исследований и биомедицины на начало 2007 года в крупнейшей в мире базе данных (БД) PubMed составляло более 15 млн. и их объем увеличивается в среднем на 500 тысяч рефератов в год (Деменков, 2008). Прочитать и проанализировать хотя бы малую часть этой информации обычными способами уже не представляется возможным. Все это привело к необходимости создания, кроме общих, специализированных БД. Сейчас в мире созданы тысячи разных фактографических медико-биологических БД с информацией о биологических объектах и их взаимодействиях на молекулярно-клеточном и организменном уровнях. Созданы такие БД и в области геронтологии, к которым имеется открытый доступ в интернете, например, http://humbio.ru/humbio/reprod/00056a44.htm; http://gerontology-explorer.narod.ru; http://genomics.senescence.info/species и другие.

     Однако эти БД не имеют возможностей для их семантического (смыслового, логического) анализа, что существенно затрудняет их эффективное использование. Поэтому сейчас интенсивно ведется работа по созданию компьютерных систем для автоматической обработки научной текстовой информации с целью извлечения знаний о молекулярно-генетических взаимодействиях разных биологических объектов, а также по созданию и анализу ассоциативных сетей возможных механизмов взаимосвязей этих взаимодействий с разными заболеваниями и состояниями организма человека. На данный момент наиболее интересными и разработанными в этом направлении являются исследования, проводимые в новосибирском Институте цитологии и генетики РАН, который является ведущим в данной области. В частности, ими (Подколодная и др., 2010) на основе компьютерной системы ANDCell (Associative Network Discovery in Cells) (Деменков и др., 2008) была создана и проанализирована ассоциативная сеть потенциальных механизмов взаимосвязи таких возрастных заболеваний как миопия и глаукома. Известно, что миопия является важным фактором риска для глаукомы и уже в возрасте свыше 40 лет они ассоциированы (Saw at al. , 2005). Поэтому перед исследователями стояла задача объяснить механизмы взаимосвязи этих заболеваний с целью создания в дальнейшем новых методов их диагностики, профилактики и лечения. Для этого осуществляли поиск молекулярно-генетических путей, нарушения в которых приводили бы к совместному возникновению миопии и глаукомы. Кроме PubMed, были использованы данные еще из более 20 молекулярно-биологических БД, что позволило авторам в итоге учесть более 5 млн. соответствующих фактов.

    На основании последних специальными программными средствами, включая лингвистический анализ текстов, было выявлено более 2000 взаимосвязей между около 200 различными белками и генами, ассоциированными с этими заболеваниями. Дальнейшее изучение этих взаимосвязей дало возможность выделить несколько генов, нарушения в которых могли приводить к совместному появлению миопий и глаукомы. Необходимо особо отметить, что в этой работе ассоциативная семантическая сеть была представлена в виде графовых структур, которые уже много лет используются в моих работах по системному анализу механизмов старения человека (Кауров, 1981-2010 гг.). Принципиальным отличием является то, что в обсуждаемом исследовании практически вся работа по извлечению из рефератов необходимой информации для построения семантических графов осуществлялась в автоматическом режиме с помощью компьютера на основе специальных программ. В моих исследованиях эта работа ввиду отсутствия соответствующих программных средств проводилась вручную, что существенно ограничивало объем используемой информации и соответственно возможности построения соответствующей семантической сети.

    Тем не менее, в создаваемой мной сейчас графической схеме молекулярно-клеточных возрастных изменений человека учтено уже более 2000 разных событий и их количество постоянно увеличивается, что позволит на их основе в дальнейшем построить соответствующую семантическую сеть. Проведенный предварительный анализ схемы позволяет глубже понять молекулярно-клеточные механизмы старения. Для значительной части событий в ней уже найдены ассоциативные связи со многими возрастными заболеваниями (болезни Альцгеймера, Паркинсона, сахарный диабет и др.). Более того, в ряде случаев удается выделить общие молекулярно-генетические источники развития разных патологий, что может помочь в создании соответствующих способов воздействия на них с лечебной целью. Часть созданных мной сетевых схем возрастных изменений человека представлена на сайте http://ageing-not.narod.ru в разделе "Схемы старения".

    Учитывая сказанное вначале этого сообщения, предлагаемый учеными из Новосибирска подход является, несомненно, заслуживающим самого пристального внимания на предмет его активного изучения и использования с целью более эффективного анализа не только геронтологических, но и гериатрических текстов. Более того, полученные этими учеными результаты можно в определенной степени использовать уже сейчас в создаваемых геронтологических и гериатрических семантических сетях. Правда, для этого необходимы совместные усилия всех заинтересованных в этом ученых. Это позволит улучшить наше понимание механизмов старения человека, способствовать созданию эффективных средств для профилактики его преждевременного старения и возрастных заболеваний, а также лечения последних.

Опубликовано: http://ageing-not.narod.ru/page5_38.html, 27.12.2010.
Источник: VII научно-практическая конференция "Общество,государство и медицина для пожилых", 1-2 декабря 2010 г, Москва, с. 33-34.


Основная страница.

Hosted by uCoz
Счетчик посещений.   Рейтинг@Mail.ru