Расширение возможностей сетевых патентно-информационных ресурсов

7 декабря, 2015

Расширение возможностей  сетевых патентно-информационных ресурсов при решении задач инновационного развития//Патентная информация сегодня – 2009, №2.

Л.Г.Кравец. Зам. главного редактор журнала «Патентная информация сегодня», канд. фил. наук, доцент. В современном предпринимательстве ведущую роль играют инновационные преобразования. Поэтому все большее развитие приобретает  практика  использования патентной информации предпринимателями, экономистами и политиками  при решении как масштабных стратегических задач инновационного развития своих государств, так и конкретных задач повышения конкурентоспособности предлагаемых данной организацией товаров или услуг. Далее иллюстрируются возможности использования патентной информации на разных уровнях экономической системы.

Патентно-статистические  оценки на глобальном  уровне

Учитывая чрезвычайную  ценность информации, содержащейся в патентных документах, а также широкие возможности  анализа патентных  данных, Всемирная организация интеллектуальной собственности (ВОИС)  активизировала свою работу с использованием  патентной статистики. Патентный отчет ВОИС за 2007 год отразил  историческую эволюцию в географии инновационной деятельности. Регион северо-восточной Азии значительно увеличил свою долю в мировом патентовании как в качестве источника патентных заявок, так и их получателя от лиц, проживающих за пределами этого региона.

За период между 1995 и 2005 гг. число патентных заявок, поданных лицами, проживающими в данной стране, удвоилось в Республике Корея и увеличилось в восемь раз в Китае.  Патентное ведомство Китая отмечает наивысший рост темпов подачи в расчете на лиц, проживающих (+42,1%) и не проживающих в стране (+23,6%). Учитывая рост выдач почти на 33% по сравнению с 2004 г., патентное ведомство Китая в 2005 г. стало третьим крупнейшим получателем патентных заявок. Республика Корея имеют наивысшее число подач патентных заявок лицами, проживающими в стране, на душу населения, которое составляет соответственно 2 876 и 2 530 патентных заявок на миллион жителей.

Значительное увеличение подач патентных заявок лицами, не проживающими в стране, наблюдается в Китае, Индии, Мексике, Республике Корея и Российской Федерации.  Патентные заявители из Республики Корея, Китая и Индии быстрыми темпами увеличивают также число заявок, которые подаются в других странах, и тем самым расширяют географию охраны изобретений, происходящих из этих стран.  В этих трех странах происхождения наблюдается наиболее высокие темпы подач лицами, не проживающими в стране, по сравнению с 2004 г.:  + 27,3% в Республике Корея, +27,9% в Китае и +23,6% в Индии.  Заметное увеличение по сравнению с 2004 г. наблюдается в Израиле (+11,1%), Новой Зеландии (+13,3%) и Южной Африке (+10,6%).

Отчет отражает увеличение числа патентных заявок в таких областях техники, как электричество и электроника.  Патентные заявки, поданные в этих областях, представляют собой 32% всех патентных заявок, поданных в мире между 2000 и 2004 гг.  Патентные заявки в этих областях техники сконцентрированы в патентных ведомствах Японии и Соединенных Штатов Америки, за которыми следуют Республика Корея, ЕПВ и Китай.

Аналогичные тенденции проявляются и в процедуре выдачи патентов. Число патентов, выданных во всем мире, в среднем ежегодно возрастало на 3,6%. При этом только в 2005 г. было выдано около 600 000 патентов.  Наибольшее число патентов выдало патентное ведомство США, за которым следовали ведомства Японии, Республики Корея (переместившееся на 2 места вверх по сравнению с 2004 г.), Китая (переместившееся на одно  вверх место по сравнению с 2004 г.) и ЕПВ.  На долю этих пяти ведомств в 2005 г. приходилось 74% всех выданных в мире патентов.  Лица, проживающие в Японии, получают наибольшее число патентов, выданных во всем мире, за ними следуют лица, проживающие в США, Республике Корея, Германии и Франции (1).

Страны северо-восточной Азии, вероятнее всего, будут и впредь  бросать вызов своим конкурентам во всем мире.  Ожидается, что такие страны как Китай и Республика Корея продолжат быстрое развитие инноваций, одним из показателей которых является число поданных патентных заявок.

Вместе с тем, происходящий сейчас глобальный экономический спад проявился и в  некотором снижении изобретательской активности, в частности – при подаче международных патентных заявок. Их количество в 2008 году возросло всего на 2,4%. Этот показатель выглядит весьма скромным по сравнению с ежегодным приростом на 9,3% в предыдущие три года. Исторический опыт показывает, что в сложных экономических условиях активность патентования и прежде снижалась вследствие  сокращения возможностей финансовой поддержки инновационного цикла. Однако  с возрождением  экономики неуклонно оживает и патентная активность. В результате  экономические кризисы в прошлом становились катализаторами инноваций, поскольку повышались стандарты эффективности, требования производить больше с меньшими издержками, изыскивать более разумные предпринимательские решения (2).

Поэтому в нынешних экономических условиях новые технологии, инновации и творческий подход к делу имеют исключительное  значение для обеспечения  экономического возрождения.

Поисково-аналитическая деятельность  на национальном уровне

Патентные ведомства и коммерческие информационные службы уделяют все более пристальное внимание развитию поисково-аналитических возможностей патентной информации.

ИНИЦ «Патент»,   продолжая традиции своего предшественника – ВНИИПИ, стремится обогащать свою работу аналитической составляющей. С этой целью он осуществляет  подготовку изданий, ставших важными источниками для проведения различных аналитических исследований.

Дважды в год в ИНИЦ выходит издание «Приоритетные направления развития науки и технологий и перспективные изобретения». Оно содержит аналитический обзор развития приоритетных направлений научно-технического развития в  сопровождении соответствующих описаний изобретений, отобранных специалистами ФИПС.  В издании представлена информация о наиболее перспективных изобретениях, зарегистрированных в России в истекшем году. В аналитическом обзоре эти изобретения рассматриваются с точки зрения их соответствия приоритетным направлениям развития науки и современных технологий.

Регулярно выпускаемое ИНИЦ «Ежегодное патентное обозрение» включает сведения о российских изобретениях и полезных моделях с 1993 г.  по настоящее время. В нем, в частности, представлена динамика распределения охранных документов Российской Федерации по странам и регионам России, по годам подачи заявок и странам конвенционного приоритета, по 8 разделам МПК, а также перечень ведущих авторов, заявителей и патентовладельцев. Издание выпускается в журнальном варианте и на дисках CD-R. Причем машиночитаемая версия содержит более детальную информацию. Тематические распределения приводятся здесь с точностью до группы МПК, подробнее представлена рейтинговая информация о заявителях и авторах изобретений (3).

Отвечая на призыв правительства Великобритании активизировать использование системы интеллектуальной собственности, Патентное ведомство Великобритании сформировало в 2007 г. Группу патентной информатики, предназначенную для содействия правительству и коммерческим организациям в разработке политических решений, стратегического планирования и выполнения других запросов относительно технологий, по поводу которых патентный анализ в состоянии вскрывать важную информацию.

Принимая это решение, ведомство исходило из того, что содержание патентов не ограничивается технической информацией о состоянии охраны отдельных изобретений. Поэтому патентная информатика может заниматься макроскопическим анализом всей совокупности патентных данных. Она идентифицирует патенты и формирует кластеры в соответствии с присущими им  техническими, хронологическими, коммерческими или географическими характеристиками. Анализируя эти кластеры, можно выявлять скрывающиеся в них тенденции и взаимосвязи, включая сильные и слабые стороны создаваемых технологий, появление новых рынков их сбыта и др.

В дополнение к штатным специалистам группа может привлекать к работе более 200 патентных экспертов из разных технических областей, обладающих поисково-аналитическими способностями. Последний фактор, а также навыки работы с современными поисковыми средствами, имеют решающее значение для обеспечения должного качества последующего патентного поиска и анализа.

Группа патентной информатики располагает доступом к ряду баз данных, включая EPODOC, WPI, PATSTAT, которые охватывают более 60 млн. патентов, начиная с 1836 года  и по настоящее время. При этом она пользуется интерфейсами национальных патентных ведомств. Применяемые поисково-аналитические средства позволяют составлять предварительные технические отчеты, проводить последующий анализ патентного цитирования для оценки значимости конкретных патентов или заявителей, осуществлять визуальное представление документальных массивов с формированием «технологических ландшафтов», которые идентифицируют  сферы активного патентования, формирования защитных патентных портфелей, а также отслеживают происходящие  в данной технической области перемены  вследствие появления новых технологий, материалов и т.п.

В число осуществленных Группой патентной  информатики проектов входит подготовка докладов об «электронной бумаге» (e-paper), восстановительной медицине, борьбе с аллергией, квантовой криптографии, бионанотехнологиях, светоизлучающих полимерах и геномной медицине(4).

Приведенные примеры подтверждают тот факт, что современные информационные технологии позволяют преобразовать патентные данные в полезные сведения как в интересах конкретных научно-производственных задач, так  и для выработки более масштабных решений в области государственной инновационной политики.

Последовательность поисково-аналитических процедур

Процесс информационного обеспечения тех или иных научно-производственных задач включает поисковую и аналитическую стадии. Первая из них предполагает собственно поиск источников информации с упорядочением полученных результатов и превращением их в поисковую базу данных. Вторая стадия обычно включает статистический и содержательный анализ найденных источников информации с  наглядным представлением его результатов.

На поисковой стадии, прежде всего, осуществляется собственно информационный поиск с использованием поисковых реквизитов, обращением ко всем доступным базам данных, обобщением выдаваемых результатов и исключением дублирования. Предварительный результат поиска может быть представлен в виде перечня библиографических данных и сопровождающих их рефератов, сведений о патентах – аналогах и др.

Однако, получаемый на первом этапе статичный и зачастую весьма громоздкий массив информации обладает  ограниченными возможностями его последующего использования. Поэтому, на основе предварительных результатов поиска можно сформировать динамичную поисковую базу данных непосредственно на рабочем месте пользователя, способную реагировать в последующем на его конкретные запросы.     Аналитическую стадию можно начать с простого статистического анализа, обеспечивающего ранжирование, сортировку и табуляцию по любым реквизитам, содержащимся в результатах информационного поиска. Таким путем выявляются наиболее активные изобретатели или патентовладельцы; количество патентов, ежегодно получаемых той или иной компанией и др. Подобный анализ позволяет изучать тенденции технического развития, выявлять «взлет» и «падение» интереса к конкретным технологиям; компании, лидирующие в той или иной предметной области или, напротив, меняющие свои предпочтения.

Статистический анализ допускает также тематическое ранжирование в пределах группы документов из данной предметной области с использованием ключевых слов и индексов патентных классификаций. Тем самым выявляются наиболее распространенные понятия в полученной тематической подборке. Используемые в документах слова, фразы и индексы позволяют применять компьютерные программы семантического анализа, которые просматривают тексты, выявляют их сходство и различие, анализируют, сортируют и представляют их в наглядной зрительной форме с учетом ранее выявленных связей.

Подборку патентных документов можно  анализировать одним из четырех  способов.

Простейший из них сводится к ранжированию, сходному с тем, что осуществляется статистическими методами – по изобретателям, заявителям, индексам МПК и др. Один из наиболее интересных способов – ранжирование патентных ссылок, которое отображает связи между цитирующими и цитируемыми патентами, и выделяет те  цитируемые или цитирующие патенты,  которые встречаются чаще других.

Второй вид семантического анализа направлен на тематическую группировку патентов. Если патент содержит несколько тем, он оказывается в нескольких тематических группах.

Третий вид анализа представляет собой зрительное изображение взаимосвязанных патентных ссылок в виде наглядных карт. Особенно интересно прослеживать цитирование между двумя – тремя последовательными поколениями патентов, которое отражает развитие или преобразование идеи, зафиксированной в «корневом» патенте. Такой анализ может оказаться полезным и при оценке известного уровня техники или очевидности оспариваемых патентов.

Последний вид анализа заключается в тематическом (концептуальном) картировании на основе выявления встречаемости слов и фраз, а также их связей как в пределах одного, так и в нескольких документах. В ходе анализа выделяются значимые термины посредством исключения наиболее редко и особенно часто используемых слов. Как и на топографической карте, связанные понятия образуют «горы» и «хребты» или кластеры, расстояние между которыми отражает силу связей. Контурные линии выделяют скопления тематически связанных документов. Не охваченные анализом (не релевантные) слова образуют «запретительный список», позволяющий игнорировать их на последующих этапах анализа. Результаты картирования наглядно отражают взаимосвязь идей, зоны их концентрации и «белые пятна» между выявленными группами понятий (5).

При осуществлении всех этих   работ можно воспользоваться рассматриваемыми далее средствами автоматизации поисково-аналитических процедур. Учитывая интерактивный характер автоматизированных систем,  в процессе анализа и при интерпретации его результатов полезно участие конечных  пользователей.

Современные средства извлечения и визуализации информации

Неуклонный и стремительный рост потоков и объемов патентной информации повысил спрос на программные средства поиска и автоматизированной переработки текстов найденных документов с  визуализацией ее результатов. Эти средства,   предназначенные для извлечения из текстов нужных  сведений  и придания им наглядного зрительного изображения, в последние годы подверглись дальнейшему усовершенствованию. В частности, наблюдается сдвиг от технологий статистического анализа к алгоритмам более утонченной семантической обработки текстов. Базируясь на стандартных аналитических технологиях, эти средства различаются, в основном, своими возможностями использовать различные информационные источники и придавать   им разные зрительные формы: таблиц, карт, графиков, диаграмм и матриц.

Благодаря им расширяются возможности раскрытия, интерпретации и систематизации данных для последующего сопоставления патентных портфелей конкурирующих компаний; определения степени соответствия своих патентов передовым технологиям; характера их цитирования; оценки целесообразности отказа от одних и использования других патентных активов в ходе операций по слиянию/поглощению компаний; принятия решений по оптимизации корпоративной патентной политики и т.п.

Современные средства автоматизированного извлечения и визуализации информации способны осуществлять комплексный поиск в различных базах данных, построение гистограмм и матриц совместной встречаемости, группировку понятий, кластеризацию и категоризацию документов, картирование документальных кластеров, дополнение их временными показателями, анализ цитирования, обработку текстов на естественных языках, и др. Каждое из рассматриваемых далее средств располагает тем или иным набором из числа перечисленных возможностей.

Отобранные для рассмотрения средства объединены в три группы.

В первую группу входят наиболее гибкие системы, способные перерабатывать неструктурированные тексты.

Система ClearForest обеспечивает переработку неструктурированных текстов с построением матриц встречаемости текстовых элементов, кластеризацией, картированием данных, извлечением значимых терминов, сопровождением их соответствующими пометками («тегами») и  содержательной категоризацией. Система придает зрительную форму результатам анализа, обеспечивая пользователю возможность вскрывать связи между релевантными данными, оценивать события и выявлять проблемы для их своевременного решения. Благодаря этому, перед компаниями открывается возможность преобразования больших объемов, контекстуально-связанной информации в сведения, необходимые для принятия предпринимательских решений.

Одним из уникальных достоинств системы является ее способность перерабатывать техническую терминологию, структурировать текст патентного документа, выделяя в нем пункты патентной формулы и предлагаемые технические решения.

Система Goldfire Innovator располагает утонченной технологией семантического анализа, обеспечивающей превращение неструктурированного текста в снабженный индексами поисковый массив и сопоставление семантической структуры документов и поисковых запросов. К достоинствам системы следует отнести способность выявления инновационных тенденций посредством анализа цитирования и конкурентных возможностей технологий.

Преимуществом системы текстового анализа Inxight является наличие наиболее мощных лингвистических алгоритмов и возможность осуществления комплексного поиска одновременно в нескольких онлайновых базах данных на 32 языках с иерархической категоризацией получаемых сведений.

Система OmniVis располагает способностью совмещать алгоритмы статистического анализа текстов с использованием различных видов визуализации количественных данных, химических структур и прочих текстовых фрагментов. Будучи ориентированной, преимущественно, на визуализацию данных, система может использоваться в комплексе с системами переработки текстов типа  TEMIS.

Система TEMIS отличается богатыми семантическими возможностями изъятия, категоризации и  кластеризации любых текстовых элементов в любых форматах, которые затем преобразуются в понятия. Сильной стороной системы является возможность поиска по ранее выделенным понятиям, а также работы с химическими документами.

Во вторую группу входят систем, перерабатывающих структурированные тексты     Система Quosa осуществляет статистический анализ, изъятие терминов и их ранжирование по частоте встречаемости в неструктурированных и структурированных текстах. Особенно развиты в системе возможности полнотекстового поиска, выгрузки и систематизации документов для их последующего изучения.

Система RefVis представляет собой средство визуализации, статистического и лингвистического анализа, прежде всего, библиографических описаний, включая заглавия и рефераты документов. Система в состоянии осуществлять параллельный поиск во многих онлайновых источниках. Её сила – в последующем тематическом анализе библиографических данных с наглядным представлением результатов, облегчающим выявления перспективных направлений и сфер, представляющих интерес для аналитика.

Система STN AnaVist представляет собой средство интерактивного анализа основанного на количественных оценках и визуализации получаемых результатов. В качестве источника для анализа используются базы данных, представленные в службе STN  International. Достоинством системы является возможность использования словаря стандартизованной терминологии и фирменных наименований, сокращающего разброс поисковых результатов. Недостаток – ограниченные возможности обработки полных текстов.

Система VantagePoint обеспечивает анализ текстов, усиленный возможностями работы с естественными языками, и визуализацию результатов группировки, кластеризации и категоризации данных в форме серии матриц, различных карт и диаграмм. Система облегчает поиск ответов на вопросы типа «что сделано, кем, где и когда». Благодаря этому, она становится эффективной при использовании в деловой и конкурентной разведке.

Система Thomson data analyzer представляет собой адаптацию системы  VantagePoint  к нуждам анализа патентных источников Derwent, обогащенных дополнительными потребительскими свойствами. Тем самым обеспечивается анализ общих технологических трендов, характера патентной активности конкурентов, перспективных направлений НИОКР с выявлением перспективных кандидатур для установления последующего сотрудничества.

В третью группу входят системы переработки частично структурированных данных  с обеспечением  доступа к множеству патентных баз данных.

Система Aureka осуществляет обработку ключевых слов и статистический анализ текстов. Её поисковый  блок обеспечивает доступ к полнотекстовым патентным базам данных MicroPatent с возможностью последующего создания патентных подборок, их анализа, составление аннотаций, кластеризации документов, картирования результатов с построением «технологических ландшафтов», а также анализ патентных ссылок.

Система MCAM Doors осуществляет переработку текстов с обеспечением доступа к  50 млн. документов 88 патентных ведомств. Она предназначена для оценки известного уровня техники и возможностей лицензирования корпоративных патентов. При этом семантический анализ осуществляется в комплексе с анализом патентных ссылок и  последующей визуализации полученных результатов.

Система Wisdomain объединяет возможности патентного поиска с текстовым анализом найденных документов и визуализацией результатов анализа. Система  обеспечивает доступ к важнейшим патентным фондам и базе данных INPADOC.  Анализ «косвенного» цитирования позволяет выявлять сходные документы, ожидающие своего рассмотрения, а также патенты – аналоги.

Система PatAnalyst, несмотря на её название, обеспечивает только доступ к полным текстам документов 8 патентных ведомств и к библиографическим данным более 70 организаций, публикующих патентную информацию (6).

Проведенный анализ показал, что ни одна из рассмотренных систем не в состоянии обеспечить все требуемые поисково-аналитические функции с визуализацией получаемых результатов во всех доступных формах. Каждая из систем ориентирована на свою категорию пользователей. Для получения оптимальных результатов может потребоваться обращение к двум и более системам. Тем не менее, новые средства текстового анализа и визуализации в состоянии революционизировать информационный век, подготовив механизмы, способные справляться со все более мощными потоками и массивами патентной информации.

Литература

  1. WIPO Report Reveals Changing Geography of Innovation with Highest Patenting Growth Rates in North East Asia. Geneva, August 10, 2007
    PR/2007/506 – http://www.wipo.int/
  2. Global Economic Slowdown Impacts 2008 International Patent Filings//Geneva, January 27, 2009 PR/2009/583 – www.wipo.int
  3. Л. Будникова, Л. Кравец. Средства информационно-аналитического обеспечения охраны – интеллектуальной собственности //Информационные ресурсы России-2008 -№4.
  4. Buchanan B. Unlocking the value of pаtent data: patent informatics services at the UK Intellectnal Property Office (UK-IPO)//WPI-2008-v.30-#4-p.335-337
  5. Badger E. Techniques for analysing literature search results//WPI-2008-v.30-#4-p.326-334
  6. Yang Y.Y., Akers L., Kloze T., Yang C.B. Text mining and visualization tools – Impressions of emerging capabilities//WPI-2008-v.30-34-h.280-293