24 декабря, 2015

Способы повышения эффективности патентного поиска

Действия по совершенствованию эффективности патентного поиска предполагают использования новейших методов, средств и организационных форм, которые должны быть направлены на все составляющие поисковых процедур.  Далее затрагивается некоторые из аспектов решения этой проблемы, включая расширение базы поиска, комплексное применение различного поискового инструментария, новые метода  поиска патентных изображений и организационные вопросы обеспечения качества поиска.

Работа с многоязычным поисковым массивом

Патентные документы по определенной тематике могут публиковаться в разных странах и на различных языках. Между тем, эксперту патентного ведомства требуется обнаруживать релевантные патенты независимо от того, на каком языке они опубликованы. В результате возникает важная поисковая задача  в случаях, когда патентная заявка поступает на одном языке, а документы, определяющие известный уровень техники, опубликованы на других языках.

Для преодоления возникающих при этом языковых барьеров в последнее время стали все более широко использовать возросшие возможности машинного перевода (МП). Причем имеется в виду  двоякое применение МП – для перевода на используемый экспертом язык всех входящих в  поисковый массив документов или для перевода поискового запроса эксперта на языки всех входящих в поисковый массив документов с целью последующего поиска релевантных документов на языках оригиналов.  Последний вариант более экономичен, но и его использование связано с определенными трудностями.

При осуществлении патентного поиска зачастую используется весьма пространный запрос, формулировка которого требует  обращения ко всему тексту патентной заявки. На перевод таких запросов на разные языки может уйти  много времени. Поэтому был предложен метод предварительной обработки текста запроса на проведение поиска для определения известного уровня техники, поскольку он ориентирован на выявление всех релевантных документов, способных опорочить новизну подаваемой заявки.    При использовании этого метода полный текст патентной заявки воспринимался как поисковый запрос, а цитируемые в ней документы – как релевантные документы, подлежащие автоматизированной идентификации.

Предварительная обработка текста заявки включала стандартные процедуры,  применяющиеся в большинстве информационно-поисковых систем: нормализация лексики,  усечение словоформ и изъятие общеупотребительных слов. Предполагается, что таким путем может быть обеспечена ускоренная настройка системы МП. Прежде всего,  изъятие общеупотребительных слов с последующей нормализацией неповторяющихся усеченных словоформ  резко сократит используемый в МП словарный запас.

Подвергнутый такой обработке запрос затем подлежит  МП  и используется в дальнейшем поиске на языках оригиналов. В эксперименте использовались две системы  так называемого «статистического» МП: Google translate и MaTrEx MT system. Эксперимент показал, что с помощью предложенного метода время МП сокращается до 23 раз без заметного влияния на качество перевода (1).

Специфика поиска патентных изображений

Большинство патентов включает и изобразительный раздел, состоящий из фигур, рисунков и диаграмм, используемый в качестве дополнительного средства отображения особенностей изобретения. Поэтому сегодня в сфере охраны интеллектуальной собственности  проявляется большой интерес к исследованиям и экспериментам, касающимся информационного поиска в этой области.

Изучение изображений может оказаться очень важным при попытках проникновения в сущность патентов и установления  их релевантности. При патентном поиске порой приходится просматривать тысячи патентов, пользуясь только содержащимися в них изображениями. Этот процесс мог бы быть ускорен с помощью автоматизированных систем поиска патентных изображений.

Еще одним подтверждением важности поиска патентных изображений является тот факт, что изображения, по самой своей сути, не зависят от языка заявителя и не испытывают воздействия происходящих со временем изменений в научной терминологии, воздействующих на качество поиска. К тому же использование при поиске патентных изображений облегчало  бы выявление  релевантных документов,  опубликованных на разных языках, не прибегая ко все еще недостаточно качественному машинному переводу.

Автоматизации поиска патентных изображений с  использованием  их визуального сходства  (см. WPI-2010-v.32-#2-p.84-106) показала неплохие  результаты. Однако  с его помощью нельзя решать множество задач, когда требуется идентифицировать изображения, отражающие в общем сходные объекты или понятия. То есть, когда изначально требуется установить, что  именно  обозначает данное изображение.

Поиск патентных изображений, основанный на понятиях, сталкивается с рядом вызовов. Требуется  выявлять наглядные изобразительные особенности рисунка и  переводить их  в воспринимаемые человеком понятия. Главной целью данной работы является исследование возможностей извлечения семантических понятий из сложных патентных изображений с использованием визуальных и текстовых данных

Извлечение понятий из патентного изображения требует разнородной информации, включающей как само изображение, так и описание рисунка. Однако получение такого описания сопряжено с рядом трудностей.  Оно может быть неполным, вводящим в заблуждение (например, из-за ссылки на неверный рисунок или его элемент), изложенным на труднодоступном языке и т.п. К тому же оно может касаться отдельных элементов изображения или изображения в целом. Для проводящего поиск специалиста важны обе разновидности информации. В исследовании  основное внимание уделялось  извлечению общих понятий, особенно важных на начальных стадиях поиска.

Процедура поиска начинается с обработки документов для выделения содержащихся в них изображений и сопровождающих их метаданных. В принципе это можно осуществить посредством автоматической сегментации патентного раздела изобразительной информации на отдельные рисунки.    Главной особенностью патентных рисунков является их черно-белое представление, зачастую – в форме диаграмм. Поэтому в данном случае использовался алгоритм, принимавший во внимание только геометрию изображений и распределение в них пикселей (наименьших логических элементов двумерного цифрового изображения).

Генерирование векторной функции включало  вычисление геометрического центра тяжести изображения, расчленение  его зоны на несколько  частей. После этого проводилось  генерирование векторной функции посредством подсчета распределения черных точек в каждой части.

Для получения текстовых признаков изображений используются содержащиеся в патентном документе текстовые описания. Они рассматриваются как неупорядоченная совокупность слов (bag-of-words), используемая для построения векторной функции путем подсчета словообразований, наиболее часто встречающихся в текстовых описаниях. Для этого проводится  изъятие общеупотребительных слов,  а оставшиеся КС, после приписки им  весовых коэффициентов, подвергаются индексированию.  В построении векторной функции  участвуют только те слова, которые преодолели весовой барьер (2).

Дополнение классификационного поиска поиском

по ключевым словам

Идентификация патентов, относящихся к вновь появляющимся междисциплинарным или интегрированным  технологиям, затрудняется отсутствием соответствующих рубрик в действующих классификациях либо невозможностью точного определения заявляемых изобретений с помощью рубрик, которые уже существуют. Так, исследуемые в данном случае патенты по компьютерным программам, применяющимся в автомобильном оборудовании, рассредоточены по 44 классам МПК. В таких случаях наиболее предпочтительным считается  патентный поиск по ключевым словам (КС). Однако, несмотря на довольно длительную историю, немало аспектов такого поиска все еще проработано недостаточно глубоко. В исследовании решались две задачи:

1)            Какие части патентного документа лучше использовать при поиске по КС: заглавия, рефераты, патентные формулы или описания изобретений.

2)            Как  отбирать  КС, обеспечивающие относительно более высокую эффективность идентификации нужных патентов.

При оценке эффективности поиска широко использовались  два критерия:

-  ошибка 1-го типа, определяемая отношением подлежащих выдаче,  но утраченных патентов,  к общему количеству подлежащих идентификации релевантных патентов;

- ошибка 2-го типа, определяемая отношением не подлежащих выдаче, но найденных нерелевантных патентов, к общему числу релевантных документов, которые следовало идентифицировать.

В ходе эксперимента было решено сопоставлять эффективность поиска по отобранным в соответствующем отраслевом словаре 33 КС, применяя по отдельности три способа, в которых в качестве объектов поиска использовались  соответственно:

- заглавия и рефераты;

- заглавия, рефераты и патентные формулы, которые играют особо важную роль при установлении предметного предела патентных притязаний;

- описания изобретений, представляющие многоаспектную характеристику заявляемого технического решения.

Для проведения эксперимента было отобрано 911 патентов по программному обеспечению автомобильного оборудования. В ходе последующего поиска по КС было установлено:

1. Поиск по одному КС с использованием всех трех способов  обеспечивает менее высокие средние  показатели полноты и более высокие показатели точности поиска. Это объясняется тщательным отбором КС по требуемой тематике, что одновременно снижает показатели полноты поиска.

2. Среднее значение  полноты поиска по одному КС возрастает, когда к заглавиям и рефератам добавляются патентные формулы (с 6,1 до 15,7 %).

3. Среднее значение полноты возрастает еще больше при поиске по описаниям изобретений (38,5%).

4. Средний показатель точности с использование первых двух упомянутых выше способов поиска колеблется не столь значительно (соответственно 89,1-89,4%) и снижается при поиске по описаниям изобретений (80,9%).

Это указывает на то, что эффективность поиска по отдельным КС  при  использовании  заглавий,  рефератов и патентных формул оказывается выше, чем поиск только по заглавиям и рефератам или по описаниям изобретений. Отдельное  КС не может обеспечить наивысших показателей,  как полноты, так  и точности идентификации патентов в узкой предметной области. Поэтому возникает потребность применения для этих целей кластеров  КС.

Пользуясь вышеприведенными определениями ошибок  1-го и 2-го типа, можно заключить, что если для идентификации патентов используются КС, отвечающие более высоким критериям точности, это обеспечит выдачу меньшего числа нерелевантных документов при одновременной утрате большего числа релевантных документов.

Во всех случаях, при использовании всех КС или КС во всех кластерах показатель ошибки 1-го типа при поиске по заглавиям и рефератам оказывается выше, чем при поиске с добавлением патентной формулы.

Во всех случаях при поиске по заглавиям, рефератам и патентным формулам показатель ошибок 1-го типа оказывается выше показателя ошибок 2-го типа, чем  при поиске по описаниям изобретений. Иначе говоря, поиск по описаниям выдаст больше релевантных документов, чем поиск по заглавиям, рефератам и ключевым словам, но в сопровождении множества нерелевантных документов, то есть с более высоким показателем ошибки 2-го типа. Большое количество нерелевантных документов, обнаруживаемое  в массиве описаний изобретений,  объясняется тем, что там излагается  предыстория данного решения, процесс изготовления и использования изобретения, что создает много информационного шума.

Результаты эксперимента показывают, что эффективность стратегии поиска, прежде всего, зависит от критерия точности, используемого  при отборе КС. Затем в поисковое предписание могут быть отобраны все КС, которые отвечают установленному критерию точности (3).

Средства обеспечения  качества патентного поиска

В компании Novartis, занимающейся биомедицинскими исследованиями, патентный отдел насчитывает 60 сотрудников, из которых 10 проводят  непосредственно поиск и анализ информации.  Этот коллектив осуществил в последние годы ряд инициатив. направленных на повышение качества патентного поиска. Прежде всего, в группе поиска каждый поисковый отчет подвергается оценке коллегами до его передачи клиенту. Важная роль также отводится  диалогу с клиентами, который  должен сопровождать поиск на всем его протяжении, вплоть до обсуждения выдаваемого им поискового отчета.

Кроме того, в процессе своей работы группа широко пользуется методикой бенчмаркинга (Benchmarking), включающего  в себя два процесса:оценки и сопоставления сходных процессов с целью улучшения собственной работы. При этом применяется как  внутренний, так и внешнийбенчмаркинг. В первом случае поисковый запрос формулируется параллельно двумя или более сотрудниками группы с последующим их сопоставлением. Во втором случае результаты своих поисков сопоставляются с результатами аналогичного поиска  других организаций

При поиске в области химии и фармацевтики небольших молекул с целью определения патентоспособности объекта поисковый запрос первоначально базируется на конкретном соединении или составе притязаний. Далее,  при определении  изобретательского уровня, запрос распространяется не только на структурно близкие соединения, но и на «ядерные» субструктуры – с охватом механизма воздействия лекарства и сферы его применения.

Еще одной проблемой, с которой сталкиваются эксперты при определении поисковой стратегии, является обеспечение баланса между  показателями точности и полноты  поиска. Одним из обходных способов преодоления этой проблемы является параллельное проведение поиска с использование нескольких поисковых систем.  Таким образом обеспечивается не только формирование более точного запроса, но и снижаются затраты на проведение многократных поисков.

Эффективность поиска повышается также за  счет включения в запрос фамилий/наименований изобретателей и правообладателей с дополнением нужных поисковых терминов. При этом потенциальным  источником полезной информации становятся сайты изобретателей и компаний.

Важным способом повышения эффективности поиска является учет показателей прямого и обратного цитирования, которое позволяет выявлять ранее пропущенные сведения, например, соединения с  аналогичными  концевыми системами или публикации, отличающиеся способом их индексирования в базах данных.

Полезная информация содержится также в базах данных о медикаментах, еще только  разрабатываемых компаниями. Базы данных типаThomson Reuters Integrity или Thomson Reuters Partnering содержат сведения о структуре лекарственных средств, виде  их воздействия и сфере применения.

Нахождение  новых способов повышения качества поиска должно быть неотъемлемой составляющей повседневной работы соответствующего подразделения компании.

Литература

1. Magdy W.,  Jones G. J. F. An Efficient Method for Using Machine Translation Technologies in Cross-Language Patent Search –

www. doras.dcu.ie…Using_Machine_Translation…in…Patent…

2.. Vrochidis S. et al. Concept-based patent image retrieval //WРI-2012-v.34-#4-p.292-303.

3. Xie Z., Miyazaki K. Evaluating the effectiveness of keyword search strategy for patent identification//WPI-2013-v.35-#1-p. 20-30

4. Endacott J., Poolman R. Looking for insights – Quality control initiatives for enhancing patent searches//WPI-2013-v/35-#1-p.3-7