Sistema Unificado de Linguagem Médica

O Sistema Médico Unificado de Linguagem (em inglês: Unified Medical Language System (UMLS)) é um compêndio de muitos vocabulários controlados nas ciências biomédicas (criado em 1986).[1] Ele fornece uma estrutura de mapeamento entre esses vocabulários e, portanto, permite traduzir entre os vários sistemas terminológicos; também pode ser visto como um dicionário de sinônimos e ontologia abrangente de conceitos biomédicos. O UMLS fornece ainda facilidades para processamento de linguagem natural. Destina-se a ser utilizado principalmente por desenvolvedores de sistemas em informática médica.

O UMLS consiste em fontes de conhecimento (bancos de dados) e um conjunto de ferramentas de software.

O UMLS foi projetado e é mantido pela Biblioteca Nacional de Medicina dos EUA, é atualizado trimestralmente e pode ser usado gratuitamente. O projeto foi iniciado em 1986 por Donald A.B. Lindberg, M.D., então diretor da Biblioteca de Medicina e dirigido por Betsy Humphreys.[2]

Finalidade e aplicações editar

O número de recursos biomédicos disponíveis para os pesquisadores é enorme. Geralmente, esse é um problema devido ao grande volume de documentos recuperados quando a literatura médica é pesquisada. O objetivo do UMLS é aprimorar o acesso a essa literatura, facilitando o desenvolvimento de sistemas de computador que entendem a linguagem biomédica. Isso é alcançado através da superação de duas barreiras significativas: "a variedade de maneiras que os mesmos conceitos são expressos em diferentes fontes legíveis por máquina e por pessoas diferentes" e "a distribuição de informações úteis entre muitos bancos de dados e sistemas diferentes".[carece de fontes?]

Licenciamento editar

Os usuários do sistema são obrigados a assinar um "contrato UMLS" e apresentar breves relatórios anuais de uso. Usuários acadêmicos podem usar o UMLS gratuitamente para fins de pesquisa. O uso comercial ou de produção requer licenças de direitos autorais para alguns dos vocabulários de origem incorporados.

Fontes de conhecimento editar

Metathesaurus editar

O Metathesaurus forma a base da UMLS e compreende mais de 1 milhão de conceitos biomédicos e 5 milhões de nomes de conceitos, todos originários dos mais de 100 vocabulários controlados incorporados e sistemas de classificação. Alguns exemplos dos vocabulários controlados incorporados são CPT, CID-10, MeSH, SNOMED CT, DSM-IV, LOINC, Terminologia de Reação Adversa a Medicamentos da OMS, Termos Clínicos do Reino Unido, RxNorm, Ontologia Genética e OMIM (veja a lista completa).

O Metathesaurus é organizado por conceito, e cada conceito possui atributos específicos que definem seu significado e está vinculado aos nomes de conceito correspondentes nos vários vocabulários de origem. Inúmeras relações entre os conceitos são representadas, por exemplo, hierárquicas como "isa" para subclasses e "faz parte de" para subunidades, e as associativas como "são causadas por" ou "na literatura geralmente ocorrem próximas a" (o sendo derivado do Medline).

O escopo do Metathesaurus é determinado pelo escopo dos vocabulários de origem. Se vocabulários diferentes usam nomes diferentes para o mesmo conceito, ou se eles usam o mesmo nome para conceitos diferentes, isso será fielmente representado no Metathesaurus. Todas as informações hierárquicas dos vocabulários de origem são retidas no Metathesaurus. Os conceitos de Metathesaurus também podem ser vinculados a recursos fora do banco de dados, por exemplo, bancos de dados de sequência de genes.

Rede Semântica editar

Cada conceito no Metathesaurus recebe um ou mais tipos semânticos (categorias), que são vinculados entre si por meio de relacionamentos semânticos.[3] A rede semântica é um catálogo desses tipos e relacionamentos semânticos. Essa é uma classificação bastante ampla; existem 127 tipos semânticos e 54 relacionamentos no total.

Os principais tipos semânticos são organismos, estruturas anatômicas, função biológica, produtos químicos, eventos, objetos físicos e conceitos ou idéias. Os links entre os tipos semânticos definem a estrutura da rede e mostram importantes relações entre os agrupamentos e conceitos. O principal link entre os tipos semânticos é o "isa", estabelecendo uma hierarquia de tipos. A rede também possui 5 categorias principais de relacionamentos não hierárquicos (ou associativos), que constituem os 53 tipos de relacionamento restantes. Estes são "fisicamente relacionados a", "espacialmente relacionados a", "temporalmente relacionados a", "funcionalmente relacionados a" e "conceitualmente relacionados a".[3]

As informações sobre um tipo semântico incluem um identificador, definição, exemplos, informações hierárquicas sobre os tipos semânticos abrangentes e relacionamentos associativos. As relações associativas dentro da Rede Semântica são muito fracas. Eles capturam no máximo alguns relacionamentos, ou seja, capturam o fato de que alguma instância do primeiro tipo pode estar conectada pelo relacionamento saliente a alguma instância do segundo tipo. Em termos diferentes, eles capturam o fato de que uma afirmação relacional correspondente é significativa (embora não precise ser verdadeira em todos os casos).

Um exemplo de um relacionamento associativo é "pode-causar", aplicado aos termos (tabagismo, câncer de pulmão) produziria: fumar "causa-câncer".

SPECIALIST Lexicon editar

O SPECIALIST Lexicon contém informações sobre vocabulário comum em inglês, termos biomédicos, termos encontrados no MEDLINE e termos encontrados no Metathesaurus da UMLS. Cada entrada contém informações sintáticas (como as palavras são reunidas para criar significado), informações morfológicas (forma e estrutura) e ortográficas (ortografia). Um conjunto de programas Java usa o léxico para trabalhar com as variações nos textos biomédicos, relacionando as palavras por suas partes do discurso, o que pode ser útil em pesquisas na Web ou em registros médicos eletrônicos.

As inscrições podem ser termos de uma palavra ou de várias palavras. Os registros contêm quatro partes: formulário base (ou seja, "executar" para "executar"); partes do discurso (das quais o especialista reconhece onze); um identificador único; e quaisquer variantes de ortografia disponíveis. Por exemplo, uma consulta para "anestésico" retornaria o seguinte:[4]

{ base=anaesthetic
      spelling_variant=anesthetic
      entry=E0008769
          cat=noun
          variants=reg
}
{ base=anaesthetic
      spelling_variant=anesthetic
      entry=E0008770
          cat=adj
          variants=inv
          position=attrib(3)
}

O léxico SPECIALIST está disponível em dois formatos. O formato "registro da unidade" pode ser visto acima e inclui slots e preenchimentos . Um slot é o elemento (ou seja, "base =" ou "variante ortográfica =") e os preenchimentos são os valores atribuíveis a esse slot para essa entrada. O formato " tabela relacional " ainda não está normalizado e contém uma grande quantidade de dados redundantes nos arquivos.

Inconsistências e outros erros editar

Dado o tamanho e a complexidade do UMLS e sua política permissiva de integração de termos, os erros são inevitáveis.[5] erros incluem ambiguidade e redundância, ciclos hierárquicos de relacionamento (um conceito é ancestral e descendente de outro), ancestrais ausentes (os tipos semânticos de conceitos de pai e filho não têm relação) e inversão semântica (o relacionamento filho/pai com o tipos semânticos não é consistente com os conceitos).[6]

Esses erros são descobertos e resolvidos através da auditoria do UMLS. As auditorias manuais podem ser muito demoradas e caras. Os pesquisadores tentaram resolver o problema de várias maneiras. Ferramentas automatizadas podem ser usadas para procurar esses erros. Para inconsistências estruturais (como loops), uma solução trivial baseada no pedido funcionaria. No entanto, o mesmo não se aplica quando a inconsistência está no nível do termo ou do conceito (significado específico do contexto de um termo).[7] Isso requer que seja usada uma estratégia de pesquisa informada (representação do conhecimento).

Suporte a ferramentas de software editar

Além das fontes de conhecimento, a Biblioteca Nacional de Medicina também fornece ferramentas de suporte.

  • MetamorphoSys - personaliza o Metathesaurus para aplicativos específicos, por exemplo, excluindo certos vocabulários de origem.
  • lvg - um programa que usa o léxico SPECIALIST para gerar variantes lexicais de um determinado termo e para apoiar a análise de texto em linguagem natural.
  • MetaMap - ferramenta on-line que, quando recebe um texto arbitrário, encontra e retorna os conceitos relevantes do Metathesaurus.
  • MetaMap Transfer (MMTx) - Implementação Java do MetaMap (não é mais suportada).
  • Knowledge Source Server - acesso baseado na web a vocabulários (aposentado, outono de 2010).[8]

Software de terceiros editar

Referências

  1. Unified Medical Language System, 1996 
  2. Ellison D, Humphreys BL, Mitchell J. «Presentation of the 2009 Morris F Collen Award to Betsy L Humphreys, with remarks from the recipient». Journal of the American Medical Informatics Association. 17: 481–5. PMC 2995660 . PMID 20595319. doi:10.1136/jamia.2010.005728 
  3. a b National Library of Medicine (2009). «Chapter 5 - Semantic Networks». UMLS Reference Manual. U.S. National Library of Medicine, National Institutes of Health. Bethesda, MD: [s.n.] 
  4. Browne AC, McCray AT, Srinivasan S (junho de 2000). The Specialist Lexicon (PDF). Lister Hill National Center for Biomedical Communications, National Library of Medicine. Bethesda, MD: [s.n.] 
  5. Morrey CP, Geller J, Halper M, Perl Y. «The Neighborhood Auditing Tool: a hybrid interface for auditing the UMLS». Journal of Biomedical Informatics. 42: 468–89. PMC 2891659 . PMID 19475725. doi:10.1016/j.jbi.2009.01.006 
  6. Elhanan G, Perl Y, Hripcsak G, Geller J, Morrey CP, Xu J, Halper M. «Comparing inconsistent relationship configurations indicating UMLS errors». AMIA ... Annual Symposium Proceedings. AMIA Symposium. 2009: 193–7. PMC 2815406 . PMID 20351848 
  7. Zhu X, Fan JW, Baorto DM, Weng C, Cimino JJ. «A review of auditing methods applied to the content of controlled biomedical terminologies». Journal of Biomedical Informatics. 42: 413–25. PMC 3505841 . PMID 19285571. doi:10.1016/j.jbi.2009.03.003 
  8. «Unified Medical Language System® (UMLS®) News: Revised License Agreement, New UMLS Terminology Services and Browser, Discontinued UMLSKS, and API Changes». NLM Technical Bulletin. U.S. National Library of Medicine. 29 de julho de 2010 

Leitura adicional editar

Ligações externas editar