Resumo
O projeto ONTOJURIS tem por finalidade facilitar o acesso a Informações sobre legislação na área de Propriedade Intelectual, Direito do Consumidor e Direito Eletrônico no consórcio formado pelo Brasil, Chile, Espanha e Argentina. Para isso, conta com uma rede social estabelecida entre estes países e com uma estrutura computacional, representada pelas tecnologias de busca inteligentes do instituto i3G e de universal words da Universidade Politécnica de Madrid. O Sistema Inteligente de busca baseia-se em ontologias, que permitem o mapeamento dos assuntos e termos relacionados às matérias tratadas pelo sistema, possibilitando pesquisas contextualizadas. É uma solução desenvolvida com a última geração de metodologias e tecnologias digitais para tratamento textual, com destaque para a Pesquisa Contextual Estruturada – PCE, a Representação do Conhecimento Contextualizado Dinamicamente – RC2D e a metodologia de Engenharia de Ontologias denominada Engenharia da Mente. A singularidade desta tecnologia permite a realização de consultas com grandes volumes de texto e destaca-se na nova era da Internet, na qual semântica e ontologias trabalham juntas para incrementar o processo de busca de informações relevantes em documentos digitais. Além disso, a utilização de universal words aliada a ontologias em português, espanhol e inglês permite ao ONTOJURIS ativar uma sistemática completamente inovadora na localização de documentos, por considerar o contexto do assunto que está sendo pesquisado em vários idiomas.
Relevância do Tema
A motivação para essa pesquisa está embasada no fato de que o Direito precisar recorrer à soluções que reduzam a complexidade cada vez maior do Sistema Jurídico.
Estudos envolvendo sistemas de informação, inteligência artificial e direito são imprescindíveis para otimização das atividades dos operadores do direito, tendo em vista que esses tipos de sistemas permitem a substituição de tomada de decisão rotineira por atividades mais inteligentes.
Ao reduzir drasticamente a burocracia e automatizar um número enorme de rotinas, a tecnologia também amplia a liberdade e o poder de organização da atividade profissional.
Importante destacar que o conhecimento jurídico básico também deve ser acessível a todas as camadas da sociedade, democraticamente, para o exercício da cidadania ativa.
A produção e disseminação de informação em escala crescente fizeram surgir mecanismos voltados ao registro dos dados de forma uniforme e com estrutura bem definida, com vistas à posterior recuperação e utilização dos mesmos. Neste contexto, os Sistemas de Recuperação da Informação exercem papel fundamental. Estes Sistemas têm sido alvo de pesquisas voltadas ao seu aperfeiçoamento, na busca da melhor performance que vá ao encontro das necessidades do usuário.
Os Sistemas Computacionais baseados em técnicas de Inteligência Artificial possuem um diferencial com relação a outros sistemas computacionais: permitem uma constante evolução e adaptação do conhecimento. No entanto, definir o conhecimento a ser colocado dentro de um sistema é o grande gargalo no desenvolvimento destes sistemas inteligentes. No campo da recuperação da informação, diversas linguagens têm sido construídas voltadas a este fim. Mais recentemente, as ontologias têm se apresentado como uma alternativa na resolução de problemas semânticos prejudiciais à recuperação de informação.
A noção de Ontologia se popularizou na área de integração inteligente da informação, recuperação de informação na Internet e gerência do conhecimento. Isto se deve, em parte, ao fato de favorecer uma compreensão compartilhada e comum de algum domínio que possa ser comunicada através das pessoas e dos computadores, conforme pesquisadores da área. A aplicação de ontologias na recuperação de informações pode permitir uma ampliação da extração de conhecimento ao fornecer um sistema conceitual expresso por um conjunto de termos e suas relações.
As Ontologias procuram refletir não apenas a memória léxica humana, mas também estabelecer relações conceituais baseadas no contexto do domínio trabalhado, estabelecendo uma rede constituída por conceitos unidos por diferentes relações semânticas. Elas visam os conhecimentos consensuais, desenvolvidos através de processo cooperativo, e buscam trazer um entendimento comum de determinado domínio através da relação entre palavras ou expressões indicativas que vão representar este domínio.
A evolução das pesquisas demonstra que, contextualizar as buscas na web ou em bases de dados através de pesquisas que envolvam semântica é o futuro das ferramentas de mineração de dados. As ontologias podem ser usadas, dentre outras coisas, com o propósito de melhorar a exatidão de buscas. Um sistema de gerenciamento de conhecimento baseado em Ontologias poderá ser capaz de recuperar somente as páginas e documentos relevantes para o usuário, considerando o contexto do assunto que está sendo pesquisado. Assim, infere-se que as ontologias são fundamentais para sistemas de recuperação inteligentes que tenham por finalidade a busca ou a combinação/integração de informações provenientes de diversas fontes.
Na concepção dos sistemas, com o objetivo de integrar e viabilizar o uso de ontologias surge a necessidade de uma ferramenta específica, denominada Editor de Ontologias. O Editor de Ontologias objetiva auxiliar o trabalho da equipe de especialistas na construção de Ontologias. A ferramenta consiste em uma estrutura que relaciona termos complexos, considerando seus conceitos no domínio de conhecimento específico do aplicativo, permitindo que este reconheça o contexto dos documentos em análise.
Aplicar semântica nas ferramentas de busca de informações é fundamental, entretanto, verifica-se que o desenvolvimento destas ferramentas para a construção de ontologias ainda é tímido. Identifica-se nas publicações e sistemas disponíveis que são poucos os editores de ontologias baseados nos fundamentos da web semântica, dando ênfase apenas a semântica e não ao contexto. Pode-se citar como exemplo o Protégé, uma das ferramentas mais conhecidas, que utiliza as linguagens OWL, RDF, RDFS e XML. A especificação das ontologias neste tipo de editor se apresenta de forma complexa e requer que o especialista domine o programa, sendo necessário conhecimento prévio a respeito de classes, subclasses e atributos que tornem possível o sentido semântico da ontologia, o que praticamente inviabiliza o seu uso corrente nas instituições.
Para tanto, a construção de Editores de Ontologias mais amigáveis ao usuário final torna-se imprescindível para a disseminação desta prática, sendo que a análise contextual possibilitará a recuperação de informações com inferências mais precisas que venham a interagir de maneira mais confiável e relevante com o conhecimento humano.
Estado da Arte
No sistema legal brasileiro, a jurisprudência é uma fonte formal do Direito Positivo [Reale, (1994)]. Quando um profissional do direito realiza uma pesquisa jurisprudencial, ele está buscando informações para reforçar o seu ponto de vista sobre a interpretação de uma norma jurídica e define argumentos persuasivos para fazer a analogia entre o seu problema atual e o anterior, já solucionado.
Muitos destes textos jurídicos estão disponíveis em bancos de dados, inclusive acessíveis na Internet (p. ex., Tribunais Federais, Tribunais Estaduais, ou Órgãos Públicos). No entanto, as buscas por informações jurídicas nesses sistemas requerem conhecimento jurídico e estão limitadas devido a problemas como a ambigüidade sintática e semântica, e também a incerteza existentes nos textos dos documentos [Lenz et al. (1998)]. Na prática, estes bancos de dados recuperam freqüentemente um grande número de informações irrelevantes, além de exigirem uma repetida reformulação da busca para alcançar um resultado satisfatório.
Utilizamos o Raciocínio Baseado em Casos (RBC) [Amondt–Plaza (1994)][Kolodner, (1993)], uma poderosa tecnologia da Inteligência Artificial para o desenvolvimento da presente abordagem [Rissland—Daniels, ( 1995)]. O RBC usa experiências anteriores e semelhantes para a solução de um problema novo. O RBC é baseado no princípio de analogia, assumindo que problemas semelhantes têm soluções semelhantes. Por esta razão, o RBC é uma técnica muito adequada ao domínio jurídico, pois utiliza o mesmo tipo de raciocínio utilizado pelos juristas na solução de um problema [Bueno (1999)]. Para aplicar a técnica de RBC na recuperação de textos de jurisprudência, o domínio de aplicação (v.g., Acórdãos Criminais) precisa ser modelado de forma que características relevantes dos documentos sejam identificadas, assim como, a terminologia usada no domínio definida. Aqui, a teoria de argumentação jurídica [Warat, (1994)] ofereceu apoio teórico pela análise do significado do caso legal. Isso possibilita o processamento do conhecimento informal nas pesquisas por casos apropriados na base de casos em linguagem natural. A construção de um vocabulário controlado e de um dicionário jurídico permite o processamento dessa informação.
Com base nesta estrutura teórica, definimos a representação, o processo de recuperação e a extração automática dos atributos dos novos documentos a serem incluídos na base de casos.
Apesar dos avanços tecnológicos referentes aos estudos sobre os mecanismos de busca e representação de conhecimento, muitos resultados ainda são esperados, principalmente relacionados à eficiência de suas aplicações.
Em se tratando da representação do conhecimento, ‘uma grande dificuldade da Inteligência Artificial (IA) é relacionada com a definição da terminologia empregada para nomear os conceitos e as relações (REZENDE, 2003) .’ (BUENO, 2005). Nesse sentido, o estudo das ontologias apresenta-se como uma possibilidade de sanar essa limitação.
Atualmente existem três grandes desenvolvimentos de abrangência mundial que trabalham a representação do conhecimento para sistemas de recuperação, eles utilizam a Internet para o desenvolvimento de Ontologias, em ambiente compartilhado. São: a UNL, a Semantic Web e a WordNet. De maneira geral, ‘as três iniciativas buscam facilitar o processamento automático das informações contidas em documentos, permitindo aos computadores executar operações mais inteligentes e recuperar essas informações de forma mais eficiente’. (BUENO, 2005).
A UNL e a WordNet possuem o foco no relacionamento das palavras entre si e, através deste relacionamento, contextualizam-nas dentro do assunto tratado pelo documento, preferencialmente através de mecanismos automáticos.
Já a Semantic Web trabalha com a contextualização do documento, através da marcação de partes específicas do mesmo. Essa marcação é feita pelo autor do documento.
A Universal Networking Language (UNL) surgiu como uma linguagem que serve aos computadores alcançarem o conhecimento na forma de uma linguagem natural para os computadores. Trata-se de uma linguagem eletrônica que torna possível a comunicação em diferentes línguas, acelerando a eliminação de barreiras lingüísticas. A UNL é, portanto, uma linguagem para computadores expressarem informações e conhecimentos escritos em linguagem natural.
Esse sistema de informação é composto por um ‘codificador’, um ‘decodificador’ e um ‘visualizador’, residente na Web, compatível com os padrões mundiais de rede. É o maior mapeamento da linguagem humana em toda a sua história, e um dos maiores projetos multidisciplinares da Engenharia do Conhecimento, ao lado dos projetos GENOMA e SETI .
É uma linguagem artificial na forma de rede semântica, que permite que os computadores expressem e troquem algum tipo da informação, composto por: um vocabulário formado por Palavras Universais (UW); um jogo das relações e dos atributos, representando a sintaxe da UNL; e a base de conhecimento de UNL, que é a semântica da linguagem. A representação da informação, usando UNL, é feita sentença a sentença. A sentença é representada por um hypergraph, em que as UW são os nódulos, relações e atributos que constituem os arcos do gráfico. Há pelo menos uma relação binária entre a UW de uma sentença e a classificação dos assuntos e dos objetos da sentença que é expressa, respectivamente, por relações e por atributos. Desta forma, um documento UNL supõe o formato de uma lista longa das relações entre conceitos.
A WordNet é um sistema de referência léxico cujo design é inspirado em teorias psicolingüísticas sobre a memória léxica humana. São classificados apenas os substantivos, verbos, adjetivos e advérbios da língua inglesa, sendo organizados em conjuntos de sinônimos, cada qual representando um conceito léxico. Os conjuntos de sinônimos são ligados entre si através de outras relações diferentes.
A análise da estrutura ontológica da WordNet é mesmo importante, devido ser crescente o número de aplicações em que a WordNet está sendo utilizada – mais como Ontologia do que como um recurso lexical. Para ser usada como Ontologia, porém, algumas ligações léxicas da WordNet precisam ser reinterpretadas como ligações semânticas, conectando o significado pretendido junto às palavras, de acordo com a própria interpretação pessoal ou individual. Uma dessas ligações é a relação hiponímia e hipernímia, que corresponde em muitos casos à relação usual (ou IS_A) de classificação entre os conceitos. Uma primeira tentativa para explorar os problemas semânticos e Ontológicos, que estão por trás dessa correspondência, é descrita por Guarino (1998).
A Semantic Web é uma extensão da Web atual, na qual a informação possui um significado mais bem-definido, permitindo que os computadores possam processar a informação contida nas páginas, e entendê-la, executando operações que facilitem o trabalho para os usuários. Ela torna exeqüível o processamento automático das informações contidas em documentos, permitindo aos computadores efetuar operações mais inteligentes e recuperar as informações de forma mais eficiente.
Um dos recursos mais importantes da Semantic Web são aqueles chamados web-services. Ou seja, páginas na Web que não só fornecem informação estática, mas permitem que se efetue alguma ação. A Semantic Web permite ao usuário localizar, selecionar, desenvolver, compor e monitorar web-services automaticamente.
A Semantic Web utiliza-se da flexibilidade da estrutura Resource Description Framework (RDF), na qual é possível descrever o conteúdo da informação disseminada na rede, fazendo-se afirmações sobre determinado objeto e identificando suas propriedades e valores. Cada objeto ou assunto é identificado por um Identificador Universal de Registro (URI) que assegura que as palavras na Web estejam relacionadas a apenas uma definição (BERNERS-LEE et al, 2001).
Ela utiliza ainda das Ontologias para possibilitar a recuperação de conceitos. Nesse caso, uma ontologia possui uma taxonomia e um conjunto de regras de inferência. A taxonomia define as classes de objetos e as relações que se estabelecem entre eles. Forma-se assim uma estrutura em que propriedades são atribuídas, e determinadas classes e objetos, que pertençam a esta classe, herdam suas características. Berners-Lee et al (2001) afirmam que a ambigüidade pode ser solucionada atribuindo-se diferentes URIs para cada conceito de uma palavra. Assim, os motores de busca poderão encontrar páginas que se refiram a conceitos específicos e não todas as páginas, nas quais a palavra ambígua é utilizada. A solução de ambigüidades constitui-se numa das principais preocupações dos estudos da Semantic Web (Bräscher, 2004).
Existem algumas ferramentas para edição de ontologias na web. Nesse sentido, uma ferramenta bastante difundida para sua criação, que utiliza os princípios da Semantic Web, é o Protégé, um ambiente interativo de código que oferece uma interface gráfica para edição de ontologias e uma arquitetura para a criação de ferramentas baseadas em conhecimento. (http://www.encontros-bibli.ufsc.br/Edicao_19/4_Almeida.pdf)
Embora existam diferentes ferramentas para construção de ontologias, essas ainda podem ser aprimoradas no que se refere a seus resultados, aplicabilidade e metodologias utilizadas na sua concepção. Para resolver essa questão o projeto propõe a construção de um ambiente de criação de ontologias compartilhado mais amigável.
Objetivos
O projeto tem por objetivo geral a Pesquisa para Desenvolvimento de um Sistema Inteligente para Busca de Informações sobre legislação na área de Propriedade Intelectual, Direto do Consumidor e Direito Eletrônico, que será desenvolvido a partir do editor de Ontologias de Contexto, denominado ONTOWEB.
Específicos:
- Mapear a legislação pertinente aos temas propostos (Propriedade Intelectual, Direito do Consumidor e Direito Eletrônico);
- Identificar e definir os padrões para o relacionamento entre termos;
- Definir a métrica para a indexação das ontologias;
- Modelar a interface da ferramenta;
- Definir parâmetros que permitam a importação e exportação de ontologias;
- Especificar a apresentação dos resultados;
- Elaborar procedimentos para a integração do editor de ontologias com aplicativos e ferramentas de busca na web e em banco de dados.
Resultados Esperados
- Realização de seminários e workshops para troca de experiências;
- Permitir que usuários da América Latina tenham amplo acesso as legislações sobre Propriedade Intelectual, Direito do Consumidor e Direito Eletrônico;
- Permitir o acesso mais fácil aos cidadãos a conceitos e conhecimento jurídicos, sem a necessidade de nenhuma intermediação direta.
- Aumentar a qualidade dos serviços prestados por operadores do direito
- Publicações científicas em congressos e periódicos sobre Informática e Direito e Gestão do Conhecimento, Direito Eletrônico e Engenharia de software;
- Proporcionar a representação de conhecimento através de ontologias de contexto;
- Conceber uma ferramenta amigável para a utilização de ontologias de contexto em sistemas de busca e recuperação de informação;
- Gerar relatórios e gráficos dos dominios e seus termos relacionados capazes de agregar conhecimento para quem os analisa;
- Elaborar uma rede de relacionamento semântico entre as ontologias, facilitando o entendimento visual;
- Adotar, na medida do possível, tecnologias e soluções embasadas na web semântica;
- Integrar o editor de ontologias a sistemas de busca na web e em banco de dados.
Apoio Financeiro
Este projeto tem o apoio financeiro do CNPq.
Coordenação do Projeto
A coordenação e gestão do projeto serão executadas pelo IJURIS/i3G, que criará uma estrutura organizacional através de um comitê gestor com participação de pesquisadores da Universidade Politécnica de Madrid, da Universidade Fasta de Mar del Plata, do Curso de Direito e do Curso de pós-graduação em Engenharia e Gestão do Conhecimento da Universidade Federal de Santa Catarina (UFSC) e de profissionais Chilenos que atuam na área e podem contribuir com a experiência e pesquisas realizadas nas áreas de interesse do projeto.
A participação dos pesquisadores das instituições estrangeiras se dará através de troca de dados de pesquisas, encontros promovidos no Brasil e nas sedes das instituições com objetivo de disseminar os resultados obtidos além de compartilhar o conhecimento adquirido e agregar todos na construção da base de conhecimento alvo do projeto. Nestes encontros, pretende-se a realização de fóruns de discussão, workshops interativos que permitam a ampla participação da comunidade científica envolvida.
|