Search

O motor de pesquisa da Priberam é o resultado de vários anos de trabalho nas áreas do processamento de língua natural e dos sistemas de informação jurídica, bem como dos projetos de investigação e desenvolvimento em que a empresa tem participado na área da pesquisa de informação.

As bases do que é hoje o Priberam Search começaram a ser desenvolvidas em 1990 com o aparecimento do LegiX. Ao longo dos últimos 20 anos, a tecnologia de pesquisa foi progressivamente melhorada, principalmente através da introdução de tecnologias de processamento de linguagem natural e da utilização de recursos linguísticos cada vez mais completos, como uma ontologia com cerca de 200.000 palavras e locuções, alinhada entre 4 línguas (português, espanhol, francês e inglês).

As participações em projetos de investigação europeus como o TRUST (Text Retrieval Using Semantic Technology) e o Tecnovoz, permitiram posicionar a tecnologia de pesquisa da Priberam entre as melhores disponíveis no mercado.

 

A recorrente participação em avaliações internacionais, como o QA@CLEF, em que o motor de resposta automática a perguntas da Priberam obteve o primeiro lugar por diversas vezes, tem comprovado a qualidade do sistema.

Pesquisa e extração de informação

A tecnologia de pesquisa e extração de informação da Priberam vai bem mais longe do que aquela que é possível encontrar em outros sistemas disponíveis no mercado. Nestes sistemas, a indexação e a pesquisa são feitas considerando apenas as palavras e as estatísticas da sua ocorrência, devidamente filtradas por uma lista de palavras (stop words) convenientemente ignoradas. Alguns destes sistemas incluem ainda um lematizador (stemmer), de maior ou menor qualidade, que identifica as palavras sem flexão, permitindo fazer uma correspondência entre flexões utilizadas na informação indexada e nas pesquisas efetuadas, por exemplo, entre singulares e plurais, masculinos e femininos ou formas verbais de um mesmo verbo.

Os recursos linguísticos para português europeu e português do Brasil de que a Priberam dispõe permitem uma análise muito mais profunda da informação indexada, bem como das pesquisas efetuadas, recorrendo à análise sintática, a dicionários de sinônimos e a uma ontologia onde se encontram codificadas as relações semânticas entre cerca de 200 000 palavras e expressões. Só desta forma é possível encontrar a informação mais relevante para uma determinada pesquisa, mesmo que as palavras pesquisadas ou a pergunta formulada não incluam nenhuma palavra em comum com o documento apresentado.

Nos resultados das pesquisas, além do título e de uma hiperligação para o texto completo, é apresentado um excerto do documento (snippet), extraído de forma automática. Tanto no título como no excerto, são realçadas não só as palavras constantes da pesquisa, como os sinônimos ou palavras semanticamente relacionadas. Estas últimas podem ser realçadas de forma diferente para evidenciar que não eram mencionadas na pesquisa efetuada.

O motor de pesquisa da Priberam pode ainda levar em conta a atualidade da informação, atribuindo maior relevância à informação mais recente. Esta é uma característica fundamental, por exemplo, em serviços de notícias. As pesquisas podem ser restringidas temporalmente, quer através de uma interface própria (controle do tipo calendário), quer através do que é digitado na caixa de pesquisa.

Resposta automática a perguntas

 

Quando são feitas perguntas em língua natural (por exemplo, “Qual é a taxa de inflação?”), detectadas através da análise da pesquisa efetuada, o motor de resposta automática a perguntas é acionado, devolvendo uma resposta e o excerto em que ela foi encontrada, além de assinalar outras potenciais respostas.

O sistema de resposta a perguntas da Priberam está preparado para responder a perguntas em língua natural de diversos tipos, sendo os melhores resultados obtidos para perguntas factuais (perguntas que procuram obter um nome, uma localização, um fato, uma data, etc.). As perguntas podem também incluir restrições temporais (por exemplo “Quem recebeu o Nobel da Literatura em 1998?”).

As respostas podem ser realçadas nos excertos apresentados na lista de resultados, tal como as palavras que constam da pergunta e os seus sinônimos ou palavras relacionadas.

 

Extração de entidades

 

Complementando a lista dos resultados mais relevantes para uma determinada pesquisa, o motor de pesquisa da Priberam devolve ainda, de forma automática, um conjunto de nomes de pessoas, organizações ou lugares contextualizados que permitem explorar, com um simples clique, informação relacionada ou restringir a pesquisa, limitando-a ao subconjunto de documentos que inclui essa entidade.

Este mecanismo permite a descoberta de novas informações ou de relações por vezes não evidentes entre assuntos, pessoas, organizações e/ou lugares, potencializando a navegação em conteúdos relacionados.

 

Sugestões de correção

 

Diversos estudos demonstram que mais de 10% das pesquisas efetuadas em motores de pesquisa contêm erros. O motor de pesquisa da Priberam é capaz de detectar estes erros e sugerir pesquisas alternativas, tendo em conta não só os recursos para a língua portuguesa (léxicos), mas também a informação indexada, já que a probabilidade de cometer erros na escrita de nomes estrangeiros é ainda maior.

 

Integração de conteúdos

 

Os resultados de pesquisa podem integrar conteúdos de diferentes fontes (pesquisa federada).

Personalização

O processo de indexação pode ser parametrizado em função do tipo de informação indexada e da forma como se encontra estruturada. Esta parametrização permite otimizar os resultados da pesquisa em função de uma estrutura de dados específica. Também as sugestões para as pesquisas têm em conta a informação indexada.

O tempo entre indexações incrementais é configurado de acordo com a taxa de atualização da informação (por exemplo, minuto a minuto).

O sistema devolve os resultados em XML (resultados da pesquisa, entidades relacionadas, eventuais sugestões de correção, potenciais respostas, informação a realçar), permitindo assim uma integração total em termos de apresentação dos resultados.

Precisa de mais informações?

Entre em contato por telefone, email ou redes sociais.

© 2017 por Amplex

Brasil

  • Black LinkedIn Icon
  • Preto Ícone Instagram
  • Black Facebook Icon
  • Black Twitter Icon

www.amplex.com.br

+55 21 2492-3301