Em ambientes virtuais, vocabulários controlados são listas de termos selecionados a partir da linguagem natural dos usuários que permitem a estruturação de informações cuja relevância reflita sua visão. Ou seja, valorizam mais ou menos os termos em função da sua importância para o usuário e para o negócio. São importantes instrumentos para garantir a consistência da indexação e da categorização (atribuição de tags), bem como da orientação dos usuários para localizar informações.

Para plataformas digitais, os vocabulários controlados podem ser estruturados em listas de termos, taxonomias, thesauri/tesauros, conjuntos de termos relacionados semântica e logicamente, construídos por aproximações “maior que”, “menor que”, ou “relacionado a” ou através de ligações cruzadas.

Tesauros mostram os relacionamentos entre termos e proveem uma estrutura hierárquica que permite a busca em vários níveis, desde as camadas mais abrangentes a camadas de informação mais específicas. Fazem parte da estratégia de constituição de vocabulários controlados, na medida em que são seleções de termos relacionados num conjunto de informações. Incluem a conceituação dos termos e de suas condições de uso em um universo de significação, uniformizando a forma gramatical e escrita dos termos e oferecendo opções de grafia especialmente dos nomes de pessoas e nomes compostos.

Resultado do diálogo entre arquivistas e conteudistas, aproximam-se tanto quanto possível da linguagem dos usuários do canal, ou do próprio site. Por isto o significado de cada termo fica restrito ao significado relacionado aos objetivos de cada vocabulário.

No site Conversa Afiada, Paulo Henrique Amorim usa termos de uso restrito do site, como (na barra de navegação) "PIG", "Bessinha". A pedido dos leitores, incluiu um glossário, para esclarecer termos como estes. barra de navegaç
No site Conversa Afiada, Paulo Henrique Amorim usava termos de uso restrito do site, como (na barra de navegação) “PIG”, “Bessinha”. A pedido dos leitores, incluiu um glossário, para esclarecer termos como estes. (acesso em 15.4.2015)

Os tesauros são gerados a partir da segmentação de um vocabulário controlado em categorias e da organização dos termos nessas categorias. Explicita-se as relações entre os termos (por hierarquia, equivalência, associação espaço-temporal), simplificando a atualização e tornando o uso mais consistente.

Os mapas resultantes são flexíveis, permitindo vários trajetos e servem de base para a indexação automatizada de documentos e para a criação de redes semânticas em bases de informação.

Podem incluir dois ou três sinônimos para expressar um mesmo conceito através de controle de sinonímia, homonímia ou quase-sinonímia. E admitir nomes próprios, desde que os agentes envolvidos na seleção dos termos concordem com sua inclusão.

Incluem notas de escopo ou de uso para garantir o controle do significado dos termos tanto na entrada (indexação dos documentos) quanto na saída do sistema (no momento da busca).

Um tesauro mais elaborado, que inclua relações semânticas como “localizado em”, “usado para”, “é membro de”, “pertence a” é conhecido como ontologia.

Em um site, os tesauros facilitam a recuperação de informações por usuários habituais, como:

Funcionários de uma empresa, em uma intranet

Alunos no site de uma escola

Pesquisadores sobre um assunto que recorrem à mesma fonte

Cidadãos procurando o serviço de uma organização governamental

Em 2017, Phil Izzo, vice-chefe de redação do Wall Street Journal redesenhou o aplicativo mobile do canal em torno da personalização do conteúdo. O resultado final, o My WSJ, atua em segundo plano após a inicialização e usa inteligência artificial para oferecer listas customizadas de reportagens baseadas nos hábitos de leitura de seus usuários.

A Dow Jones, companhia associada ao Journal, realiza há anos a marcação do conteúdo em todas as suas publicações, usando tags para criar links entre as notícias. É a tecnologia que alimenta o recurso “Notícias relacionadas” na área de trabalho, por exemplo. Quando um usuário entra no aplicativo do jornal, a primeira coisa que aparece é o feed de notícias, preenchido por inteligência artificial, sem edição externa, baseado em escolhas anteriores e interesses na web de modo geral.

Em junho de 2009, o The New York Times anunciou que passaria a publicar o tesauro que utilizava há mais de 100 anos e que tinha mais de um milhão de termos. O tesauro estava organizado em torno de 5 vocabulários controlados: assuntos, nomes de pessoas, organizações, localizações geográficas e títulos de trabalhos criativos (livros, filmes, peças etc.). A publicação permitiu à sociedade em geral utilizar o tesauro e também contribuir para aperfeiçoá-lo. (1)

De novembro de 2006 a janeiro de 2007, o governo federal brasileiro, por meio da Secretaria de Logística e Tecnologia da Informação (SLTI) abriu uma consulta pública para exame de uma lista com termos simplificados para uso na internet, a Lista de Assuntos do Governo, ou LAG. Essa lista procurou criar consenso sobre o acesso às informações publicadas nos sites governamentais, independentemente da estrutura formal dos órgãos e atividades.

Os termos simplificados e de uso intuitivo a serem aplicados em programas, projetos e e outras iniciativas publicadas em sites do governo priorizam as definições em detrimento da estrutura e deverão continuar válidos mesmo depois de mudanças e reestruturações institucionais.

Assim, para pagar uma taxa ou um imposto, o contribuinte não precisará saber antecipadamente a que órgão está vinculado, mas apenas o nome pelo qual é mais conhecido (ComputerWord, 10.1.2006, não mais disponível).

Sistemas de gerenciamento de conteúdo disponibilizam o recurso de atribuir diferentes tags a cada post, permitindo a micro-categorização a cada um de maneira não hierárquica, facilitando o acesso independente da estrutura criada pelas categorias, mais genéricas. As tags não devem ser usadas em excesso, pois podem confundir os usuários e gerar problemas de SEO com os buscadores. Há recursos disponíveis que permitem que as tags sejam usadas como meta keywords.

Os vocabulários controlados podem ser publicados em página que funcione como índice de assuntos, independente da estrutura de conteúdo.

(Atualizado em 16.12.2017)

 

Referências

2) Wall Street Journal usa inteligência artificial para conteúdo personalizadoLaura Hazard Owen (Poder 360, acesso em 16.12.2017

1) NYT to release thesaurus and enter linked data cloud (New York Times, acesso em 3.9.2009)

 

Termo utilizado

Declaração de assunto – Descrição mediante o emprego de um ou vários termos de indexação, normalmente selecionados de algum tipo de vocabulário controlado.