Em ambientes online, vocabulários controlados são listas de termos selecionados a partir da linguagem natural dos usuários que permitem a estruturação de informações cuja relevância reflita sua visão. Ou seja, valorizam mais ou menos ostermos em função da sua importância para o usuário e para o negócio. São um importante instrumento para garantir a consistência da indexação e da categorização (atribuição de tags), bem como da orientação dos usuários para localizar informações.
Para plataformas digitais, os vocabulários controlados podem ser estruturados em listas de termos, taxonomias, thesauri ou tesauros, conjuntos de termos relacionados semântica e logicamente, construídos por aproximações “maior que”, “menor que”, ou “relacionado a” ou através de ligações cruzadas. Tesauros mostram os relacionamentos entre termos e proveem uma estrutura hierárquica que permite a busca em vários níveis, desde as camadas mais abrangentes a camadas de informação mais específicas. Fazem parte da estratégia de constituição de vocabulários controlados, na medida em que são seleções de termos relacionados sobre um negócio ou atividade. Incluem a conceituação dos termos e de suas condições de uso em um determinado universo de significação, uniformizando a forma gramatical e escrita dos termos utilizados e oferecendo opções de grafia especialmente dos nomes de pessoas e nomes compostos. Resultado do diálogo entre arquivistas e conteudistas, aproximam-se tanto quanto possível da linguagem adotada pelos usuários do canal, ou do próprio website. Por isto o significado de cada termo fica restrito ao significado relacionado aos objetivos de cada vocabulário.
No site Conversa Afiada, Paulo Henrique Amorim usa termos de uso restrito do site, como (na barra de navegação) "PIG", "Bessinha". A pedido dos leitores, incluiu um glossário, para esclarecer termos como estes. barra de navegaç
No site Conversa Afiada, Paulo Henrique Amorim usa termos de uso restrito do site, como (na barra de navegação) “PIG”, “Bessinha”. A pedido dos leitores, incluiu um glossário, para esclarecer termos como estes. (acesso em 15.4.2015)
Os tesauros são gerados a partir da segmentação de um determinado vocabulário controlado em categorias e da organização dos termos nestas categorias. Explicita-se as relações entre os termos (por hierarquia equivalência, associação espaço-temporal), simplificando a atualização e tornando o uso mais consistente. Os mapas resultantes são flexíveis, permitindo vários trajetos e servem de base para a indexação automatizada de documentos e para a criação de redes semânticas em bases de informação. Podem incluir dois ou três sinônimos para expressar um mesmo conceito através de controle de sinonímia, homonímia ou quase-sinonímia. E admitir nomes próprios, desde que os agentes envolvidos na seleção dos termos concordem com sua inclusão. Incluem notas de escopo ou de uso para garantir o controle do significado dos termos tanto na entrada (indexação dos documentos) quanto na saída do sistema (no momento da busca). Um tesauro mais elaborado, que inclua relações semânticas como “localizado em”, “usado para”, “é membro de”, “pertence a” é conhecido como ontologia. Em um website, os tesauros facilitam a recuperação de informações por usuários habituais, como por exemplo:

Funcionários de uma empresa, em uma intranet

Alunos no site de uma escola

Pesquisadores sobre um assunto específico que recorrem habitualmente à mesma fonte

Cidadãos procurando o serviço de uma organização governamental

Em 2017, Phil Izzo, vice-chefe de redação do Wall Street Journal redesenhou o aplicativo mobile do canal em torno da personalização do conteúdo. O resultado final, o My WSJ, atua em segundo plano após a inicialização e usa inteligência artificial para oferecer listas customizadas de reportagens baseadas nos hábitos de leitura de seus usuários.

A Dow Jones, companhia associada ao Journal, realiza há meses o processo de marcação do conteúdo em todas as publicações, usando tags para criar links entre suas notícias. É a tecnologia que alimenta o recurso “Notícias relacionadas” na área de trabalho, por exemplo. Quando um usuário entra no aplicativo do jornal, a primeira coisa que aparece é o feed de notícias, preenchido por inteligência artificial, sem edição externa, baseado em suas escolhas anteriores e seus interesses na web de modo geral.

Em junho de 2009, o The New York Times anunciou que passaria a publicar o tesauro que utilizava há mais de 100 anos e que tem mais de um milhão de termos. O tesauro está organizado em torno de 5 vocabulários controlados: assuntos, nomes de pessoas, organizações, localizações geográficas e os títulos de trabalhos criativos (livros, filmes, peças etc.). A publicação permitirá à sociedade em geral utilizar o tesauro e também contribuir para aperfeiçoá-lo. (1)

The Linking Open Data cloud diagram
The Linking Open Data cloud diagram. http://open.blogs.nytimes.com/2009/06/26/nyt-to-release-thesaurus-and-enter-linked-data-cloud/?_r=0

De novembro de 2006 a janeiro de 2007, o governo federal brasileiro, por meio da Secretaria de Logística e Tecnologia da Informação (SLTI) abriu uma consulta pública para exame de uma lista com termos simplificados para uso na internet, a Lista de Assuntos do Governo, ou LAG. Esta lista procura criar um consenso sobre o acesso às informações publicadas nos sites governamentais, independentemente da estrutura formal dos órgãos e atividades. Acesse a lista (formato CSV)

Os termos simplificados e de uso intuitivo a serem aplicados em programas, projetos e e outras iniciativas publicadas em sites do governo priorizam as definições em detrimento da estrutura e deverão continuar válidos mesmo depois de mudanças e reestruturações institucionais.

Assim, para pagar uma taxa ou um imposto, o contribuinte não precisará saber antecipadamente a que órgão está vinculado, mas apenas o nome pelo qual é mais conhecido (ComputerWord, 10.1.2006, não mais disponível).

Sistemas de gerenciamento de conteúdo disponibilizam o recurso de atribuir diferentes tags a cada post, permitindo a micro-categorização a cada um de maneira não hierárquica, facilitando o acesso de modo independente da estrutura criada pelas categorias, mais genéricas. As tags não devem ser usadas em excesso, pois o podem confundir os usuários e gerar problemas de SEO com os buscadores. Há recursos disponíveis que permitem que as tags sejam usadas como meta keywords. Os vocabulários controlados podem ser publicados em página que funcione como um índice de assuntos, independente da estrutura de conteúdo. (Atualizado em 16.12.2017)
 

Referências

2) Wall Street Journal usa inteligência artificial para conteúdo personalizadoLaura Hazard Owen (Poder 360, acesso em 16.12.2017) Better living through taxonomies (Digital Web, acesso em 31.7.2010) Como elaborar vocabulário controlado para aplicação em arquivos, de Johanna Wilhelmina Smit e Nair Yumiko Kobashi (http://www.saesp.sp.gov.br/cf10.pdf)) 1) NYT to release thesaurus and enter linked data cloud (New York Times, acesso em 3.9.2009) Messing around with metadata, de Jacob Harris (New York Times, acesso em 3.9.2009) Mining the NY times archives (Blog Ever Was, de Ian Kennedy, acesso em 3.9.2008)

Termos utilizados

Declaração de assunto – Descrição mediante o emprego de um ou vários termos de indexação, normalmente selecionados de algum tipo de vocabulário controlado.