Projetos web:
Criação de modelos

Arquitetura da informação

Atividades relacionadas

Índices de palavras-chave (vocabulário controlado)

Atualizado em 3.9.2009

Em muitos ambientes online, os índices de termos (tesauros) e vocabulários controlados permitem a estruturação de informações cuja relevância diferenciada reflete a visão estratégica do conteúdo do site. Permitem a organização e a recuperação consistente de informações e facilitam o estabelecimento de relações de confiança com os usuários.

Na formatação de web sites, os vocabulários controlados podem ser estruturados em thesauri ou tesauros, conjuntos de termos relacionados semântica e logicamente, construídos cuidadosamente por aproximações “maior que”, "menor que”, ou “relacionado a” ou através de ligações cruzadas. Mostram o relacionamento entre termos e proveem uma estrutura hierárquica que permite a busca em vários níveis, desde as camadas mais abrangentes a camadas de informação mais localizadas.

Os tesauros fazem parte da estratégia de constituição de vocabulários controlados, seleções de termos relacionados aos objetivos de negócios e relacionados entre si, que:

Conceituam os termos e as condições de uso de um determinado universo de significação, uniformizando a forma gramatical e escrita dos termos utilizados e oferecendo opções de grafias, especialmente dos nomes de pessoas e nomes compostos.

São resultado do diálogo entre os arquivistas e os produtores dos documentos, pois devem aproximar-se tanto quanto possível da linguagem adotada pelos usuários do web site.

Incluem dois ou três sinônimos para expressar o mesmo conceito - controle de sinonímia, homonímia e quase-sinonímia.

Admitem nomes próprios a partir de consensos.

Restrinjem o significado de cada termo ao significado relacionado aos objetivos de cada vocabulário.

Incluem notas de escopo ou de uso que garantam o controle do significado dos termos do vocabulário tanto na entrada (indexação dos documentos) quanto na saída do sistema (no momento da busca).

Os thesauri são gerados a partir da segmentação de um determinado vocabulário controlado em categorias e da organização dos termos nestas categorias. Explicita-se as relações entre os termos (por hierarquia, equivalência, associação espaço-temporal), simplificando a atualização e tornando o uso mais consistente.

Os mapas resultantes são flexíveis, permitindo vários trajetos, e servem de base para a indexação automatizada de documentos e para a criação de redes semânticas em bases de informação.

Num web site, os tesauros facilitam a recuperação de informações por usuários habituais, como por exemplo:

Funcionários de uma empresa, numa intranet

Alunos no site de uma escola

Pesquisadores sobre um assunto específico que recorrem habitualmente à mesma fonte

Cidadãos procurando o serviço de uma organização governamental

-> Em junho de 2009, o New York Times anunciou que publicará o tesaurus que utiliza há mais de 100 anos, e que consta de mais de um milhão de termos. O tesaurus está organizado em torno de 5 vocabulários controlados: assuntos, nomes de pessoas, organizações, localizações geográficas e os títulos de trabalhos criativos (livros, filmes, peças, etc.). A publicação permitirá à sociedade em geral utilizar o tesaurus e também contribuir para aperfeiçoá-lo. (1)

-> De novembro de 2006 a janeiro de 2007, o governo federal brasileiro, através da Secretaria de Logística e Tecnologia da Informação (SLTI) abriu uma consulta pública para exame de uma lista com termos simplificados para uso na internet, a Lista de Assuntos do Governo, ou LAG. Esta lista procura criar um consenso sobre o acesso às informações publicadas nos sites governamentais, independentmente da estrutura formal dos órgãos e atividades.

Os termos simplificados e de uso intuitivo a serem aplicados em programas, projetos e e outras iniciativas publicadas em sites do governo priorizam as definições, em detrimento da estrutura formal, e deverão continuar válidos mesmo depois de mudanças e reestruturações institucionais.

Assim, para pagar uma taxa ou um imposto, o contribuinte não precisará saber antecipadamente a que órgão está vinculado, mas apenas o nome pelo qual é mais conhecido (ComputerWord, 10.1.2006).

Os conjuntos de palavras-chave podem ser publicados em página que funcione como um índice de assuntos, independente da estrutura de conteúdo.


Assuntos relacionados
Busca e participação
Interface : Componentes da interface : Ferramenta de busca (interna)
Acervos editoriais online
Requisitos para arquivos dinâmicos
Como as informações fluem dentro de uma organização

Referências (Criação de modelos de web sites):
Livro: Organizing knowledge - an introduction to managing acess to information, de Jennifer Rowley e John Farrow. Burlington: Ashgate Publishing Limited, 2000
Como elaborar vocabulário controlado para aplicação em arquivos, de Johanna Wilhelmina Smit e Nair Yumiko Kobashi (http://www.saesp.sp.gov.br/cf10.pdf)

Mais informação sobre o assunto (link externos)
NYT to release thesaurus and enter linked data cloud (New York Times, acesso em 3.9.2009)
Messing around with metadata, de Jacob Harris (New York Times, acesso em 3.9.2009)
Mining the NY times archives (Blog Ever Was, de Ian Kennedy, acesso em 3.9.2008)
The semantic question: To delete or not to delete (SemanticWeb.com, acesso em 23.1.2008)
Reasoning about semantics (SemanticWeb.com, acesso em 23.1.2007)
Folksonomia: da salada de frutas à estruturação da informaçãos, de Charlley Luz (acesso em 12.4.2008)


Declaração de assunto - Descrição mediante o emprego de um ou vários termos de indexação, normalmente selecionados de algum tipo de vocabulário controlado.