Portal do Governo Brasileiro

BDPA - Bases de Dados da Pesquisa Agropecuária

Embrapa

Itens selecionados

Acervo documental
Produção científica
Coleção de periódicos

Biblioteca

	CNPTIA (34)
	CNPM (3)
	CPAMN (2)
	CPPSE (2)

Autor

Assunto

Tipo

	Artigo em Anais de Congresso (12)
	Artigo em Anais de Congresso / Nota Técnica (7)
	Resumo em Anais de Congresso (7)
	Software (6)
	Artigo em Periódico Indexado (3)

Mais...

Circulação/Nível

	A - 1 (2)
	C - 0 (1)

Ano

Idioma

	Português (28)
	Inglês (12)

Tipo do arquivo

	Documento digital (25)
	Página Web (9)

Registro Completo

Biblioteca(s):	Embrapa Agricultura Digital.
Data corrente:	12/04/2011
Data da última atualização:	12/04/2011
Tipo da produção científica:	Boletim de Pesquisa e Desenvolvimento
Autoria:	MOURA, M. F.; NOGUEIRA, B. M.; CONRADO, M. da S.; SANTOS, F. F. dos; REZENDE, S. O.
Afiliação:	MARIA FERNANDA MOURA, CNPTIA; BRUNO MAGALHÃES NOGUEIRA, USP; MERLEY DA SILVA CONRADO, USP; FABIANO FERNADES DOS SANTOS, ICMC/USP; SOLANGE OLIVEIRA REZENDE, ICMC/USP.
Título:	Um modelo para a seleção de n-gramas significativos e não redundantes em tarefas de mineração de textos.
Ano de publicação:	2010
Fonte/Imprenta:	Campinas: Embrapa Informática Agropecuária, 2010.
Páginas:	37 p. il.
Série:	(Embrapa Informática Agropecuária. Boletim de pesquisa e desenvolvimento, 23).
Idioma:	Português
Conteúdo:	Uma proposta completa para resolver o problema de selecionar automaticamente atributos não redundantes do tipo n-gramas é apresentada neste trabalho. Geralmente, o uso de n-gramas é um requisito para melhorar a interpretação subjetiva dos resultados em tarefas de mineração de textos, nesses casos, eles são estatisticamente gerados e selecionados. Após a seleção, em geral, há a presença de redundâncias, por exemplo, o termo "informática agropecuária" e seus componentes "informática" e "agropecuária". Assim, propõe-se um modelo que envolve a remoção de stopwords estatisticamente identificadas, uma seleção estatística eficiente para os atributos do tipo n-grama e a remoção das redundâncias apresentadas após a seleção. Observa-se, pelos resultados experimentais apresentados, sobre os atributos originais e os atributos sem as redundâncias, que, como esperado, após a eliminação das redundâncias não há perda de representatividade. Além disso, a redução no número de atributos é expressiva, o que pode significar ganhos em desempenho nas tarefas de extração de padrões, bem como na interpretabilidade subjetiva dos resultados. Deve-se salientar que o método proposto é útil a qualquer algoritmo de aprendizado de máquina aplicado a uma tarefa de mineração de textos, e, parece ser igualmente aplicável a textos em quaisquer línguas.
Palavras-Chave:	Atributos redundantes; Attribute selection; Categorical data; Dados categorizados; Mineração de textos; N-gramas; N-grams; Recuperação da informação; Redundant attribute; Seleção de atributos; Text mining.
Thesaurus NAL:	Information retrieval.
Categoria do assunto:	X Pesquisa, Tecnologia e Engenharia
URL:	https://ainfo.cnptia.embrapa.br/digital/bitstream/item/32458/1/BolPesq23.pdf
Marc:	Mostrar Marc Completo
Registro original:	Embrapa Agricultura Digital (CNPTIA)

Biblioteca	ID	Origem	Tipo/Formato	Classificação	Cutter	Registro	Volume	Status

CNPTIA

15664 - 1

UMT

FL - DD

Fechar

Nenhum registro encontrado para a expressão de busca informada.

Embrapa Todos os direitos reservados, conforme Lei n° 9.610 Política de Privacidade Área Restrita		Embrapa Agricultura Digital Av. André Tosello, 209 - Barão Geraldo Caixa Postal 6041- 13083-886 - Campinas, SP SAC: https://www.embrapa.br/fale-conosco