02091nam a2200217 a 450000100080000000500110000800800410001910000170006024500460007726000550012330000140017852015180019265000150171065000260172565300140175165300260176565300130179165300340180465300130183870000220185118747992011-04-13 2010 bl uuuu u0uu1 u #d1 aMOURA, M. F. aNGramSel - N-gram Selection. Versão 1.0. aCampinas: Embrapa Informática Agropecuáriac2010 c1 CD-ROM. aEste software seleciona n-gramas que sejam estatisticamente considerados significantes em uma coleção de textos. Neste contexto, n-gramas foram considerados como combinações de palavras de uma coleção de textos, por exemplo: "informática", "agropecuária", "informática agropecuária'", "desenvolvimento da informática agropecuária". Um n-grama é considerado estatisticamente significante em uma coleção de textos se a sua ocorrência não é aleatória e tem algum peso na coleção, por exemplo, o n-grama "informática agropecuária" provavelmente não é aleatório, porém "inteligência agropecuária" poderia ser. Para testar a hipótese de relevância/significância utilizam-se testes de interdependência entre as partes do n-grama em relação a todos os n-gramas obtidos a partir da coleção de textos., e, para tal, vários métodos podem ser empregados. Este software implementa o método proposto por seus autores, com um algoritmo muito simples e computacionalmente eficiente, que decompõe os n-gramas em n-gramas mais simples e os testa do mais simples para os mais complexos, considerando apenas os formados pelos mais simples e estatisticamente significantes; e, utilizando um teste estatístico robusto, o Q de Yule aplicado à decomposição de tabelas de contingência. Os dados de entrada são matrizes do tipo atributo-valor para a coleção de textos completa e cada conjunto de n-gramas. A saída são novas matrizes atributo-valor com apenas os n-gramas de interesse. aAlgorithms aInformation retrieval aAlgoritmo aMineração de textos aN-gramas aRecuperação da informação aSoftware1 aMAGALHÃES, R. B.