Summary: | O Corpus of English Language Videos (CELV) é composto por legendas de vídeos em inglês do YouTube, e tem como objetivo servir como recurso didático para o ensino e aprendizagem da língua por meio de uma ferramenta de busca disponibilizada on-line. Este texto apresenta os procedimentos linguísticos e computacionais que foram realizados para o desenvolvimento do CELV, desde a coleta de textos até a construção da ferramenta. Buscou-se embasamento teórico-metodológico na Linguística Computacional e áreas relacionadas, como a Linguística de Corpus, o Processamento de Linguagem Natural e a Recuperação de Informação. Espera-se que a metodologia exposta no texto possua detalhes suficientes para demonstrar as etapas mais importantes na construção desse tipo de sistema, permitindo a replicação do processo por outros pesquisadores.
|