Establishing robust benchmarks for evaluating contextual reasoning in large language models. International Journal for Research Publication and Seminar, [S. l.], v. 16, n. 1, p. 215–228, 2025. DOI: 10.36676/jrps.v16.i1.43. Disponível em: https://jrpsjournal.in/index.php/j/article/view/43. Acesso em: 3 apr. 2025.