Establishing robust benchmarks for evaluating contextual reasoning in large language models. (2025). International Journal for Research Publication and Seminar, 16(1), 215-228. https://doi.org/10.36676/jrps.v16.i1.43