Establishing robust benchmarks for evaluating contextual reasoning in large language models. JRPS [Internet]. 2025 Mar. 5 [cited 2025 Apr. 3];16(1):215-28. Available from: https://jrpsjournal.in/index.php/j/article/view/43