SVAMP 논문 후기
Abstract
MWP를 위한 NLP 설계에 대한 연구가 꾸준히 진행되며, test 정확도도 향상되고 있음. 미지수 한개의 수학문제는 높은 성능을 내고 “풀었다”고 사료되곤 관심사는 복잡한 수학문제로 향한다. 이에 논문에서는 4학년 이하의 문제들에 초점을 맞추어, 현재 모델들이 푸는 것은 발견법에 의존되었다는 것을 증명한다; 수학 문제의 질문부분에 접근하지 않더라도 여전히 많은 문제를 풀 수 있다는 것. 비슷하게 수학문제를 단어 집합으로 대하는 모델들도 높은 정확도를 보여준다. 나아가 논문은 SVAMP 데이터셋을 제안한다. sota 모델들이 이 데이터셋에 대한 성능이 낮기에 간단한 수학문제도 할 일이 많이 남았다는 것을 보여준다..
1. Introduction
수학문제로부터 equation을 생성하는 것은, 자연어로부터 관련된 정보를 추출하고 수학적 추론을 통해 문제를 풀 수 있어야 하기에 도전적인 task이다. 그리고 뭐.. 상식이 요구되는 문제 혹은 추론, 언어적 복잡성이 가미되어 더 어려워진다. 요약에서 주장했던 내용은 모델들이 수학문제에 나타나는 표면적 패턴에 의존하여 질문을 보지 않고도 높은 성능을 낸다는 것 또한 의미할 수 있다. *더하여 단어를 그냥 나열하기만 한 것만으로도 문제를 푸는 것을 보여준다. 특히 sota를 가져와 svamp 로 평가한 것은 반도 못맞추는 성능을 보였다.
2. Related Work
다양한 MWP 문제들이 나와있음. 그중 HMWP는 다중 미지수를 포함한 비선형 방정식 형태의 문제도 갖고 있다고… ??
3. Background
중국어 문제 (HWMP)를 포함한 어려운 타입의 문제(dolphin18k)는 해당 연구의 분석에 맞지 않았다. 그래서 asdiv-a 1218 문제(대부분 초등4학년까지)와 MAWPS 2373 문제로 5겹 교차 평가를 진행한다. 모델은 seq2seq, gts, graph2tree 를 사용한다. 모델에 RoBERTa의 선학습된 embedding 을 제공하거나 혹은 scratch로부터 학습을 한다. 두 데이터셋 모두 graph2tree에 roberta 조합이 sota를 찍었다. 이는 각 논문에서 기록된 성능보다 더 높다. section B에 해당 실험법을 소개한다.
4. Deficiencies in existing datasets
5-fold 에서 train set 는 그냥 놔두는 반면, test set 에서 Question 부분을 삭제한 후 검증을 진행하였다. 즉, 모든 test set은 문제 passage(body)만으로 구성되어 있는 것. roberta의 embedding을 포함한 3개의 모델로 평가를 했다. 결과는 mawps에서 77.7%, asdiv-a에서 64.4%. 이는 문제 body들에 나타난 패턴이 output equation과 직접적인 연관성이 있다는 것을 보여준다.