asdiv 논문 후기

1 분 소요

1. 서론

일단 나왔던 문제들이 많음. 특히 1~4 까지는 보면 단순한 수만 있는 문제에서 algebraic 문제까지 포함하기에 이르렀음. 근데, 이것들은 보통 정해진 형식에서 데이터가 생성되는 것을 포함하기에 유용하지 못함. 이에 해당 논문에선 다양성을 표현할 수 있는 새로운 지표, lexicon usage diversity , LD를 사용하여 구축한 ASDiv 데이터셋이 유용함을 보여주고 있음. table2 의 수학 문제들은 각각 equation과 answer의 짝으로 이루어져있고, 나아가 유형 및 난이도도 주어지는 것도 있음. lexicon 패턴이 다양하면, MWP 모델이 이를 이해하고 비슷한 유형을 잘 찾도록 함. 문제 유형이 다양한건 모델이 다양한 카테고리를 풀 때 사람의 능력과 견주기에 중요한 역할을 맡음. 여튼 1) 다양하게 문제 corpus를 만듦 2) LD 소개함 3) 이렇게 만든게 사람이 푼거랑 비교하면 현저히 떨어지는 성능 보임 을 기여로 보여주고 잇움.

2. 문제 유형

문제 타입을 부여하는 것이 언어 사용, 로직 표현, 추론 등에서 비슷한 패턴을 보이므로 자주 쓰임. 24개 문제 유형을 연산에 따라 3개의 카테고리로 나누었음. 대게 초등학생 레벨임. (Table5를 보면 유형별 대표문제 볼 수 잇음)

3. ASDiv MWP Corpus

다음과 같은 가이드라인으로 디자인 됨. 1) lexicon usage를 최대한 다양하게 하여 기계적, 수치적인 패턴으로 매칭된 정답들이 문맥 이해 없이도 서로 다르게 획득되도록. 2) 초등학교 문제유형을 다 커버하여 실제 인간의 대략적인 테스트가 가능하도록. 3) 충분한 정보와 함께 annotate되어 다양한 시스템에 쉽고 효과적으로 적용될 수 있도록.

3.1

무엇을 사용하여 다양성 점수를 쓰는지, 어떻게 평준화하였는지 말해줌. LD가 어떻게 구성되는지 수식으로 나타냄. -> LD는 한 문장의 다른 문장들에 대한 BLEU를 가져와서 평균낸 것(bi-directional)을 최대로 갖는 값을, 1에서 빼주는 걸로 나타냄. CLD는 모든 문장의 평균 LD값임. 새로운 문장이 들어올 때 이 점수를 사용하여 신규성이 있는지 판단.

3.2

그.. mathqa는 비슷한 subset이 많아서 점수가 낮음. 그리고 수식 연산을 할 수 있으니, annotated formula를 직접 계산한 결과와 labeled answer를 비교해보았는데 27%가 틀리다고 나왔음. 또.. 틀린거 왜 틀렸는지 분석했고,, 자기들 꺼는 annotataion과정이 잘되서 size 보단 quilty가 중요하다고 생각한다고.

3.3

데이터가 어떻게 구성되었는지, 예를들어 6학년 단계로 나뉜 데이터 분포가 어떤지, 그리고 정답과 해석이 어떻게 만들어졌는지 등을 서술.

3.4

다양한 corpora에 대한 LD 분석

4. 실험

CLD와 시스템 성능간의 연관성을 연구하기 위해 MWP solver 모델 3개를 썼음. 세개다 그 사칙연산밖에 못해서 mathqa로부터 좀 가져왔음. (무조건 사칙연산만, 연산자 중복 없고 외부 지식 필요없는거만) 그리고 3.2에서 필터하니 3000개 나왔다고. (mathqa-c_) 마찬가지로 사칙연산만 포함된 걸 asdiv에서 뽑앗음. (asdiv-a) 그리고 각 모델에 대한 결과들…..

카테고리:

업데이트: