juooo1117

Information Extraction - Sequence Labeling, Conditional Random Fields 본문

Artificial Intelligence

Information Extraction - Sequence Labeling, Conditional Random Fields

Hyo__ni 2023. 12. 12. 12:12

Sequence Labeling

sequence로 이루어진 데이터 요소 각각에 label을 주는 것이다. 자연어는 sequence이기 때문에 자연어처리에 다양하게 쓰인다.

  • Sequence of observations : 구성요소가 순차적으로 연결되어 있는 입력 데이터 → X = {x1, x2, x3, ... xt}, t는 sequence의 요소를 표현하는 index
  • Sequence of states(labels) : 입력 데이터 구성요소 각각에 대한 레이블  → Y = {y1, y2, y3, ... yt}, t는 sequence의 요소를 표현하는 index
  • Sequence Labeling - supervised learning으로, 학습을 통해서 model parameter 값을 예측한다. 새로운 x가 주어질 때, 모델을 이용해서 y값을 예측한다.
  • Models for sequence labeling: Hidden Markov Model(생성모델), Conditional Random Fields(판별모델), Structural Support Vector Machine, Recurrent Neural Network(RNN, LSTM..)

Hidden Markov models

hidden markov models

Conditional Random Fields(CRF)

sequence labeling 을 하기 위한 기계학습 모델이다.

discriminative(conditional probability 이므로 판별모델), undirected(판별모델이므로 방향성 존재X), probabilistic(확률분포를 따르지는 않지만 확률의 개념을 사용), graphical(그래프로 표현이 가능) model이다. 

 

x를 설명할 수 있는 여러가지 feature(labeling과 관련된 샘플의 다양한 특성)들이 있기 때문에 성능이 매우 좋아지고, 적은 데이터에서도 잘 적용된다는 장점이 있다.

CRF - graphical model
CRF - discriminative model

Information Extract

비구조화된(un-structured) 문서에서 자동으로 구조를 추출하는 것, 일반적으로 텍스트에서 개체 및 관계를 추출하거나 이로부터 이벤트를 추출해 내는 과정을 가르킨다.

Information Extract Taskes: Named entitiy recognition, Relation extraction, Event extraction, Temporal extraction, Temporal normalization, Template filling

 

Named entitiy recognition(NER)

정보 추출의 첫 단계는 개체명 추출이다. 개체명 추출이란 고유 명사에 해당하는 단어를 추출하는 것을 뜻하며, 개체명에는 사람(person), 장소(location), 조직(organization) 등이 존재한다.

개체명 추출을 위해서는 일반적으로 sequence labeling을 적용한다. → 개체명 추출을 위한 IOB(Inside, Outside, Beginning) tagging

feature encoding → 언어적인 특징을 반영할 수 있는 features를 넣는다.