구글 번역기 많이 사용하시죠..?
구글에서 이번에는 이미지, 사진을 영문으로 번역해 주는 소프트웨어를 만들었다고 합니다.
아직은 초기 단계이고 큰 이미지는 처리를 못한다고 하지만 이미지를 문장으로 표현해 준다니 참 놀랍습니다.
시각적으로 문제가 있는 분들께 많은 정보를 알려줄수 있고 여러가지 응용도 가능해 주목을 받고 있습니다.
구글은 2012년 개발한 인공 신경망을 이용해 이번 시스템을 개발했다. 인공 신경망은 인간의 뇌에서 작동하는 신경망을 흉내 낸 자가 학습 시스템의 일종이다.
수많은 데이터에서 스스로 정보를 얻고 유사성과 패턴을 발견하도록 훈련될 수 있다.
연구진은 영문으로 주석을 단 일련의 이미지를 이용해 이 시스템이 이미지와 주석의 패턴을 보는 것을 훈련시키고 새로운 이미지를 인식해 영문으로 주석을 달게 했다.
이를 기계 번역의 질을 평가하는 알고리즘인 BLEU(BiLingual Evaluation Understudy)로 평가한 결과, 59점이 나왔다. 인간의 점수인 69점과 10점밖에 차이가 나지 않았다.
출처 : http://www.segye.com/content/html/2014/11/19/20141119004303.html
아침 전철에서 이 기사를 보고 문득 생간난것이 영화 터미네이터 '스카이넷'(Skynet)입니다.
이미지, 사진을 텍스트로 번역한다고 해서 터미네이터 처럼 세상이 바뀌는것이 아니겠지만 나날이 발전하고 있는 인공지능, PC의 발전이 엉뚱한 상상을 하게 되네요.
이 글을 쓰면서 관련 정보를 위해 검색을 했더니 MS(마이크로소프트)에서도 이미지 자동 인식 기술을 연구중이라는 글이 있네요.
마이크로소프트의 연구 모델은 다음과 같은 프로세스를 따른다. 우선, 이미지를 영역으로 나눈 후, 감지할 수 있는 특정 객체의 가장자리에 따라 각각의 영역을 인식한다.
각 객체를 표현하는 단어가 생성되면, 해당 시스템은 이미지에 적절한 캡션으로 단어를 정렬한다. 캡션은 이미지 상부에 입력된다. 위의 이미지를 보면, 마이크로소프트의 자동화된 시스템은 ‘군중 속에서 카메라를 들고 있는 한 여자(A woman holding a camera in a crowd)’라는 문장을 조합해내는 등 괜찮은 성능을 보이지만, 반면 그 옆에서 스마트폰으로 자신의 모습을 찍는 여자는 설명하지 못한다.
기계 번역의 성능을 테스트하는 지표 가운데 하나인 BLEU (BiLingual Evaluation Understudy)와 METEOR로 테스트해본 결과, 마이크로소프트의 시스템은 BLEU 지표에서는 사람의 인식 수준을 웃돌았으며, MENTOR에서는 사람의 인식 수준보다 약간 낮게 측정됐다.
존 플랫은 “성능을 평가하기 위한 가장 좋은 방법은 블라인드 테스트를 통해 피실험자에게 어떤 캡션이 더 나은지 물어보는 것이다. 이에 어떤 캡션이 더 자연스러운지 비교하기 위해 아마존의 미케니컬터크(Mechanical Turk)를 사용했다.
그 결과, 전체 테스트 이미지 가운데 23.3%에 대해, 사람들은 마이크로소프트 시스템이 만든 캡션이 사람과 비슷한 수준이거나, 혹은 더 낫다고 판단했다”고 말했다.
구글, MS에서 이미지를 텍스트로 번역해 주는 기술이 상당한 수준에 이르렀다는것을 짐작하게 합니다.
물론 크기가 큰 이미지, 복잡한 부분을 표현하는 것 까지는 아직 무리지만 시간이 흘러 기술이 발전한다면 일상생활에 크게 도움이 될것입니다.
구글은 자동차 교통흐름 분석과 로봇 카메라 등 다양한 분야에 이용할수 있을것이라 하니 이미지를 문장으로 번역해 주는 소프트웨어가 머지않아 생활 환경을 바꿀지도 모르겠습니다.
Comments