ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Youtube μΆ”μ²œ μ‹œμŠ€ν…œ 뢄석
    μ—­κΈ°νš 2018. 11. 10. 21:05

    κΈ°νšμ„ μ œλŒ€λ‘œ κ³΅λΆ€ν•˜λ €λ©΄ μ„œλΉ„μŠ€λ₯Ό μ—­κΈ°νš ν•΄λ³΄λΌλŠ” 글을 읽고 겁도 없이 Youtube μΆ”μ²œ μ‹œμŠ€ν…œμ„ νŒ λ‹€

    (μ§€κΈˆ λ³΄λ‹ˆ 이 κΈ€μ—μ„œ Youtube μΆ”μ²œ κΈ°μˆ μ— λŒ€ν•œ μ–˜κΈ°κ°€ λ‚˜μ™€μ„œ κ·Έλž¬λ‚˜ 보닀..)


    이미지 1. μ‹œμ²­ν•œ λΉ„λ””μ˜€ 갯수 VS ν™ˆνŽ˜μ΄μ§€ 리슀트 쀑 κ΄€λ ¨ μ—†λŠ” μΆ”μ²œ 갯수



    뢄석 κ²°κ³Ό νŠΉμ • 검색어가 ν¬ν•¨λœ λΉ„λ””μ˜€λ₯Ό 많이 μ‹œμ²­ν•  수 둝 κ΄€λ ¨ μ—†λŠ” λΉ„λ””μ˜€ μΆ”μ²œμ΄ μ€„μ–΄λ“ λ‹€λŠ” 쑰금 λ‹Ήμ—°ν•œ 상관관계λ₯Ό λΉΌκ³ λŠ” 각 κ²€μƒ‰μ–΄λ§ˆλ‹€ μƒμ΄ν•œ κ²°κ³Όλ₯Ό λ³΄μ˜€λ‹€. μœ„μ˜ κ·Έλž˜ν”„λ₯Ό 보면 경사도가 -0.29, -0.45, -1.05 둜 차이가 많이 λ‚˜μ„œ 각 κ²°κ³Όκ°€ λΉ„μŠ·ν•œ 관계λ₯Ό λ‚˜νƒ€λ‚Έλ‹€κ³  λ³΄κΈ°μ—λŠ” μ–΄λ ΅λ‹€.  


    λ˜ν•œ κ΄€λ ¨ μžˆλŠ” μΆ”μ²œκ³Ό κ΄€λ ¨ μ—†λŠ” μΆ”μ²œμ„ νŒλ‹¨ν•˜κΈ°μ—λŠ” 각 κ²€μƒ‰μ–΄λ§ˆλ‹€ 연결될 수 μžˆλŠ” ν‚€μ›Œλ“œκ°€ λ„ˆλ¬΄ λ§Žλ‹€λŠ” 사싀을 뢄석 쀑 κΉ¨λ‹¬μ•˜λ‹€. 두 λ‹¨μ–΄λ‘œ κ΅¬μ„±λœ Disney PianoλΌλŠ” ν‚€μ›Œλ“œμ—λŠ” νŠΉνžˆλ‚˜ μ—°κ΄€ ν‚€μ›Œλ“œκ°€ λ§Žμ•˜λŠ”λ°, 예λ₯Ό λ“€λ©΄ β€˜Disney Pianoβ€™λΌλŠ” 단어가 ν¬ν•¨λœ λΉ„λ””μ˜€λ₯Ό 보고 λ‚œ ν›„, λΌμ΄μ˜¨ν‚Ή, ν΄λž˜μ‹, 재즈, ν”Όμ•„λ…Έ, λ””μ¦ˆλ‹ˆ 캐릭터, λ§Œν™”, 어린이 λ“±μ˜ 단어가 ν¬ν•¨λœ λΉ„λ””μ˜€κ°€ μΆ”μ²œ λ¦¬μŠ€νŠΈμ— ν‘œμ‹œλλ‹€. μΆ”μ²œ λ¦¬μŠ€νŠΈμ— Lion King 토픽이 ν‘œμ‹œλœ 경우, μ΄λŠ” λ‚΄κ°€ λ³Έ Disney Piano λΉ„λ””μ˜€μ™€ 관련이 μžˆλŠ” λΉ„λ””μ˜€μΈκ°€ μ•„λ‹Œκ°€?  




    λ‚΄ λ¨Έλ¦¬λ‘œλŠ” μΆ”μ²œλœ λΉ„λ””μ˜€μ™€ μ‹œμ²­ν•œ λΉ„λ””μ˜€ μ‚¬μ΄μ˜ 연관성을 λ‹€ νŒŒμ•…ν•  수 μ—†μŒμ„ 뢄석 도쀑 κΉ¨λ‹«κ³ , 1μ£Όκ°€ λ„˜λŠ” μ‚½μ§ˆ ν›„ λ‹΅μ•ˆμ§€ ꡬ글을 νˆλ‹€.  



    이미지 2. ꡬ글 검색 κ²°κ³Ό


    λ”₯..λ”₯λŸ¬λ‹


    κ·Έλ ‡λ‹€.. Youtube μΆ”μ²œ μ‹œμŠ€ν…œμ€ λ‚΄κ°€ 검색 λͺ‡ 번으둜 뢄석할 수 μžˆλŠ” 그런 κ°„λ‹¨ν•œ ꡬ쑰의 μ„œλΉ„μŠ€κ°€ μ•„λ‹ˆμ—ˆλ‹€.. 


    κ·Έλž˜λ„ 이왕 μ‹œμž‘ν•œ κ±° 끝을 λ³΄μžλŠ” μƒκ°μœΌλ‘œ 관련성이 λ†’μ•„ λ³΄μ΄λŠ” The Verge, Medium 의 아티클과 μΆ”μ²œ μ‹œμŠ€ν…œμ„ λ§Œλ“  ꡬ글 μ—”μ§€λ‹ˆμ–΄λ“€μ˜ 논문을 μ½μ—ˆλ‹€. 개인적으둜 λ¨Έμ‹  λŸ¬λ‹μ€ 이전에 ꡬ글 ν•œ 적이 μžˆμ—ˆμ§€λ§Œ λ”₯λŸ¬λ‹μ€ 처음 λ°°μš°λŠ” κ°œλ…μ΄μ–΄μ„œ 처음 글을 읽을 λ•Œμ—λŠ” 아무것도 이해할 수 μ—†μ—ˆλ‹€ γ…‹γ…‹. κ·Έλž˜λ„ λͺ¨λ₯΄λŠ” λ‹¨μ–΄λ§ˆλ‹€ κ²€μƒ‰ν•˜λ©° λκΉŒμ§€ μ½μ—ˆκ³ , μ—¬κΈ°μ„œ 3개의 글을 톡해 λ‚΄κ°€ μ΄ν•΄ν•œ Youtube μΆ”μ²œ μ‹œμŠ€ν…œμ„ μ„€λͺ…해보렀 ν•œλ‹€.


    읽은 κΈ€:

    1. "HOW YOUTUBE PERFECTED THE FEED" by Casey Newton

    (https://www.theverge.com/2017/8/30/16222850/youtube-google-brain-algorithm-video-recommendation-personalized-feed)

    2. "How YouTube Recommends Videos" by Moin Nadeem 

    (https://towardsdatascience.com/how-youtube-recommends-videos-b6e003a5ab2f)

    3. "Deep Neural Networks for YouTube Recommendations" by Paul Covington, Jay Adams, Emre Sargin

        (https://static.googleusercontent.com/media/research.google.com/ko//pubs/archive/45530.pdf)




    λΆ„μ„μ˜ λͺ©μ :

    μ–΄λ–»κ²Œ Youtubeκ°€ μΆ”μ²œ κΈ°μˆ μ„ μ‚¬μš©ν•˜μ—¬ 사업 μ „λž΅μ„ κ΅¬ν˜„ν•΄λƒˆλŠ”μ§€ μ΄ν•΄ν•˜κΈ° μœ„ν•¨



    1.    λΉ„μ¦ˆλ‹ˆμŠ€ (Youtube의 λͺ©ν‘œμ™€ μ „λž΅):


    YoutubeλŠ” 2005λ…„ λ‹€λ₯Έ μ›Ήμ‚¬μ΄νŠΈμ— λ™μ˜μƒμ„ μ†μ‰½κ²Œ 올릴 수 μžˆλŠ” μΈν”„λΌλ‘œ μ‹œμž‘. κ΄‘κ³  ν”Œλž«νΌμœΌλ‘œμ„œ λ™μ˜μƒμ— κ΄‘κ³ λ₯Ό 맀칭 및 μ‚¬μš©μžμ—κ²Œ λ…ΈμΆœμ‹œμΌœ 수읡 λ°œμƒ. μ„œλΉ„μŠ€ μ΄ˆκΈ°μ— μ‚¬μš©μžλ“€μ€ 보고싢은 λ™μ˜μƒμ΄ μžˆμ„ λ•Œ youtube에 λ“€μ–΄κ°€ 검색. νŠΉμ •ν•œ λ‹ˆμ¦ˆκ°€ μžˆμ„ λ•Œλ§Œ ν™ˆνŽ˜μ΄μ§€λ₯Ό μ‚¬μš©ν•˜λ‹€ λ³΄λ‹ˆ μ‚¬μš©μž λ‹Ή μ‹œμ²­ λ™μ˜μƒ 수, μ‚¬μš©μžκ°€ ν™ˆνŽ˜μ΄μ§€μ— 머무λ₯΄λŠ” μ‹œκ°„ (engagement) λͺ¨λ‘ μ €μ‘°. 2011λ…„ λΆ€ν„° youtube의 λͺ©ν‘œ: μ‚¬μš©μžλ“€μ΄ ν™ˆνŽ˜μ΄μ§€μ—μ„œ 더 λ§Žμ€ μ‹œκ°„μ„ λ³΄λ‚΄κ²Œ ν•˜μž. μ°Ύκ³  μ‹Άμ€κ²Œ 없어도 ν™ˆνŽ˜μ΄μ§€μ— λ“€μ–΄μ˜€κ²Œ λ§Œλ“€μž! β€˜Make Youtube a destination.’ μ‚¬μš©μžλ“€μ΄ ν”Œλž«νΌμ— 머무λ₯΄λŠ” μ‹œκ°„μ΄ κΈΈμ–΄μ§ˆ 수 둝 κ΄‘κ³  λ…ΈμΆœ 기회 증가, 수읡 λ°œμƒ.


    Youtubeκ°€ λͺ©ν‘œλ₯Ό λ‹¬μ„±ν•œ 방법:


    1.     2012λ…„. λΉ„λ””μ˜€ 클릭 수 λŒ€μ‹  λΉ„λ””μ˜€ μ‹œμ²­ μ‹œκ°„ 기반으둜 λ™μ˜μƒμ„ μΆ”μ²œν•˜κΈ° μ‹œμž‘: 자극적인 제λͺ©κ³Ό μΈλ„€μΌλ‘œ 클릭을 μœ λ„ν•˜μ§€λ§Œ μ‚¬μš©μžλ“€μ΄ 였래 μ‹œμ²­ν•˜μ§€ μ•ŠλŠ” μ €ν’ˆμ§ˆμ˜ λΉ„λ””μ˜€ μΆ”μ²œ λ¦¬μŠ€νŠΈμ—μ„œ μ œμ™Έ. κ·Έ λŒ€μ‹  μ‚¬μš©μžλ“€μ΄ λκΉŒμ§€ μ‹œμ²­ν•˜λŠ” κ³ ν’ˆμ§ˆμ˜ μ˜μƒμ„ μΆ”μ²œ λ¦¬μŠ€νŠΈμ— 포함. 이λ₯Ό 톡해 이후 3λ…„ λ™μ•ˆ μ‚¬μš©μžλ“€μ˜ λ™μ˜μƒ μ‹œμ²­ μ‹œκ°„μ΄ 맀년 50%μ”© 증가.


    2.     2015λ…„. λͺ¨νšŒμ‚¬ κ΅¬κΈ€μ˜ λ”₯ λŸ¬λ‹ 인곡지λŠ₯ Brain μ‚¬μš©ν•˜κΈ° μ‹œμž‘. μ΄μ „μ—λŠ” μœ μ €λ“€μ˜ 과거기둝을 λ¨Έμ‹  λŸ¬λ‹μœΌλ‘œ 뢄석, μœ μ €κ°€ μ‹œμ²­ν•œ λΉ„λ””μ˜€μ™€ μœ μ‚¬ν•œ λΉ„λ””μ˜€λ₯Ό μΆ”μ²œν•˜λŠ” 것에 그쳀음. Google Brain의 λ”₯λŸ¬λ‹μ„ ν†΅ν•΄μ„œλŠ” μœ μ €μ™€ λΉ„λ””μ˜€μ˜ 관계λ₯Ό λ‹€κ°λ„μ—μ„œ 뢄석, μœ μ €μ™€ λ‹€μ–‘ν•œ 관련성을 가진 λΉ„λ””μ˜€λ₯Ό λΉ λ₯΄κ³  μ •ν™•ν•˜κ²Œ μΆ”μ²œ. κ³ λ„μ˜ λΉ„λ””μ˜€ 맞좀 μΆ”μ²œ 기술둜 이후 3λ…„ λ™μ•ˆ Youtube μ‚¬μš©μžμ˜ 총 λΉ„λ””μ˜€ μ‹œμ²­ μ‹œκ°„ 20 λ°° 증가. ν˜„μž¬ μ‚¬μš©μžκ°€ youtubeμ—μ„œ μ‹œμ²­ν•˜λŠ” λΉ„λ””μ˜€μ˜ 70%λŠ” Brain μ•Œκ³ λ¦¬μ¦˜μ΄ μΆ”μ²œν•œ λΉ„λ””μ˜€



    2.    기술


    이미지 3. Youtube μΆ”μ²œ μ‹œμŠ€ν…œ



    Youtube의 μΆ”μ²œ μ‹œμŠ€ν…œ overview: 

    l  ꡬ글 λ”₯ λŸ¬λ‹ 인곡지λŠ₯ Brain의 μ•Œκ³ λ¦¬μ¦˜κ³Ό 심측 신경망 (Deep neural network, DNN) λͺ¨λΈ μ‚¬μš©.

    l  μ—„μ²­λ‚œ 닀쀑 λΆ„λ₯˜ 문제: μˆ˜λ§Žμ€ λΉ„λ””μ˜€ 쀑 μ‚¬μš©μžκ°€ 였랜 μ‹œκ°„ μ‹œμ²­ν•  λΉ„λ””μ˜€ λͺ‡ 개λ₯Ό 골라내기

    l  두 λ‹¨κ³„μ˜ 정보 검색 방법을 따라 2개의 심측 μ‹ κ²½λ§μœΌλ‘œ κ΅¬μ„±λœ μ‹œμŠ€ν…œ.

    1. Candidate Generation network (후보 생성 λ„€νŠΈμ›Œν¬) : μ‚¬μš©μžκ°€ λ‹€μŒμ— μ‹œμ²­ν•  λΉ„λ””μ˜€ 예츑.

    2. Ranking network (μˆœμœ„ 평가 λ„€νŠΈμ›Œν¬): μ‚¬μš©μžμ˜ λΉ„λ””μ˜€ μ‹œμ²­ μ‹œκ°„ 예츑.


    정보λ₯Ό λ‹¨κ³„μ μœΌλ‘œ μ ‘κ·Όν•˜λŠ” 이유: μ œν•œλœ 정보λ₯Ό μ‚¬μš©ν•΄ 첫 번째 λ„€νŠΈμ›Œν¬λ‘œ 뢄석해야 ν•  데이터 λ²”μœ„ 쒁힘. μ’ν˜€μ§„ 데이터 λ²”μœ„ λ‚΄μ—μ„œ 두 번째 λ„€νŠΈμ›Œν¬λ‘œ 더 λ§Žμ€ 정보λ₯Ό μ‚¬μš©ν•΄ μ‚¬μš©μžκ°€ μ‹œμ²­ν•˜κ³  μ‹Άμ–΄ ν•˜λŠ” λΉ„λ””μ˜€ μ •ν™•ν•˜κ²Œ μΆ”μ²œ.  



    1.    Candidate Generation network (후보 생성 λ„€νŠΈμ›Œν¬)

    이미지 4. 후보 생성 λ„€νŠΈμ›Œν¬



    후보 생성 λͺ¨λΈμ΄ ν’€μ–΄μ•Ό ν•  문제: μ‚¬μš©μžκ°€ μ‹œμ²­ν•  λ‹€μŒ λΉ„λ””μ˜€λŠ”?



    후보 생성 λͺ¨λΈμ΄ ν•˜λŠ” 일: 

    μ‹œμ²­ν•œ λΉ„λ””μ˜€ ID, 검색어, μ‚¬μš©μž 정보 (μœ„μΉ˜, λ‚˜μ΄, 성별 λ“±) λ“± μœ μ €μ˜ ν™œλ™ λ‚΄μ—­κ³Ό μœ μ €κ°€ λΉ„λ””μ˜€λ₯Ό μ‹œμ²­ν•œ λ¬Έλ§₯ 배우기. λͺ¨λ“  μœ μ € μ •λ³΄λŠ” λ²‘ν„°λ‘œ β€œembedding” (μˆ«μžν™”) λ˜μ–΄ 심측 신경망에 μž…λ ₯됨. 이 정보λ₯Ό 톡해 λͺ¨λΈμ€ 수 만개의 λΉ„λ””μ˜€ μ‚¬μ΄μ—μ„œ μœ μ €κ°€ μ‹œμ²­ν•  λ§Œν•œ λͺ‡ 백개의 λΉ„λ””μ˜€ λΆ„λ₯˜. Softmax 닀쀑 λΆ„λ₯˜ ν•¨μˆ˜λ₯Ό ν™œμš©ν•΄ λΆ„λ₯˜λœ λΉ„λ””μ˜€ 각각의 μ‹œμ²­ν™•λ₯  뢄석. μ‹œμ²­ ν™•λ₯ μ΄ 높은 λΉ„λ””μ˜€ 선별.  


    (λ‹€λ₯Έ λͺ¨λ“  정보 -검색 λ‚΄μ—­, κΈ°κΈ° 정보 λ“±- λ˜ν•œ β€˜embedding’을 톡해 심측 신경망에 μ‰½κ²Œ μ—°κ²°ν•  수 있음. λ§Žμ€ 정보λ₯Ό μ²˜λ¦¬ν•˜μ—¬ μ‚¬μš©μžμ™€ 관련성이 높은 λΉ„λ””μ˜€ μΆ”μ²œ κ°€λŠ₯해짐.)


    후보 생성 λͺ¨λΈ νŠΈλ ˆμ΄λ‹: 

    λ”₯ λŸ¬λ‹ λͺ¨λΈμ΄ λΆ„λ₯˜ν•œ λΉ„λ””μ˜€κ°€ μ‚¬μš©μžκ°€ μ›ν•˜λŠ” λΉ„λ””μ˜€μΈμ§€ μ•„λ‹Œ 지 μ•Œλ €μ€ŒμœΌλ‘œμ¨ λͺ¨λΈμ˜ 정확도 κ°œμ„ . λΆ„λ₯˜ 성곡: λΆ„λ₯˜ν•œ λΉ„λ””μ˜€λ₯Ό μ‚¬μš©μžκ°€ λκΉŒμ§€ μ‹œμ²­ / λΆ„λ₯˜ μ‹€νŒ¨: λΆ„λ₯˜ν•œ λΉ„λ””μ˜€λ₯Ό μ‚¬μš©μžκ°€ λκΉŒμ§€ μ‹œμ²­ν•˜μ§€ μ•ŠμŒ. λͺ¨λΈμ΄ μ‚¬μš©μžκ°€ λκΉŒμ§€ μ‹œμ²­ν•˜λŠ” λΉ„λ””μ˜€λ₯Ό 골라내도둝 ν›ˆλ ¨.


    후보 생성 λͺ¨λΈμ΄ μƒˆλ‘œμš΄ λΉ„λ””μ˜€λ₯Ό μΆ”μ²œν•˜κ²Œ ν•˜κΈ°: 

    μ‚¬μš©μžλ“€μ€ μžμ‹ κ³Ό κ΄€λ ¨ μžˆλŠ”, μƒˆλ‘œμš΄ μ½˜ν…μΈ λ₯Ό 보고 싢어함. 이λ₯Ό μœ„ν•΄ λͺ¨λΈ νŠΈλ ˆμ΄λ‹ μ‹œ μ—…λ‘œλ“œ 된 지 μ–Όλ§ˆ μ•ˆ 된 λΉ„λ””μ˜€λ₯Ό β€˜λΆ„λ₯˜ 성곡’ μΉ΄ν…Œκ³ λ¦¬μ— ν¬ν•¨μ‹œμΌœμ„œ λͺ¨λΈμ΄ μ‹œκ°„μ— λ”°λ₯Έ λΉ„λ””μ˜€ 인기도λ₯Ό μ΄ν•΄ν•˜κ²Œ 함. 이 방법을 톡해 λͺ¨λΈμ€ μΆ”μ²œ 후보 생성 μ‹œ μ—…λ‘œλ“œλ‘œλΆ€ν„°μ˜ μ‹œκ°„μ„ 반영. μƒˆλ‘œμš΄ λΉ„λ””μ˜€μ˜ 쑰회수λ₯Ό μ˜¬λ¦¬κ±°λ‚˜ λ°”μ΄λŸ΄ μ½˜ν…μΈ λ₯Ό νΌλœ¨λ¦¬λŠ” 데 μ€‘μš”ν•œ 기술.


    ν…ŒμŠ€νŠΈ 데이터 μƒ˜ν”Œμ„ κ³ λ₯Ό λ•Œ μ£Όμ˜ν•΄μ•Όν•  점: 

    λͺ¨λΈμ΄ λ‹¨μˆœνžˆ 주어진 데이터λ₯Ό ν™œμš©ν•΄ μ‹œμ²­λ‚΄μ—­ μ‚¬μ΄μ—μ„œ μ‚¬μš©μžκ°€ μ‹œμ²­ν•œ λΉ„λ””μ˜€λ₯Ό μΆ”μΈ‘ν•΄ λ‚Ό 수 있음 (κ·Έλ¦Ό a). 이λ₯Ό μœ„ν•΄ λͺ¨λΈ ν…ŒμŠ€νŠΈ μ‹œ μ‹œκ°„ t κΉŒμ§€μ˜ μˆœμ„œλ₯Ό 맀기지 μ•Šμ€ μ‹œμ²­λ‚΄μ—­ 데이터λ₯Ό μž…λ ₯. μ‚¬μš©μžκ°€ μ‹œκ°„ t+1에 μ‹œμ²­ν•  λΉ„λ””μ˜€λ₯Ό μΆ”μΈ‘ν•˜κ²Œ ν•˜μ—¬ (κ·Έλ¦Ό b) λͺ¨λΈμ˜ 정확도 λ†’μž„.



    이미지 5. ν…ŒμŠ€νŠΈ 데이터 κ³ λ₯΄κΈ°



    2.    Ranking network (μˆœμœ„ 평가 λ„€νŠΈμ›Œν¬)



    이미지 6. μˆœμœ„ 평가 λ„€νŠΈμ›Œν¬



    μˆœμœ„ 평가 λͺ¨λΈμ΄ ν’€μ–΄μ•Ό ν•  문제: μ‚¬μš©μžκ°€ μΆ”μ²œ ν‘œμ‹œλœ λΉ„λ””μ˜€λ₯Ό μ–Όλ§ˆλ‚˜ 였래 μ‹œμ²­ν•  것인가


    μˆœμœ„ 평가 λͺ¨λΈμ΄ ν•˜λŠ” 일: 

    λΉ„λ””μ˜€μ™€ μœ μ €μ— λŒ€ν•œ λ‹€μ–‘ν•œ 정보λ₯Ό λ°”νƒ•μœΌλ‘œ 수백 개의 λΉ„λ””μ˜€ ν›„λ³΄μ—κ²Œ 점수 λΆ€μ—¬, κ°€μž₯ 높은 점수λ₯Ό 받은 λΉ„λ””μ˜€ λͺ‡ 개λ₯Ό 

    μ‚¬μš©μžμ—κ²Œ λ³΄μ—¬μ€Œ.

    각 μ‚¬μš©μžμ˜ 기쀀에 맞좰 μ‚¬μš©μžκ°€ λκΉŒμ§€ μ‹œμ²­ν•  ν™•λ₯ μ΄ κ°€μž₯ 높은 λΉ„λ””μ˜€λ₯Ό μΆ”μ²œ. 비ꡐ적 μž‘μ€ 숫자의 λΉ„λ””μ˜€λ§Œ λΆ„μ„ν•˜λ―€λ‘œ, λΉ„λ””μ˜€μ— λŒ€ν•œ 정보, μ‚¬μš©μžμ™€ λΉ„λ””μ˜€ κ°„μ˜ 관계에 λŒ€ν•œ λ‹€μ–‘ν•œ 정보λ₯Ό μ²˜λ¦¬ν•  수 있음.


    λ‹€μ–‘ν•œ 데이터λ₯Ό λͺ¨λΈμ— ν¬ν•¨μ‹œν‚€κΈ°:

    l  μ—°μ†ν˜• 데이터 (λ§ˆμ§€λ§‰μœΌλ‘œ λΉ„λ””μ˜€λ₯Ό μ‹œμ²­ν•œ λ•Œλ‘œλΆ€ν„°μ˜ μ‹œκ°„, 이전에 λΉ„λ””μ˜€κ°€ ν‘œμ‹œλœ 횟수), μ΄μ‚°ν˜• 데이터 (λΉ„λ””μ˜€ ID)

    l  Impression 데이터: λΉ„λ””μ˜€μ— λŒ€ν•œ 정보, λΉ„λ””μ˜€κ°€ 점수λ₯Ό 뢀여받을 λ•Œ λ§ˆλ‹€ 데이터 처리.

    l  Query 데이터: μœ μ €/λ¬Έλ§₯에 λŒ€ν•œ 정보. μž…λ ₯이 μžˆμ„ λ•Œλ§ˆλ‹€ 데이터 처리.


    μˆœμœ„ 평가 λͺ¨λΈμ€ μœ„μ™€ 같은 데이터 수백 개λ₯Ό 처리. μ—°μ†ν˜• λ°μ΄ν„°λŠ” μ •κ·œν™” (normalize), μ΄μ‚°ν˜• λ°μ΄ν„°λŠ” λ²‘ν„°ν™”ν•˜μ—¬ (embedding) 처리.  


    μ–΄λ–»κ²Œ μ‚¬μš©μžμ˜ 연속적인 행동을 λΉ„λ””μ˜€ μˆœμœ„ 평가에 λ°˜μ˜ν•  것인가? ꡬ글 μ—”μ§€λ‹ˆμ–΄λ“€μ΄ νŒŒμ•…ν•œ μ€‘μš”ν•œ 데이터

    1. μΆ”μ²œλœ λΉ„λ””μ˜€μ™€ μœ μ €μ˜ 이전 interaction. μœ μ €λŠ” μΆ”μ²œλœ λΉ„λ””μ˜€κ°€ μ—…λ‘œλ“œλœ μ±„λ„μ˜ λΉ„λ””μ˜€λ₯Ό μ΄μ œκΉŒμ§€ λͺ‡ 개 μ‹œμ²­ν–ˆλŠ”κ°€? μœ μ €κ°€ 이 ν† ν”½μ˜ λΉ„λ””μ˜€λ₯Ό μ‹œμ²­ν•œ λ§ˆμ§€λ§‰ μ‹œκ°„μ€? μœ μ €μ˜ ν™œλ™ 내역을 담은 연속적인 데이터λ₯Ό ν™œμš©ν•΄ 각각의 λΉ„λ””μ˜€μ— λŒ€ν•œ 정보λ₯Ό μ—°κ²°

    2. 후보생성 λͺ¨λΈμ΄ μ œκ³΅ν•œ 정보 ν™œμš©. 후보 생성 λͺ¨λΈμ€ μ–΄λ–€ 정보λ₯Ό ν† λŒ€λ‘œ 이 λΉ„λ””μ˜€λ₯Ό μΆ”μ²œν–ˆλŠ”κ°€? κ·Έ 정보가 μ‹œμ²­ ν™•λ₯ μ— 미친 영ν–₯은? 3. 이전 λΉ„λ””μ˜€ ν‘œμ‹œ λΉˆλ„. λ§Œμ•½ μœ μ €κ°€ μΆ”μ²œ λ¦¬μŠ€νŠΈμ— ν‘œμ‹œλœ λΉ„λ””μ˜€λ₯Ό μ‹œμ²­ν•˜μ§€ μ•Šμ•˜λ‹€λ©΄ μˆœμœ„ 평가 λͺ¨λΈμ€ λ‹€μŒ μΆ”μ²œ λ¦¬μŠ€νŠΈμ—μ„œ κ·Έ λΉ„λ””μ˜€λ₯Ό μ œμ™Έν•¨. μΆ”μ²œ λ¦¬μŠ€νŠΈκ°€ μ‚¬μš©μžμ— 맞게 계속 λ³€ν•  수 μžˆλ„λ‘ 함.


    μˆœμœ„ 평가 κΈ°μ€€: 

    λΉ„λ””μ˜€ ν‘œμ‹œ λ‹Ή μ˜ˆμƒ μ‹œμ²­ μ‹œκ°„. μ‹œμ²­ μ‹œκ°„μ΄ μ‚¬μš©μžμ˜ Engagmentλ₯Ό 클릭 수 보닀 더 잘 담아냄. (클릭 수둜 μˆœμœ„ 평가 μ‹œ μ‹œμ²­μžκ°€ λκΉŒμ§€ 보지 μ•ŠλŠ” ν—ˆμœ„ λΉ„λ””μ˜€ μ‘°μž₯)


    μˆœμœ„ 평가 λͺ¨λΈ νŠΈλ ˆμ΄λ‹

    μΆ”μ²œλœ λΉ„λ””μ˜€λ₯Ό λ³΄κ±°λ‚˜, μ•ˆ λ³΄λŠ” 2가지 경우의 μˆ˜μ— 따라 λΉ„λ””μ˜€ λΆ„λ₯˜. λΉ„λ””μ˜€λ₯Ό λ³΄λŠ” 경우 μ‹œμ²­ μ‹œκ°„μ— 따라 더 높은 점수λ₯Ό 쀌. μΆ”μ²œ 성곡: μœ μ €κ°€ ν‘œμ‹œλœ λΉ„λ””μ˜€λ₯Ό 클릭, μ‹œμ²­ μ‹œκ°„μ— 따라 점수 λΆ€μ—¬. / μΆ”μ²œ μ‹€νŒ¨: μœ μ €κ°€ ν‘œμ‹œλœ λΉ„λ””μ˜€λ₯Ό ν΄λ¦­ν•˜μ§€ μ•ŠμŒ. 이와 같은 예둜 λͺ¨λΈμ„ νŠΈλ ˆμ΄λ‹ ν•΄ μ‚¬μš©μžμ˜ λΉ„λ””μ˜€ μ‹œμ²­ μ‹œκ°„μ„ κ·Όμ ‘ν•˜κ²Œ μ˜ˆμΈ‘ν•˜λŠ” ν•¨μˆ˜ 생성. μ‹œμ²­ μ‹œκ°„μ΄ λ†’κ²Œ 예츑된 λΉ„λ””μ˜€λ₯Ό μΆ”μ²œ.



    두 λͺ¨λΈμ΄ κ³΅ν†΅μ μœΌλ‘œ λ³΄μ—¬μ£ΌλŠ” λ”₯ λŸ¬λ‹ μΈμ‚¬μ΄νŠΈ:

    유투브의 μΆ”μ²œ μ‹œμŠ€ν…œ β€œDeep collaborative filtering model”. λ‹€μ–‘ν•œ 정보λ₯Ό μ—°κ²°ν•΄μ„œ μœ μ €μ—κ²Œ κ°€μž₯ μ ν•©ν•œ λΉ„λ””μ˜€ μΆ”μ²œ! 심측 신경망을 켭켭이 μŒ“μ•„ λ‹€μ–‘ν•œ 정보λ₯Ό 효과적으둜 μ—°κ²°. (이미지 4, 이미지 6 μ°Έκ³ )

    첫 번째 λ ˆμ΄μ–΄μ— λ‹€μ–‘ν•œ 정보λ₯Ό μž…λ ₯, μ—°κ²°. κ·Έ μœ„μ— 수 겹의 νžˆλ“  λ ˆμ΄μ–΄ Rectified Linear Units (ReLU)λ₯Ό μ—°κ²°. λ ˆμ΄μ–΄λ“€μ΄ μ—°κ²°λ˜λ©΄μ„œ 직관적이지 μ•Šμ€ 수 λ§Žμ€ 데이터듀 κ°„μ˜ 관계가 연산됨. 데이터와 νžˆλ“  λ ˆμ΄μ–΄λ₯Ό μΆ”κ°€ν• μˆ˜λ‘ (λ ˆμ΄μ–΄ depthκ°€ μ¦κ°€ν• μˆ˜λ‘) λͺ¨λΈμ˜ 정확도 증가. λ°©λŒ€ν•œ 데이터와 κ·Έ μ‚¬μ΄μ˜ μƒν˜Έμž‘μš©μ„ λ°˜μ˜ν•˜μ—¬ μ‹œμ²­ ν™•λ₯ μ΄ 높은 λΉ„λ””μ˜€ μΆ”μ²œ


    이미지 7. 후보생성 λͺ¨λΈλͺ¨λΈ ν…ŒμŠ€νŠΈ 정확도 VS λ„€νŠΈμ›Œν¬ 깊이 (λ„€νŠΈμ›Œν¬μ— ν¬ν•¨λœ 정보)


    이미지 8. μˆœμœ„ 평가 λͺ¨λΈμΆ”μ²œ μ‹€νŒ¨ ν™•λ₯  VS λ„€νŠΈμ›Œν¬ 깊이




    κ²°λ‘ YoutubeλŠ” μ–΄λ–»κ²Œ μΆ”μ²œ κΈ°μˆ μ„ μ‚¬μš©ν•˜μ—¬ 사업 μ „λž΅μ„ κ΅¬ν˜„ν•΄λƒˆλŠ”κ°€?


    Youtube의 사업적 λͺ©ν‘œλŠ” μ‚¬μš©μžλ“€μ΄ μ°Ύκ³  싢은 게 없어도 ν™ˆνŽ˜μ΄μ§€μ— 듀어와 더 λ§Žμ€ μ‹œκ°„μ„ 보내도둝 ν•˜λŠ” κ²ƒμ΄μ—ˆλ‹€. μ‚¬μš©μžλ“€μ΄ ν”Œλž«νΌμ— 머무λ₯΄λŠ” μ‹œκ°„μ΄ κΈΈμ–΄μ§ˆ 수 둝 κ΄‘κ³  λ…ΈμΆœ κΈ°νšŒκ°€ 증가해 더 λ§Žμ€ 수읡이 λ°œμƒν•˜κΈ° λ•Œλ¬Έμ΄λ‹€. YoutubeλŠ” 이λ₯Ό μœ„ν•΄ λΉ„λ””μ˜€ 클릭 수 λŒ€μ‹  λΉ„λ””μ˜€ μ‹œμ²­ μ‹œκ°„μ„ 기반으둜 λ™μ˜μƒ μ„ ν˜Έλ„λ₯Ό ν‰κ°€ν•˜κ³ , λ”₯λŸ¬λ‹μ„ ν™œμš©ν•΄ μΆ”μ²œ μ‹œμŠ€ν…œμ˜ 정확도λ₯Ό ν–₯μƒμ‹œμΌ°λ‹€.


    YoutubeλŠ” 수 만개의 λΉ„λ””μ˜€ 쀑 μ‚¬μš©μžκ°€ μ›ν•˜λŠ” λΉ„λ””μ˜€λ₯Ό μ°ΎκΈ° μœ„ν•΄ 심측 신경망에 λ‹€μ–‘ν•œ 정보λ₯Ό μ—°κ²°ν•˜μ—¬ λΆ„μ„ν•œλ‹€. 1차적으둜 μœ μ €μ— λŒ€ν•œ 정보λ₯Ό 톡해 μ‚¬μš©μžκ°€ λ‹€μŒμ— μ‹œμ²­ν•  ν™•λ₯ μ΄ 높은 λͺ‡ λ°± 개의 λΉ„λ””μ˜€ 후보λ₯Ό μ„ μ •ν•œλ‹€. 2차적으둜 λ‹€μ–‘ν•œ 정보λ₯Ό μ—°κ²°ν•΄ λͺ‡ λ°± 개의 후보 쀑 μ‚¬μš©μžκ°€ λκΉŒμ§€ μ‹œμ²­ν•  ν™•λ₯ μ΄ κ°€μž₯ 높은 λΉ„λ””μ˜€ λͺ‡ 개λ₯Ό μΆ”μ²œμœΌλ‘œ λ³΄μ—¬μ£Όκ²Œ λœλ‹€.   


    이 κ³Όμ •μ—μ„œ YoutubeλŠ” λ‹¨μˆœνžˆ μœ μ €μ˜ 이전 ν™œλ™ 내역에 κΈ°λ°˜ν•œ μΆ”μ²œμ΄ (봀던 λΉ„λ””μ˜€μ™€ λ˜‘κ°™μ€ λΉ„λ””μ˜€ μΆ”μ²œ: Tesla κ΄€λ ¨ λΉ„λ””μ˜€ μ‹œμ²­ μ‹œ, Tesla κ΄€λ ¨ λΉ„λ””μ˜€ μΆ”μ²œ) μ•„λ‹ˆλΌ, μœ μ €κ°€ λ‹€μŒμ— 보고 μ‹Άμ–΄ ν•  λΉ„λ””μ˜€λ₯Ό μ˜ˆμΈ‘ν•˜μ—¬ μΆ”μ²œν•œλ‹€ (λΉ„μŠ·ν•˜μ§€λ§Œ λ‹€λ₯Έ λΉ„λ””μ˜€: Tesla κ΄€λ ¨ λΉ„λ””μ˜€ μ‹œμ²­ μ‹œ, μ „κΈ° μ°¨, μ‹€λ¦¬μ½˜ 밸리, ν…Œν¬, λΉ„μ¦ˆλ‹ˆμŠ€, 증ꢌ κ΄€λ ¨ λΉ„λ””μ˜€ μΆ”μ²œ).


    λ‚΄κ°€ μ‹œμ²­ν•œ λΉ„λ””μ˜€μ™€ μΆ”μ²œλœ λΉ„λ””μ˜€ μ‚¬μ΄μ˜ 연관성을 λ‹€ νŒŒμ•…ν•  수 μ—†λ˜ μ΄μœ λŠ” κ΅¬κΈ€μ˜ λ”₯λŸ¬λ‹ λͺ¨λΈμ΄ λ°©λŒ€ν•œ 정보λ₯Ό μ²˜λ¦¬ν•˜μ—¬ λ‚΄κ°€ 생각해 λ‚Ό 수 μ—†μ—ˆλ˜ λΉ„λ””μ˜€ μ‚¬μ΄μ˜ μ—°κ΄€μ„±, 그리고 λΉ„λ””μ˜€μ™€ λ‚˜μ˜ (μ‚¬μš©μžμ˜) 연관성에 λŒ€ν•΄ μ•Œκ³  μžˆμ—ˆκΈ° λ•Œλ¬Έμ΄λ‹€.


    μΆ”μ²œ μ‹œμŠ€ν…œμ˜ λ”₯ λŸ¬λ‹ λ„μž…μœΌλ‘œ 2015λ…„ λΆ€ν„° Youtube μ‚¬μš©μžμ˜ 총 λΉ„λ””μ˜€ μ‹œμ²­ μ‹œκ°„μ€ 20 λ°° 이상 μ¦κ°€ν•˜μ˜€κ³ , μš°λ¦¬κ°€ Youtubeμ—μ„œ μ‹œμ²­ν•˜λŠ” λΉ„λ””μ˜€μ˜ 70%λŠ” Brain μ•Œκ³ λ¦¬μ¦˜μ΄ μΆ”μ²œν•œ λΉ„λ””μ˜€κ°€ λ˜μ—ˆλ‹€. 그리고 κ·Έλ ‡κ²Œ Youtube의 ν™ˆνŽ˜μ΄μ§€λŠ” 무엇을 μ°ΎκΈ° μœ„ν•΄ 거쳐야 ν•˜λŠ” νŽ˜μ΄μ§€μ—μ„œ, destination, λ‚΄κ°€ μ›ν•˜λŠ” 것을 μ œκ³΅ν•˜λŠ” 도착 νŽ˜μ΄μ§€κ°€ λ˜μ—ˆλ‹€.


    μ΄λ ‡κ²Œ λ‚΄κ°€ μƒκ°ν–ˆλ˜ 것보닀 훨씬 더 크고, λ³΅μž‘ν•œ Youtube μΆ”μ²œ μ‹œμŠ€ν…œμ„ λΆ„μ„ν•΄λ³΄μ•˜λ‹€. μ‹œμŠ€ν…œμ„ κ³΅λΆ€ν•˜λ©΄μ„œ μƒμ†Œν–ˆλ˜ λ”₯λŸ¬λ‹μ˜ κ°œλ…μ„ 배우게 λ˜μ—ˆλŠ”λ°, κ·Έ ν•΅μ‹¬μ—λŠ” β€˜μ •λ³΄ κ°„μ˜ λΉ½λΉ½ν•œ 연결’이 μžˆλ‹€λŠ” 것을 어렴풋이 μ•Œκ²Œ λ˜μ—ˆλ‹€. λ˜ν•œ, μ–΄λ–»κ²Œ 기술이 사업λͺ©ν‘œ 달성을 μ΄λŒμ–΄λƒˆλŠ”μ§€ κ³΅λΆ€ν•˜λ©΄μ„œ 기술과 λΉ„μ¦ˆλ‹ˆμŠ€ μ‚¬μ΄μ˜ 연결점을 λ°œκ²¬ν•˜μ˜€λ‹€


    μ΄λ ‡κ²Œ 기술과 λΉ„μ¦ˆλ‹ˆμŠ€λ₯Ό μ—°κ²°ν•˜μ—¬ (기술 고도화λ₯Ό ν†΅ν•œ) μ„œλΉ„μŠ€λ₯Ό λ°œμ „μ‹œν‚€κ³ , 고객을 λ§Œμ‘±μ‹œν‚€κ³ , μˆ˜μ΅μ„ μ¦κ°€μ‹œν‚€λŠ” 게 Product Manager의 role 이 μ•„λ‹κΉŒ 생각해본닀.




     

    *이 글은 μ œκ°€ 개인적으둜 μ΄ν•΄ν•œ λ‚΄μš©μ„ λ°”νƒ•μœΌλ‘œ μž‘μ„±λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 였λ₯˜κ°€ μžˆμ„ 수 있으며, λ°œκ²¬ν•˜μ‹ λ‹€λ©΄ μ•Œλ €μ£Όμ‹œλ©΄ κ°μ‚¬ν•˜κ² μŠ΅λ‹ˆλ‹€! :)

    'μ—­κΈ°νš ' μΉ΄ν…Œκ³ λ¦¬μ˜ λ‹€λ₯Έ κΈ€

    Bacon - The Game 뢄석  (1) 2018.11.13
Designed by Tistory.