- Today
- Total
λͺ©λ‘ν μ€νΈλΆμ (9)
DATA101

π 2025λ 8μ, AI/λΉ λ°μ΄ν° μ°κ΅¬κ°λ° μ λ¬Έλ²μΈ DATA101 νμμ μλ‘κ² μΆμν'Youtube λκΈ λ°μ΄ν° λΆμ νλ«νΌ'μ μκ°ν©λλ€. π Youtube μ½ν μΈ λ§λ€ ꡬλ μλ€μ μ° λ°μμ λκΈ λΉ λ°μ΄ν° λΆμμ ν΅ν΄ νμΈν΄ 보μΈμ! λ³Έ νλ«νΌμ Youtube μ½ν μΈ μ λ¬λ¦° λκΈμ λΆμνμ¬ κ΅¬λ μλ€μ λ°μμ΄ κΈμ μ μ΄μλμ§ νΉμ λΆμ μ μ΄μλμ§, μ΄λ€ ν€μλμ μ견μ λ§μ΄ μΈκΈνλμ§ μ¬μΈ΅μ μΌλ‘ λΆμν 리ν¬νΈλ₯Ό μ 곡ν©λλ€π¨π» π» μ΄λ€ μ½ν μΈ κ±΄ Youtube μμ URLλ§ λ³΅μ¬+λΆμ¬λ£κΈ°νλ©΄ λꡬλ 무λ£λ‘ λΆμ 리ν¬νΈλ₯Ό λ°μ λ³΄μ€ μ μμ΄μ!π μ§κΈ λ°λ‘ ꡬλ μλ€μ΄ 컨ν μΈ λ§λ€ μ΄λ€ λ°μκ³Ό λμ¦λ₯Ό 보μλμ§, κ°μ ν μ μ μλμ§ Dataλ‘ νμΈν΄ 보μΈμ! * λ³Έ νλ«νΌμ AI/λΉ λ°μ΄ν° μ°κ΅¬κ°λ° μ ..

π μ§λ 2μ, λ°μ΄ν°μλμ νμ AI/λΉ λ°μ΄ν°λΆμ μ루μ μ΄ No.1 ν리λμ λ§μΌ ν¬λͺ½μμ μμ ν μμ 2% μ λ¬Έκ° μλΉμ€μΈ primeμ μ μ λμμ΅λλ€. π primeμ 100λ§ κ±΄ μ΄μμ ν¬λͺ½ κ±°λ Dataλ₯Ό λΆμνκ³ μλΉμ€ λ§μ‘±λ 99% μ΄μμΈ μ λ¬Έκ° μΈν°λ·° λ° λ νΌλ°μ€ 체ν¬λ₯Ό ν΅ν΄ μμ λ 300μ¬ λͺ μ μμ μ λ¬Έκ°μκ²λ§ μ£Όμ΄μ§λ μλΉμ€μ λλ€. π€ μ£Όλ‘ Prime μ λ¬Έκ°λ λκΈ°μ λΆν° μ€ννΈμ , μ λΆκΈ°κ΄κΉμ§ B2B κ³ κ°μ μ£Ό νκ²μΌλ‘ κ±°λνλ νμ§λ³΄μ₯ μ 체λ€λ‘ ꡬμ±λμ΄ μμ΅λλ€. π¨π» νμ¬ μ ν¬ λ°μ΄ν°μλμ νμ AIλ₯Ό νμ©ν λΉ λ°μ΄ν°λΆμ μ루μ ꡬμΆλΆν° λ€μν μ°μ κ΅°μ λΉ λ°μ΄ν° λΆμ κ³Όμ μνμ μ§μν΄ λλ¦¬κ³ μμ΅λλ€. π AI κΈ°μ μ νμ©ν SW μΈνλΌ κ΅¬μΆμ΄λ λΉ λ°μ΄ν° λΆμ..

π λͺ©μ°¨1. μμΉ΄λ μ μ¬λ κ°λ 2. μμΉ΄λ μ μ¬κ³ μ€μ΅1. μμΉ΄λ μ μ¬λ κ°λ μμΉ΄λ μ μ¬λ(Jaccard Similarity)λ \(2\)κ°μ μ§ν© \(A\), \(B\)κ° μμ λ λ μ§ν©μ ν©μ§ν© μ€ κ΅μ§ν©μ λΉμ¨μ λλ€. μ¦, λ μ§ν©μ΄ μμ ν κ°μ λλ μμΉ΄λ μ μ¬λκ° \(1\)μ΄λ©°, λ μ§ν©μ κ΅μ§ν©μ΄ μλ κ²½μ°λ \(0\)μ λλ€. μμΉ΄λ μ μ¬λλ₯Ό \(J\)λΌκ³ ν λ λ μ§ν© κ°μ μμΉ΄λ μ μ¬λ μμμ μλμ κ°μ΅λλ€. $$ J(A, B) = \frac{|A \cap B|}{|A \cup B|} = \frac{|A \cap B|}{|A| + |B| - |A \cap B|} $$ μμΉ΄λ μ μ¬λ κ°λ μ μμ°μ΄μ²λ¦¬ λΆμΌλ‘ κ·Έλλ‘ κ°μ Έμ€λ©΄, νλμ μ§ν©μ΄ κ³§ νλμ λ¬Έμκ° ν΄λΉνλ κ²μ λλ€. ..

π λͺ©μ°¨1. μ ν΄λ¦¬λ 거리 κ°λ 2. μ ν΄λ¦¬λ 거리 μ€μ΅1. μ ν΄λ¦¬λ 거리 κ°λ μνμ κ΄μ μ κ·Όμ ν΄λ¦¬λ 거리(Euclidean Distance)λ λ μ μ¬μ΄μ 거리λ₯Ό κ³μ°νλ κΈ°λ²μ λλ€. λ μ \(p\)μ \(q\)κ° κ°κ° \((p_1, p_2, ..., p_n)\), \((q_1, q_2, ..., q_n)\) μ’νλ₯Ό κ°μ§ λ, λ μ μ¬μ΄μ 거리λ₯Ό μ ν΄λ¦¬λ 거리 곡μμΌλ‘ νννλ©΄ μλμ κ°μ΅λλ€. $$ \sqrt{(q_1 - p_1)^2 + (q_2 - p_2)^2 + ... + (q_n - p_n)^2} = \sqrt{\displaystyle\sum_{i=1}^{n}(q_i - p_i)^2}$$ λ€μ°¨μμ΄ μλ 2μ°¨μ 곡κ°μμ μ ν΄λ¦¬λ 거리λ₯Ό μ½κ² μμλ³΄κ² μ΅λλ€(κ·Έλ¦Ό 1 μ°Έκ³ ). λ μ \..

πλͺ©μ°¨1. λ±μ₯λ°°κ²½2. κ°λ 3. Sample μ μ 4. Word2Vec μ±λ₯1. λ±μ₯ λ°°κ²½Negative Sampling λ°©λ²μ Word2Vecμ CBOWμ Skip-gram λͺ¨λ λ¨μ΄ κ°μκ° λ§μμ§μλ‘ κ³μ° 볡μ‘λκ° μ¦κ°νμ¬ μ°μ° μλκ° μ νλλ€λ νκ³μ μ 보μνκΈ° μν΄ μ μλμμ΅λλ€. CBOWμ Skip-gramμ λͺ©μ ν¨μλ μλμ κ°μ΅λλ€. $$ \mathcal{L}_{CBOW} = -\sum_{j=1}^{|V|}y_{j}log(\hat{y}) $$ $$ \mathcal{L}_{Skip-gram} = -\sum_{j=0, j\ne{m}}^{2m}\sum_{k=1}^{|V|}y_{k}^{(c-j)}\log\hat{y_{k}}^{(c-j)} $$ μμμμ μ μ μλ―μ΄, CBOWμ Skip-..

πλͺ©μ°¨1. νμ΅ λ°μ΄ν°μ μμ± 2. μΈκ³΅μ κ²½λ§ λͺ¨ν 3. νμ΅ κ³Όμ 4. CBOW vs Skip-gram5. νκ³μ λ€μ΄κ°λ©°Word2Vecλ νμ΅λ°©μμ λ°λΌ ν¬κ² \(2\)κ°μ§λ‘ λλ μ μμ΅λλ€: Continuous Bag of Words(CBOW)μ Skip-gram. CBOWλ μ£Όλ³ λ¨μ΄(Context Word)λ‘ μ€κ°μ μλ λ¨μ΄λ₯Ό μμΈ‘νλ λ°©λ²μ λλ€. μ¬κΈ°μ μ€κ°μ μλ λ¨μ΄λ₯Ό μ€μ¬ λ¨μ΄(Center Word) λλ νκ² λ¨μ΄(Target Word)λΌκ³ λΆλ¦ λλ€. λ°λλ‘, Skip-gramμ μ€μ¬ λ¨μ΄λ₯Ό λ°νμΌλ‘ μ£Όλ³ λ¨μ΄λ€μ μμΈ‘νλ λ°©λ²μ λλ€. μ νμ°κ΅¬λ€μ λ°λ₯΄λ©΄, λμ²΄λ‘ Skip-gramμ΄ CBOWλ³΄λ€ μ±λ₯μ΄ μ°μνλ€κ³ μλ €μ Έ μλλ°, μ΄μ λν μμΈν λ΄μ©μ λ³Έ ν¬μ€ν μ 'Chapter 4..

π λͺ©μ°¨1. Word2Vec κ°λ 2. ν¬μννκ³Όμ μ°¨μ΄μ 3. μΈμ΄λͺ¨λΈκ³Όμ μ°¨μ΄μ 1. Word2Vec κ°λ Word2Vecλ Word to VectorλΌλ μ΄λ¦μμ μ μ μλ―μ΄ λ¨μ΄(Word)λ₯Ό μ»΄ν¨ν°κ° μ΄ν΄ν μ μλλ‘ μμΉνλ 벑ν°(Vector)λ‘ νννλ κΈ°λ² μ€ νλμ λλ€. ꡬ체μ μΌλ‘λ λΆμ°νν(Distributed Representation) κΈ°λ°μ μλμλ² λ©(Word Embedding) κΈ°λ² μ€ νλμ λλ€. λΆμ°ννμ΄λ λΆν¬κ°μ€(Distibutional Hypothesis) κ°μ νμ μ μ°¨μμ λ¨μ΄ μλ―Έλ₯Ό λΆμ°νμ¬ νννλ κΈ°λ²μ λλ€. λΆν¬κ°μ€μ "μ μ¬ν λ¬Έλ§₯μ λ±μ₯ν λ¨μ΄λ μ μ¬ν μλ―Έλ₯Ό κ°λλ€"λΌλ κ°μ μ λλ€. μ¬κΈ°μ λ¨μ΄λ₯Ό 벑ν°ννλ μμ μ μλμλ² λ©(Word Embedding)μ΄λΌκ³ ..

π λͺ©μ°¨1. ν¬μνν(Sparse Representation) 2. λ°μ§νν(Dense Representation) 3. μλμλ² λ©(Word Embedding)λ€μ΄κ°λ©°μλ μλ² λ©(Word Embedding)μ λ¨μ΄(Word)λ₯Ό μ»΄ν¨ν°κ° μ΄ν΄ν μ μλλ‘ λ²‘ν°λ‘ νννλ κΈ°λ² μ€ νλμΈλ°, νΉν λ°μ§νν(Dense Representation) λ°©μμ ν΅ν΄ νννλ κΈ°λ²μ λ§ν©λλ€. λ°μ§ννκ³Ό λ°λλλ κ°λ μ΄ ν¬μνν(Sparse Representation)μ λλ€. μλ μλ² λ©μ μ΄ν΄νκΈ°μ μμ ν¬μννκ³Ό λ°μ§ννμ λν΄ μμλ΄ λλ€.1. ν¬μνν(Sparse Representation)ν¬μννμ λ°μ΄ν°λ₯Ό λ²‘ν° λλ νλ ¬μ κΈ°λ°μΌλ‘ μμΉννμ¬ ννν λ κ·Ήν μΌλΆμ μΈλ±μ€λ§ νΉμ κ°μΌλ‘ νννκ³ , λλΆλΆμ ..