it-swarm.dev

لماذا يعمل ترميز واحد ساخن على تحسين أداء تعلم الآلة؟

لقد لاحظت أنه عند استخدام ترميز One Hot على مجموعة بيانات معينة (مصفوفة) واستخدامها كبيانات تدريب لخوارزميات التعلم ، فإنه يعطي نتائج أفضل بكثير فيما يتعلق بدقة التنبؤ ، مقارنة باستخدام المصفوفة الأصلية نفسها كبيانات تدريب. كيف تحدث هذه الزيادة في الأداء؟

120
maheshakya

تعلم الكثير من خوارزميات التعلم وزنًا واحدًا لكل ميزة ، أو تستخدم مسافات بين العينات. السابق هو الحال بالنسبة للنماذج الخطية مثل الانحدار اللوجستي ، والتي يسهل تفسيرها.

افترض أن لديك مجموعة بيانات تحتوي فقط على ميزة فردية "الجنسية" ، مع القيم "المملكة المتحدة" ، "الفرنسية" و "الولايات المتحدة". افترض ، بدون فقدان التعميم ، أن يتم ترميزها كـ 0 و 1 و 2. ثم يكون لديك وزن ث لهذه الميزة في مصنف خطي ، والذي سيتخذ نوعًا من القرار بناءً على القيد w × x + b> 0 ، أو ما يعادلها w × x <b.

المشكلة الآن هي أن الوزن w لا يمكنه تشفير اختيار ثلاثي الاتجاهات. القيم الثلاث المحتملة لـ w × x هي 0 و w و 2 × w. إما أن يؤدي الثلاثة إلى اتخاذ نفس القرار (كلهم <b أو ≥b) أو "UK" و "French" يؤدوا إلى نفس القرار ، أو "French" و "US" يتخذون القرار نفسه. لا يوجد أي احتمال لأن يتعلم النموذج أن "المملكة المتحدة" و "الولايات المتحدة" يجب أن يتم إعطاؤهما العلامة نفسها ، مع "الفرنسية" الفردية.

من خلال ترميز واحد ساخن ، تقوم على نحو فعال بتفجير مساحة الميزة إلى ثلاث ميزات ، ستحصل كل منها على أوزانها الخاصة ، لذلك أصبحت وظيفة القرار الآن هي [المملكة المتحدة] × [المملكة المتحدة] + w [FR] x [FR] + w [الولايات المتحدة] س [الولايات المتحدة] <ب ، حيث كل س هي منطقية. في هذه المساحة ، يمكن أن تعبر هذه الوظيفة الخطية عن أي مبلغ/اختلال في الاحتمالات (مثل "المملكة المتحدة أو الولايات المتحدة" ، والذي قد يكون مؤشرا لشخص يتحدث الإنجليزية).

وبالمثل ، فإن أي متعلم يعتمد على مقاييس المسافة القياسية (مثل جيران أقرب k) بين العينات سوف يتم الخلط دون ترميز واحد ساخن. مع الترميز الساذج والمسافة الإقليدية ، تكون المسافة بين فرنسا والولايات المتحدة هي 1. المسافة بين الولايات المتحدة والمملكة المتحدة هي 2. ولكن مع الترميز الساخن ، المسافات الزوجية بين [1 ، 0 ، 0] ، [0 ، 1 و 0] و [0 ، 0 ، 1] كلها تساوي √2.

هذا ليس صحيحًا لجميع خوارزميات التعلم ؛ يمكن لأشجار القرار والنماذج المشتقة ، مثل الغابات العشوائية ، إذا كانت عميقة بما فيه الكفاية ، التعامل مع المتغيرات الفئوية دون ترميز واحد ساخن.

254
Fred Foo

فيما يتعلق بزيادة الميزات عن طريق إجراء ترميز واحد ساخن ، يمكن للمرء استخدام ميزة التجزئة. عند إجراء التجزئة ، يمكنك تحديد عدد المجموعات لتكون أقل بكثير من عدد الميزات المقدمة حديثًا.

3
user3764384