การสร้างมัธยมศึกษาและโรงเรียน

วิธีการใกล้เพื่อนบ้าน: ตัวอย่างการทำงาน

วิธีการของเพื่อนบ้านที่ใกล้ที่สุดคือตัวจำแนกประเภทตัววัดที่ง่ายที่สุดซึ่งขึ้นอยู่กับการประเมินความคล้ายคลึงกันของวัตถุต่างๆ

ออบเจ็กต์ที่ถูกวิเคราะห์จะถูกอ้างอิงถึงชั้นเรียนซึ่งเป็นหัวข้อของตัวอย่างการฝึกอบรม ลองหาวิธีการของเพื่อนบ้านที่ใกล้ที่สุดคืออะไร ลองทำความเข้าใจกับปัญหาที่ซับซ้อนนี้ให้ตัวอย่างเทคนิคต่างๆกัน

สมมติฐานของวิธีการ

วิธีใกล้เคียงที่สุดอาจเป็นวิธีที่ใช้บ่อยที่สุดในการจำแนก วัตถุที่ผ่านการจำแนกอยู่ในคลาส y_i ซึ่งเป็นวัตถุที่อยู่ใกล้ที่สุดของตัวอย่างการฝึกซ้อม x_i

ความจำเพาะของวิธีการของเพื่อนบ้านที่ใกล้ที่สุด

วิธีการของเพื่อนบ้านที่อยู่ใกล้ที่สุดช่วยเพิ่มความเชื่อถือได้ในการจัดหมวดหมู่ วัตถุที่วิเคราะห์จะอยู่ในกลุ่มเดียวกันกับมวลของเพื่อนบ้านคือวัตถุ k ใกล้กับตัวอย่างที่วิเคราะห์ x_i เมื่อแก้ปัญหาเกี่ยวกับสองชั้นจำนวนเพื่อนบ้านจะแปลกไปเพื่อไม่ให้เกิดความกำกวมหากจำนวนเพื่อนบ้านเท่ากันจะอยู่ในชั้นเรียนที่แตกต่างกัน

เทคนิคของเพื่อนบ้านที่ถ่วงน้ำหนัก

วิธีการ postgresql ของ tsvector เพื่อนบ้านที่ใกล้ที่สุดจะถูกใช้เมื่อจำนวนชั้นเรียนไม่น้อยกว่า 3 และไม่สามารถใช้งาน oddness ได้ แต่ความกำกวมเกิดขึ้นแม้ในกรณีเหล่านี้ จากนั้นเพื่อนบ้านที่ i-th ได้รับน้ำหนัก w_i ซึ่งลดลงเมื่ออันดับที่เพิ่มขึ้นของเพื่อนบ้าน i. วัตถุหมายถึงชั้นที่จะมีน้ำหนักรวมสูงสุดระหว่างเพื่อนบ้านที่ใกล้ชิด

สมมติฐานของความเป็นปึกแผ่น

หัวใจของวิธีการทั้งหมดข้างต้นเป็นสมมติฐานของความเป็นปึกแผ่น มันเกี่ยวข้องกับการเชื่อมโยงระหว่างวัดความคล้ายคลึงกันของวัตถุและของที่เป็นของพวกเขาหนึ่งชั้น ในสถานการณ์เช่นนี้ขอบเขตระหว่างมุมมองต่างๆมีรูปแบบง่ายๆและชั้นเรียนจะสร้างพื้นที่เคลื่อนที่ขนาดกะทัดรัดในพื้นที่ของวัตถุ ภายใต้โดเมนดังกล่าวในการวิเคราะห์ทางคณิตศาสตร์มันเป็นเรื่องปกติที่จะหมายถึงชุดที่ล้อมรอบปิด สมมติฐานนี้ไม่เกี่ยวข้องกับการรับรู้ในชีวิตประจำวันของคำนี้

สูตรพื้นฐาน

ให้เราวิเคราะห์รายละเอียดเพิ่มเติมเกี่ยวกับวิธีการของเพื่อนบ้านที่ใกล้ที่สุด ถ้ามีตัวอย่างการฝึกอบรมในรูปแบบ "object-response" ที่นำเสนอ X ^ m = \ {(x_1, y_1), \ dots, (x_m, y_m) \}; ถ้าหากเป็นชุดของวัตถุจะได้รับฟังก์ชันระยะห่าง \ rho (x, x ') ซึ่งแสดงเป็นรูปแบบที่เหมือนกันของวัตถุเมื่อค่าของฟังก์ชันนี้เพิ่มขึ้นความคล้ายคลึงกันระหว่างวัตถุ x, x' จะลดลง

สำหรับวัตถุ u ใด ๆ เราจะสร้างวัตถุตัวอย่างการฝึกอบรม x_i เป็นระยะทางที่จะเพิ่มขึ้น u:

\ rho (u, x_ {1; u}) \ leq \ rho (u, x_ {2; u}) \ leq \ cdots \ leq \ rho (u, x_ {m; u}

ที่ไหน x_ {i; U} characterizes วัตถุตัวอย่างการฝึกอบรมที่เป็น i-th เพื่อนบ้านของวัตถุต้นฉบับ u. เราใช้สัญกรณ์นี้สำหรับคำตอบของเพื่อนบ้านที่ i-th: y_ {i; u} เป็นผลให้เราได้รับว่าวัตถุโดยพลการ u กระตุ้นการเปลี่ยนแปลงในการกำหนดหมายเลขของตัวเอง

การกำหนดจำนวนเพื่อนบ้าน k

วิธีการของเพื่อนบ้านที่ใกล้ที่สุดที่ k = 1 มีความสามารถในการจำแนกประเภทที่ไม่ถูกต้องไม่ใช่เฉพาะในวัตถุที่ปล่อยออกมา แต่ยังสำหรับชั้นเรียนอื่น ๆ ที่อยู่ใกล้

ถ้าเราใช้เวลา k = m อัลกอริธึมจะมีเสถียรภาพสูงสุดและเสื่อมลงเป็นค่าคงที่ นั่นคือเหตุผลที่ความน่าเชื่อถือเป็นสิ่งสำคัญที่จะไม่อนุญาตให้มีตัวบ่งชี้ที่รุนแรง k

ในทางปฏิบัติเกณฑ์การควบคุมการเลื่อนใช้เป็นตัวบ่งชี้ที่ดีที่สุด k

การยกเลิกการปล่อยมลพิษ

วัตถุในการฝึกอบรมส่วนใหญ่ไม่เท่าเทียมกัน แต่ในหมู่พวกเขามีผู้ที่มีคุณลักษณะเฉพาะของชั้นเรียนและเรียกว่ามาตรฐาน ด้วยความใกล้ชิดของเรื่องกับตัวอย่างที่ดีที่สุดความน่าจะเป็นของชั้นเรียนที่กำหนดนั้นสูง

วิธีการที่ใกล้เคียงที่สุดของเพื่อนบ้านใกล้เคียงที่สุด? ตัวอย่างสามารถดูได้จากประเภทของอุปกรณ์ต่อพ่วงและ noninformative สภาพแวดล้อมที่หนาแน่นของวัตถุที่ได้รับการพิจารณาจะถือว่าเป็นตัวแทนของชนชั้นนี้ หากคุณลบออกจากตัวอย่างคุณภาพของการจัดหมวดหมู่จะไม่ได้รับผลกระทบ

เพื่อให้ได้ตัวอย่างเช่นอาจเป็นจำนวนหนึ่งของการปล่อยมลพิษทางเสียงที่ "หนา" อีกชั้นหนึ่ง การกำจัดโดยทั่วไปมีผลดีต่อคุณภาพของการจัดหมวดหมู่ที่ดำเนินการ

หากไม่ได้ให้ข้อมูลและวัตถุเสียงรบกวนจะถูกตัดออกจากตัวอย่างผลบวกหลายอย่างสามารถคาดหวังได้ในเวลาเดียวกัน

แรกของการ แก้ไข ทั้งหมด โดยวิธีการของ เพื่อนบ้านที่ใกล้ที่สุดช่วยให้การปรับปรุงคุณภาพของการจำแนกเพื่อลดปริมาณของข้อมูลที่เก็บไว้เพื่อลดเวลาของการจำแนกซึ่งจะใช้เวลาในการเลือกมาตรฐานที่ใกล้ที่สุด

การประยุกต์ใช้ตัวอย่างขนาดใหญ่พิเศษ

วิธีการที่ใกล้เคียงที่สุดของเพื่อนบ้านขึ้นอยู่กับการจัดเก็บวัตถุฝึกอบรมที่เกิดขึ้นจริง ในการสร้างตัวอย่างขนาดใหญ่จำนวนมากใช้ปัญหาทางเทคนิค งานนี้ไม่ได้เป็นเพียงเพื่อรักษาข้อมูลจำนวนมาก แต่ยังอยู่ในกรอบเวลาที่น้อยที่สุดในการจัดการเพื่อค้นหาวัตถุที่อยู่ในระหว่างเพื่อนบ้านที่อยู่ใกล้ที่สุด

เพื่อที่จะรับมือกับงานมีการใช้วิธีการสองวิธี:

  • บางตัวอย่างออกโดยการโยนวัตถุที่ไม่ใช่ข้อมูลออก
  • ใช้โครงสร้างและดัชนีข้อมูลที่มีประสิทธิภาพพิเศษสำหรับการค้นหาทันใจของเพื่อนบ้านที่อยู่ใกล้ที่สุด

กฎสำหรับการเลือกวิธีการ

การจำแนกได้รับการพิจารณาข้างต้น วิธีการของเพื่อนบ้านที่ใกล้ที่สุดใช้ในการแก้ปัญหาในทางปฏิบัติซึ่งเป็นที่ทราบกันมาก่อนว่าฟังก์ชันทางไกล \ rho (x, x ') เมื่ออธิบายวัตถุเวกเตอร์ตัวเลขใช้เมตริกแบบยุคลิด ทางเลือกดังกล่าวไม่มีข้อพิสูจน์พิเศษ แต่หมายถึงการวัดสัญญาณทั้งหมด "ในระดับเดียว" ถ้าปัจจัยนี้ไม่ได้คำนึงถึงแล้วเมตริกจะถูกครอบงำโดยเครื่องหมายที่มีค่าตัวเลขที่ใหญ่ที่สุด

เมื่อมีคุณลักษณะจำนวนมากการคำนวณระยะทางเป็นผลรวมของค่าเบี่ยงเบนสำหรับลักษณะเฉพาะปัญหามิติอย่างรุนแรงจะปรากฏขึ้น

ในพื้นที่ที่มีมิติสูงวัตถุทั้งหมดจะอยู่ไกลจากกันและกัน ในการวิเคราะห์ขั้นสุดท้ายตัวอย่างของเพื่อนบ้านที่อยู่ใกล้กับวัตถุที่อยู่ภายใต้การศึกษา k จะเป็นแบบ arbitrary เพื่อขจัดปัญหานี้จะมีการเลือกสัญญาณข้อมูลจำนวนเล็กน้อย อัลกอริทึมสำหรับการคำนวณค่าประมาณถูกสร้างขึ้นบนพื้นฐานของชุดคุณลักษณะที่แตกต่างกันและสำหรับแต่ละบุคคลจะสร้างฟังก์ชันความใกล้ชิด

ข้อสรุป

การคำนวณทางคณิตศาสตร์มักเกี่ยวข้องกับการใช้เทคนิคที่หลากหลายซึ่งมีลักษณะเด่นข้อดีและข้อเสียของตนเอง วิธีการพิจารณาของเพื่อนบ้านที่ใกล้ที่สุดช่วยแก้ปัญหาร้ายแรงที่เกี่ยวข้องกับลักษณะของวัตถุทางคณิตศาสตร์ แนวคิดการทดลองตามเทคนิคการวิเคราะห์กำลังใช้งานอยู่ในเครื่องมือปัญญาประดิษฐ์

ในระบบผู้เชี่ยวชาญจะต้องไม่เพียง แต่จะจัดหมวดหมู่วัตถุเท่านั้น แต่ยังแสดงให้ผู้ใช้เห็นคำอธิบายเกี่ยวกับการจำแนกประเภทดังกล่าวด้วย ในวิธีนี้คำอธิบายสำหรับปรากฏการณ์ดังกล่าวจะถูกแสดงโดยความสัมพันธ์ของวัตถุกับชั้นเรียนโดยเฉพาะและตามตำแหน่งที่สัมพันธ์กับตัวอย่างที่ใช้ ผู้เชี่ยวชาญของอุตสาหกรรมทางกฎหมายนักธรณีวิทยาแพทย์ยอมรับตรรกะ "ก่อนหน้านี้" ใช้ประโยชน์อย่างแข็งขันในการศึกษาของพวกเขา

เพื่อให้วิธีการวิเคราะห์มีความน่าเชื่อถือมากที่สุดเท่าที่จะเป็นไปได้มีประสิทธิภาพให้ผลลัพธ์ที่ต้องการจึงจำเป็นต้องใช้ตัวบ่งชี้ k ขั้นต่ำและไม่อนุญาตให้มีการปลดปล่อยจากวัตถุที่วิเคราะห์ด้วย นั่นคือเหตุผลที่ใช้วิธีการเลือกมาตรฐานและการเพิ่มประสิทธิภาพเมตริกจะดำเนินการด้วยเช่นกัน

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 th.atomiyme.com. Theme powered by WordPress.