วิธีการวิเคราะห์คลัสเตอร์ การวิเคราะห์คลัสเตอร์เป็นอัลกอริทึมสำหรับศึกษาข้อมูลโดยแบ่งเป็นกลุ่มตามลักษณะที่คล้ายคลึงกัน


การวิเคราะห์คลัสเตอร์คือ

ขอให้เป็นวันที่ดี. ที่นี่ฉันมีความเคารพต่อผู้ที่เป็นแฟนผลงานของพวกเขา

Maxim เพื่อนของฉันอยู่ในหมวดหมู่นี้ ทำงานกับตัวเลข วิเคราะห์ สร้างรายงานที่เกี่ยวข้องอย่างต่อเนื่อง

เมื่อวานนี้เรารับประทานอาหารกลางวันด้วยกัน ดังนั้นเป็นเวลาเกือบครึ่งชั่วโมง เขาจึงเล่าให้ฉันฟังเกี่ยวกับการวิเคราะห์กลุ่ม - มันคืออะไร และในกรณีใดบ้าง การใช้งานนั้นสมเหตุสมผลและเหมาะสม แล้วฉันล่ะ?

ฉันมีความจำดีดังนั้นฉันจะให้ข้อมูลทั้งหมดนี้แก่คุณซึ่งฉันรู้อยู่แล้วในรูปแบบดั้งเดิมและให้ข้อมูลมากที่สุด

การวิเคราะห์คลัสเตอร์ได้รับการออกแบบมาเพื่อแบ่งชุดของวัตถุออกเป็นกลุ่มที่เป็นเนื้อเดียวกัน (คลัสเตอร์หรือคลาส) นี่เป็นงานของการจำแนกข้อมูลหลายตัวแปร

มีอัลกอริธึมการจัดกลุ่มที่แตกต่างกันประมาณ 100 แบบ อย่างไรก็ตาม ที่ใช้บ่อยที่สุดคือการวิเคราะห์กลุ่มแบบลำดับชั้นและการจัดกลุ่มแบบ k-mean

การวิเคราะห์คลัสเตอร์ใช้ที่ไหน ในด้านการตลาด นี่คือการแบ่งกลุ่มของคู่แข่งและผู้บริโภค

ในการจัดการ: การแบ่งบุคลากรออกเป็นกลุ่มที่มีแรงจูงใจในระดับต่างๆ การจำแนกซัพพลายเออร์ การระบุสถานการณ์การผลิตที่คล้ายคลึงกันซึ่งเกิดการแต่งงานขึ้น

ในทางอายุรกรรม การจำแนก อาการ ผู้ป่วย ยา. ในสังคมวิทยา การแบ่งผู้ตอบแบบสอบถามออกเป็นกลุ่มที่เป็นเนื้อเดียวกัน ในความเป็นจริง การวิเคราะห์กลุ่มได้พิสูจน์ตัวเองเป็นอย่างดีในขอบเขตของชีวิตมนุษย์ทั้งหมด

ความสวยงามของวิธีนี้คือใช้งานได้แม้ในขณะที่มีข้อมูลน้อย และไม่เป็นไปตามข้อกำหนดสำหรับการแจกแจงปกติของตัวแปรสุ่มและข้อกำหนดอื่น ๆ ของวิธีการวิเคราะห์ทางสถิติแบบดั้งเดิม

ให้เราอธิบายสาระสำคัญของการวิเคราะห์คลัสเตอร์โดยไม่ต้องใช้คำศัพท์ที่เข้มงวด:
สมมติว่าคุณทำแบบสำรวจพนักงานและต้องการทราบว่าคุณจะจัดการพนักงานของคุณได้อย่างมีประสิทธิภาพสูงสุดได้อย่างไร

นั่นคือ คุณต้องการแบ่งพนักงานออกเป็นกลุ่มๆ และเลือกคันโยกควบคุมที่มีประสิทธิภาพสูงสุดสำหรับแต่ละคน ในเวลาเดียวกัน ความแตกต่างระหว่างกลุ่มควรชัดเจน และภายในกลุ่ม ผู้ตอบควรเหมือนกันมากที่สุด

เพื่อแก้ปัญหา ขอเสนอให้ใช้การวิเคราะห์คลัสเตอร์แบบลำดับชั้น

เป็นผลให้เราได้ต้นไม้โดยดูว่าเราต้องตัดสินใจว่าเราต้องการแบ่งพนักงานออกเป็นกี่คลาส (กลุ่ม)

สมมติว่าเราตัดสินใจแบ่งพนักงานออกเป็นสามกลุ่ม จากนั้นเพื่อศึกษาผู้ตอบแบบสอบถามที่อยู่ในแต่ละกลุ่ม เราจะได้แท็บเล็ตที่มีเนื้อหาดังต่อไปนี้:


ให้เราอธิบายว่าตารางด้านบนเกิดขึ้นได้อย่างไร คอลัมน์แรกมีจำนวนคลัสเตอร์ ซึ่งเป็นกลุ่มที่มีข้อมูลอยู่ในแถว

ตัวอย่างเช่น กลุ่มแรกเป็นผู้ชาย 80% 90% ของกลุ่มแรกอยู่ในกลุ่มอายุตั้งแต่ 30 ถึง 50 ปี และ 12% ของผู้ตอบแบบสอบถามเชื่อว่าผลประโยชน์มีความสำคัญมาก และอื่น ๆ

มาลองสร้างภาพของผู้ตอบแบบสอบถามในแต่ละคลัสเตอร์:

  1. กลุ่มแรกส่วนใหญ่เป็นผู้ชายวัยผู้ใหญ่ที่มีตำแหน่งผู้นำ แพ็คเกจโซเชียล (MED, LGOTI, เวลาว่าง TIME) ไม่สนใจพวกเขา พวกเขาต้องการได้รับเงินเดือนที่ดีมากกว่าความช่วยเหลือจากนายจ้าง
  2. ในทางกลับกัน กลุ่มที่สองชอบแพ็คเกจโซเชียลมากกว่า ส่วนใหญ่ประกอบด้วยคน "สูงอายุ" ที่ดำรงตำแหน่งต่ำ เงินเดือนเป็นสิ่งสำคัญสำหรับพวกเขาอย่างแน่นอน แต่ก็มีลำดับความสำคัญอื่น ๆ
  3. กลุ่มที่สามคือ มีความสนใจที่ชัดเจนในการเรียนรู้และโอกาสในการเติบโตทางวิชาชีพ พนักงานประเภทนี้มีโอกาสที่จะเติมเต็มกลุ่มแรกในไม่ช้า

ดังนั้น เมื่อวางแผนการรณรงค์เพื่อแนะนำวิธีการจัดการบุคลากรที่มีประสิทธิภาพ เห็นได้ชัดว่าในสถานการณ์ของเรา มีความเป็นไปได้ที่จะเพิ่มแพ็คเกจทางสังคมสำหรับกลุ่มที่สองเพื่อลดความเสียหาย เช่น ค่าจ้าง

หากเราพูดถึงว่าควรส่งผู้เชี่ยวชาญคนใดไปฝึกอบรม เราขอแนะนำให้ให้ความสนใจกับกลุ่มที่สามอย่างแน่นอน

ที่มา: http://www.niccart.spb.ru/analysis/cluster.php

คุณสมบัติของการวิเคราะห์คลัสเตอร์

คลัสเตอร์คือราคาของสินทรัพย์ในช่วงเวลาหนึ่งที่มีการทำธุรกรรม ปริมาณการซื้อและการขายที่ได้จะระบุด้วยตัวเลขภายในคลัสเตอร์

แถบของ TF ใด ๆ ตามกฎแล้วมีหลายคลัสเตอร์ ซึ่งช่วยให้คุณเห็นรายละเอียดปริมาณการซื้อ การขาย และยอดคงเหลือในแต่ละแถบสำหรับแต่ละระดับราคา


การเปลี่ยนแปลงในราคาของสินทรัพย์หนึ่งอย่างหลีกเลี่ยงไม่ได้ทำให้เกิดการเคลื่อนไหวของราคาในตราสารอื่นๆ ด้วยเช่นกัน

ความสนใจ!

ในกรณีส่วนใหญ่ ความเข้าใจเกี่ยวกับการเคลื่อนไหวของเทรนด์เกิดขึ้นแล้วในขณะที่มันกำลังพัฒนาอย่างรวดเร็ว และการเข้าสู่ตลาดตามเทรนด์นั้นเต็มไปด้วยการตกลงสู่คลื่นแก้ไข

สำหรับการซื้อขายที่ประสบความสำเร็จ จำเป็นต้องเข้าใจสถานการณ์ปัจจุบันและสามารถคาดการณ์การเคลื่อนไหวของราคาในอนาคตได้ สามารถเรียนรู้ได้โดยการวิเคราะห์กราฟคลัสเตอร์

ด้วยความช่วยเหลือของการวิเคราะห์คลัสเตอร์ คุณสามารถดูกิจกรรมของผู้เข้าร่วมตลาดได้แม้ในแถบราคาที่เล็กที่สุด นี่คือการวิเคราะห์ที่แม่นยำและมีรายละเอียดมากที่สุด เนื่องจากแสดงการกระจายจุดของปริมาณธุรกรรมสำหรับแต่ละระดับราคาสินทรัพย์

ในตลาดมีการเผชิญหน้ากันอย่างต่อเนื่องระหว่างผลประโยชน์ของผู้ขายและผู้ซื้อ และทุกการเคลื่อนไหวของราคาที่เล็กที่สุด (ขีด) คือการย้ายไปสู่การประนีประนอม - ระดับราคา - ซึ่งเหมาะสมกับทั้งสองฝ่ายในขณะนี้

แต่ตลาดเป็นแบบไดนามิก จำนวนผู้ขายและผู้ซื้อเปลี่ยนแปลงตลอดเวลา หากในช่วงเวลาหนึ่งตลาดถูกครอบงำโดยผู้ขาย ช่วงเวลาต่อไปก็น่าจะมีผู้ซื้อ

จำนวนธุรกรรมที่เสร็จสมบูรณ์ในระดับราคาใกล้เคียงก็ไม่เท่ากันเช่นกัน และประการแรก สถานการณ์ตลาดจะสะท้อนให้เห็นในปริมาณธุรกรรมทั้งหมด และต่อด้วยราคาเท่านั้น

หากคุณเห็นการกระทำของผู้เข้าร่วมตลาดที่โดดเด่น (ผู้ขายหรือผู้ซื้อ) คุณก็สามารถทำนายการเคลื่อนไหวของราคาได้

หากต้องการใช้การวิเคราะห์คลัสเตอร์ให้สำเร็จ คุณต้องเข้าใจก่อนว่าคลัสเตอร์และเดลต้าคืออะไร


คลัสเตอร์เรียกว่าการเคลื่อนไหวของราคา ซึ่งแบ่งออกเป็นระดับที่ทำธุรกรรมด้วยปริมาณที่รู้จัก เดลต้าแสดงความแตกต่างระหว่างการซื้อและการขายที่เกิดขึ้นในแต่ละคลัสเตอร์

แต่ละคลัสเตอร์หรือกลุ่มเดลต้า ช่วยให้คุณทราบได้ว่าผู้ซื้อหรือผู้ขายเป็นผู้ครองตลาดในช่วงเวลาหนึ่งๆ

การคำนวณเดลต้าทั้งหมดโดยสรุปยอดขายและการซื้อก็เพียงพอแล้ว หากเดลต้าเป็นลบ แสดงว่าตลาดมีการขายมากเกินไป มีธุรกรรมการขายซ้ำซ้อน เมื่อเดลต้าเป็นบวก ตลาดจะถูกครอบงำโดยผู้ซื้ออย่างชัดเจน

ตัวเดลต้าสามารถรับค่าปกติหรือค่าวิกฤตได้ ค่าของปริมาณเดลต้าที่สูงกว่าค่าปกติในคลัสเตอร์จะถูกเน้นด้วยสีแดง

หากค่าเดลต้าอยู่ในระดับปานกลาง แสดงว่าเป็นสถานะที่คงที่ในตลาด ด้วยค่าเดลต้าปกติ ความเคลื่อนไหวของเทรนด์จะถูกสังเกตในตลาด แต่ค่าวิกฤตมักเป็นลางสังหรณ์ของการกลับตัวของราคา

การซื้อขายฟอเร็กซ์กับ CA

เพื่อให้ได้กำไรสูงสุด คุณต้องสามารถกำหนดการเปลี่ยนแปลงของเดลต้าจากระดับปานกลางเป็นระดับปกติได้ ในกรณีนี้ คุณสามารถสังเกตเห็นจุดเริ่มต้นของการเปลี่ยนแปลงจากการพักตัวเป็นการเคลื่อนไหวตามแนวโน้มและสามารถรับผลกำไรสูงสุดได้

แผนภูมิคลัสเตอร์เป็นภาพที่ชัดเจนยิ่งขึ้น คุณสามารถดูระดับการสะสมและการกระจายปริมาณที่มีนัยสำคัญ สร้างแนวรับและแนวต้าน สิ่งนี้ทำให้ผู้ซื้อขายสามารถค้นหารายการที่แน่นอนในการซื้อขาย

การใช้เดลต้าสามารถตัดสินความเด่นของการขายหรือการซื้อในตลาดได้ การวิเคราะห์คลัสเตอร์ช่วยให้คุณสามารถสังเกตธุรกรรมและติดตามปริมาณภายในแถบของ TF ใดก็ได้

นี่เป็นสิ่งสำคัญอย่างยิ่งเมื่อเข้าใกล้แนวรับหรือแนวต้านที่สำคัญ การตัดสินแบบคลัสเตอร์เป็นกุญแจสำคัญในการทำความเข้าใจตลาด

ที่มา: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

พื้นที่และคุณสมบัติของการประยุกต์ใช้การวิเคราะห์คลัสเตอร์

คำว่า การวิเคราะห์กลุ่ม (เปิดตัวครั้งแรกโดย Tryon, 1939) จริงๆ แล้วรวมถึงชุดของอัลกอริทึมการจัดหมวดหมู่ที่แตกต่างกัน

คำถามทั่วไปที่ถูกถามโดยนักวิจัยในหลายสาขาคือวิธีการจัดระเบียบข้อมูลที่สังเกตให้เป็นโครงสร้างภาพ เช่น ขยายอนุกรมวิธาน

ตามระบบสมัยใหม่ที่ยอมรับในชีววิทยา มนุษย์จัดอยู่ในกลุ่มไพรเมต สัตว์เลี้ยงลูกด้วยนม น้ำคร่ำ สัตว์มีกระดูกสันหลัง และสัตว์ต่างๆ

โปรดทราบว่าในการจำแนกประเภทนี้ ระดับการรวมที่สูงขึ้น ความคล้ายคลึงกันระหว่างสมาชิกในชั้นเรียนที่สอดคล้องกันก็จะน้อยลง

มนุษย์มีความคล้ายคลึงกันกับไพรเมตอื่นๆ (เช่น ลิง) มากกว่าสมาชิกที่ "ห่างไกล" ของสัตว์เลี้ยงลูกด้วยนม (เช่น สุนัข) เป็นต้น

โปรดทราบว่าการสนทนาก่อนหน้านี้อ้างถึงอัลกอริทึมการจัดกลุ่ม แต่ไม่ได้กล่าวถึงการทดสอบนัยสำคัญทางสถิติ

อันที่จริงแล้ว การวิเคราะห์คลัสเตอร์ไม่ใช่วิธีการทางสถิติธรรมดามากเท่ากับเป็น "ชุด" ของอัลกอริทึมต่างๆ สำหรับ "การกระจายอ็อบเจกต์ไปยังคลัสเตอร์"

มีมุมมองที่ไม่เหมือนกับขั้นตอนทางสถิติอื่นๆ ตรงที่ วิธีการวิเคราะห์กลุ่มจะถูกใช้ในกรณีส่วนใหญ่เมื่อคุณไม่มีสมมติฐานเบื้องต้นเกี่ยวกับคลาส แต่ยังอยู่ในขั้นตอนการอธิบายของการวิจัย

ความสนใจ!

ควรเข้าใจว่าการวิเคราะห์กลุ่มเป็นตัวกำหนด "การตัดสินใจที่มีความหมายมากที่สุด"

ดังนั้น การทดสอบนัยสำคัญทางสถิติจึงใช้ไม่ได้จริงๆ แม้ในกรณีที่ทราบระดับ p (เช่น ในวิธี K-mean)

เทคนิคการจัดกลุ่มใช้ในหลากหลายสาขา Hartigan (1975) ได้ให้ภาพรวมที่ยอดเยี่ยมของการศึกษาที่ตีพิมพ์จำนวนมากซึ่งมีผลที่ได้จากวิธีการวิเคราะห์แบบกลุ่ม

ตัวอย่างเช่น ในด้านการแพทย์ การจัดกลุ่มของโรค การรักษาโรค หรืออาการของโรคนำไปสู่การจัดอนุกรมวิธานที่ใช้กันอย่างแพร่หลาย

ในด้านจิตเวชศาสตร์ การวินิจฉัยที่ถูกต้องของกลุ่มอาการ เช่น โรคหวาดระแวง โรคจิตเภท ฯลฯ มีความสำคัญอย่างยิ่งต่อการรักษาให้ประสบความสำเร็จ ในทางโบราณคดี โดยใช้การวิเคราะห์กลุ่ม นักวิจัยพยายามสร้างอนุกรมวิธานของเครื่องมือหิน วัตถุที่ใช้ทำศพ ฯลฯ

มีการประยุกต์ใช้การวิเคราะห์กลุ่มในการวิจัยการตลาดอย่างกว้างขวาง โดยทั่วไป เมื่อใดก็ตามที่จำเป็นต้องจำแนก "ภูเขา" ของข้อมูลออกเป็นกลุ่มที่เหมาะสมสำหรับการประมวลผลเพิ่มเติม การวิเคราะห์กลุ่มจะมีประโยชน์และมีประสิทธิภาพมาก

การจัดกลุ่มต้นไม้

ตัวอย่างในส่วนวัตถุประสงค์หลักจะอธิบายถึงวัตถุประสงค์ของอัลกอริทึมการรวม (การจัดกลุ่มต้นไม้)

จุดประสงค์ของอัลกอริทึมนี้คือการรวมวัตถุ (เช่น สัตว์) เป็นกลุ่มใหญ่เพียงพอโดยใช้การวัดความคล้ายคลึงหรือระยะห่างระหว่างวัตถุ ผลลัพธ์ทั่วไปของการจัดกลุ่มดังกล่าวคือต้นไม้แบบลำดับชั้น

พิจารณาแผนภาพต้นไม้แนวนอน ไดอะแกรมเริ่มต้นด้วยแต่ละอ็อบเจกต์ในคลาส (ทางด้านซ้ายของไดอะแกรม)

ตอนนี้ลองนึกภาพว่าค่อยๆ (ในขั้นตอนเล็ก ๆ ) คุณ "ลด" เกณฑ์ของคุณสำหรับสิ่งที่เป็นเอกลักษณ์และสิ่งที่ไม่

กล่าวอีกนัยหนึ่ง คุณจะลดเกณฑ์ที่เกี่ยวข้องกับการตัดสินใจรวมสองออบเจ็กต์ขึ้นไปในคลัสเตอร์เดียว

เป็นผลให้คุณเชื่อมโยงวัตถุเข้าด้วยกันมากขึ้นและรวม (รวม) คลัสเตอร์ขององค์ประกอบที่แตกต่างกันมากขึ้นเรื่อยๆ

สุดท้าย ในขั้นตอนสุดท้าย วัตถุทั้งหมดจะถูกผสานเข้าด้วยกัน ในแผนภูมิเหล่านี้ แกนแนวนอนแสดงถึงระยะการรวม (ใน dendrograms แนวตั้ง แกนแนวตั้งแสดงถึงระยะการรวม)

ดังนั้น สำหรับแต่ละโหนดในกราฟ (ที่เกิดคลัสเตอร์ใหม่) คุณจะเห็นระยะทางที่องค์ประกอบที่เกี่ยวข้องเชื่อมโยงกับคลัสเตอร์เดี่ยวใหม่

เมื่อข้อมูลมี "โครงสร้าง" ที่ชัดเจนในแง่ของกลุ่มของออบเจกต์ที่คล้ายกัน โครงสร้างนี้ก็น่าจะสะท้อนให้เห็นในแผนผังลำดับชั้นตามสาขาต่างๆ

ผลจากการวิเคราะห์ที่ประสบความสำเร็จโดยวิธีการรวม ทำให้สามารถตรวจจับคลัสเตอร์ (สาขา) และตีความได้

วิธีการจัดกลุ่มแบบยูเนี่ยนหรือทรีใช้ในการสร้างกลุ่มของความแตกต่างหรือระยะห่างระหว่างวัตถุ ระยะทางเหล่านี้สามารถกำหนดในพื้นที่หนึ่งมิติหรือหลายมิติ

ตัวอย่างเช่น หากคุณต้องจัดกลุ่มประเภทของอาหารในร้านกาแฟ คุณสามารถคำนึงถึงจำนวนแคลอรี่ที่บรรจุในนั้น ราคา การประเมินรสชาติตามอัตวิสัย เป็นต้น

วิธีที่ตรงที่สุดในการคำนวณระยะทางระหว่างวัตถุในปริภูมิหลายมิติคือการคำนวณระยะทางแบบยุคลิด

หากคุณมีสเปซ 2 มิติหรือ 3 มิติ การวัดนี้คือระยะห่างทางเรขาคณิตจริงระหว่างวัตถุในอวกาศ (ราวกับว่าระยะห่างระหว่างวัตถุถูกวัดด้วยตลับเมตร)

อย่างไรก็ตาม อัลกอริธึมการรวมกลุ่มไม่ได้ "สนใจ" ว่าระยะทาง "ให้" สำหรับระยะทางนั้นเป็นจริงหรือมาตรวัดระยะทางอื่นๆ ซึ่งมีความหมายมากกว่าสำหรับนักวิจัย และความท้าทายสำหรับนักวิจัยคือการเลือกวิธีที่เหมาะสมสำหรับการใช้งานเฉพาะ

ระยะทางแบบยุคลิดนี่ดูเหมือนจะเป็นระยะทางที่พบมากที่สุด เป็นเพียงระยะทางเรขาคณิตในปริภูมิหลายมิติและคำนวณได้ดังนี้:

โปรดทราบว่าระยะทางแบบยุคลิด (และกำลังสอง) คำนวณจากข้อมูลต้นฉบับ ไม่ใช่จากข้อมูลมาตรฐาน

นี่เป็นวิธีปกติในการคำนวณซึ่งมีข้อดีบางประการ (เช่น ระยะห่างระหว่างวัตถุสองชิ้นจะไม่เปลี่ยนแปลงเมื่อมีการแนะนำวัตถุใหม่เข้ามาในการวิเคราะห์ ซึ่งอาจกลายเป็นค่าผิดปกติ)

ความสนใจ!

อย่างไรก็ตาม ระยะทางอาจได้รับผลกระทบอย่างมากจากความแตกต่างระหว่างแกนที่ใช้คำนวณระยะทาง ตัวอย่างเช่น หากแกนใดแกนหนึ่งวัดเป็นเซนติเมตร แล้วแปลงเป็นมิลลิเมตร (โดยการคูณค่าด้วย 10) ระยะทางแบบยุคลิดสุดท้าย (หรือกำลังสองของระยะทางแบบยุคลิด) ที่คำนวณจากพิกัดจะ เปลี่ยนแปลงอย่างรวดเร็ว และเป็นผลให้ผลลัพธ์ของการวิเคราะห์คลัสเตอร์อาจแตกต่างอย่างมากจากผลก่อนหน้านี้

กำลังสองของระยะทางแบบยุคลิดบางครั้งคุณอาจต้องการยกกำลังสองของระยะห่างแบบยุคลิดมาตรฐานเพื่อให้น้ำหนักวัตถุที่อยู่ไกลมากขึ้น

ระยะทางนี้คำนวณดังนี้:

ระยะทางระหว่างเมือง (ระยะทางแมนฮัตตัน)ระยะทางนี้เป็นเพียงค่าเฉลี่ยของความแตกต่างของพิกัด

ในกรณีส่วนใหญ่ การวัดระยะทางนี้จะนำไปสู่ผลลัพธ์เดียวกันกับการวัดระยะทางแบบยุคลิดตามปกติ

อย่างไรก็ตาม โปรดทราบว่าสำหรับการวัดนี้ อิทธิพลของความแตกต่างขนาดใหญ่ของแต่ละบุคคล (ค่าผิดปกติ) จะลดลง (เนื่องจากไม่ได้กำลังสอง) ระยะทางแมนฮัตตันคำนวณโดยใช้สูตร:

ระยะทางเชบีเชฟระยะนี้มีประโยชน์เมื่อต้องการนิยามวัตถุสองชิ้นว่า "ต่างกัน" หากวัตถุทั้งสองต่างกันในพิกัดใดพิกัดหนึ่ง (มิติใดมิติหนึ่ง) ระยะทาง Chebyshev คำนวณโดยสูตร:

ระยะห่างของพลังงานบางครั้งก็ต้องการเพิ่มหรือลดน้ำหนักที่เกี่ยวข้องกับมิติที่วัตถุที่เกี่ยวข้องแตกต่างกันมาก

สามารถทำได้โดยใช้ระยะทางของกฎหมายพลังงาน ระยะทางกำลังคำนวณโดยสูตร:

โดยที่ r และ p เป็นพารามิเตอร์ที่ผู้ใช้กำหนด ตัวอย่างการคำนวณบางส่วนสามารถแสดงให้เห็นว่าการวัดนี้ "ทำงาน" อย่างไร

พารามิเตอร์ p รับผิดชอบการถ่วงน้ำหนักทีละน้อยของความแตกต่างในแต่ละพิกัด พารามิเตอร์ r รับผิดชอบการถ่วงน้ำหนักแบบก้าวหน้าของระยะห่างระหว่างวัตถุ หากพารามิเตอร์ทั้งสอง - r และ p มีค่าเท่ากับ 2 แสดงว่าระยะทางนี้ตรงกับระยะทางแบบยุคลิด

เปอร์เซ็นต์ของความขัดแย้งมาตรการนี้ใช้เมื่อข้อมูลเป็นหมวดหมู่ ระยะทางนี้คำนวณโดยสูตร:

สมาคมหรือกฎของสมาคม

ในขั้นตอนแรก เมื่อวัตถุแต่ละชิ้นเป็นกลุ่มที่แยกจากกัน ระยะห่างระหว่างวัตถุเหล่านี้จะถูกกำหนดโดยการวัดที่เลือก

อย่างไรก็ตาม เมื่อมีการเชื่อมโยงวัตถุหลายชิ้นเข้าด้วยกัน คำถามก็เกิดขึ้น ระยะห่างระหว่างกลุ่มจะกำหนดได้อย่างไร

กล่าวอีกนัยหนึ่ง คุณต้องมีกฎการเข้าร่วมหรือลิงก์สำหรับสองคลัสเตอร์ มีความเป็นไปได้หลายอย่าง เช่น คุณสามารถเชื่อมโยงสองคลัสเตอร์เข้าด้วยกันได้เมื่อวัตถุสองชิ้นในสองคลัสเตอร์อยู่ใกล้กันมากกว่าระยะลิงก์ที่สัมพันธ์กัน

กล่าวอีกนัยหนึ่ง คุณใช้ "กฎเพื่อนบ้านที่ใกล้ที่สุด" เพื่อกำหนดระยะห่างระหว่างคลัสเตอร์ วิธีนี้เรียกว่าวิธีการเชื่อมโยงเดียว

กฎนี้สร้างคลัสเตอร์ "เส้นใย" เช่น กลุ่ม "เชื่อมโยงกัน" โดยองค์ประกอบแต่ละรายการที่อยู่ใกล้กันมากกว่าองค์ประกอบอื่นเท่านั้น

อีกทางหนึ่ง คุณสามารถใช้เพื่อนบ้านในกลุ่มที่อยู่ห่างจากคู่คุณลักษณะอื่น ๆ ทั้งหมดมากที่สุด วิธีการนี้เรียกว่าวิธีการเชื่อมโยงแบบเต็ม

นอกจากนี้ยังมีวิธีการอื่น ๆ อีกมากมายในการเข้าร่วมคลัสเตอร์ คล้ายกับที่ได้กล่าวไปแล้ว

การเชื่อมต่อแบบเดี่ยว (วิธีเพื่อนบ้านที่ใกล้ที่สุด) ตามที่อธิบายไว้ข้างต้น ในวิธีนี้ ระยะห่างระหว่างสองกลุ่มถูกกำหนดโดยระยะห่างระหว่างสองวัตถุที่อยู่ใกล้ที่สุด (เพื่อนบ้านที่ใกล้ที่สุด) ในกลุ่มที่แตกต่างกัน

ตามกฎแล้ว กฎนี้ต้องสตริงวัตถุเข้าด้วยกันเพื่อสร้างคลัสเตอร์ และคลัสเตอร์ที่เป็นผลลัพธ์มักจะแสดงด้วย "สตริง" แบบยาว

การเชื่อมต่อแบบเต็ม (วิธีการของเพื่อนบ้านที่ห่างไกลที่สุด)ในวิธีนี้ ระยะห่างระหว่างกลุ่มถูกกำหนดให้เป็นระยะทางที่ใหญ่ที่สุดระหว่างวัตถุสองชิ้นใดๆ ในกลุ่มที่แตกต่างกัน (เช่น "เพื่อนบ้านที่อยู่ไกลที่สุด")

ค่าเฉลี่ยแบบคู่ที่ไม่ได้ถ่วงน้ำหนักในวิธีนี้ ระยะห่างระหว่างกลุ่มที่แตกต่างกันสองกลุ่มจะถูกคำนวณเป็นระยะทางเฉลี่ยระหว่างคู่ของวัตถุทั้งหมดในกลุ่มนั้น

วิธีนี้ใช้ได้ผลเมื่อวัตถุสร้าง "สวน" ที่แตกต่างกันจริง ๆ แต่ก็ใช้ได้ดีพอ ๆ กันในกรณีของคลัสเตอร์แบบขยาย (ประเภท "โซ่")

โปรดทราบว่าในหนังสือของพวกเขา Sneath and Sokal (1973) แนะนำตัวย่อ UPGMA เพื่ออ้างถึงวิธีนี้ว่าเป็นวิธีกลุ่มคู่ที่ไม่ได้ถ่วงน้ำหนักโดยใช้ค่าเฉลี่ยเลขคณิต

ค่าเฉลี่ยแบบคู่ถ่วงน้ำหนักวิธีการนี้เหมือนกันกับวิธีการหาค่าเฉลี่ยแบบคู่ที่ไม่ได้ถ่วงน้ำหนัก ยกเว้นขนาดของกลุ่มที่เกี่ยวข้อง (กล่าวคือ จำนวนของออบเจกต์ที่มีอยู่) จะถูกใช้เป็นปัจจัยถ่วงน้ำหนักในการคำนวณ

ดังนั้นควรใช้วิธีที่เสนอ (แทนที่จะใช้วิธีก่อนหน้า) เมื่อสันนิษฐานว่าขนาดคลัสเตอร์ไม่เท่ากัน

Sneath และ Sokal (1973) แนะนำตัวย่อ WPGMA เพื่ออ้างถึงวิธีนี้ว่าเป็นวิธีกลุ่มคู่ถ่วงน้ำหนักโดยใช้ค่าเฉลี่ยเลขคณิต

วิธีเซนทรอยด์แบบไม่ถ่วงน้ำหนัก ในวิธีนี้ ระยะห่างระหว่างสองกลุ่มถูกกำหนดให้เป็นระยะห่างระหว่างจุดศูนย์ถ่วง

ความสนใจ!

Sneath and Sokal (1973) ใช้ตัวย่อว่า UPGMC เพื่ออ้างถึงวิธีนี้ว่าเป็นวิธีการแบบกลุ่มคู่ที่ไม่ได้ถ่วงน้ำหนักโดยใช้ค่าเฉลี่ยเซนทรอยด์

วิธี centroid ถ่วงน้ำหนัก (ค่ามัธยฐาน) วิธีนี้เหมือนกับวิธีก่อนหน้า ยกเว้นว่ามีการใช้น้ำหนักในการคำนวณเพื่อพิจารณาความแตกต่างระหว่างขนาดคลัสเตอร์ (เช่น จำนวนของออบเจกต์ในนั้น)

ดังนั้น หากมี (หรือสงสัยว่า) มีความแตกต่างอย่างมีนัยสำคัญในขนาดคลัสเตอร์ วิธีนี้จะดีกว่าวิธีก่อนหน้า

Sneath and Sokal (1973) ใช้ตัวย่อว่า WPGMC เพื่ออ้างถึงวิธีการแบบกลุ่มคู่ถ่วงน้ำหนักโดยใช้ค่าเฉลี่ยเซนทรอยด์

วิธีการวอร์ดวิธีนี้แตกต่างจากวิธีอื่นๆ เนื่องจากใช้วิธี ANOVA ในการประมาณระยะทางระหว่างคลัสเตอร์

วิธีนี้ช่วยลดผลรวมของกำลังสอง (SS) สำหรับสองกลุ่ม (สมมุติฐาน) ใดๆ ที่สามารถสร้างได้ในแต่ละขั้นตอน

สามารถดูรายละเอียดได้ใน Ward (1963) โดยทั่วไป วิธีการนี้ดูเหมือนจะมีประสิทธิภาพมาก แต่ก็มีแนวโน้มที่จะสร้างคลัสเตอร์ขนาดเล็ก

ก่อนหน้านี้มีการกล่าวถึงวิธีการนี้ในแง่ของ "วัตถุ" ที่ควรจัดกลุ่ม ในการวิเคราะห์ประเภทอื่นๆ ทั้งหมด คำถามที่ผู้วิจัยสนใจมักจะแสดงออกในรูปของข้อสังเกตหรือตัวแปร

ปรากฎว่าการจัดกลุ่มทั้งจากการสังเกตและโดยตัวแปรสามารถนำไปสู่ผลลัพธ์ที่น่าสนใจทีเดียว

ตัวอย่างเช่น จินตนาการว่านักวิจัยทางการแพทย์กำลังรวบรวมข้อมูลลักษณะต่างๆ (ตัวแปร) ของอาการของผู้ป่วย (การสังเกต) ที่เป็นโรคหัวใจ

ผู้วิจัยอาจต้องการจัดกลุ่มการสังเกต (ของผู้ป่วย) เพื่อระบุกลุ่มของผู้ป่วยที่มีอาการคล้ายคลึงกัน

ในขณะเดียวกัน ผู้วิจัยอาจต้องการจัดกลุ่มตัวแปรเพื่อระบุกลุ่มของตัวแปรที่เกี่ยวข้องกับสถานะทางกายภาพที่คล้ายคลึงกันe

หลังจากการอภิปรายนี้ว่าควรจัดกลุ่มการสังเกตหรือตัวแปรหรือไม่ อาจมีบางคนถามว่าทำไมไม่จัดกลุ่มทั้งสองทิศทาง

โมดูลการวิเคราะห์คลัสเตอร์มีขั้นตอนการเข้าร่วมแบบสองทางที่มีประสิทธิภาพเพื่อดำเนินการดังกล่าว

อย่างไรก็ตาม มีการใช้การรวมสองทาง (ค่อนข้างน้อย) ในสถานการณ์ที่คาดว่าทั้งการสังเกตและตัวแปรจะนำไปสู่การค้นพบคลัสเตอร์ที่มีความหมายพร้อมกัน

ดังนั้น เมื่อย้อนกลับไปที่ตัวอย่างก่อนหน้านี้ เราสามารถสรุปได้ว่านักวิจัยทางการแพทย์จำเป็นต้องระบุกลุ่มของผู้ป่วยที่คล้ายคลึงกันโดยสัมพันธ์กับกลุ่มลักษณะสภาพร่างกายบางกลุ่ม

ความยากลำบากในการตีความผลลัพธ์ที่ได้นั้นเกิดจากข้อเท็จจริงที่ว่าความคล้ายคลึงกันระหว่างกลุ่มต่างๆ อาจมาจาก (หรือเป็นสาเหตุของ) ความแตกต่างบางอย่างในชุดย่อยของตัวแปร

ดังนั้นกลุ่มผลลัพธ์จึงมีความแตกต่างกันโดยเนื้อแท้ บางทีมันอาจจะดูคลุมเครือเล็กน้อยในตอนแรก เมื่อเทียบกับวิธีการวิเคราะห์คลัสเตอร์อื่นๆ ที่อธิบายไว้ การรวมสองทางน่าจะเป็นวิธีที่ใช้กันน้อยที่สุด

อย่างไรก็ตาม นักวิจัยบางคนเชื่อว่ามันเป็นเครื่องมือที่มีประสิทธิภาพสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจ (สำหรับข้อมูลเพิ่มเติม โปรดดูคำอธิบายของ Hartigan เกี่ยวกับวิธีนี้ (Hartigan, 1975))

K หมายถึงวิธีการ

วิธีการจัดกลุ่มนี้แตกต่างอย่างมากจากวิธีการรวมกลุ่ม เช่น ยูเนียน (การจัดกลุ่มต้นไม้) และทูเวย์ยูเนี่ยน สมมติว่าคุณมีสมมติฐานเกี่ยวกับจำนวนของกลุ่มอยู่แล้ว (โดยการสังเกตหรือตามตัวแปร)

คุณสามารถบอกให้ระบบสร้างคลัสเตอร์สามกลุ่มเพื่อให้มีความแตกต่างกันมากที่สุดเท่าที่จะเป็นไปได้

นี่คือประเภทของปัญหาที่อัลกอริทึม K-Means แก้ไข โดยทั่วไปแล้ว วิธี K-mean จะสร้างกลุ่ม K ที่แตกต่างกันอย่างชัดเจนโดยเว้นระยะห่างให้มากที่สุดเท่าที่จะเป็นไปได้

ในตัวอย่างสภาพร่างกาย นักวิจัยทางการแพทย์อาจมี "ลางสังหรณ์" จากประสบการณ์ทางคลินิกว่าโดยทั่วไปแล้ว ผู้ป่วยจะแบ่งออกเป็นสามประเภทที่แตกต่างกัน

ความสนใจ!

ถ้าเป็นเช่นนั้น ค่าเฉลี่ยของการวัดพารามิเตอร์ทางกายภาพต่างๆ สำหรับแต่ละคลัสเตอร์จะให้วิธีเชิงปริมาณในการแสดงสมมติฐานของผู้วิจัย (เช่น ผู้ป่วยในกลุ่มที่ 1 มีพารามิเตอร์สูงที่ 1 พารามิเตอร์ที่ต่ำกว่าที่ 2 เป็นต้น)

จากมุมมองของการคำนวณ คุณสามารถคิดว่าวิธีนี้เป็นการวิเคราะห์ความแปรปรวน "ในทางกลับกัน" โปรแกรมเริ่มต้นด้วยกลุ่ม K ที่เลือกแบบสุ่ม จากนั้นเปลี่ยนสิ่งที่เป็นของวัตถุเหล่านั้นเพื่อ:

  1. ลดความแปรปรวนภายในคลัสเตอร์
  2. เพิ่มความแปรปรวนระหว่างคลัสเตอร์

วิธีนี้คล้ายกับการวิเคราะห์ความแปรปรวนแบบย้อนกลับ (ANOVA) โดยที่การทดสอบนัยสำคัญใน ANOVA จะเปรียบเทียบระหว่างความแปรปรวนระหว่างกลุ่มกับความแปรปรวนภายในกลุ่มในการทดสอบสมมติฐานว่าความหมายของกลุ่มแตกต่างกัน

ในการจัดกลุ่มแบบ K-mean โปรแกรมจะย้ายวัตถุ (เช่น การสังเกต) จากกลุ่มหนึ่ง (กลุ่ม) ไปยังอีกกลุ่มหนึ่ง เพื่อให้ได้ผลลัพธ์ที่สำคัญที่สุดเมื่อทำการวิเคราะห์ความแปรปรวน (ANOVA)

โดยทั่วไป เมื่อได้รับผลลัพธ์ของการวิเคราะห์คลัสเตอร์ K-mean เราสามารถคำนวณค่าเฉลี่ยสำหรับแต่ละคลัสเตอร์สำหรับแต่ละมิติเพื่อประเมินว่าคลัสเตอร์แตกต่างกันอย่างไร

ตามหลักการแล้ว คุณควรได้รับค่าเฉลี่ยที่แตกต่างกันมากสำหรับการวัดส่วนใหญ่ที่ใช้ในการวิเคราะห์ หากไม่ใช่ทั้งหมด

ที่มา: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

การจำแนกประเภทของวัตถุตามลักษณะ

การวิเคราะห์กลุ่ม (การวิเคราะห์กลุ่ม) - ชุดของวิธีการทางสถิติหลายมิติสำหรับการจำแนกวัตถุตามลักษณะการแบ่งชุดของวัตถุออกเป็นกลุ่มที่เป็นเนื้อเดียวกันซึ่งใกล้เคียงกันในแง่ของการกำหนดเกณฑ์การเลือกวัตถุของกลุ่มใดกลุ่มหนึ่ง

คลัสเตอร์คือกลุ่มของวัตถุที่ระบุโดยเป็นผลมาจากการวิเคราะห์กลุ่มตามการวัดความเหมือนหรือความแตกต่างระหว่างวัตถุที่กำหนด

วัตถุ คือ วิชาเฉพาะที่ต้องการจำแนก ตามกฎแล้ววัตถุในการจำแนกประเภทคือการสังเกต ตัวอย่างเช่น ผู้บริโภคผลิตภัณฑ์ ประเทศหรือภูมิภาค ผลิตภัณฑ์ ฯลฯ

แม้ว่าจะสามารถทำการวิเคราะห์กลุ่มตามตัวแปรได้ การจำแนกประเภทของวัตถุในการวิเคราะห์คลัสเตอร์หลายมิติเกิดขึ้นตามเกณฑ์หลายประการพร้อมกัน

สิ่งเหล่านี้สามารถเป็นได้ทั้งตัวแปรเชิงปริมาณและเชิงหมวดหมู่ ขึ้นอยู่กับวิธีการวิเคราะห์กลุ่ม ดังนั้น เป้าหมายหลักของการวิเคราะห์กลุ่มคือการค้นหากลุ่มของวัตถุที่คล้ายกันในตัวอย่าง

ชุดของวิธีการทางสถิติหลายมิติของการวิเคราะห์กลุ่มสามารถแบ่งออกเป็นวิธีการแบบลำดับชั้น (การรวมและการแบ่งแยก) และแบบไม่มีลำดับชั้น (วิธี k-mean, การวิเคราะห์กลุ่มแบบสองขั้นตอน)

อย่างไรก็ตาม ไม่มีการจำแนกประเภทของวิธีการที่เป็นที่ยอมรับโดยทั่วไป และบางครั้งวิธีการวิเคราะห์แบบกลุ่มยังรวมถึงวิธีการสำหรับการสร้างแผนผังการตัดสินใจ โครงข่ายประสาทเทียม การวิเคราะห์แบบจำแนก และการถดถอยโลจิสติก

ขอบเขตของการวิเคราะห์คลัสเตอร์นั้นกว้างมากเนื่องจากความสามารถรอบด้าน การวิเคราะห์คลัสเตอร์ใช้ในเศรษฐศาสตร์ การตลาด โบราณคดี การแพทย์ จิตวิทยา เคมี ชีววิทยา รัฐประศาสนศาสตร์ ภาษาศาสตร์ มานุษยวิทยา สังคมวิทยา และสาขาอื่นๆ

ต่อไปนี้คือตัวอย่างบางส่วนของการใช้การวิเคราะห์คลัสเตอร์:

  • ยา - การจำแนกโรค อาการ วิธีการรักษา การจำแนกกลุ่มผู้ป่วย
  • การตลาด - ภารกิจในการเพิ่มประสิทธิภาพสายผลิตภัณฑ์ของ บริษัท แบ่งส่วนตลาดตามกลุ่มสินค้าหรือผู้บริโภค ระบุผู้บริโภคที่มีศักยภาพ
  • สังคมวิทยา - การแบ่งผู้ตอบแบบสอบถามออกเป็นกลุ่มที่เป็นเนื้อเดียวกัน
  • จิตเวชศาสตร์ - การวินิจฉัยกลุ่มอาการที่ถูกต้องเป็นสิ่งสำคัญสำหรับการรักษาที่ประสบความสำเร็จ
  • ชีววิทยา - การจำแนกสิ่งมีชีวิตตามกลุ่ม
  • เศรษฐกิจ - การจำแนกประเภทของสหพันธรัฐรัสเซียตามความน่าดึงดูดใจในการลงทุน

ที่มา: http://www.statmethods.ru/konsalting/statistics-methody/121-klasternyj-analyz.html

ข้อมูลทั่วไปเกี่ยวกับการวิเคราะห์คลัสเตอร์

การวิเคราะห์คลัสเตอร์ประกอบด้วยชุดของอัลกอริธึมการจำแนกประเภทต่างๆ คำถามทั่วไปที่ถูกถามโดยนักวิจัยในหลายสาขาคือ จะจัดระเบียบข้อมูลที่สังเกตได้เป็นโครงสร้างภาพได้อย่างไร

ตัวอย่างเช่น นักชีววิทยาตั้งเป้าที่จะจำแนกสัตว์ออกเป็นสายพันธุ์ต่างๆ เพื่ออธิบายความแตกต่างระหว่างสัตว์เหล่านี้อย่างมีความหมาย

งานของการวิเคราะห์คลัสเตอร์คือการแบ่งชุดเริ่มต้นของวัตถุออกเป็นกลุ่มของวัตถุที่คล้ายกันและใกล้เคียงกัน กลุ่มเหล่านี้เรียกว่าคลัสเตอร์

กล่าวอีกนัยหนึ่ง การวิเคราะห์คลัสเตอร์เป็นวิธีหนึ่งในการจำแนกวัตถุตามลักษณะของวัตถุ เป็นที่พึงปรารถนาที่ผลการจำแนกประเภทมีการตีความที่มีความหมาย

ผลลัพธ์ที่ได้จากวิธีการวิเคราะห์แบบกลุ่มถูกนำไปใช้ในสาขาต่างๆ ในด้านการตลาด นี่คือการแบ่งกลุ่มของคู่แข่งและผู้บริโภค

ในทางจิตเวชศาสตร์ การวินิจฉัยอาการที่ถูกต้อง เช่น โรคหวาดระแวง โรคจิตเภท ฯลฯ เป็นสิ่งสำคัญอย่างยิ่งสำหรับการรักษาที่ประสบความสำเร็จ

ในการจัดการ การจำแนกประเภทของซัพพลายเออร์เป็นสิ่งสำคัญ การระบุสถานการณ์การผลิตที่คล้ายคลึงกันซึ่งเกิดการแต่งงานขึ้น ในสังคมวิทยา การแบ่งผู้ตอบแบบสอบถามออกเป็นกลุ่มที่เป็นเนื้อเดียวกัน ในการลงทุนแบบพอร์ตโฟลิโอ สิ่งสำคัญคือต้องจัดกลุ่มหลักทรัพย์ตามความคล้ายคลึงกันในแนวโน้มของผลตอบแทน เพื่อรวบรวมตามข้อมูลที่ได้รับเกี่ยวกับตลาดหุ้น พอร์ตการลงทุนที่เหมาะสมที่สุดที่ช่วยให้ผลตอบแทนสูงสุดจากการลงทุนสำหรับระดับความเสี่ยงที่กำหนด .

โดยทั่วไป เมื่อใดก็ตามที่จำเป็นต้องจำแนกประเภทข้อมูลจำนวนมากและนำเสนอในรูปแบบที่เหมาะสมสำหรับการประมวลผลต่อไป การวิเคราะห์คลัสเตอร์จะมีประโยชน์และมีประสิทธิภาพมาก

การวิเคราะห์คลัสเตอร์ช่วยให้พิจารณาข้อมูลจำนวนมากพอสมควรและบีบอัดอาร์เรย์ข้อมูลทางเศรษฐกิจและสังคมจำนวนมาก ทำให้ข้อมูลมีขนาดกะทัดรัดและมองเห็นได้

ความสนใจ!

การวิเคราะห์คลัสเตอร์มีความสำคัญอย่างยิ่งเมื่อเทียบกับชุดของอนุกรมเวลาที่แสดงลักษณะการพัฒนาเศรษฐกิจ (ตัวอย่างเช่น สภาพเศรษฐกิจทั่วไปและสินค้าโภคภัณฑ์)

ที่นี่เป็นไปได้ที่จะแยกช่วงเวลาที่ค่าของตัวบ่งชี้ที่สอดคล้องกันค่อนข้างใกล้เคียงกันรวมทั้งกำหนดกลุ่มของอนุกรมเวลาซึ่งไดนามิกจะคล้ายกันมากที่สุด

ในปัญหาของการพยากรณ์ทางเศรษฐกิจและสังคม เป็นไปได้มากที่จะรวมการวิเคราะห์กลุ่มเข้ากับวิธีการเชิงปริมาณอื่นๆ (เช่น กับการวิเคราะห์การถดถอย)

ข้อดีและข้อเสีย

การวิเคราะห์คลัสเตอร์ช่วยให้สามารถจำแนกวัตถุประสงค์ของออบเจกต์ใดๆ ที่มีลักษณะเฉพาะได้หลายอย่าง มีประโยชน์มากมายที่จะได้รับจากสิ่งนี้:

  1. ผลลัพธ์ของคลัสเตอร์สามารถตีความได้ นั่นคือเพื่ออธิบายประเภทของกลุ่มที่มีอยู่จริง
  2. สามารถคัดแยกแต่ละคลัสเตอร์ได้ สิ่งนี้มีประโยชน์ในกรณีที่เกิดข้อผิดพลาดบางอย่างในชุดข้อมูล อันเป็นผลมาจากค่าของตัวบ่งชี้สำหรับแต่ละวัตถุเบี่ยงเบนอย่างรวดเร็ว เมื่อใช้การวิเคราะห์คลัสเตอร์ ออบเจ็กต์ดังกล่าวจะจัดอยู่ในคลัสเตอร์ที่แยกต่างหาก
  3. สำหรับการวิเคราะห์เพิ่มเติม สามารถเลือกได้เฉพาะคลัสเตอร์ที่มีลักษณะเฉพาะที่น่าสนใจเท่านั้น

เช่นเดียวกับวิธีอื่นๆ การวิเคราะห์คลัสเตอร์มีข้อเสียและข้อจำกัดบางประการ องค์ประกอบและจำนวนของคลัสเตอร์ขึ้นอยู่กับเกณฑ์การแบ่งพาร์ติชันที่เลือก

เมื่อลดอาร์เรย์ข้อมูลเริ่มต้นให้อยู่ในรูปแบบที่กะทัดรัดมากขึ้น การบิดเบือนบางอย่างอาจเกิดขึ้น และคุณลักษณะเฉพาะของวัตถุแต่ละชิ้นอาจหายไปเนื่องจากการแทนที่ด้วยคุณลักษณะของค่าทั่วไปของพารามิเตอร์คลัสเตอร์

วิธีการ

ปัจจุบัน รู้จักอัลกอริทึมการทำคลัสเตอร์ที่แตกต่างกันมากกว่าร้อยรายการ ความหลากหลายของพวกมันไม่ได้อธิบายด้วยวิธีการคำนวณที่แตกต่างกันเท่านั้น แต่ยังอธิบายได้ด้วยแนวคิดที่แตกต่างกันในการจัดกลุ่ม

แพ็คเกจ Statistica ใช้วิธีการทำคลัสเตอร์ต่อไปนี้

  • อัลกอริธึมลำดับชั้น - การจัดกลุ่มต้นไม้ อัลกอริทึมแบบลำดับชั้นขึ้นอยู่กับแนวคิดของการจัดกลุ่มตามลำดับ ในขั้นตอนเริ่มต้น แต่ละอ็อบเจ็กต์จะถูกพิจารณาเป็นคลัสเตอร์ที่แยกจากกัน ในขั้นตอนถัดไป คลัสเตอร์บางส่วนที่อยู่ใกล้กันมากที่สุดจะรวมกันเป็นคลัสเตอร์แยกต่างหาก
  • วิธี K-mean วิธีนี้เป็นวิธีที่ใช้กันมากที่สุด มันอยู่ในกลุ่มของวิธีการอ้างอิงที่เรียกว่าการวิเคราะห์คลัสเตอร์ จำนวนคลัสเตอร์ K ถูกกำหนดโดยผู้ใช้
  • สมาคมสองทาง เมื่อใช้วิธีนี้ การจัดกลุ่มจะดำเนินการพร้อมกันทั้งจากตัวแปร (คอลัมน์) และตามผลการสังเกต (แถว)

ขั้นตอนการรวมสองทางจะดำเนินการเมื่อคาดว่าการจัดกลุ่มตัวแปรและการสังเกตพร้อมกันจะให้ผลลัพธ์ที่มีความหมาย

ผลลัพธ์ของขั้นตอนคือสถิติเชิงพรรณนาเกี่ยวกับตัวแปรและกรณีและปัญหา รวมถึงแผนภูมิสีสองมิติซึ่งค่าข้อมูลเป็นรหัสสี

โดยการกระจายสี คุณจะได้แนวคิดเกี่ยวกับกลุ่มที่เป็นเนื้อเดียวกัน

การทำให้เป็นมาตรฐานของตัวแปร

การแบ่งชุดเริ่มต้นของวัตถุออกเป็นกลุ่มนั้นสัมพันธ์กับการคำนวณระยะทางระหว่างวัตถุและตัวเลือกของวัตถุซึ่งระยะห่างระหว่างวัตถุนั้นเล็กที่สุด

ระยะทางที่ใช้กันมากที่สุดคือระยะทางแบบยุคลิด (ทางเรขาคณิต) ที่เราทุกคนคุ้นเคย เมตริกนี้สอดคล้องกับแนวคิดเชิงสัญชาตญาณเกี่ยวกับความใกล้ชิดของวัตถุในอวกาศ (ราวกับว่าระยะห่างระหว่างวัตถุถูกวัดด้วยตลับเมตร)

แต่สำหรับเมตริกที่กำหนด ระยะห่างระหว่างวัตถุอาจได้รับผลกระทบอย่างมากจากการเปลี่ยนแปลงมาตราส่วน (หน่วยการวัด) ตัวอย่างเช่น ถ้าหนึ่งในคุณลักษณะวัดเป็นมิลลิเมตร แล้วค่าของมันถูกแปลงเป็นเซนติเมตร ระยะห่างแบบยุคลิดระหว่างวัตถุจะเปลี่ยนไปอย่างมาก สิ่งนี้จะนำไปสู่ความจริงที่ว่าผลลัพธ์ของการวิเคราะห์กลุ่มอาจแตกต่างอย่างมากจากผลก่อนหน้านี้

หากมีการวัดตัวแปรในหน่วยการวัดที่แตกต่างกัน จำเป็นต้องมีการปรับมาตรฐานเบื้องต้น นั่นคือ การแปลงข้อมูลเริ่มต้น ซึ่งจะแปลงเป็นปริมาณไร้มิติ

การทำให้เป็นมาตรฐานจะบิดเบือนรูปทรงเรขาคณิตของพื้นที่เดิมอย่างมาก ซึ่งสามารถเปลี่ยนผลลัพธ์ของการจัดกลุ่มได้

ในแพ็คเกจ Statistica ตัวแปร x ใดๆ จะถูกทำให้เป็นมาตรฐานตามสูตร:

ในการดำเนินการนี้ ให้คลิกขวาที่ชื่อตัวแปรและเลือกลำดับของคำสั่งจากเมนูที่เปิดขึ้น: เติม/ กำหนดมาตรฐานบล็อก/ กำหนดคอลัมน์มาตรฐาน ค่าของตัวแปรนอร์มัลไลซ์จะเท่ากับศูนย์และความแปรปรวนจะเท่ากับหนึ่ง

วิธี K-mean ใน Statistica

วิธี K-mean แยกชุดของวัตถุออกเป็นจำนวน K ที่กำหนดของกลุ่มต่างๆ ซึ่งอยู่ห่างจากกันมากที่สุด

โดยทั่วไป เมื่อได้รับผลลัพธ์ของการวิเคราะห์คลัสเตอร์ K-mean แล้ว เราสามารถคำนวณค่าเฉลี่ยสำหรับแต่ละคลัสเตอร์สำหรับแต่ละมิติเพื่อประเมินว่าคลัสเตอร์แตกต่างกันอย่างไร

ตามหลักการแล้ว คุณควรได้รับค่าเฉลี่ยที่แตกต่างกันมากสำหรับการวัดส่วนใหญ่ที่ใช้ในการวิเคราะห์

ค่าสถิติ F ที่ได้รับสำหรับแต่ละมิติเป็นอีกตัวบ่งชี้ว่ามิติที่สอดคล้องกันแยกแยะระหว่างคลัสเตอร์ได้ดีเพียงใด

ตัวอย่างเช่น พิจารณาผลการสำรวจพนักงาน 17 คนขององค์กรเกี่ยวกับความพึงพอใจต่อตัวบ่งชี้คุณภาพอาชีพ ตารางประกอบด้วยคำตอบของคำถามแบบสอบถามในระดับคะแนนเต็มสิบ (1 คือคะแนนต่ำสุด 10 คือคะแนนสูงสุด)

ชื่อตัวแปรสอดคล้องกับคำตอบของคำถามต่อไปนี้:

  1. SLT - การรวมกันของเป้าหมายส่วนบุคคลและเป้าหมายขององค์กร
  2. OSO - ความยุติธรรมในค่าจ้าง;
  3. TBD - ความใกล้ชิดกับบ้าน;
  4. PEW - ความรู้สึกของความเป็นอยู่ที่ดีทางเศรษฐกิจ
  5. CR - การเติบโตของอาชีพ
  6. ZhSR - ความปรารถนาที่จะเปลี่ยนงาน
  7. OSB คือความรู้สึกของความเป็นอยู่ที่ดีทางสังคม

การใช้ข้อมูลนี้จำเป็นต้องแบ่งพนักงานออกเป็นกลุ่มและเลือกคันโยกควบคุมที่มีประสิทธิภาพสูงสุดสำหรับแต่ละคน

ในเวลาเดียวกัน ความแตกต่างระหว่างกลุ่มควรชัดเจน และภายในกลุ่ม ผู้ตอบควรเหมือนกันมากที่สุด

จนถึงปัจจุบัน การสำรวจทางสังคมวิทยาส่วนใหญ่ให้คะแนนเสียงเพียงร้อยละ: พิจารณาคำตอบเชิงบวกในจำนวนหลัก หรือร้อยละของผู้ที่ไม่พอใจ แต่ปัญหานี้ไม่ได้รับการพิจารณาอย่างเป็นระบบ

บ่อยครั้งที่การสำรวจไม่แสดงแนวโน้มของสถานการณ์ ในบางกรณี ไม่จำเป็นต้องนับจำนวนคนที่ "เพื่อ" หรือ "ต่อต้าน" แต่ให้นับระยะทางหรือการวัดความคล้ายคลึงกัน นั่นคือเพื่อกำหนดกลุ่มคนที่คิดเรื่องเดียวกัน

ขั้นตอนการวิเคราะห์คลัสเตอร์สามารถใช้เพื่อระบุตามข้อมูลการสำรวจ ความสัมพันธ์ที่มีอยู่จริงบางอย่างของคุณสมบัติและสร้างการจำแนกประเภทบนพื้นฐานนี้

ความสนใจ!

การปรากฏตัวของสมมติฐานเบื้องต้นของนักสังคมวิทยาเมื่อทำงานกับขั้นตอนการวิเคราะห์กลุ่มไม่ใช่เงื่อนไขที่จำเป็น

ในโปรแกรม Statistica การวิเคราะห์คลัสเตอร์จะดำเนินการดังนี้

เมื่อเลือกจำนวนคลัสเตอร์ ให้ปฏิบัติตามคำแนะนำต่อไปนี้: จำนวนคลัสเตอร์ไม่ควรใหญ่เกินไป หากเป็นไปได้

ถ้าเป็นไปได้ ระยะทางที่วัตถุของคลัสเตอร์หนึ่งมารวมกันควรน้อยกว่าระยะทางที่สิ่งอื่นมารวมกับคลัสเตอร์นี้มาก

เมื่อเลือกจำนวนคลัสเตอร์ ส่วนใหญ่มักจะมีวิธีแก้ปัญหาที่ถูกต้องหลายอย่างพร้อมกัน

ตัวอย่างเช่น เราสนใจว่าคำตอบสำหรับคำถามของแบบสอบถามมีความสัมพันธ์กับพนักงานทั่วไปและการจัดการขององค์กรอย่างไร ดังนั้น เราเลือก K=2 สำหรับการแบ่งส่วนเพิ่มเติม คุณสามารถเพิ่มจำนวนคลัสเตอร์ได้

  1. เลือกการสังเกตที่มีระยะห่างสูงสุดระหว่างศูนย์กลางคลัสเตอร์
  2. จัดเรียงระยะทางและเลือกการสังเกตตามช่วงเวลาปกติ (การตั้งค่าเริ่มต้น)
  3. นำศูนย์สังเกตการณ์แห่งแรกและติดวัตถุที่เหลือเข้ากับพวกเขา

ตัวเลือกที่ 1 เหมาะกับวัตถุประสงค์ของเรา

อัลกอริธึมการจัดกลุ่มจำนวนมากมักจะ "กำหนด" โครงสร้างที่ไม่มีอยู่ในข้อมูลและทำให้ผู้วิจัยสับสน ดังนั้นจึงมีความจำเป็นอย่างยิ่งที่จะต้องใช้อัลกอริธึมการวิเคราะห์คลัสเตอร์หลายๆ ชุดและทำการสรุปตามการประเมินทั่วไปของผลลัพธ์ของอัลกอริทึม

สามารถดูผลการวิเคราะห์ในกล่องโต้ตอบที่ปรากฏขึ้น:

หากคุณเลือกแท็บกราฟของค่าเฉลี่ย กราฟของพิกัดของศูนย์กลางคลัสเตอร์จะถูกลงจุด:


เส้นแบ่งแต่ละเส้นบนกราฟนี้สอดคล้องกับกลุ่มใดกลุ่มหนึ่ง แต่ละส่วนของแกนนอนของกราฟสอดคล้องกับหนึ่งในตัวแปรที่รวมอยู่ในการวิเคราะห์

แกนตั้งสอดคล้องกับค่าเฉลี่ยของตัวแปรสำหรับวัตถุที่รวมอยู่ในแต่ละคลัสเตอร์

สังเกตได้ว่าทัศนคติของคนทั้งสองกลุ่มที่มีต่ออาชีพบริการมีความแตกต่างกันอย่างมีนัยสำคัญในเกือบทุกประเด็น มีเพียงประเด็นเดียวเท่านั้นที่มีความเป็นเอกฉันท์อย่างสมบูรณ์ - ในแง่ของความเป็นอยู่ที่ดีทางสังคม (OSB) หรือค่อนข้างขาด (2.5 คะแนนเต็ม 10)

สามารถสันนิษฐานได้ว่าคลัสเตอร์ 1 เป็นตัวแทนของผู้ปฏิบัติงานและคลัสเตอร์ 2 แสดงถึงการจัดการ ผู้จัดการมีความพึงพอใจมากขึ้นกับการพัฒนาอาชีพ (CR) การรวมกันของเป้าหมายส่วนบุคคลและเป้าหมายขององค์กร (SOLs)

พวกเขามีความรู้สึกที่สูงขึ้นของความเป็นอยู่ที่ดีทางเศรษฐกิจ (SEW) และความรู้สึกของการจ่ายค่าตอบแทน (SWA)

พวกเขากังวลเรื่องความใกล้บ้านน้อยกว่าคนงาน อาจเป็นเพราะปัญหาด้านการขนส่งน้อยกว่า นอกจากนี้ ผู้จัดการมีความต้องการเปลี่ยนงานน้อยลง (JSR)

แม้ว่าคนงานจะถูกแบ่งออกเป็นสองประเภท แต่พวกเขาก็ให้คำตอบที่ค่อนข้างเหมือนกันสำหรับคำถามส่วนใหญ่ กล่าวอีกนัยหนึ่ง ถ้าบางอย่างไม่เหมาะกับกลุ่มพนักงานทั่วไป สิ่งเดียวกันนั้นก็ไม่เหมาะกับผู้บริหารระดับสูง และในทางกลับกัน

การประสานกันของกราฟช่วยให้เราสรุปได้ว่าความเป็นอยู่ที่ดีของกลุ่มหนึ่งสะท้อนให้เห็นในความเป็นอยู่ที่ดีของอีกกลุ่มหนึ่ง

กลุ่มที่ 1 ไม่พอใจกับความใกล้ชิดกับบ้าน กลุ่มนี้เป็นส่วนหลักของคนงานที่มาจากส่วนต่าง ๆ ของเมืองมาที่องค์กรเป็นหลัก

ดังนั้นจึงเป็นไปได้ที่จะเสนอให้ผู้บริหารระดับสูงจัดสรรผลกำไรส่วนหนึ่งให้กับการก่อสร้างที่อยู่อาศัยสำหรับพนักงานขององค์กร

ความแตกต่างที่สำคัญเห็นได้จากทัศนคติของคนทั้งสองกลุ่มที่มีต่ออาชีพบริการ พนักงานที่พอใจกับการเติบโตของอาชีพซึ่งมีเป้าหมายส่วนตัวและเป้าหมายขององค์กรสูงไม่มีความปรารถนาที่จะเปลี่ยนงานและรู้สึกพอใจกับผลงานของพวกเขา

ในทางกลับกัน พนักงานที่ต้องการเปลี่ยนงานและไม่พอใจกับผลงานของพวกเขาจะไม่พอใจกับตัวบ่งชี้ข้างต้น ผู้บริหารระดับสูงควรให้ความสนใจเป็นพิเศษกับสถานการณ์ปัจจุบัน

ผลลัพธ์ของการวิเคราะห์ความแปรปรวนสำหรับแต่ละแอตทริบิวต์จะแสดงโดยการกดปุ่มวิเคราะห์ความแปรปรวน

ผลรวมของส่วนเบี่ยงเบนกำลังสองของวัตถุจากศูนย์กลางคลัสเตอร์ (SS ภายใน) และผลรวมของส่วนเบี่ยงเบนกำลังสองระหว่างศูนย์กลางของคลัสเตอร์ (SS ระหว่าง) ค่าสถิติ F และระดับนัยสำคัญ p จะแสดงขึ้น

ความสนใจ!

สำหรับตัวอย่างของเรา ระดับนัยสำคัญของตัวแปรทั้งสองนั้นค่อนข้างใหญ่ ซึ่งอธิบายได้จากการสังเกตจำนวนน้อย ในเวอร์ชันเต็มของการศึกษาซึ่งสามารถพบได้ในบทความนี้ สมมติฐานเกี่ยวกับความเท่าเทียมกันของค่าเฉลี่ยสำหรับศูนย์คลัสเตอร์ถูกปฏิเสธที่ระดับนัยสำคัญน้อยกว่า 0.01

ปุ่มบันทึกการจัดประเภทและระยะทางจะแสดงจำนวนของวัตถุที่รวมอยู่ในแต่ละคลัสเตอร์และระยะทางของวัตถุไปยังศูนย์กลางของแต่ละคลัสเตอร์

ตารางแสดงหมายเลขเคส (CASE_NO) ที่ประกอบเป็นคลัสเตอร์ด้วยหมายเลข CLUSTER และระยะห่างจากจุดศูนย์กลางของแต่ละคลัสเตอร์ (DISTANCE)

ข้อมูลเกี่ยวกับออบเจกต์ที่อยู่ในคลัสเตอร์สามารถเขียนลงในไฟล์และใช้ในการวิเคราะห์เพิ่มเติมได้ ในตัวอย่างนี้ การเปรียบเทียบผลลัพธ์ที่ได้รับกับแบบสอบถามพบว่า กลุ่มที่ 1 ประกอบด้วยพนักงานธรรมดาเป็นส่วนใหญ่ และกลุ่มที่ 2 เป็นผู้จัดการ

ดังนั้น จะเห็นได้ว่าเมื่อประมวลผลผลลัพธ์ของการสำรวจ การวิเคราะห์กลุ่มกลายเป็นวิธีการที่มีประสิทธิภาพที่ช่วยให้สามารถสรุปผลที่ไม่สามารถเข้าถึงได้โดยการสร้างฮิสโตแกรมของค่าเฉลี่ยหรือโดยการคำนวณเปอร์เซ็นต์ของผู้ที่พอใจกับตัวบ่งชี้ต่างๆ ของ คุณภาพชีวิตในการทำงาน

การจัดกลุ่มต้นไม้เป็นตัวอย่างของอัลกอริทึมแบบลำดับชั้น หลักการของการจัดกลุ่มคือจัดกลุ่มองค์ประกอบที่ใกล้ที่สุดก่อน จากนั้นตามด้วยองค์ประกอบที่ห่างไกลจากกันและกันมากขึ้นเรื่อย ๆ ในคลัสเตอร์

อัลกอริทึมเหล่านี้ส่วนใหญ่เริ่มต้นจากเมทริกซ์ของความคล้ายคลึง (ระยะทาง) และในตอนแรก แต่ละองค์ประกอบจะถูกพิจารณาว่าเป็นคลัสเตอร์ที่แยกจากกัน

หลังจากโหลดโมดูลการวิเคราะห์คลัสเตอร์และเลือกการเข้าร่วม (การจัดกลุ่มต้นไม้) คุณสามารถเปลี่ยนพารามิเตอร์ต่อไปนี้ในหน้าต่างรายการพารามิเตอร์การทำคลัสเตอร์:

  • ข้อมูลเริ่มต้น (อินพุต) พวกเขาสามารถอยู่ในรูปของเมทริกซ์ของข้อมูลที่ศึกษา (ข้อมูลดิบ) และในรูปแบบของเมทริกซ์ของระยะทาง (เมทริกซ์ระยะทาง)
  • การสังเกตแบบกลุ่ม (Cluster) (กรณี (ดิบ)) หรือตัวแปร (ตัวแปร (คอลัมน์)) อธิบายสถานะของวัตถุ
  • มาตรการระยะทาง ที่นี่คุณสามารถเลือกมาตรการต่อไปนี้: ระยะทางแบบยุคลิด, ระยะทางแบบยุคลิดกำลังสอง, ระยะทาง City-block (แมนฮัตตัน), เมตริกระยะทาง Chebychev, กำลัง ... ), เปอร์เซ็นต์ของความขัดแย้ง (เปอร์เซ็นต์ความขัดแย้ง)
  • วิธีการจัดกลุ่ม (กฎการควบรวม (เชื่อมโยง)) ตัวเลือกต่อไปนี้เป็นไปได้ที่นี่: การเชื่อมโยงเดี่ยว, การเชื่อมโยงที่สมบูรณ์, ค่าเฉลี่ยของกลุ่มคู่ที่ไม่ได้ถ่วงน้ำหนัก, ค่าเฉลี่ยของกลุ่มคู่ที่ถ่วงน้ำหนัก ), เซนทรอยด์กลุ่มคู่ที่ไม่ได้ถ่วงน้ำหนัก, เซนทรอยด์กลุ่มคู่ถ่วงน้ำหนัก (ค่ามัธยฐาน), วิธีการของวอร์ด

อันเป็นผลมาจากการจัดกลุ่มสร้าง dendrogram แนวนอนหรือแนวตั้ง - กราฟที่กำหนดระยะห่างระหว่างวัตถุและกลุ่มเมื่อรวมกันตามลำดับ

โครงสร้างแบบต้นไม้ของกราฟทำให้คุณสามารถกำหนดคลัสเตอร์โดยขึ้นอยู่กับเกณฑ์ที่เลือก - ระยะห่างที่กำหนดระหว่างคลัสเตอร์

นอกจากนี้ยังแสดงเมทริกซ์ของระยะทางระหว่างวัตถุต้นฉบับ (เมทริกซ์ระยะทาง) ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานสำหรับแต่ละวัตถุต้นทาง (สถิติแบบแยกส่วน)

สำหรับตัวอย่างที่พิจารณาแล้ว เราจะดำเนินการวิเคราะห์กลุ่มของตัวแปรด้วยการตั้งค่าเริ่มต้น dendrogram ที่ได้จะแสดงในรูป


แกนแนวตั้งของ dendrogram วางแผนระยะห่างระหว่างวัตถุและระหว่างวัตถุและกลุ่ม ดังนั้น ระยะห่างระหว่างตัวแปร SEB และ OSD จึงเท่ากับ 5 ตัวแปรเหล่านี้ในขั้นตอนแรกจะรวมกันเป็นคลัสเตอร์เดียว

ส่วนแนวนอนของ dendrogram ถูกวาดที่ระดับที่สอดคล้องกับระยะทางเกณฑ์ที่เลือกสำหรับขั้นตอนการจัดกลุ่มที่กำหนด

ดังจะเห็นได้จากกราฟว่าคำถาม “ความปรารถนาที่จะเปลี่ยนงาน” (JSR) แยกกลุ่มออกจากกัน โดยทั่วไปแล้วความปรารถนาที่จะทิ้งทุกที่จะมาเยือนทุกคนอย่างเท่าเทียมกัน นอกจากนี้ คลัสเตอร์ที่แยกจากกันคือคำถามเกี่ยวกับความใกล้ชิดระหว่างดินแดนกับบ้าน (LHB)

ในแง่ของความสำคัญนั้นอยู่ในอันดับที่สองซึ่งยืนยันข้อสรุปเกี่ยวกับความจำเป็นในการก่อสร้างที่อยู่อาศัยซึ่งจัดทำขึ้นตามผลการศึกษาโดยใช้วิธี K-mean

ความรู้สึกของความเป็นอยู่ที่ดีทางเศรษฐกิจ (PEW) และส่วนของการจ่าย (PWA) ถูกรวมเข้าด้วยกัน - นี่เป็นประเด็นทางเศรษฐกิจ ความก้าวหน้าในอาชีพ (CR) และการรวมกันของเป้าหมายส่วนบุคคลและเป้าหมายขององค์กร (COL) ก็รวมกันเช่นกัน

วิธีการจัดกลุ่มอื่น ๆ เช่นเดียวกับการเลือกระยะทางประเภทอื่น ๆ จะไม่ทำให้เกิดการเปลี่ยนแปลงที่สำคัญใน dendrogram

ผลลัพธ์:

  1. การวิเคราะห์คลัสเตอร์เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจและการวิจัยทางสถิติในทุกสาขาวิชา
  2. โปรแกรม Statistica ใช้ทั้งวิธีการแบบลำดับชั้นและแบบโครงสร้างของการวิเคราะห์คลัสเตอร์ ข้อดีของแพ็คเกจสถิตินี้เกิดจากความสามารถด้านกราฟิก มีการแสดงกราฟิกสองมิติและสามมิติของกลุ่มที่ได้รับในพื้นที่ของตัวแปรที่ศึกษาตลอดจนผลลัพธ์ของขั้นตอนลำดับชั้นสำหรับการจัดกลุ่มวัตถุ
  3. มีความจำเป็นที่จะต้องใช้อัลกอริทึมการวิเคราะห์คลัสเตอร์หลายตัวและสรุปผลตามการประเมินทั่วไปของผลลัพธ์ของอัลกอริทึม
  4. การวิเคราะห์คลัสเตอร์ถือว่าประสบความสำเร็จหากดำเนินการด้วยวิธีต่างๆ เปรียบเทียบผลลัพธ์และพบรูปแบบทั่วไป และพบคลัสเตอร์ที่เสถียรโดยไม่คำนึงถึงวิธีการจัดกลุ่ม
  5. การวิเคราะห์คลัสเตอร์ทำให้คุณสามารถระบุสถานการณ์ปัญหาและร่างแนวทางแก้ไขได้ ดังนั้น วิธีสถิติแบบไม่ใช้พารามิเตอร์จึงถือเป็นส่วนสำคัญของการวิเคราะห์ระบบ

10.1.1 แนวคิดพื้นฐาน

ปล่อยให้คอลเลกชัน วัตถุซึ่งแต่ละลักษณะ ลักษณะที่วัดได้ จำเป็นต้องแบ่งคอลเลกชันนี้ออกเป็นกลุ่มที่เป็นเนื้อเดียวกันในแง่หนึ่ง ในเวลาเดียวกัน แทบไม่มีข้อมูลเบื้องต้นเกี่ยวกับลักษณะของการแจกจ่าย เวกเตอร์มิติ
ภายในชั้นเรียน
กลุ่มผลลัพธ์มักจะถูกเรียก คลัสเตอร์ (แท็กซ่า รูปภาพ)วิธีการค้นหา - การวิเคราะห์คลัสเตอร์(อนุกรมวิธานเชิงตัวเลขหรือการจดจำรูปแบบการเรียนรู้ด้วยตนเอง)

วิธีแก้ปัญหาคือการกำหนดการแบ่งชั้นตามธรรมชาติของผลการสังเกตออกเป็นกลุ่มที่กำหนดไว้อย่างชัดเจนซึ่งอยู่ห่างจากกันและกัน (อาจกลายเป็นว่าชุดของการสังเกตไม่ได้แสดงการแบ่งชั้นตามธรรมชาติออกเป็นกลุ่ม เช่น ก่อตัวเป็นหนึ่งกลุ่ม)

รูปแบบปกติของการแสดงข้อมูลเริ่มต้นในปัญหาของการวิเคราะห์คลัสเตอร์คือเมทริกซ์

,

ซึ่งแต่ละบรรทัดจะแสดงผลการวัด ถือเป็นคุณสมบัติของวัตถุอย่างใดอย่างหนึ่ง

การรวมกลุ่ม ถูกออกแบบมาเพื่อแบ่งชุดของวัตถุออกเป็นกลุ่มที่เป็นเนื้อเดียวกัน ( กระจุกหรือชั้นเรียน) หากข้อมูลตัวอย่างแสดงเป็นจุดในพื้นที่คุณลักษณะ แสดงว่าปัญหา การรวมกลุ่มลดคำจำกัดความของ "การควบแน่นแบบจุด"

แนวคิดของคลัสเตอร์ (คลัสเตอร์) แปลว่า "คลัสเตอร์", "พวง" คำพ้องความหมายสำหรับคำว่า "การจัดกลุ่ม" ได้แก่ "การจำแนกอัตโนมัติ" "การเรียนรู้ที่ไม่มีผู้ดูแล" และ "อนุกรมวิธาน"

จุดประสงค์ของการจัดกลุ่มคือการค้นหาโครงสร้างที่มีอยู่ การจัดกลุ่มเป็นขั้นตอนเชิงพรรณนา ไม่ได้สรุปผลทางสถิติใดๆ แต่ให้โอกาสในการดำเนินการวิเคราะห์เชิงสำรวจและศึกษา "โครงสร้างของข้อมูล" คลาสไม่ได้กำหนดไว้ล่วงหน้า การค้นหากลุ่มที่คล้ายกันและเป็นเนื้อเดียวกันมากที่สุดจะดำเนินการ คลัสเตอร์สามารถอธิบายได้ว่าเป็นกลุ่มของวัตถุที่มีคุณสมบัติทั่วไป

คลัสเตอร์มีสองลักษณะ:

    ความสม่ำเสมอภายใน

    การแยกจากภายนอก

คลัสเตอร์สามารถไม่ทับซ้อนกันหรือพิเศษเฉพาะ (ไม่ทับซ้อนกัน พิเศษ) และตัดกัน (ทับซ้อนกัน) การแสดงแผนผังของกลุ่มที่ไม่ตัดกันและตัดกันจะได้รับในรูปที่ 10.1.

ข้าว. 10.1 คลัสเตอร์ที่ไม่ปะติดปะต่อและทับซ้อนกัน

คำว่า "การวิเคราะห์คลัสเตอร์" ถูกนำมาใช้ครั้งแรกโดย Tryon ในปี 1939 ซึ่งรวมเอาอัลกอริธึมที่แตกต่างกันมากกว่า 100 รายการเข้าด้วยกัน

ซึ่งแตกต่างจากปัญหาการจำแนกประเภท การวิเคราะห์คลัสเตอร์ไม่จำเป็นต้องมีสมมติฐานเบื้องต้นเกี่ยวกับชุดข้อมูล ไม่มีข้อจำกัดในการแสดงวัตถุที่กำลังศึกษา และช่วยให้คุณวิเคราะห์ตัวบ่งชี้ของข้อมูลประเภทต่างๆ (ข้อมูลช่วงเวลา ความถี่ ข้อมูลไบนารี) . ต้องจำไว้ว่าต้องวัดตัวแปรด้วยมาตราส่วนเทียบเคียง

10.1.2 ลักษณะคลัสเตอร์

คลัสเตอร์มีลักษณะทางคณิตศาสตร์ดังต่อไปนี้: ศูนย์กลาง รัศมี ส่วนเบี่ยงเบนมาตรฐาน ขนาดคลัสเตอร์

แต่ละวัตถุของประชากรในการวิเคราะห์คลัสเตอร์ถือเป็นจุดในพื้นที่คุณลักษณะที่กำหนด ค่าของแอตทริบิวต์แต่ละรายการของหน่วยที่กำหนดทำหน้าที่เป็นพิกัดในพื้นที่นี้

ศูนย์คลัสเตอร์เป็นที่ตั้งของจุดในพื้นที่ของตัวแปร

รัศมีคลัสเตอร์ - ระยะทางสูงสุดของจุดจากจุดศูนย์กลางของคลัสเตอร์

หากเป็นไปไม่ได้ที่จะกำหนดวัตถุให้กับหนึ่งในสองคลัสเตอร์อย่างชัดเจนโดยใช้กระบวนการทางคณิตศาสตร์ วัตถุดังกล่าวจะเรียกว่าโต้แย้งได้ และตรวจพบการทับซ้อนกันของกลุ่ม วัตถุที่โต้แย้งคือวัตถุที่สามารถกำหนดให้กับหลายกลุ่มตามความคล้ายคลึงกัน

ขนาดของคลัสเตอร์สามารถกำหนดได้จากรัศมีของคลัสเตอร์หรือตามส่วนเบี่ยงเบนมาตรฐานของคุณสมบัติสำหรับคลัสเตอร์นั้น วัตถุอยู่ในกลุ่มหากระยะทางจากวัตถุไปยังศูนย์กลางของคลัสเตอร์น้อยกว่ารัศมีของคลัสเตอร์ หากตรงตามเงื่อนไขนี้สำหรับสองคลัสเตอร์ขึ้นไป วัตถุนั้นสามารถโต้แย้งได้ ความคลุมเครือของปัญหานี้สามารถกำจัดได้โดยผู้เชี่ยวชาญหรือนักวิเคราะห์

แต่ละกลุ่มมีแนวทางและอัลกอริทึมมากมาย

เมื่อใช้วิธีการวิเคราะห์คลัสเตอร์ต่างๆ นักวิเคราะห์จะได้รับโซลูชันที่แตกต่างกันสำหรับข้อมูลเดียวกัน ซึ่งถือว่าเป็นเรื่องปกติ พิจารณารายละเอียดวิธีการแบบลำดับชั้นและแบบไม่มีลำดับชั้น

สาระสำคัญของการจัดกลุ่มแบบลำดับชั้นคือการรวมกลุ่มขนาดเล็กลงเป็นกลุ่มใหญ่ตามลำดับ หรือการแบ่งกลุ่มขนาดใหญ่ออกเป็นกลุ่มย่อย

วิธีการรวมกลุ่มแบบลำดับชั้น (Agglomerative Nesting, AGNES) กลุ่มของวิธีการนี้มีลักษณะเฉพาะโดยการรวมกันขององค์ประกอบดั้งเดิมและการลดลงของจำนวนกลุ่มที่สอดคล้องกัน

ที่จุดเริ่มต้นของอัลกอริทึม วัตถุทั้งหมดเป็นคลัสเตอร์ที่แยกจากกัน ในขั้นตอนแรก วัตถุที่คล้ายกันมากที่สุดจะรวมกันเป็นคลัสเตอร์ ในขั้นตอนต่อๆ ไป การผสานจะดำเนินต่อไปจนกว่าอ็อบเจ็กต์ทั้งหมดจะก่อตัวเป็นคลัสเตอร์เดียว วิธีการหารแบบลำดับชั้น (หารได้) (DIvisive ANAlysis, DIANA) วิธีการเหล่านี้เป็นตรรกะที่ตรงกันข้ามกับวิธีการรวม ที่จุดเริ่มต้นของอัลกอริทึม ออบเจกต์ทั้งหมดอยู่ในคลัสเตอร์เดียว ซึ่งแบ่งออกเป็นคลัสเตอร์ขนาดเล็กในขั้นตอนต่อมา เป็นผลให้เกิดลำดับของการแบ่งกลุ่ม

วิธีการที่ไม่ใช่ลำดับชั้นเผยให้เห็นความต้านทานที่สูงขึ้นต่อสัญญาณรบกวนและค่าผิดปกติ การเลือกเมตริกที่ไม่ถูกต้อง การรวมตัวแปรที่ไม่มีนัยสำคัญในชุดที่เกี่ยวข้องกับการจัดกลุ่ม ราคาที่ต้องจ่ายสำหรับข้อดีของวิธีนี้คือคำว่า "a Priori" นักวิเคราะห์ต้องกำหนดจำนวนคลัสเตอร์ จำนวนการวนซ้ำ หรือกฎการหยุด รวมทั้งพารามิเตอร์การจัดกลุ่มอื่นๆ นี่เป็นเรื่องยากอย่างยิ่งสำหรับผู้เริ่มต้น

หากไม่มีสมมติฐานเกี่ยวกับจำนวนคลัสเตอร์ ขอแนะนำให้ใช้อัลกอริทึมแบบลำดับชั้น อย่างไรก็ตาม หากขนาดตัวอย่างไม่อนุญาต วิธีที่เป็นไปได้คือทำการทดลองหลายชุดด้วยจำนวนคลัสเตอร์ที่แตกต่างกัน เช่น เริ่มแยกชุดข้อมูลออกจากสองกลุ่ม แล้วค่อยๆ เพิ่มจำนวน แล้วเปรียบเทียบผลลัพธ์ เนื่องจาก "การเปลี่ยนแปลง" ของผลลัพธ์นี้ ทำให้เกิดความยืดหยุ่นในการจัดกลุ่มขนาดใหญ่เพียงพอ

วิธีการแบบลำดับชั้น ซึ่งแตกต่างจากแบบที่ไม่ใช่แบบลำดับชั้น ปฏิเสธที่จะกำหนดจำนวนของคลัสเตอร์ แต่สร้างแผนผังที่สมบูรณ์ของคลัสเตอร์ที่ซ้อนกัน

ความซับซ้อนของวิธีการจัดกลุ่มแบบลำดับชั้น: ข้อจำกัดของปริมาณชุดข้อมูล ทางเลือกของการวัดความใกล้ชิด ความไม่ยืดหยุ่นของการจำแนกประเภทที่ได้รับ

ข้อได้เปรียบของวิธีการกลุ่มนี้เมื่อเปรียบเทียบกับวิธีการที่ไม่ใช่ลำดับชั้นคือความชัดเจนและความสามารถในการรับแนวคิดโดยละเอียดเกี่ยวกับโครงสร้างข้อมูล

เมื่อใช้วิธีการแบบลำดับชั้น เป็นไปได้ที่จะระบุค่าผิดปกติในชุดข้อมูลได้ค่อนข้างง่าย และเป็นผลให้ปรับปรุงคุณภาพของข้อมูล ขั้นตอนนี้รองรับอัลกอริทึมการทำคลัสเตอร์สองขั้นตอน ชุดข้อมูลดังกล่าวสามารถใช้สำหรับการจัดกลุ่มแบบไม่มีลำดับชั้นได้ในภายหลัง

มีอีกแง่มุมหนึ่งที่ได้กล่าวมาแล้วในการบรรยายนี้ นี่เป็นเรื่องของการจัดกลุ่มข้อมูลประชากรทั้งหมดหรือกลุ่มตัวอย่าง ลักษณะนี้จำเป็นสำหรับทั้งสองกลุ่มของวิธีการ แต่มีความสำคัญมากกว่าสำหรับวิธีการแบบลำดับชั้น วิธีการแบบลำดับชั้นไม่สามารถทำงานกับชุดข้อมูลขนาดใหญ่ได้ และการใช้การเลือกบางอย่าง เช่น ส่วนหนึ่งของข้อมูลอาจอนุญาตให้ใช้วิธีเหล่านี้ได้

ผลลัพธ์การจัดกลุ่มอาจไม่มีเหตุผลเพียงพอทางสถิติ ในทางกลับกัน เมื่อแก้ปัญหาการจัดกลุ่ม การตีความผลลัพธ์ที่ไม่ใช่สถิติเป็นที่ยอมรับได้ เช่นเดียวกับตัวเลือกที่หลากหลายพอสมควรสำหรับแนวคิดของคลัสเตอร์ การตีความที่ไม่ใช่ทางสถิติดังกล่าวช่วยให้นักวิเคราะห์ได้รับผลลัพธ์การจัดกลุ่มที่น่าพอใจ ซึ่งมักจะทำได้ยากเมื่อใช้วิธีอื่น

1) วิธีการเชื่อมต่อที่สมบูรณ์

สาระสำคัญของวิธีนี้คือวัตถุสองชิ้นที่อยู่ในกลุ่มเดียวกัน (คลัสเตอร์) มีค่าสัมประสิทธิ์ความคล้ายคลึงกันที่น้อยกว่าค่าเกณฑ์ S ในแง่ของระยะทางแบบยุคลิด d หมายความว่าระยะห่างระหว่างจุดสองจุด (วัตถุ) ของ คลัสเตอร์ไม่ควรเกินค่าเกณฑ์ h ดังนั้น h กำหนดเส้นผ่านศูนย์กลางสูงสุดที่อนุญาตของเซตย่อยที่ก่อตัวเป็นคลัสเตอร์

2) วิธีระยะทางท้องถิ่นสูงสุด

แต่ละอ็อบเจกต์ถือเป็นคลัสเตอร์หนึ่งจุด ออบเจ็กต์ถูกจัดกลุ่มตามกฎต่อไปนี้: สองคลัสเตอร์จะรวมกันถ้าระยะห่างสูงสุดระหว่างจุดของคลัสเตอร์หนึ่งและอีกจุดหนึ่งนั้นน้อยที่สุด โพรซีเดอร์ประกอบด้วย n - 1 ขั้นตอน และผลลัพธ์ในพาร์ติชันที่ตรงกับพาร์ติชันที่เป็นไปได้ทั้งหมดในเมธอดก่อนหน้าสำหรับค่าขีดจำกัดใดๆ

3) วิธีคำ

ในวิธีนี้ ผลรวมภายในของกลุ่มของความเบี่ยงเบนกำลังสองจะใช้เป็นฟังก์ชันวัตถุประสงค์ ซึ่งไม่มีอะไรมากไปกว่าผลรวมของระยะทางกำลังสองระหว่างแต่ละจุด (วัตถุ) และค่าเฉลี่ยสำหรับกลุ่มที่มีวัตถุนี้ ในแต่ละขั้นตอน มีการรวมสองกลุ่มเข้าด้วยกันซึ่งนำไปสู่การเพิ่มขึ้นขั้นต่ำในฟังก์ชันวัตถุประสงค์ นั่นคือ ผลรวมกำลังสองภายในกลุ่ม วิธีนี้มุ่งเป้าไปที่การรวมคลัสเตอร์ที่มีระยะห่างใกล้เคียงกัน

4) วิธีเซนทรอยด์

ระยะห่างระหว่างสองคลัสเตอร์ถูกกำหนดเป็นระยะทางแบบยุคลิดระหว่างจุดศูนย์กลาง (ค่าเฉลี่ย) ของคลัสเตอร์เหล่านี้:

d2 ij = (`X -`Y)Т(`X -`Y) การจัดกลุ่มดำเนินการทีละขั้นตอน ในแต่ละขั้นตอนของ n-1 กลุ่มสองกลุ่ม G และ p จะรวมกันโดยมีค่าต่ำสุด d2ij ถ้า n1 มากกว่ามาก กว่า n2 ดังนั้นจุดศูนย์กลางของการรวมของสองคลัสเตอร์จะอยู่ใกล้กัน และคุณลักษณะของคลัสเตอร์ที่สองจะถูกละเว้นเมื่อรวมคลัสเตอร์เข้าด้วยกัน บางครั้งวิธีนี้บางครั้งเรียกว่าวิธีการของกลุ่มถ่วงน้ำหนัก

เรารู้ว่าโลกเป็นหนึ่งในดาวเคราะห์ 8 ดวงที่หมุนรอบดวงอาทิตย์ ดวงอาทิตย์เป็นเพียงดาวฤกษ์ในดาราจักรทางช้างเผือกประมาณ 2 แสนล้านดวง มันยากมากที่จะเข้าใจตัวเลขนี้ เมื่อรู้สิ่งนี้ เราสามารถตั้งสมมติฐานเกี่ยวกับจำนวนดวงดาวในจักรวาล - ประมาณ 4X10^22 เราสามารถเห็นดวงดาวได้ประมาณหนึ่งล้านดวงบนท้องฟ้า แม้ว่านี่จะเป็นเพียงเสี้ยวเล็กๆ ของจำนวนดาวจริงๆ ดังนั้นเราจึงมีคำถามสองข้อ:

  1. กาแลคซีคืออะไร?
  2. และอะไรคือความเชื่อมโยงระหว่างกาแลคซีกับหัวข้อของบทความ (การวิเคราะห์คลัสเตอร์)


กาแล็กซีคือกลุ่มของดาวฤกษ์ แก๊ส ฝุ่น ดาวเคราะห์ และเมฆระหว่างดวงดาว โดยปกติแล้วกาแลคซีจะมีรูปร่างคล้ายก้นหอยหรือมีรูปร่างคล้ายสัตว์ ในอวกาศ กาแล็กซีจะแยกออกจากกัน หลุมดำขนาดใหญ่มักจะเป็นศูนย์กลางของดาราจักรส่วนใหญ่

ดังที่เราจะกล่าวถึงในส่วนถัดไป มีความคล้ายคลึงกันหลายประการระหว่างการวิเคราะห์กาแลคซีและกระจุกดาว กาแลคซีมีอยู่ในพื้นที่สามมิติ การวิเคราะห์คลัสเตอร์คือการวิเคราะห์หลายมิติที่ดำเนินการในปริภูมิ n มิติ

หมายเหตุ: หลุมดำเป็นศูนย์กลางของกาแล็กซี เราจะใช้แนวคิดที่คล้ายกันกับเซนทรอยด์ในการวิเคราะห์คลัสเตอร์

การวิเคราะห์คลัสเตอร์

สมมติว่าคุณเป็นหัวหน้าฝ่ายการตลาดและลูกค้าสัมพันธ์ของบริษัทโทรคมนาคม คุณเข้าใจว่าลูกค้าทุกคนแตกต่างกัน และคุณต้องการกลยุทธ์ที่แตกต่างกันในการเข้าถึงลูกค้าที่แตกต่างกัน คุณจะประทับใจกับพลังของเครื่องมือ เช่น การแบ่งกลุ่มลูกค้าเพื่อเพิ่มประสิทธิภาพต้นทุน หากต้องการทบทวนความรู้ของคุณเกี่ยวกับการวิเคราะห์คลัสเตอร์ ให้พิจารณาตัวอย่างต่อไปนี้ ซึ่งแสดงภาพลูกค้า 8 รายและระยะเวลาการสนทนาโดยเฉลี่ย (ในประเทศและต่างประเทศ) ด้านล่างนี้เป็นข้อมูล:

เพื่อความเข้าใจที่ดีขึ้น ลองวาดกราฟโดยแกน x จะเป็นระยะเวลาเฉลี่ยของการโทรระหว่างประเทศ และแกน y - ระยะเวลาเฉลี่ยของการโทรในประเทศ ด้านล่างนี้เป็นแผนภูมิ:

หมายเหตุ: สิ่งนี้คล้ายกับการวิเคราะห์ตำแหน่งของดวงดาวบนท้องฟ้ายามค่ำคืน (ที่นี่ดวงดาวจะถูกแทนที่ด้วยผู้บริโภค) นอกจากนี้ แทนที่จะเป็นพื้นที่ 3 มิติ เรามีพื้นที่ 2 มิติ ซึ่งกำหนดโดยระยะเวลาของการโทรในพื้นที่และระหว่างประเทศเป็นแกน x และ y
ตอนนี้เมื่อพูดถึงกาแลคซีปัญหาถูกกำหนดดังนี้ - เพื่อค้นหาตำแหน่งของหลุมดำ ในการวิเคราะห์คลัสเตอร์จะเรียกว่าเซนทรอยด์ ในการตรวจจับเซนทรอยด์ เราจะเริ่มต้นด้วยการกำหนดจุดตามอำเภอใจเป็นตำแหน่งของเซนทรอยด์

ระยะทางแบบยุคลิดสำหรับการค้นหาเซนทรอยด์สำหรับคลัสเตอร์

ในกรณีของเรา เราจะสุ่มวางเซนทรอยด์สองตัว (C1 และ C2) ที่จุดที่มีพิกัด (1, 1) และ (3, 4) ทำไมเราถึงเลือกเซนทรอยด์สองตัวนี้ การแสดงภาพจุดบนกราฟแสดงให้เราเห็นว่ามีสองกลุ่มที่เราจะวิเคราะห์ อย่างไรก็ตาม เราจะเห็นในภายหลังว่าคำตอบสำหรับคำถามนี้จะไม่ง่ายนักสำหรับชุดข้อมูลขนาดใหญ่
ต่อไป เราจะวัดระยะห่างระหว่างเซนทรอยด์ (C1 และ C2) และจุดทั้งหมดบนกราฟโดยใช้สูตรของ Euclid เพื่อหาระยะห่างระหว่างจุดสองจุด

หมายเหตุ: ระยะทางยังสามารถคำนวณโดยใช้สูตรอื่นๆ เช่น

  1. กำลังสองของระยะทางแบบยุคลิด - เพื่อให้น้ำหนักแก่วัตถุที่อยู่ห่างไกลจากกันมากขึ้น
  2. ระยะทางแมนฮัตตัน - เพื่อลดผลกระทบของการปล่อยมลพิษ
  3. ระยะกำลัง - เพื่อเพิ่ม / ลดอิทธิพลต่อพิกัดเฉพาะ
  4. เปอร์เซ็นต์การไม่เห็นด้วย - สำหรับข้อมูลที่เป็นหมวดหมู่
  5. และอื่น ๆ.
คอลัมน์ 3 และ 4 (ระยะทางจาก C1 และ C2) คือระยะทางที่คำนวณโดยใช้สูตรนี้ ตัวอย่างเช่น สำหรับผู้ใช้รายแรก

ที่เป็นของ centroids (คอลัมน์สุดท้าย) คำนวณตามหลักการของความใกล้ชิดกับ centroids (C1 และ C2) ผู้บริโภครายแรกอยู่ใกล้กับเซนทรอยด์ #1 (1.41 เทียบกับ 2.24) ดังนั้นจึงอยู่ในคลัสเตอร์ที่มีเซนทรอยด์ C1

ด้านล่างนี้เป็นกราฟที่แสดงเซนทรอยด์ C1 และ C2 (แสดงเป็นเพชรสีน้ำเงินและสีส้ม) ผู้บริโภคจะแสดงเป็นสีของเซนทรอยด์ที่สอดคล้องกันซึ่งได้รับมอบหมาย

เนื่องจากเราได้เลือกเซนทรอยด์โดยพลการ ขั้นตอนที่สองคือการทำให้ตัวเลือกนี้วนซ้ำ ตำแหน่งใหม่ของ centroids จะถูกเลือกเป็นค่าเฉลี่ยสำหรับคะแนนของคลัสเตอร์ที่เกี่ยวข้อง ตัวอย่างเช่น สำหรับเซนทรอยด์ตัวแรก (เหล่านี้คือผู้บริโภค 1, 2 และ 3) ดังนั้น พิกัด x ใหม่สำหรับเซนทรอยด์ C1 คือค่าเฉลี่ยของพิกัด x ของผู้บริโภคเหล่านี้ (2+1+1)/3 = 1.33 เราจะได้รับพิกัดใหม่สำหรับ C1 (1.33, 2.33) และ C2 (4.4, 4.2) พล็อตใหม่อยู่ด้านล่าง:

สุดท้าย เราจะวาง centroids ไว้ตรงกลางของคลัสเตอร์ที่เกี่ยวข้อง ตารางด้านล่าง:

ตำแหน่งของหลุมดำ (ศูนย์กลางกลุ่ม) ในตัวอย่างของเราคือ C1 (1.75, 2.25) และ C2 (4.75, 4.75) สองกระจุกข้างต้นเป็นเหมือนกาแลคซีสองแห่งที่แยกออกจากกันในอวกาศ

ลองดูตัวอย่างเพิ่มเติม ให้เราเผชิญกับงานในการแบ่งกลุ่มผู้บริโภคตามพารามิเตอร์สองตัว ได้แก่ อายุและรายได้ สมมติว่าเรามีผู้บริโภค 2 คนอายุ 37 และ 44 ปีโดยมีรายได้ 90,000 ดอลลาร์และ 62,000 ดอลลาร์ตามลำดับ หากเราต้องการวัดระยะทางแบบยุคลิดระหว่างจุด (37, 90000) และ (44, 62000) เราจะเห็นว่าในกรณีนี้ ตัวแปรรายได้ "ครอบงำ" ตัวแปรอายุ และการเปลี่ยนแปลงมีผลอย่างมากต่อระยะทาง เราต้องการกลยุทธ์บางอย่างเพื่อแก้ปัญหานี้ มิฉะนั้น การวิเคราะห์ของเราจะให้ผลลัพธ์ที่ไม่ถูกต้อง วิธีแก้ไขปัญหานี้คือการนำค่าของเรามาเทียบเคียงกับมาตราส่วน การทำให้เป็นมาตรฐานเป็นวิธีแก้ปัญหาของเรา

การทำให้เป็นมาตรฐานของข้อมูล

มีหลายวิธีในการทำให้ข้อมูลเป็นมาตรฐาน ตัวอย่างเช่น การทำให้เป็นมาตรฐานขั้นต่ำ-สูงสุด สำหรับการทำให้เป็นมาตรฐานนี้ จะใช้สูตรต่อไปนี้

ในกรณีนี้ X* คือค่ามาตรฐาน ส่วนต่ำสุดและสูงสุดคือพิกัดต่ำสุดและสูงสุดของ X ทั้งชุด
(หมายเหตุ สูตรนี้จะวางพิกัดทั้งหมดในส่วน )
พิจารณาตัวอย่างของเรา ให้รายได้สูงสุดเป็น $130,000 และขั้นต่ำเป็น $45,000 ค่าปกติของรายได้สำหรับผู้บริโภค A คือ

เราจะทำแบบฝึกหัดนี้สำหรับทุกจุดสำหรับแต่ละตัวแปร (พิกัด) รายได้สำหรับผู้บริโภครายที่สอง (62,000) จะกลายเป็น 0.2 หลังจากขั้นตอนการทำให้เป็นมาตรฐาน นอกจากนี้ ให้อายุขั้นต่ำและสูงสุดคือ 23 และ 58 ตามลำดับ หลังจากการทำให้เป็นมาตรฐาน อายุของผู้บริโภคทั้งสองของเราจะเท่ากับ 0.4 และ 0.6

เป็นเรื่องง่ายที่จะเห็นว่าตอนนี้ข้อมูลทั้งหมดของเราอยู่ระหว่าง 0 ถึง 1 ดังนั้น เราจึงได้ปรับชุดข้อมูลให้เป็นมาตรฐานในสเกลที่เทียบเคียงได้

โปรดจำไว้ว่า ก่อนขั้นตอนการวิเคราะห์คลัสเตอร์ จำเป็นต้องทำการทำให้เป็นมาตรฐาน

งานการทำคลัสเตอร์ในการขุดข้อมูล

บทนำสู่การวิเคราะห์คลัสเตอร์

จากการประยุกต์ใช้การวิเคราะห์คลัสเตอร์ในหลากหลายสาขา เช่น ปัญหาของการพยากรณ์ทางเศรษฐกิจและสังคม

เมื่อวิเคราะห์และคาดการณ์ปรากฏการณ์ทางเศรษฐกิจและสังคม ผู้วิจัยมักจะพบกับคำอธิบายที่หลากหลาย สิ่งนี้เกิดขึ้นเมื่อแก้ปัญหาการแบ่งส่วนตลาด, สร้างประเภทของประเทศตามตัวบ่งชี้จำนวนมากเพียงพอ, ทำนายสถานการณ์ตลาดสำหรับสินค้าแต่ละรายการ, ศึกษาและทำนายภาวะเศรษฐกิจตกต่ำ, และปัญหาอื่น ๆ อีกมากมาย

วิธีการวิเคราะห์หลายตัวแปรเป็นเครื่องมือเชิงปริมาณที่มีประสิทธิภาพสูงสุดสำหรับการศึกษากระบวนการทางเศรษฐกิจและสังคมที่อธิบายด้วยลักษณะเฉพาะจำนวนมาก ซึ่งรวมถึงการวิเคราะห์กลุ่ม อนุกรมวิธาน การจดจำรูปแบบ และการวิเคราะห์ปัจจัย

การวิเคราะห์คลัสเตอร์สะท้อนถึงคุณลักษณะของการวิเคราะห์หลายตัวแปรอย่างชัดเจนที่สุดในการจำแนกประเภท การวิเคราะห์ปัจจัย - ในการศึกษาการสื่อสาร

บางครั้งแนวทางการวิเคราะห์กลุ่มถูกอ้างถึงในวรรณกรรมว่าอนุกรมวิธานเชิงตัวเลข การจำแนกประเภทเชิงตัวเลข การจดจำการเรียนรู้ด้วยตนเอง เป็นต้น

การวิเคราะห์กลุ่มพบการประยุกต์ใช้ครั้งแรกในสังคมวิทยา การวิเคราะห์กลุ่มชื่อมาจากคลัสเตอร์คำภาษาอังกฤษ - พวง, การสะสม เป็นครั้งแรกในปี พ.ศ. 2482 หัวข้อของการวิเคราะห์กลุ่มได้รับการกำหนดและคำอธิบายโดยนักวิจัย Trion จุดประสงค์หลักของการวิเคราะห์คลัสเตอร์คือการแบ่งชุดของวัตถุและคุณสมบัติภายใต้การศึกษาออกเป็นกลุ่มหรือหลายกลุ่มที่เป็นเนื้อเดียวกันในความหมายที่เหมาะสม ซึ่งหมายความว่าปัญหาในการจำแนกข้อมูลและการระบุโครงสร้างที่สอดคล้องกันนั้นกำลังได้รับการแก้ไข วิธีการวิเคราะห์คลัสเตอร์สามารถนำไปใช้ได้ในหลายกรณี แม้ในกรณีที่เรากำลังพูดถึงการจัดกลุ่มอย่างง่าย ซึ่งทุกอย่างขึ้นอยู่กับการก่อตัวของกลุ่มตามความคล้ายคลึงกันเชิงปริมาณ

ข้อได้เปรียบที่ยอดเยี่ยมของการวิเคราะห์คลัสเตอร์โดยอนุญาตให้แยกออบเจกต์ไม่ใช่ด้วยพารามิเตอร์เดียว แต่โดยคุณสมบัติทั้งชุด นอกจากนี้ การวิเคราะห์กลุ่มซึ่งไม่เหมือนกับวิธีการทางคณิตศาสตร์และสถิติส่วนใหญ่ ไม่มีข้อจำกัดใดๆ เกี่ยวกับประเภทของออบเจกต์ที่อยู่ระหว่างการพิจารณา และทำให้เราสามารถพิจารณาชุดของข้อมูลเริ่มต้นที่มีลักษณะตามอำเภอใจ สิ่งนี้มีความสำคัญอย่างยิ่ง ตัวอย่างเช่น สำหรับการพยากรณ์การเชื่อมโยง เมื่อตัวบ่งชี้มีรูปแบบที่หลากหลายซึ่งทำให้ยากต่อการใช้แนวทางเศรษฐมิติแบบดั้งเดิม

การวิเคราะห์คลัสเตอร์ทำให้สามารถพิจารณาข้อมูลจำนวนมากพอสมควร และลดขนาดลงได้อย่างมาก บีบอัดอาร์เรย์ข้อมูลทางเศรษฐกิจและสังคมจำนวนมาก ทำให้ข้อมูลมีขนาดกะทัดรัดและมองเห็นได้

การวิเคราะห์คลัสเตอร์มีความสำคัญอย่างยิ่งเมื่อเทียบกับชุดของอนุกรมเวลาที่แสดงลักษณะการพัฒนาเศรษฐกิจ (ตัวอย่างเช่น สภาพเศรษฐกิจทั่วไปและสินค้าโภคภัณฑ์) ที่นี่เป็นไปได้ที่จะแยกช่วงเวลาที่ค่าของตัวบ่งชี้ที่สอดคล้องกันค่อนข้างใกล้เคียงกันรวมทั้งกำหนดกลุ่มของอนุกรมเวลาซึ่งไดนามิกจะคล้ายกันมากที่สุด

การวิเคราะห์คลัสเตอร์สามารถใช้เป็นวัฏจักรได้ ในกรณีนี้การศึกษาจะดำเนินการจนกว่าจะได้ผลลัพธ์ที่ต้องการ ในขณะเดียวกัน แต่ละรอบที่นี่สามารถให้ข้อมูลที่สามารถเปลี่ยนทิศทางและแนวทางการประยุกต์ใช้การวิเคราะห์คลัสเตอร์ต่อไปได้อย่างมาก กระบวนการนี้สามารถแสดงเป็นระบบป้อนกลับ

ในงานของการพยากรณ์ทางเศรษฐกิจและสังคม เป็นไปได้มากที่จะรวมการวิเคราะห์กลุ่มเข้ากับวิธีการเชิงปริมาณอื่นๆ (เช่น กับการวิเคราะห์การถดถอย)

เช่นเดียวกับวิธีอื่นๆ การวิเคราะห์คลัสเตอร์มีข้อเสียและข้อจำกัดบางประการ: โดยเฉพาะอย่างยิ่ง การสร้างจำนวนของคลัสเตอร์ขึ้นอยู่กับเกณฑ์การแบ่งพาร์ติชันที่เลือก เมื่อลดอาร์เรย์ข้อมูลเริ่มต้นให้อยู่ในรูปแบบที่กะทัดรัดมากขึ้น การบิดเบือนบางอย่างอาจเกิดขึ้น และคุณลักษณะเฉพาะของวัตถุแต่ละชิ้นอาจหายไปเนื่องจากการแทนที่ด้วยคุณลักษณะของค่าทั่วไปของพารามิเตอร์คลัสเตอร์ เมื่อจัดประเภทออบเจกต์ ความเป็นไปได้ของการไม่มีค่าคลัสเตอร์ใดๆ ในชุดที่พิจารณามักจะถูกละเลย

ในการวิเคราะห์กลุ่มถือว่า:

ก) โดยหลักการแล้วลักษณะที่เลือกอนุญาตให้จัดกลุ่มที่ต้องการ

b) เลือกหน่วยการวัด (มาตราส่วน) อย่างถูกต้อง

การเลือกขนาดมีบทบาทสำคัญ โดยทั่วไป ข้อมูลจะถูกทำให้เป็นมาตรฐานโดยการลบค่าเฉลี่ยและหารด้วยส่วนเบี่ยงเบนมาตรฐานเพื่อให้ค่าความแปรปรวนเท่ากับหนึ่ง

1. งานของการรวมกลุ่ม

งานของการจัดกลุ่มคือตามข้อมูลที่มีอยู่ในชุด เอ็กซ์แยกวัตถุจำนวนมาก บน (– ทั้งหมด) คลัสเตอร์ (ชุดย่อย) ไตรมาสที่ 1คำถามที่ 2 , …,คิว มเพื่อให้แต่ละวัตถุ กจอยู่ในชุดย่อยพาร์ติชันหนึ่งและชุดเดียว และอ็อบเจ็กต์ที่เป็นของคลัสเตอร์เดียวกันจะคล้ายกัน ในขณะที่อ็อบเจ็กต์ที่อยู่ในคลัสเตอร์ต่างกันจะต่างกัน

ตัวอย่างเช่นให้ รวม n ประเทศซึ่งมีลักษณะ GNP ต่อหัว ( F1), ตัวเลข รถยนต์ต่อ 1,000 คน F2) ปริมาณการใช้ไฟฟ้าต่อหัว ( F3) ปริมาณการใช้เหล็กต่อหัว ( F4) เป็นต้น แล้ว เอ็กซ์ 1(เวกเตอร์การวัด) เป็นชุดของลักษณะเฉพาะสำหรับประเทศแรก เอ็กซ์ 2- สำหรับวินาที เอ็กซ์ 3สำหรับที่สามและอื่น ๆ ความท้าทายคือการแบ่งประเทศตามระดับการพัฒนา

วิธีแก้ไขปัญหาของการวิเคราะห์คลัสเตอร์คือพาร์ติชันที่ตรงตามเงื่อนไขความเหมาะสมบางประการ เกณฑ์นี้อาจเป็นฟังก์ชันบางอย่างที่แสดงระดับความพึงปรารถนาของพาร์ติชันและการจัดกลุ่มต่างๆ ซึ่งเรียกว่าฟังก์ชันวัตถุประสงค์ ตัวอย่างเช่น ผลรวมภายในของกลุ่มของความเบี่ยงเบนกำลังสองสามารถถือเป็นฟังก์ชันวัตถุประสงค์ได้:

ที่ไหน xj- แสดงถึงการวัด เจ-th วัตถุ

ในการแก้ปัญหาของการวิเคราะห์คลัสเตอร์ จำเป็นต้องกำหนดแนวคิดเรื่องความเหมือนและความแตกต่าง

เป็นที่ชัดเจนว่าวัตถุ ฉัน -th และ เจ-th จะตกอยู่ในกลุ่มหนึ่งเมื่อระยะทาง (ความห่างไกล) ระหว่างจุด เอ็กซ์ ฉันและ X เจจะเล็กพอและจะตกเป็นกลุ่มต่างๆ เมื่อระยะทางนี้มากพอ ดังนั้น การชนวัตถุกลุ่มหนึ่งหรือกลุ่มต่างๆ จะถูกกำหนดโดยแนวคิดของระยะห่างระหว่าง เอ็กซ์ ฉัน และ X เจจาก ใช่, ที่ไหน ใช่ - -มิติปริภูมิแบบยุคลิด ฟังก์ชันไม่เป็นลบ d(X ฉัน, Х j) เรียกว่าฟังก์ชันระยะทาง (เมตริก) ถ้า:

ก) d(Xผม , Х เจ)³ 0 , สำหรับทุกอย่าง เอ็กซ์ ฉัน และ X เจจาก ใช่

ข) d(Xผม , Х j) = 0, ถ้าและเฉพาะในกรณีที่ เอ็กซ์ ฉัน= Х เจ

วี) d(Xผม , X j) = d(X j , X ฉัน)

ช) d(Xผม , Х เจ)£ d(Xผม , X k) + d(X k , X j) โดยที่ X j ; เอ็กซ์ฉัน และ Х k- เวกเตอร์สามตัวใด ๆ จาก ใช่.

ความหมาย d(Xผม , Х เจ)สำหรับ เอ็กซ์ฉันและ เอ็กซ์ j เรียกว่าระยะห่างระหว่าง เอ็กซ์ฉันและ X เจและเทียบเท่ากับระยะห่างระหว่าง ฉันและ กจตามลักษณะที่เลือก (F 1, F 2, F 3, ..., F p).

ฟังก์ชันระยะทางที่ใช้บ่อยที่สุดคือ:

1. ระยะทางแบบยุคลิด ง 2 (Xผม , Х เจ) =

2. ล. 1- บรรทัดฐาน ง 1 (Xผม , Х เจ) =

3. สูงสุด - บรรทัดฐาน ¥ (Xฉัน , Х j) = ซุป

k = 1, 2, ..., หน้า

4. แอลพี- บรรทัดฐาน d พี (Xผม , Х เจ) =

เมตริกแบบยุคลิดเป็นที่นิยมมากที่สุด เมตริก l 1 เป็นวิธีที่ง่ายที่สุดในการคำนวณ บรรทัดฐานสูงสุดนั้นง่ายต่อการคำนวณและรวมถึงขั้นตอนการสั่งซื้อ แผ่นเสียง- บรรทัดฐานครอบคลุมฟังก์ชั่นของระยะทาง 1, 2, 3,

ให้ n การวัด X 1, X 2,..., Xนำเสนอในรูปแบบของเมทริกซ์ข้อมูลที่มีขนาด หน้า´ :

แล้วระยะห่างระหว่างคู่ของเวกเตอร์ d(X ฉัน, Х เจ)สามารถแสดงเป็นเมทริกซ์ระยะทางสมมาตร:

แนวคิดที่ตรงกันข้ามกับระยะทางคือแนวคิดของความคล้ายคลึงกันระหว่างวัตถุ ฉัน . และ กจ. ฟังก์ชันจริงที่ไม่ใช่ค่าลบ เอส(เอ็กซ์ ฉัน; X ญ) = ส ฉันเจเรียกว่าการวัดความคล้ายคลึงกัน ถ้า:

1) 0 £ ส(Xi , Xj)< 1 สำหรับ X ฉัน ¹ X เจ

2) เอส( เอ็กซ์ฉัน, เอ็กซ์ฉัน) = 1

3) เอส( เอ็กซ์ฉัน, เอ็กซ์เจ) = S(Xเจ, เอ็กซ์ ฉัน )

คู่ของค่าการวัดความคล้ายคลึงกันสามารถรวมกันเป็นเมทริกซ์ความคล้ายคลึงกันได้:

มูลค่า ไอเจเรียกว่าสัมประสิทธิ์ความเหมือน

2. วิธีการจัดกลุ่ม

ปัจจุบันมีหลายวิธีในการวิเคราะห์คลัสเตอร์ ให้เราอาศัยบางส่วนของพวกเขา (วิธีการด้านล่างมักจะเรียกว่าวิธีการของความแปรปรวนขั้นต่ำ)

อนุญาต เอ็กซ์- เมทริกซ์การสังเกต: X \u003d (X 1, X 2, ..., X u)และกำลังสองของระยะทางแบบยุคลิดระหว่าง เอ็กซ์ ฉัน และ X เจถูกกำหนดโดยสูตร:

1) วิธีการเชื่อมต่อแบบเต็ม

สาระสำคัญของวิธีนี้คือวัตถุสองชิ้นที่อยู่ในกลุ่มเดียวกัน (คลัสเตอร์) มีค่าสัมประสิทธิ์ความคล้ายคลึงกันที่น้อยกว่าค่าเกณฑ์ที่กำหนด . ในแง่ของระยะทางแบบยุคลิด ซึ่งหมายความว่าระยะห่างระหว่างจุดสองจุด (วัตถุ) ของคลัสเตอร์ไม่ควรเกินค่าเกณฑ์ชม.. ดังนั้น, ชม.กำหนดเส้นผ่านศูนย์กลางสูงสุดที่อนุญาตของเซ็ตย่อยที่ก่อตัวเป็นคลัสเตอร์

2) วิธีระยะทางท้องถิ่นสูงสุด

แต่ละอ็อบเจกต์ถือเป็นคลัสเตอร์หนึ่งจุด ออบเจ็กต์ถูกจัดกลุ่มตามกฎต่อไปนี้: สองคลัสเตอร์จะรวมกันถ้าระยะห่างสูงสุดระหว่างจุดของคลัสเตอร์หนึ่งและอีกจุดหนึ่งนั้นน้อยที่สุด ขั้นตอนประกอบด้วย น - 1ขั้นตอนและผลลัพธ์ในพาร์ติชันที่ตรงกับพาร์ติชันที่เป็นไปได้ทั้งหมดในเมธอดก่อนหน้าสำหรับขีดจำกัดใดๆ

3) วิธีคำ.

ในวิธีนี้ ผลรวมภายในของกลุ่มของการเบี่ยงเบนกำลังสองจะใช้เป็นฟังก์ชันวัตถุประสงค์ ซึ่งไม่มีอะไรมากไปกว่าผลรวมของระยะทางกำลังสองระหว่างแต่ละจุด (วัตถุ) และค่าเฉลี่ยสำหรับกลุ่มที่มีวัตถุนี้ ในแต่ละขั้นตอน มีการรวมสองกลุ่มเข้าด้วยกันซึ่งนำไปสู่การเพิ่มขึ้นขั้นต่ำในฟังก์ชันวัตถุประสงค์ นั่นคือ ผลรวมกำลังสองภายในกลุ่ม วิธีนี้มุ่งเป้าไปที่การรวมคลัสเตอร์ที่มีระยะห่างใกล้เคียงกัน

4) วิธีศูนย์กลาง

ระยะห่างระหว่างสองคลัสเตอร์ถูกกำหนดเป็นระยะทางแบบยุคลิดระหว่างจุดศูนย์กลาง (ค่าเฉลี่ย) ของคลัสเตอร์เหล่านี้:

d2อิจ =(` X-` ย) ที (` X-` ย)การดำเนินการคลัสเตอร์ในแต่ละขั้นตอน n–1ขั้นตอนรวมสองคลัสเตอร์ และ หน้า มีค่าต่ำสุด ดีทูไอเจถ้า น 1ล้นหลาม n 2จากนั้นศูนย์กลางการผสานของสองคลัสเตอร์จะอยู่ใกล้กัน และคุณลักษณะของคลัสเตอร์ที่สองจะถูกละเว้นในทางปฏิบัติเมื่อรวมคลัสเตอร์ บางครั้งวิธีนี้บางครั้งเรียกว่าวิธีการของกลุ่มถ่วงน้ำหนัก

3. อัลกอริทึมการจัดกลุ่มตามลำดับ

พิจารณา Ι = (Ι 1 , Ι 2 , … Ιน)เป็นกลุ่มก้อน (Ι 1 ), (Ι 2 ),…(Ιน). ลองเลือกสองตัวเช่น Ι ฉัน และ ซึ่งในแง่หนึ่งใกล้กันและรวมกันเป็นคลัสเตอร์เดียว คลัสเตอร์ชุดใหม่ซึ่งประกอบด้วยคลัสเตอร์ n -1 แล้ว จะเป็น:

(Ι 1 ), (Ι 2 )…, ฉัน, Ι เจ ), …, (Ιน).

ทำซ้ำขั้นตอน เราได้รับชุดต่อเนื่องของคลัสเตอร์ประกอบด้วย (n-2), (n-3), (น-4)เป็นต้น กระจุก ในตอนท้ายของขั้นตอน คุณจะได้คลัสเตอร์ที่ประกอบด้วยวัตถุ n ชิ้นและตรงกับชุดดั้งเดิม Ι = (Ι 1 , Ι 2 , … Ιน).

ในการวัดระยะทาง เราใช้กำลังสองของหน่วยเมตริกแบบยุคลิด ฉันญ2. และคำนวณเมทริกซ์ ง = (งฉัน j 2 ) โดยที่ งฉันเจ 2คือกำลังสองของระยะห่างระหว่าง

Ι ฉันและ Ιj:

….

n

ง 12 2

ง 13 2

….

d 1n 2

ง 23 2

….

d 2n 2

….

d 3n 2

….

….

….

n

ให้ระยะห่างระหว่าง Ι ฉันและ Ι j จะน้อยที่สุด:

ฉัน เจ 2 = นาที (d i j 2 , i¹ ญ).เราฟอร์มด้วย Ι ฉันและ Ι j คลัสเตอร์ใหม่

ฉัน , Ι เจ ). มาสร้างใหม่กันเถอะ ((n-1), (n-1))เมทริกซ์ระยะทาง

( Ι ฉัน , Ι เจ )

….

n

( Ι ฉัน ; Ι เจ )

d i j 2 1

d i j 2 2

….

d ฉัน j 2 n

ง 12 2

ง 1 3

….

ง 1 2 น

….

d2n

….

d3n

(n-2)แถวสำหรับเมทริกซ์สุดท้ายนำมาจากเมทริกซ์ก่อนหน้า และคำนวณแถวแรกใหม่ การคำนวณสามารถเก็บไว้ให้น้อยที่สุดหากสามารถแสดงได้ d ฉัน j 2 k ,k = 1, 2,…,น (ฎ¹ ฉัน¹ ญ)ผ่านองค์ประกอบของเมทริกซ์ดั้งเดิม

ในขั้นต้น ระยะทางถูกกำหนดเฉพาะระหว่างคลัสเตอร์องค์ประกอบเดียว แต่ก็จำเป็นต้องกำหนดระยะห่างระหว่างคลัสเตอร์ที่มีองค์ประกอบมากกว่าหนึ่งรายการด้วย ซึ่งสามารถทำได้หลายวิธี และขึ้นอยู่กับวิธีที่เลือก เราได้รับอัลกอริทึมการวิเคราะห์คลัสเตอร์ที่มีคุณสมบัติต่างกัน ตัวอย่างเช่น เราสามารถกำหนดระยะห่างระหว่างคลัสเตอร์ได้ ฉัน + เจและคลัสเตอร์อื่น ๆ เคเท่ากับค่าเฉลี่ยเลขคณิตของระยะห่างระหว่างกลุ่ม ฉันและ เคและกระจุก เจและ เค:

d i+j,k = ½ (d i k + d j k).

แต่ก็สามารถกำหนดได้เช่นกัน d i+j,kเป็นระยะทางขั้นต่ำของสองระยะทางนี้:

d i+j,k = นาที(d i k + d j k).

ดังนั้นจึงอธิบายขั้นตอนแรกของการดำเนินการอัลกอริทึมลำดับชั้นแบบรวมกลุ่ม ขั้นตอนต่อไปจะเหมือนกัน

สามารถรับอัลกอริทึมระดับที่ค่อนข้างกว้างได้หากใช้สูตรทั่วไปต่อไปนี้เพื่อคำนวณระยะทางใหม่:

d i+j,k = A(w) นาที(d ik d jk) + B(w) max(d ik d jk),ที่ไหน

A(w) = ถ้าดิก£ ดีเจ

A(w) = ถ้าดิก> ดีเจ

B(w) = ถ้า ฉัน เค £ ดีเจ

บี(ว ) =, ถ้าดิก> ดีเจ

ที่ไหน ฉันและ นิวเจอร์ซีย์- จำนวนองค์ประกอบในกลุ่ม ฉันและ เจ, ก เป็นพารามิเตอร์ฟรีซึ่งเป็นตัวเลือกที่กำหนดอัลกอริทึมเฉพาะ ตัวอย่างเช่นเมื่อ ว = 1เราได้รับอัลกอริทึมที่เรียกว่า "การเชื่อมต่อเฉลี่ย" ซึ่งสูตรสำหรับการคำนวณระยะทางใหม่จะอยู่ในรูปแบบ:

d i+j,k =

ในกรณีนี้ ระยะห่างระหว่างสองกลุ่มในแต่ละขั้นตอนของอัลกอริทึมจะเท่ากับค่าเฉลี่ยเลขคณิตของระยะห่างระหว่างคู่ขององค์ประกอบทั้งหมด เช่น องค์ประกอบหนึ่งของคู่อยู่ในกลุ่มหนึ่ง

ความหมายที่มองเห็นได้ของพารามิเตอร์ w จะชัดเจนถ้าเราใส่ ® ¥ . สูตรการแปลงระยะทางจะอยู่ในรูปแบบ:

d i+j,k =นาที ( ฉัน,เคดีเจ)

นี่จะเรียกว่าอัลกอริทึม "เพื่อนบ้านที่ใกล้ที่สุด" ซึ่งทำให้สามารถเลือกกลุ่มที่มีรูปร่างซับซ้อนโดยพลการได้ โดยมีเงื่อนไขว่าส่วนต่าง ๆ ของกลุ่มดังกล่าวเชื่อมต่อกันด้วยสายโซ่ขององค์ประกอบที่อยู่ใกล้กัน ในกรณีนี้ ระยะห่างระหว่างสองกลุ่มในแต่ละขั้นตอนของอัลกอริทึมจะเท่ากับระยะห่างระหว่างสององค์ประกอบที่ใกล้ที่สุดที่เป็นของทั้งสองกลุ่ม

บ่อยครั้งที่สันนิษฐานว่ามีการกำหนดระยะทางเริ่มต้น (ความแตกต่าง) ระหว่างองค์ประกอบที่จัดกลุ่ม ในบางกรณีนี้เป็นเรื่องจริง อย่างไรก็ตาม มีการระบุเฉพาะวัตถุและคุณลักษณะเท่านั้น และเมทริกซ์ระยะทางจะสร้างขึ้นจากข้อมูลเหล่านี้ ขึ้นอยู่กับว่ามีการคำนวณระยะทางระหว่างวัตถุหรือระหว่างลักษณะของวัตถุ ใช้วิธีการที่แตกต่างกัน

ในกรณีของการวิเคราะห์กลุ่มของวัตถุ การวัดความแตกต่างที่พบมากที่สุดคือกำลังสองของระยะทางแบบยุคลิด

(ที่ไหน x ฌ , x ญ- ค่า ชม.-th เครื่องหมายสำหรับ ฉันที่ และ เจ-th วัตถุและ คือจำนวนลักษณะเฉพาะ) หรือระยะทางแบบยุคลิดนั่นเอง หากคุณลักษณะถูกกำหนดน้ำหนักที่แตกต่างกัน น้ำหนักเหล่านี้สามารถนำมาพิจารณาเมื่อคำนวณระยะทางได้

บางครั้งระยะทางถูกใช้เพื่อวัดความแตกต่างซึ่งคำนวณโดยสูตร:

ซึ่งเรียกว่าระยะทาง "แฮมมิง", "แมนฮัตตัน" หรือ "บล็อกเมือง"

การวัดตามธรรมชาติของความคล้ายคลึงกันของลักษณะของวัตถุในหลายๆ ปัญหาคือค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างวัตถุเหล่านั้น

ที่ไหน ม ฉัน , ม เจ ,ฉัน ,เจ- ตามลำดับ ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานสำหรับคุณลักษณะ ฉันและ เจ. การวัดความแตกต่างระหว่างคุณลักษณะสามารถเป็นค่าได้ 1-ร. ในบางปัญหา สัญญาณของค่าสัมประสิทธิ์สหสัมพันธ์นั้นไม่มีนัยสำคัญและขึ้นอยู่กับการเลือกหน่วยการวัดเท่านั้น ในกรณีนี้ เพื่อเป็นการวัดความแตกต่างระหว่างคุณลักษณะต่างๆ ô 1-r ฉัน เจ ô

4. จำนวนคลัสเตอร์

ปัญหาที่สำคัญมากคือปัญหาในการเลือกจำนวนคลัสเตอร์ที่ต้องการ บางครั้งสามารถเลือกจำนวนคลัสเตอร์ได้เป็นลำดับ อย่างไรก็ตาม ในกรณีทั่วไป หมายเลขนี้จะถูกกำหนดในกระบวนการแยกชุดออกเป็นกลุ่มๆ

การศึกษาดำเนินการโดย Fortier และ Solomon และพบว่าต้องใช้จำนวนของกลุ่มเพื่อให้ได้ความน่าจะเป็น ค้นหาพาร์ติชันที่ดีที่สุด ดังนั้น จำนวนพาร์ติชันที่เหมาะสมจึงเป็นฟังก์ชันของเศษส่วนที่กำหนด พาร์ติชันที่ดีที่สุดหรือบางส่วนที่ยอมรับได้ในชุดของพาร์ติชันที่เป็นไปได้ทั้งหมด การกระเจิงทั้งหมดจะยิ่งมากขึ้น เศษส่วนก็จะยิ่งมากขึ้นเท่านั้น แยกที่อนุญาต Fortier และ Solomon พัฒนาตารางที่สามารถหาจำนวนพาร์ติชันที่ต้องการได้ เอส( , ) ขึ้นอยู่กับ และ (ที่ไหน คือความน่าจะเป็นที่พบพาร์ติชันที่ดีที่สุด คือส่วนแบ่งของพาร์ติชันที่ดีที่สุดในจำนวนพาร์ติชันทั้งหมด) ยิ่งไปกว่านั้น ในการวัดความแตกต่าง ไม่ได้ใช้การวัดการกระจาย แต่เป็นการวัดความเป็นสมาชิกที่ Holzenger และ Harman แนะนำ ตารางค่า เอส( , ) ด้านล่าง.

ตารางค่าเอส( , )

\

0.20

0.10

0.05

0.01

0.001

0.0001

0.20

8

11

14

21

31

42

0.10

16

22

29

44

66

88

0.05

32

45

59

90

135

180

0.01

161

230

299

459

689

918

0.001

1626

2326

3026

4652

6977

9303

0.0001

17475

25000

32526

55000

75000

100000

บ่อยครั้งที่เกณฑ์สำหรับการรวม (จำนวนคลัสเตอร์) คือการเปลี่ยนแปลงในฟังก์ชันที่เกี่ยวข้อง ตัวอย่างเช่น ผลรวมของการเบี่ยงเบนกำลังสอง:

กระบวนการจัดกลุ่มต้องสอดคล้องกับการเพิ่มขั้นต่ำตามลำดับในค่าของเกณฑ์ อี. การปรากฏตัวของค่าที่เพิ่มขึ้นอย่างรวดเร็ว อีสามารถตีความได้ว่าเป็นลักษณะของจำนวนกลุ่มที่มีอยู่อย่างเป็นกลางในประชากรที่ศึกษา

ดังนั้น วิธีที่สองในการกำหนดจำนวนคลัสเตอร์ที่ดีที่สุดคือการระบุการกระโดดที่กำหนดโดยการเปลี่ยนเฟสจากสถานะของอ็อบเจกต์ที่มีคู่อย่างสูงเป็นสถานะคู่ที่อ่อน

5. เดนโดแกรม

วิธีที่รู้จักกันดีที่สุดในการแสดงระยะทางหรือเมทริกซ์ความคล้ายคลึงกันนั้นขึ้นอยู่กับแนวคิดของ dendogram หรือแผนภาพต้นไม้ Dendogram สามารถกำหนดเป็นการแสดงกราฟิกของผลลัพธ์ของกระบวนการจัดกลุ่มตามลำดับ ซึ่งดำเนินการในแง่ของเมทริกซ์ระยะทาง ด้วยความช่วยเหลือของ dendogram เป็นไปได้ที่จะแสดงขั้นตอนการจัดกลุ่มในรูปแบบกราฟิกหรือทางเรขาคณิต โดยมีเงื่อนไขว่าขั้นตอนนี้ดำเนินการกับองค์ประกอบของระยะทางหรือเมทริกซ์ความคล้ายคลึงกันเท่านั้น

มีหลายวิธีในการสร้างเดนโดรแกรม ใน dendrogram วัตถุจะอยู่ในแนวตั้งทางด้านซ้าย ผลลัพธ์การจัดกลุ่มจะอยู่ทางด้านขวา ค่าระยะทางหรือความคล้ายคลึงกันที่สอดคล้องกับโครงสร้างของคลัสเตอร์ใหม่จะแสดงเป็นเส้นตรงแนวนอนเหนือเดนโดรแกรม

รูปที่ 1

รูปที่ 1 แสดงตัวอย่างหนึ่งของ dendrogram รูปที่ 1 สอดคล้องกับกรณีของหกวัตถุ ( =6) และ เคลักษณะ (สัญญาณ) วัตถุ และ กับอยู่ใกล้ที่สุดและรวมกันเป็นคลัสเตอร์เดียวที่ระดับความใกล้เคียงเท่ากับ 0.9 วัตถุและ อีรวมกันที่ระดับ 0.8 ตอนนี้เรามี 4 กลุ่ม:

(ก, ค), (), ( , อี), ( ) .

เกิดคลัสเตอร์เพิ่มเติม (เอ, ซี, ) และ ( อี, , ) ซึ่งสอดคล้องกับระดับความใกล้เคียงเท่ากับ 0.7 และ 0.6 สุดท้าย วัตถุทั้งหมดจะถูกจัดกลุ่มเป็นกลุ่มเดียวที่ระดับ 0.5

ประเภทของ dendogram ขึ้นอยู่กับตัวเลือกการวัดความเหมือนหรือระยะห่างระหว่างวัตถุกับคลัสเตอร์ และวิธีการจัดกลุ่ม จุดที่สำคัญที่สุดคือการเลือกการวัดความคล้ายคลึงกันหรือการวัดระยะทางระหว่างวัตถุกับคลัสเตอร์

อัลกอริทึมการวิเคราะห์คลัสเตอร์มีจำนวนมากเกินไป ทั้งหมดสามารถแบ่งออกเป็นลำดับชั้นและไม่เป็นลำดับชั้น

อัลกอริทึมแบบลำดับชั้นเกี่ยวข้องกับการสร้าง dendograms และแบ่งออกเป็น:

ก) การรวมตัวกันที่มีลักษณะขององค์ประกอบเริ่มต้นที่สอดคล้องกันและการลดลงของจำนวนกลุ่มที่สอดคล้องกัน

b) หารได้ (หารได้) ซึ่งจำนวนของกลุ่มเพิ่มขึ้นโดยเริ่มจากกลุ่มหนึ่งซึ่งเป็นผลมาจากการที่กลุ่มแยกเกิดขึ้น

อัลกอริทึมการวิเคราะห์คลัสเตอร์ในปัจจุบันมีการใช้งานซอฟต์แวร์ที่ดีซึ่งช่วยให้สามารถแก้ปัญหาในมิติสูงสุดได้

6. ข้อมูล

การวิเคราะห์คลัสเตอร์สามารถนำไปใช้กับข้อมูลช่วงเวลา ความถี่ ข้อมูลไบนารี สิ่งสำคัญคือต้องเปลี่ยนตัวแปรในระดับเทียบเคียง

ความแตกต่างของหน่วยการวัดและความเป็นไปไม่ได้ที่ตามมาของการแสดงออกที่สมเหตุสมผลของค่าของตัวบ่งชี้ต่าง ๆ ในระดับเดียวกันนำไปสู่ความจริงที่ว่าระยะห่างระหว่างจุดที่สะท้อนถึงตำแหน่งของวัตถุในพื้นที่ของคุณสมบัติของพวกเขา ขึ้นอยู่กับขนาดที่เลือกโดยพลการ เพื่อกำจัดความแตกต่างของการวัดข้อมูลเริ่มต้น ค่าทั้งหมดจะถูกทำให้เป็นมาตรฐานเบื้องต้น เช่น จะแสดงผ่านอัตราส่วนของค่าเหล่านี้ต่อค่าหนึ่งซึ่งสะท้อนถึงคุณสมบัติบางอย่างของตัวบ่งชี้นี้ การทำให้เป็นมาตรฐานของข้อมูลเริ่มต้นสำหรับการวิเคราะห์กลุ่มบางครั้งดำเนินการโดยการหารค่าเริ่มต้นด้วยส่วนเบี่ยงเบนมาตรฐานของตัวบ่งชี้ที่สอดคล้องกัน อีกวิธีหนึ่งคือการคำนวณสิ่งที่เรียกว่าผลงานมาตรฐาน เรียกอีกอย่างว่า Z-ผลงาน

Z - ส่วนร่วมแสดงจำนวนค่าเบี่ยงเบนมาตรฐานที่การสังเกตที่กำหนดแยกออกจากค่าเฉลี่ย:

ที่ไหน x ฉันเป็นค่าของการสังเกตนี้- เฉลี่ย, - ส่วนเบี่ยงเบนมาตรฐาน.

ค่าเฉลี่ยสำหรับ Z - ส่วนร่วมเป็นศูนย์และส่วนเบี่ยงเบนมาตรฐานคือ 1

การกำหนดมาตรฐานช่วยให้สามารถเปรียบเทียบการสังเกตจากการแจกแจงที่แตกต่างกัน ถ้าการแจกแจงของตัวแปรเป็นแบบปกติ (หรือใกล้เคียงปกติ) และทราบหรือประมาณค่าเฉลี่ยและความแปรปรวนจากตัวอย่างขนาดใหญ่ ดังนั้น Z ข้อมูลการสังเกตให้ข้อมูลที่เฉพาะเจาะจงมากขึ้นเกี่ยวกับตำแหน่งของมัน

โปรดทราบว่าวิธีการทำให้เป็นมาตรฐานหมายถึงการรับรู้คุณสมบัติทั้งหมดที่เทียบเท่าจากมุมมองของการอธิบายความคล้ายคลึงกันของวัตถุที่พิจารณา เป็นที่ทราบกันดีอยู่แล้วว่าในแง่ของเศรษฐกิจ การรับรู้ความเท่าเทียมกันของตัวบ่งชี้ต่างๆ ดูเหมือนจะไม่สมเหตุสมผลเสมอไป เป็นที่พึงปรารถนาพร้อมกับการทำให้เป็นมาตรฐานเพื่อให้ตัวบ่งชี้แต่ละตัวมีน้ำหนักที่สะท้อนถึงความสำคัญในการสร้างความเหมือนและความแตกต่างระหว่างวัตถุ

ในสถานการณ์เช่นนี้เราต้องใช้วิธีกำหนดน้ำหนักของตัวบ่งชี้แต่ละตัว - การสำรวจของผู้เชี่ยวชาญ ตัวอย่างเช่น เมื่อแก้ปัญหาการจำแนกประเทศตามระดับการพัฒนาเศรษฐกิจ เราใช้ผลการสำรวจผู้เชี่ยวชาญชั้นนำของมอสโก 40 คนเกี่ยวกับปัญหาของประเทศที่พัฒนาแล้วในระดับสิบจุด:

ตัวบ่งชี้ทั่วไปของการพัฒนาทางเศรษฐกิจและสังคม - 9 คะแนน

ตัวบ่งชี้การกระจายรายภาคของประชากรที่มีงานทำ - 7 คะแนน

ตัวบ่งชี้ความชุกของแรงงานรับจ้าง - 6 คะแนน;

ตัวบ่งชี้ที่แสดงถึงองค์ประกอบของมนุษย์ของกำลังการผลิต - 6 คะแนน

ตัวบ่งชี้การพัฒนากำลังผลิตวัสดุ - 8 คะแนน

ตัวบ่งชี้การใช้จ่ายสาธารณะ - 4 คะแนน

ตัวชี้วัด "เศรษฐกิจการทหาร" - 3 คะแนน;

ตัวบ่งชี้ทางสังคมและประชากร - 4 คะแนน

ประมาณการของผู้เชี่ยวชาญค่อนข้างคงที่

การประเมินโดยผู้เชี่ยวชาญเป็นพื้นฐานที่รู้จักกันดีในการกำหนดความสำคัญของตัวบ่งชี้ที่รวมอยู่ในกลุ่มตัวบ่งชี้เฉพาะ การคูณค่ามาตรฐานของตัวบ่งชี้ด้วยค่าสัมประสิทธิ์ที่สอดคล้องกับคะแนนการประเมินเฉลี่ยทำให้สามารถคำนวณระยะทางระหว่างจุดที่สะท้อนตำแหน่งของประเทศในพื้นที่หลายมิติโดยคำนึงถึงน้ำหนักที่ไม่เท่ากันของคุณสมบัติ

บ่อยครั้งในการแก้ปัญหาดังกล่าวไม่ใช้การคำนวณเพียงครั้งเดียว แต่ใช้การคำนวณสองครั้ง: ครั้งแรกซึ่งสัญญาณทั้งหมดถือว่าเท่ากันประการที่สองซึ่งจะได้รับน้ำหนักที่แตกต่างกันตามค่าเฉลี่ยของการประมาณการของผู้เชี่ยวชาญ

7. การประยุกต์ใช้การวิเคราะห์กลุ่ม

ลองพิจารณาการประยุกต์ใช้การวิเคราะห์คลัสเตอร์

1. การแบ่งประเทศออกเป็นกลุ่มตามระดับการพัฒนา

มีการศึกษา 65 ประเทศตามตัวชี้วัด 31 ตัว (รายได้ประชาชาติต่อหัว, ส่วนแบ่งของประชากรที่ทำงานในอุตสาหกรรมเป็น %, เงินออมต่อหัว, ส่วนแบ่งของประชากรที่ทำงานในภาคเกษตรเป็น %, อายุขัยเฉลี่ย, จำนวนรถยนต์ต่อ 1 ประชากรหนึ่งพันคน, จำนวนกองกำลังติดอาวุธต่อประชากร 1 ล้านคน, ส่วนแบ่งของ GDP ในอุตสาหกรรมเป็น%, ส่วนแบ่งของ GDP ในภาคการเกษตรเป็น% เป็นต้น)

แต่ละประเทศทำหน้าที่ในการพิจารณานี้เป็นวัตถุที่โดดเด่นด้วยค่าบางอย่างของ 31 ตัวบ่งชี้ ดังนั้นจึงสามารถแสดงเป็นจุดในพื้นที่ 31 มิติ พื้นที่ดังกล่าวมักจะเรียกว่าพื้นที่คุณสมบัติของวัตถุภายใต้การศึกษา การเปรียบเทียบระยะห่างระหว่างจุดเหล่านี้จะสะท้อนถึงระดับความใกล้ชิดของประเทศต่างๆ ที่อยู่ระหว่างการพิจารณา ความคล้ายคลึงกันของแต่ละประเทศ ความหมายทางเศรษฐกิจและสังคมของความเข้าใจในความคล้ายคลึงกันนี้หมายความว่า ประเทศต่างๆ จะถูกพิจารณาว่ายิ่งมีความคล้ายคลึงกันมากเท่าใด ความแตกต่างระหว่างตัวบ่งชี้เดียวกันก็จะยิ่งน้อยลงเท่านั้น

ขั้นตอนแรกของการวิเคราะห์ดังกล่าวคือการระบุคู่ของเศรษฐกิจของประเทศที่รวมอยู่ในเมทริกซ์ความคล้ายคลึง ซึ่งระยะห่างระหว่างกันนั้นน้อยที่สุด สิ่งเหล่านี้จะเป็นประเทศที่มีเศรษฐกิจใกล้เคียงกันมากที่สุด ในการพิจารณาต่อไปนี้ทั้งสองประเทศถือเป็นกลุ่มเดียวคลัสเตอร์เดียว ดังนั้นเมทริกซ์ดั้งเดิมจึงถูกแปลงเพื่อให้องค์ประกอบมีระยะห่างระหว่างคู่ที่เป็นไปได้ทั้งหมดไม่ใช่ 65 แต่เป็น 64 วัตถุ - 63 เศรษฐกิจและกลุ่มที่เปลี่ยนแปลงใหม่ - สหภาพที่มีเงื่อนไขของสองประเทศที่คล้ายกันมากที่สุด แถวและคอลัมน์ที่สอดคล้องกับระยะทางจากคู่ของประเทศที่รวมอยู่ในสหภาพไปยังประเทศอื่นๆ ทั้งหมดจะถูกละทิ้งจากเมทริกซ์ความเหมือนดั้งเดิม แต่เพิ่มแถวและคอลัมน์ที่มีระยะห่างระหว่างคลัสเตอร์ที่ได้รับจากสหภาพและประเทศอื่นๆ

ระยะทางระหว่างคลัสเตอร์ที่ได้รับใหม่และประเทศต่างๆ จะเท่ากับค่าเฉลี่ยของระยะทางระหว่างคลัสเตอร์หลังและสองประเทศที่ประกอบกันเป็นคลัสเตอร์ใหม่ กล่าวอีกนัยหนึ่ง กลุ่มประเทศที่รวมกันได้รับการพิจารณาโดยรวมโดยมีลักษณะโดยประมาณเท่ากับค่าเฉลี่ยของลักษณะเฉพาะของประเทศที่เป็นส่วนประกอบ

ขั้นตอนที่สองของการวิเคราะห์คือพิจารณาเมทริกซ์ที่แปลงด้วยวิธีนี้โดยมี 64 แถวและคอลัมน์ อีกครั้ง มีการระบุคู่ของเศรษฐกิจ ระยะห่างระหว่างซึ่งมีความสำคัญน้อยที่สุด และนำมารวมกัน เช่นเดียวกับในกรณีแรก ในกรณีนี้ ระยะทางที่น้อยที่สุดอาจเป็นได้ทั้งระหว่างคู่ประเทศ และระหว่างประเทศใดๆ กับสหภาพของประเทศที่ได้รับในขั้นตอนก่อนหน้า

ขั้นตอนเพิ่มเติมคล้ายกับที่อธิบายไว้ข้างต้น: ในแต่ละขั้นตอนเมทริกซ์จะถูกแปลงเพื่อให้สองคอลัมน์และสองแถวที่มีระยะทางไปยังวัตถุ (คู่ของประเทศหรือสมาคม - กลุ่ม) ที่นำมารวมกันในขั้นตอนก่อนหน้าจะถูกแยกออกจากขั้นตอนนี้ ; แถวและคอลัมน์ที่แยกออกจะถูกแทนที่ด้วยคอลัมน์ที่มีแถวที่มีระยะห่างจากการรวมใหม่ไปยังส่วนที่เหลือของวัตถุ ยิ่งกว่านั้น ในเมทริกซ์ที่แก้ไขแล้ว วัตถุคู่หนึ่งที่อยู่ใกล้ที่สุดจะถูกเปิดเผย การวิเคราะห์จะดำเนินต่อไปจนกว่าเมทริกซ์จะสมบูรณ์ (เช่น จนกว่าทุกประเทศจะมารวมกัน) ผลลัพธ์ทั่วไปของการวิเคราะห์เมทริกซ์สามารถแสดงในรูปแบบของแผนผังความคล้ายคลึง (dendogram) ซึ่งคล้ายกับที่อธิบายไว้ข้างต้น โดยมีข้อแตกต่างเพียงอย่างเดียวที่แผนผังความคล้ายคลึงซึ่งสะท้อนความใกล้ชิดสัมพัทธ์ของทั้ง 65 ประเทศที่เรากำลังพิจารณาคือ ซับซ้อนกว่าโครงการที่มีเศรษฐกิจระดับชาติเพียงห้าแห่งเท่านั้น ต้นไม้นี้ตามจำนวนของวัตถุที่ตรงกัน รวม 65 ระดับ ระดับแรก (ล่าง) ประกอบด้วยคะแนนที่สอดคล้องกับแต่ละประเทศแยกกัน การเชื่อมต่อของทั้งสองจุดนี้ในระดับที่สองแสดงให้เห็นคู่ของประเทศที่ใกล้เคียงที่สุดในแง่ของประเภททั่วไปของเศรษฐกิจของประเทศ ในระดับที่สาม จะมีการบันทึกอัตราส่วนของประเทศคู่ที่คล้ายกันมากที่สุดลำดับถัดไป (ตามที่กล่าวไว้แล้ว คู่ใหม่ของประเทศหรือประเทศใหม่และคู่ของประเทศที่คล้ายกันที่ระบุไว้แล้วสามารถอยู่ในอัตราส่วนนี้ได้) จนถึงระดับสุดท้ายซึ่งประเทศที่ศึกษาทั้งหมดทำหน้าที่เป็นชุดเดียว

ผลจากการใช้การวิเคราะห์กลุ่ม ทำให้ได้กลุ่มประเทศ 5 กลุ่มต่อไปนี้:

กลุ่มแอฟโฟร-เอเชี่ยน

กลุ่มละติน-เอเชีย

กลุ่มละติน-เมดิเตอร์เรเนียน;

กลุ่มประเทศทุนนิยมที่พัฒนาแล้ว (ไม่มีสหรัฐฯ)

เรา

การแนะนำตัวบ่งชี้ใหม่นอกเหนือจาก 31 ตัวบ่งชี้ที่ใช้ที่นี่หรือแทนที่ด้วยตัวบ่งชี้อื่น ๆ มักจะนำไปสู่การเปลี่ยนแปลงในผลลัพธ์ของการจำแนกประเภทประเทศ

2. การแบ่งประเทศตามเกณฑ์ความใกล้ชิดของวัฒนธรรม

ดังที่คุณทราบ การตลาดควรคำนึงถึงวัฒนธรรมของประเทศต่างๆ (ขนบธรรมเนียม ประเพณี ฯลฯ)

กลุ่มประเทศต่อไปนี้ได้มาจากการจัดกลุ่ม:

· ภาษาอาหรับ;

ตะวันออกกลาง

· สแกนดิเนเวีย;

พูดภาษาเยอรมัน

· การพูดภาษาอังกฤษ;

โรมาเนสก์ยุโรป;

· ละตินอเมริกา;

ตะวันออกอันไกลโพ้น.

3. การพัฒนาการคาดการณ์ตลาดสังกะสี

การวิเคราะห์คลัสเตอร์มีบทบาทสำคัญในขั้นตอนของการลดลงของแบบจำลองทางเศรษฐศาสตร์และคณิตศาสตร์ของการเชื่อมโยงสินค้าโภคภัณฑ์ ซึ่งมีส่วนช่วยในการอำนวยความสะดวกและการลดความซับซ้อนของขั้นตอนการคำนวณ ทำให้มั่นใจได้ว่าผลลัพธ์ที่ได้รับมีความกระชับมากขึ้นในขณะที่ยังคงรักษาความถูกต้องที่จำเป็นไว้ การใช้การวิเคราะห์คลัสเตอร์ทำให้สามารถแบ่งตัวบ่งชี้ตลาดชุดเริ่มต้นทั้งหมดออกเป็นกลุ่ม (คลัสเตอร์) ตามเกณฑ์ที่เกี่ยวข้อง ซึ่งช่วยอำนวยความสะดวกในการเลือกตัวบ่งชี้ที่เป็นตัวแทนมากที่สุด

การวิเคราะห์คลัสเตอร์ใช้กันอย่างแพร่หลายในการสร้างแบบจำลองสภาวะตลาด ในทางปฏิบัติ งานการคาดการณ์ส่วนใหญ่ขึ้นอยู่กับการใช้การวิเคราะห์คลัสเตอร์

ตัวอย่างเช่นงานในการพัฒนาการคาดการณ์ของตลาดสังกะสี

ในขั้นต้น 30 ตัวชี้วัดที่สำคัญของตลาดสังกะสีทั่วโลกได้รับการคัดเลือก:

X 1 - เวลา

ตัวเลขการผลิต:

X 2 - ในโลก

X 4 - ยุโรป

X 5 - แคนาดา

X 6 - ญี่ปุ่น

X 7 - ออสเตรเลีย

ตัวบ่งชี้การบริโภค:

X 8 - ในโลก

X 10 - ยุโรป

X 11 - แคนาดา

X 12 - ญี่ปุ่น

X 13 - ออสเตรเลีย

หุ้นผู้ผลิตสังกะสี:

X 14 - ในโลก

X 16 - ยุโรป

X 17 - ประเทศอื่น ๆ

หุ้นผู้บริโภคของสังกะสี:

X 18 - ในสหรัฐอเมริกา

X 19 - ในอังกฤษ

X 10 - ในญี่ปุ่น

การนำเข้าแร่สังกะสีและความเข้มข้น (พันตัน)

X 21 - ในสหรัฐอเมริกา

X 22 - ในญี่ปุ่น

X 23 - ในประเทศเยอรมนี

การส่งออกแร่สังกะสีและความเข้มข้น (พันตัน)

X 24 - จากแคนาดา

X 25 - จากออสเตรเลีย

การนำเข้าสังกะสี (พันตัน)

X 26 - ในสหรัฐอเมริกา

X 27 - ไปอังกฤษ

X 28 - ในประเทศเยอรมนี

การส่งออกสังกะสี (พันตัน)

X 29 - จากแคนาดา

X 30 - จากออสเตรเลีย

ในการระบุการขึ้นต่อกันที่เฉพาะเจาะจง ใช้เครื่องมือของการวิเคราะห์สหสัมพันธ์และการวิเคราะห์การถดถอย วิเคราะห์ความสัมพันธ์โดยใช้เมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่ ที่นี่ยอมรับสมมติฐานของการแจกแจงแบบปกติของตัวบ่งชี้ที่วิเคราะห์ของ conjuncture เป็นที่ชัดเจนว่า r ij ไม่ใช่ตัวบ่งชี้ที่เป็นไปได้เพียงอย่างเดียวของความสัมพันธ์ระหว่างตัวบ่งชี้ที่ใช้ ความจำเป็นในการใช้การวิเคราะห์กลุ่มในปัญหานี้เกิดจากการที่ตัวบ่งชี้ที่มีผลต่อราคาสังกะสีมีจำนวนมาก มีความจำเป็นต้องลดด้วยเหตุผลหลายประการดังต่อไปนี้:

ก) ขาดข้อมูลทางสถิติที่สมบูรณ์สำหรับตัวแปรทั้งหมด

b) ความซับซ้อนอย่างมากของขั้นตอนการคำนวณเมื่อมีการแนะนำตัวแปรจำนวนมากในแบบจำลอง

c) การใช้วิธีการวิเคราะห์การถดถอยที่เหมาะสมที่สุดนั้นต้องการจำนวนค่าที่สังเกตได้มากกว่าจำนวนตัวแปรอย่างน้อย 6-8 เท่า

d) ความปรารถนาที่จะใช้ตัวแปรอิสระทางสถิติในแบบจำลอง เป็นต้น

เป็นเรื่องยากมากที่จะทำการวิเคราะห์ดังกล่าวโดยตรงบนเมทริกซ์สัมประสิทธิ์สหสัมพันธ์ที่มีขนาดค่อนข้างใหญ่ ด้วยความช่วยเหลือของการวิเคราะห์คลัสเตอร์ ตัวแปรตลาดทั้งชุดสามารถแบ่งออกเป็นกลุ่มต่างๆ ในลักษณะที่องค์ประกอบของแต่ละคลัสเตอร์มีความสัมพันธ์กันอย่างมาก และตัวแทนของกลุ่มต่างๆ มีลักษณะที่มีความสัมพันธ์ที่อ่อนแอ

เพื่อแก้ปัญหานี้ มีการใช้อัลกอริธึมการวิเคราะห์คลัสเตอร์แบบลำดับชั้นแบบรวมหมู่อย่างใดอย่างหนึ่ง ในแต่ละขั้นตอน จำนวนของคลัสเตอร์จะลดลงหนึ่งอันเนื่องจากการรวมกันที่เหมาะสมที่สุดของสองกลุ่ม เกณฑ์สำหรับการเข้าร่วมคือการเปลี่ยนฟังก์ชันที่เกี่ยวข้อง ด้วยเหตุนี้จึงใช้ค่าของผลรวมของการเบี่ยงเบนกำลังสองที่คำนวณโดยสูตรต่อไปนี้:

(เจ = 1, 2, …,เมตร ),

ที่ไหน เจ- หมายเลขคลัสเตอร์ - จำนวนองค์ประกอบในคลัสเตอร์

ริจ- ค่าสัมประสิทธิ์ของความสัมพันธ์คู่

ดังนั้น กระบวนการจัดกลุ่มจะต้องสอดคล้องกับการเพิ่มขั้นต่ำตามลำดับในค่าของเกณฑ์ อี.

ในขั้นแรก อาร์เรย์ข้อมูลเริ่มต้นจะแสดงเป็นชุดที่ประกอบด้วยคลัสเตอร์ ซึ่งแต่ละองค์ประกอบมีหนึ่งองค์ประกอบ กระบวนการจัดกลุ่มเริ่มต้นด้วยการรวมตัวกันของกลุ่มคู่ดังกล่าว ซึ่งนำไปสู่การเพิ่มขึ้นขั้นต่ำในผลรวมของการเบี่ยงเบนกำลังสอง สิ่งนี้ต้องการการประมาณค่าของผลรวมของการเบี่ยงเบนกำลังสองสำหรับแต่ละค่าที่เป็นไปได้ การเชื่อมโยงคลัสเตอร์ ในขั้นตอนต่อไปค่าของผลรวมของการเบี่ยงเบนกำลังสองจะพิจารณาแล้ว กระจุก ฯลฯ กระบวนการนี้จะหยุดลงในบางขั้นตอน ในการทำเช่นนี้ คุณต้องตรวจสอบค่าของผลรวมของการเบี่ยงเบนกำลังสอง เมื่อพิจารณาถึงลำดับของค่าที่เพิ่มขึ้น เราสามารถจับการกระโดด (หนึ่งหรือมากกว่า) ในไดนามิกของมัน ซึ่งสามารถตีความได้ว่าเป็นลักษณะของจำนวนกลุ่ม "ที่เป็นกลาง" ที่มีอยู่ในประชากรที่ศึกษา ในตัวอย่างข้างต้น การกระโดดเกิดขึ้นเมื่อจำนวนกลุ่มคือ 7 และ 5 นอกจากนี้ จำนวนกลุ่มไม่ควรลดลง เนื่องจาก สิ่งนี้นำไปสู่การลดลงของคุณภาพของแบบจำลอง หลังจากได้รับคลัสเตอร์แล้ว ตัวแปรที่สำคัญที่สุดในแง่เศรษฐกิจและสัมพันธ์กันมากที่สุดกับเกณฑ์ของตลาดที่เลือก - ในกรณีนี้คือราคา London Metal Exchange สำหรับสังกะสี - จะถูกเลือก วิธีนี้ช่วยให้คุณสามารถบันทึกข้อมูลส่วนสำคัญที่มีอยู่ในชุดตัวบ่งชี้เริ่มต้นของการรวม

ตัวเลือกของบรรณาธิการ
ปริศนาชนิดหนึ่งที่ทุกคนคุ้นเคยมาตั้งแต่เด็กคือปริศนา แต่ทุกคนไม่สามารถตอบคำถามได้อย่างมั่นใจว่าจะ...

คำตอบเกี่ยวกับระบบนิเวศ: "นิเวศวิทยากลายเป็นคำที่ดังที่สุดในโลก ดังกว่าสงครามและองค์ประกอบต่างๆ" (V. Rasputin) ปริศนา "ค้นหา ...

ปริศนาสำหรับเด็ก - ปริศนาที่เข้ารหัสคำด้วยความช่วยเหลือของรูปภาพ การผสมตัวอักษรและสัญลักษณ์ เป็นที่นิยมมากกว่าหนึ่งสิ่ง ...

1. ไขปริศนา “ถอดรหัสวลี” ข้ามการหารจำนวนเท่ากันตามเข็มนาฬิกา อ่านวลีที่เข้ารหัส ....
สถาบันการศึกษาเทศบาล "โรงเรียนมัธยมหมายเลข 18 ของเขต Traktorozavodsky ของ Volgograd" VII International ...
, การแข่งขัน "การนำเสนอบทเรียน" การนำเสนอบทเรียน ย้อนกลับ เรียน! ใช้การแสดงตัวอย่างสไลด์...
เฟรมงานแต่งงานสำหรับ photoshop บนเว็บไซต์ของเรานั้นยอดเยี่ยมมาก ที่นี่เท่านั้นที่คุณจะเห็นกรอบรูปแต่งงานที่สวยงามเหลือเชื่อ พวกเขา...
คุณต้องการให้วันหยุดเป็นที่จดจำเป็นเวลานานหรือไม่? เตรียมสถานการณ์สำหรับงานปาร์ตี้ที่ฮาวายและเปลี่ยนเหตุการณ์ที่น่าเบื่อให้กลายเป็นงานที่น่าหลงใหล...
(5) การเตรียมการสำหรับงานเลี้ยงปีใหม่ รอบบ่าย และงานเลี้ยงของบริษัทเป็นกระบวนการที่ต้องใช้ความพยายามอย่างมาก ก่อนวันหยุด...
เป็นที่นิยม