📊 टेक्स्ट विश्लेषण उपकरण
क्रिप्टanalyse और भाषा विज्ञान के लिए पेशेवर टेक्स्ट आँकड़े, आवृत्ति विश्लेषण, और पठनीयता स्कोरिंग
दोहराए गए अनुक्रम (3+ अक्षर)
टेक्स्ट आवृत्ति विश्लेषण क्रिप्टanalyse के लिए आवश्यक है, विशेष रूप से सीज़र सिफर, विगेनेयर सिफर, और अन्य शास्त्रीय एन्क्रिप्शन विधियों जैसे प्रतिस्थापन सिफर को तोड़ने के लिए। अक्षर आवृत्ति पैटर्न का विश्लेषण करके और ज्ञात भाषा आँकड़ों से उनकी तुलना करके, क्रिप्टanalyst संभावित प्लेनटेक्स्ट अक्षरों की पहचान कर सकते हैं और एन्क्रिप्टेड संदेशों को तोड़ सकते हैं। इसका उपयोग भाषा विज्ञान, प्राकृतिक भाषा प्रसंस्करण और सामग्री विश्लेषण में भी किया जाता है।
पठनीयता स्कोर यह मापते हैं कि पाठ को समझना कितना आसान है। फ़्लेश रीडिंग ईज़ स्कोर 0-100 तक होता है, जिसमें उच्च स्कोर आसान पाठ का संकेत देते हैं। फ़्लेश-किनकैड ग्रेड स्तर पाठ को समझने के लिए आवश्यक अमेरिकी स्कूल ग्रेड को इंगित करता है। ये स्कोर जटिलता निर्धारित करने के लिए वाक्य की लंबाई, शब्द की लंबाई और शब्दांश गणना जैसे कारकों का विश्लेषण करते हैं।
अंग्रेजी पाठ में, सबसेบ่อย ترین अक्षर हैं: E (12.7%), T (9.1%), A (8.2%), O (7.5%), I (7.0%), N (6.7%), S (6.3%), H (6.1%), R (6.0%)। सबसे कम आम हैं: Q, J, X, Z। यह आवृत्ति वितरण आवृत्ति विश्लेषण के माध्यम से प्रतिस्थापन सिफर को तोड़ने के लिए महत्वपूर्ण है।
सिफरटेक्स्ट में दोहराए गए पैटर्न अक्सर मूल प्लेनटेक्स्ट में दोहराए गए शब्दों या वाक्यांशों का संकेत देते हैं। उदाहरण के लिए, एक विगेनेयर सिफर में, यदि आप नियमित अंतराल पर एक ही अनुक्रम को कई बार पाते हैं, तो पुनरावृत्ति के बीच की दूरी कुंजी की लंबाई को प्रकट कर सकती है। पैटर्न विश्लेषण पॉलीअल्फाबेटिक और ट्रांसपोज़िशन सिफर के क्रिप्टanalyse के लिए मौलिक है।
हाँ, यह टेक्स्ट विश्लेषण उपकरण लैटिन वर्णमाला का उपयोग करने वाली किसी भी भाषा के साथ काम करता है। हालांकि, पठनीयता स्कोर अंग्रेजी पाठ के लिए कैलिब्रेट किए गए हैं। अन्य भाषाओं के सटीक क्रिप्टanalyse के लिए, आपको उस विशिष्ट भाषा (जैसे, फ्रेंच, स्पेनिश, जर्मन) के ज्ञात आवृत्ति वितरण के खिलाफ अक्षर आवृत्तियों की तुलना करनी चाहिए।
कैरेक्टर काउंट में सभी कैरेक्टर शामिल होते हैं: अक्षर, संख्या, विराम चिह्न, स्पेस और विशेष प्रतीक। लेटर काउंट में केवल वर्णमाला के अक्षर (A-Z, a-z) शामिल होते हैं। क्रिप्टanalyse के लिए, लेटर काउंट अधिक महत्वपूर्ण है क्योंकि अधिकांश शास्त्रीय सिफर केवल अक्षरों को एन्क्रिप्ट करते हैं, अन्य वर्णों को अपरिवर्तित छोड़ देते हैं।