Результаты (
русский) 2:
[копия]Скопировано!
Простейшая модель: абстрактные языки разделяющих фонологию
Начнем с упрощенного случая (мы осложнит его позже). Мы сравним два несвязанных языки А и В, каждый из которых имеет 1000 лексем вида CVC, и идентичную семантику и фонологии. То есть, если есть лексема а в А с некоторым значением М, будет лексема п.о. B фонетически идентично, и лексемы бс с тем же значением, а.
Какова вероятность того, что ВР бс? - - то есть, что есть шанс сходство с? Он может быть считана из фонологии типичного корня. Предположив есть 14 согласных и 5 гласных, это 1/14 * 1/5 * 1/14, или 1 в 980. (Это предполагает , что гласные и согласные равновероятны, что, конечно , они не являются.) Для удобства расчет мы округлить это 1 в 1000.
семантических и фонетических Leeway
протянутую сходств редко бывают точными. Существует всегда некоторая фонетическая и семантическая свобода действий. Либо можно рассматривать как увеличение набора слов в B мы будем рассматривать в качестве соответствия к данному слову а в А.
Например, предположим , что для каждого согласного мы будем принимать матч с 3 -х связанных согласных звуков, а также для каждой гласной, 3 связанных гласные. Так как мы предполагаем корневую структуру CVC, это дает 3 * 3 * 3 = 27 слов в B , которые могли бы соответствовать любому дано.
И пусть для каждого слова а мы будем принимать 10 возможных значений для б. Это относится и к каждой из 27 фонетических совпадений; так что теперь может соответствовать пул 27 * 10 = 270 лексем. Вероятность того, что она делает это, конечно , 270 в 1000 году , или .27. Каждый лексема в А, другими словами, имеет более чем 1 в 4 шанс иметь случайный матч в B!
Сколько шансов сходств там сейчас? Та же формула может быть использована, с пересмотренной оценкой для р:
. (!! 1000 / (г (1000 г))) .27r .73 (1000 г)
Существует значительная вероятность того, для очень большого числа матчей , поэтому мы должны продолжать вычисления для г хорошо в сотни. Результаты могут быть суммированы следующим образом :
р (до 210) - ничтожна
р (211 до 220) = .0002
р (221 230) = .0020
р (231 до 240) = .0148
р (241 250) = 0,0647
р (251 260) = 0,1686
р (261 270) = 0,2661
р (271 280) = 0,2571
р (281 290) = 0,1536
р (291 300) = 0,0573
р (301 до 310) = 0,0134
р (311 320) = 0,0020
р (более 320) - ничтожна
Это выглядит очень похоже на нормальное распределение, а на самом деле это одно, если нп и п (1-р) как по 5. (Для типичных размеров лексикона, распределение будет нормальным , если р> .01.) НАСТОЯЩЕЕ "ожидаемый случай" - количество матчей с наивысшим probability-- будет нп; . В приведенном выше случае, 270, с вероятностью .0284
я предложить уточнений к этой модели ниже, но основные черты на месте: вероятность для одной игре; расчет для ряда ожидаемых матчей; и корректив для фонетического и семантического свободу действий.
переводится, пожалуйста, подождите..