Vocabulary size and other variablesWhat happens as various parameters  перевод - Vocabulary size and other variablesWhat happens as various parameters  русский как сказать

Vocabulary size and other variables

Vocabulary size and other variables
What happens as various parameters of the model are changed?
In the model above, vocabulary size is not independent of the sample phonology. If syllables are all CVC, with 5 vowels and 14 consonants, then there are only 980 phonologically possible words.
If we use a larger vocabulary size in the formula, we are conceptually re-using some of these possible words. This might not be a bad model for a language with many homonyms, or if we are simply ignoring some of the phonology of the language (e.g. tones, or final vowels).
We can also try different phonologies. For instance, here are a the numbers of expected matches for a few different word types, again allowing 3 matches per sound, and 10 semantic matches per word:
Form #C #V Lexicon
size Phon matches
/word Expected
matches
CV 14 5 70 9 90
CVC 14 5 980 27 270
CVCV 14 5 4900 81 810
The number of matches isn't increasing as fast as the vocabulary size. For instance, as we go from CVC to CVCV, we increase the lexicon fivefold (for each CVC syllable, there are 5 CVCV syllables, one with each vowel), while the number of matches only increases threefold (the extra vowel can be matched only 3 ways).
(For the first (CV) case, the expected number of matches is larger than the lexicon size! This is because, with the rules as stated, we're often going to find more than one match per word. We'll come back to this later.)
What about exact matches? Curiously, the number of exact matches averages about 1 for any phonology, and therefore for widely differing vocabulary sizes. The reason is not hard to find: as the lexicon size increases, the chance of a given match goes down, but we get more chances.
(The average of 1 exact match needs to be qualified, because of homonymy: a word can have several meanings, and thus match several possible words. In effect, languages come with a built-in semantic leeway; a handful of exact matches is therefore no surprise.)
What about different phoneme inventories? What if we have 20 consonants and 10 vowels? There are now 4000 possible CVC syllables; yet without varying any other parameters, we would still expect only 270 matches.
But the number of phonetic matches is not really independent of the phonology we use. In a five-vowel system, a phonetic leeway of 3 per sound matches means (e.g.) accepting pat and pit as matches for pet. In a ten-vowel system, might we not also accept pEt (open e) and pöt (rounded e) as well?
Contrariwise, suppose there are only 3 vowels, as in Quechua or Classical Arabic. A 3-vowel leeway means that all vowels match all vowels!
Here's some 20C/10V languages with a few different phonetic leeways (and the same semantic leeway of 10):
Form #C #V Lexicon
size Phonetic
leeway Expected
matches
CV 20 10 200 2 40
CV 20 10 200 3 90
CV 20 10 200 5 250
CVC 20 10 4000 2 80
CVC 20 10 4000 3 270
CVC 20 10 4000 5 1250
CVCV 20 10 40000 2 160
CVCV 20 10 40000 3 810
CVCV 20 10 40000 5 6250
The reader may well conclude that with the appropriate choice of parameters, any number of matches is possible! That would be more or less accurate; but note:
• The parameters are not simply selected according to taste; they must be taken from the particular comparison we are evaluating. For instance, if the comparer matches t with th and ch and d, the phonetic leeway is at least 4.
• If there's any phonetic and semantic leeway at all-- and I've never seen a relationship proposal with none-- then one can well expect dozens or even hundreds of matches, rather than the bare handful intuition might suggest.
Better phonological models
We'd like to remove the unrealistic assumptions in this model, starting with the absurdly simplified phonologies. Fortunately this is not hard to do; it amounts to finding a better p.
The model above assumes that both languages have the same phonology, which obviously isn't usually the case. If you're evaluating a proposed set of resemblances, it's usually fairly evident what the compiler counted as a match. For instance, the Quechua/Semitic comparison discussed below normally just (loosely) matches initial and medial consonants. To estimate p, then, we multiply the probability of a match on initial consonants with that of a match on medial consonants.
To do this, we need to know how many possible consonants there are, and how many of them are considered a match. The latter of course must be taken from the proposed resemblances; if there's enough of them the number of consonants can be too, otherwise we need to find out the language's phonology.
Phonemes don't actually appear with equal frequencies, and this can be important. For instance, Quechua has just three vowels, a/i/u (though allophonic o/e are found in some dictionaries). The chance that the main vowel of a root is an a, however, is not 33.3% but 56%. A match with medial a is therefore correspondingly less surprising. In a sidebar, I've estimated the chances of random matches b
0/5000
Источник: -
Цель: -
Результаты (русский) 1: [копия]
Скопировано!
Vocabulary size and other variablesWhat happens as various parameters of the model are changed?In the model above, vocabulary size is not independent of the sample phonology. If syllables are all CVC, with 5 vowels and 14 consonants, then there are only 980 phonologically possible words.If we use a larger vocabulary size in the formula, we are conceptually re-using some of these possible words. This might not be a bad model for a language with many homonyms, or if we are simply ignoring some of the phonology of the language (e.g. tones, or final vowels).We can also try different phonologies. For instance, here are a the numbers of expected matches for a few different word types, again allowing 3 matches per sound, and 10 semantic matches per word:Form #C #V Lexicon size Phon matches/word Expected matchesCV 14 5 70 9 90CVC 14 5 980 27 270CVCV 14 5 4900 81 810The number of matches isn't increasing as fast as the vocabulary size. For instance, as we go from CVC to CVCV, we increase the lexicon fivefold (for each CVC syllable, there are 5 CVCV syllables, one with each vowel), while the number of matches only increases threefold (the extra vowel can be matched only 3 ways).(For the first (CV) case, the expected number of matches is larger than the lexicon size! This is because, with the rules as stated, we're often going to find more than one match per word. We'll come back to this later.)What about exact matches? Curiously, the number of exact matches averages about 1 for any phonology, and therefore for widely differing vocabulary sizes. The reason is not hard to find: as the lexicon size increases, the chance of a given match goes down, but we get more chances.(The average of 1 exact match needs to be qualified, because of homonymy: a word can have several meanings, and thus match several possible words. In effect, languages come with a built-in semantic leeway; a handful of exact matches is therefore no surprise.)What about different phoneme inventories? What if we have 20 consonants and 10 vowels? There are now 4000 possible CVC syllables; yet without varying any other parameters, we would still expect only 270 matches.But the number of phonetic matches is not really independent of the phonology we use. In a five-vowel system, a phonetic leeway of 3 per sound matches means (e.g.) accepting pat and pit as matches for pet. In a ten-vowel system, might we not also accept pEt (open e) and pöt (rounded e) as well?Contrariwise, suppose there are only 3 vowels, as in Quechua or Classical Arabic. A 3-vowel leeway means that all vowels match all vowels!Here's some 20C/10V languages with a few different phonetic leeways (and the same semantic leeway of 10):Form #C #V Lexicon size Phonetic leeway Expected matchesCV 20 10 200 2 40CV 20 10 200 3 90CV 20 10 200 5 250CVC 20 10 4000 2 80CVC 20 10 4000 3 270CVC 20 10 4000 5 1250CVCV 20 10 40000 2 160CVCV 20 10 40000 3 810CVCV 20 10 40000 5 6250The reader may well conclude that with the appropriate choice of parameters, any number of matches is possible! That would be more or less accurate; but note:• The parameters are not simply selected according to taste; they must be taken from the particular comparison we are evaluating. For instance, if the comparer matches t with th and ch and d, the phonetic leeway is at least 4.• If there's any phonetic and semantic leeway at all-- and I've never seen a relationship proposal with none-- then one can well expect dozens or even hundreds of matches, rather than the bare handful intuition might suggest.Better phonological modelsWe'd like to remove the unrealistic assumptions in this model, starting with the absurdly simplified phonologies. Fortunately this is not hard to do; it amounts to finding a better p.The model above assumes that both languages have the same phonology, which obviously isn't usually the case. If you're evaluating a proposed set of resemblances, it's usually fairly evident what the compiler counted as a match. For instance, the Quechua/Semitic comparison discussed below normally just (loosely) matches initial and medial consonants. To estimate p, then, we multiply the probability of a match on initial consonants with that of a match on medial consonants.To do this, we need to know how many possible consonants there are, and how many of them are considered a match. The latter of course must be taken from the proposed resemblances; if there's enough of them the number of consonants can be too, otherwise we need to find out the language's phonology.Phonemes don't actually appear with equal frequencies, and this can be important. For instance, Quechua has just three vowels, a/i/u (though allophonic o/e are found in some dictionaries). The chance that the main vowel of a root is an a, however, is not 33.3% but 56%. A match with medial a is therefore correspondingly less surprising. In a sidebar, I've estimated the chances of random matches b
переводится, пожалуйста, подождите..
Результаты (русский) 2:[копия]
Скопировано!
Словарь размер и другие переменные
Что происходит , как различные параметры модели меняются?
В модели выше, размер словарный запас не зависит от образца фонологии. Если слоги все CVC, с 5 гласных и 14 согласных звуков, то есть только 980 фонологически возможных слов.
Если мы будем использовать больший размер словаря в формуле, мы концептуально повторно использовать некоторые из этих возможных слов. Это не может быть плохой моделью для языка со многими омонимы, или если мы просто игнорируют некоторые из фонологии языка (например , тоны, или конечные гласные).
Мы можем также попробовать различные phonologies. Например, вот число ожидаемых матчей для нескольких различных типов слов, снова позволяя 3 матча за звук, и 10 семантических матчей за слово:
форма #C #V Lexicon
размер Phon соответствует
/ слово Ожидаемое
соответствует
CV 14 5 70 9 90
CVC 14 5 980 27 270
CVCV 14 5 4900 81 810
число матчей не растет так быстро , как размер словаря. Например, как мы переходим от CVC к CVCV, мы увеличиваем лексиконе пятикратное (для каждого слога CVC, есть 5 CVCV слогов, одна с каждой гласной), в то время как количество матчей только увеличивается в три раза (дополнительный гласный можно сопоставить только 3 способа).
(для первого (CV) случае, ожидаемое число совпадений больше , чем размер лексикон! Это потому, что с правилами , как указано, мы часто собираемся найти более чем один матч за слово. мы будете вернуться к этому позже.) А
как насчет точных совпадений? Любопытно, что количество точных совпадений в среднем около 1 для любого фонологии, и поэтому для весьма различных размеров словаря. Причина в том , не трудно найти: по мере увеличения размера лексикона, вероятность данного матча идет вниз, но мы получаем больше шансов.
(В среднем на 1 точного соответствия должен быть квалифицированным, из - за омонимии: слово может иметь несколько значения, и , таким образом , соответствует несколько возможных слов Фактически, языки поставляются со встроенным семантического свободу действий;.. несколько точных совпадений нет , поэтому не удивительно)
Что насчет различных товарно -материальных запасов фонем? Что делать , если у нас есть 20 согласных и 10 гласных звуков? Есть в настоящее время 4000 возможных слогов CVC; но без изменения каких - либо других параметров, мы все равно можно ожидать лишь 270 матчей.
Но количество фонетических совпадений не является действительно независимым от фонологии мы используем. В системе с пятью гласным, фонетическое свободу действий от 3 ​​на звук соответствует форме (например) принятие Пат и яму как спички для домашних животных. В десятибалльной системе гласного, возможно , мы не принимаем также питомцами (открыт е) и горшка (округленный е), а? И
наоборот, предположим , что есть только три гласные, как в кечуа или классического арабского языка. 3-гласный свободу действий означает , что все гласные соответствуют все гласные!
Вот некоторые 20C / 10V языки с несколькими различными фонетических leeways (и та же семантическая свобода действий 10):
Форма #C #V Lexicon
размер фонетический
дрейф Ожидаемое
соответствует
CV 20 10 200 2 40
CV 20 10 200 3 90
CV 20 10 200 5 250
CVC 20 10 4000 2 80
CVC 20 10 4000 3 270
CVC 20 10 4000 5 1250
CVCV 20 10 40000 2 160
CVCV 20 10 40000 3 810
CVCV 20 10 40000 5 6250
читатель вполне может сделать вывод , что при соответствующем выборе параметров, любое количество совпадений возможно! Это было бы более или менее точным; но обратите внимание:
• Параметры не просто выбирают по вкусу; они должны быть взяты из конкретного сравнения мы оцениваем. Например, если компаратор совпадает с т е и ч и й, фонетическая свободу действий, по крайней мере 4.
• Если есть фонетическое и семантическое свободу действий на all-- , и я никогда не видел предложение о взаимоотношениях с none-- то один можно также ожидать десятки или даже сотни матчей, а не голое горстка интуиция может предложить.
лучше фонологические модели
Мы хотели бы, чтобы удалить нереалистичные предположения в этой модели, начиная с абсурдно упрощенных phonologies. К счастью , это не трудно сделать; она сводится к нахождению лучшего р.
Модель выше , предполагает , что оба языка имеют один и тот же фонологию, которая , очевидно, как правило , не бывает. Если вы оценке предлагаемый набор сходств, это , как правило , вполне очевидно , что компилятор подсчитывали как матч. Например, кечуа / семитский сравнение обсуждается ниже обычно только (свободно) соответствует начальным и медиальной согласные. Для оценки р, то мы умножаем вероятность матча на начальных согласных с тем, что в матче на медиальных согласные.
Для этого нам нужно знать , сколько возможных согласные есть, и сколько из них считаются матч. Последнее, конечно , должны быть взяты из предложенных сходств; если есть достаточное их количество согласных может быть слишком, в противном случае мы должны выяснить фонологию средства языка.
фонемы на самом деле не появляются с одинаковыми частотами, и это может быть важно. Например, кечуа имеет только три гласных, а / я / и (хотя аллофонической о / е можно найти в некоторых словарях). Вероятность того, что основной гласной корня является а, тем не менее, это не 33,3% , а 56%. Поэтому матч с медиальной а, соответственно , менее удивительно. В боковой панели, я оценил шансы случайных матчей Ь
переводится, пожалуйста, подождите..
Результаты (русский) 3:[копия]
Скопировано!
словарь размера и других переменныхто, что происходит в различных параметров модели меняются?в модели выше, словарь, размер которого не зависит от пробы, Russian.если все cvc слоги, гласные и согласные с 5 - 14, то есть только 980 phonologically точными словами.если мы используем больше словарный запас размером в формулу, мы концептуально, повторно использовать некоторые из этих возможных слова.это не может быть плохим примером для языка со многими однофамильцами, или, если мы просто будем игнорировать некоторые из фонология из языка (например, тона, или окончательного гласные).мы также можем попробовать разные phonologies.например, вот число ожидаемых матчей на несколько разных речи, снова позволяет 3 матчей на звук, и 10 семантической матчей на слово:формы # с # V лексиконразмер фон матчей/ слово, как ожидается,матчиCV - 14 5 70 9 90cvc 14 5 980 27 270cvcv 14 5 4 900 81 810количество матчей не растет так быстро, как словарь размера.например, как мы идем от cvc на cvcv, мы увеличим лексики в пять раз (для каждого cvc слог, есть 5 cvcv слогов, один с каждой гласные), а число матчей только увеличивает втрое (дополнительные гласные могут претендовать только 3 способа).(за первую (мво), ожидаемое количество матчей больше, чем лексикон размера!это потому, что с правилами, как говорится, мы часто собираемся найти более чем на один матч на слово.мы вернемся к этому позже.)что насчет точные совпадения?любопытно, что количество точных соответствий, составляет в среднем около 1 для любого фонология, и поэтому на самые разные словарь размеров.причина не сложно найти: как словарь увеличения размера, шанс того, матч идет вниз, но у нас больше шансов.(в среднем 1 точное совпадение, нуждается в уточнении, поскольку homonymy: слово может иметь несколько значений, и, таким образом, матч несколько возможных слова.по сути, языки, приходят со встроенным семантической свободу; несколько точных соответствий, поэтому не удивительно.)что насчет разных... запасы?что, если у нас 20 5 и 10 лет.сейчас 4000 возможных cvc слогов; однако без различные другие параметры, мы бы все еще ожидают только 270 матчей.но ряд фонетических матчей не являются независимыми от фонология мы используем.в пяти система гласных, фонетическом отсрочку на 3 чистых матчей средств (например) прием пэт и яма, как спички, пэт.в десяти система гласных, можно также принять животное (Open E) и р - T (округленно E), а?и наоборот, предположим, есть только 3 гласные, как на языке кечуа или классическом арабском.а 3-vowel свободу действий, означает, что все гласные все гласные!вот некоторые 20c / 10v языках с разными бывают leeways (и то же семантическое поле 10):формы # с # V лексиконразмер фонетическиесвободу действий, как ожидается,матчиCV - 20 10 200 2 40CV - 20 10 200 3 90CV - 20 10 200 5 250cvc 20 10 4 2 80cvc 20 10 4000 3 270cvc 20 10 4000 5 1250cvcv 20 10 000 2 160cvcv 20 10 000 3 810cvcv 20 10 000 5 6 250читатель вполне может сделать вывод, что с выбора соответствующих параметров, любое количество матчей - возможно!это было бы более или менее точным, но обратите внимание:• параметры не просто отдельные по вкусу; они должны быть приняты в частности сравнения мы даем оценку.например, если не можете матчи с - и - и D, фонетической свободу не менее 4.• если есть фонетического и семантические свободу действий на всех - и я никогда не видела связи предложение с нет - тогда можно также ожидать десятки или даже сотни матчей, а не только горстка интуиция может предложить.лучше of моделеймы бы хотели, чтобы удалить нереалистичные посылки в этой модели, начиная с чрезвычайно упрощенный phonologies.к счастью, это не сложно, это равнозначно найти лучше.модель предполагает, что оба языка выше, имеют такие же фонология, которая, очевидно, не так обычно и бывает.если вы оцениваете предлагаемый комплекс сходства, но, как правило, довольно очевидно, что компилятор засчитываются как спичку.например, кечуа / антисемитской сравнения говорится ниже, как правило, просто (условно) матчей первоначальный и медиальный согласных.для оценки P, тогда мы умножаем вероятность совпадения по первоначальным согласные с тем, что матч по средней согласных.для этого нам необходимо знать, сколько возможно, согласных существуют, и сколько из них считаются матч.они, конечно, должны быть взяты из предлагаемых сходства; если есть достаточно их число согласных может быть слишком, иначе нам нужно найти язык фонология.на самом деле, не появляются с равным фонемы частот, и это может быть важно.например, кечуа есть всего лишь три гласными, а / я / U (хотя allophonic o / E содержатся в ряде словарей).шансы на то, что основные гласные из корня является, однако, не 33,3%, но на 56%.матч с медиальный является, таким образом, соответственно, меньше удивляет.в боковой панели, я оценил шансы случайных совпадений b
переводится, пожалуйста, подождите..
 
Другие языки
Поддержка инструмент перевода: Клингонский (pIqaD), Определить язык, азербайджанский, албанский, амхарский, английский, арабский, армянский, африкаанс, баскский, белорусский, бенгальский, бирманский, болгарский, боснийский, валлийский, венгерский, вьетнамский, гавайский, галисийский, греческий, грузинский, гуджарати, датский, зулу, иврит, игбо, идиш, индонезийский, ирландский, исландский, испанский, итальянский, йоруба, казахский, каннада, каталанский, киргизский, китайский, китайский традиционный, корейский, корсиканский, креольский (Гаити), курманджи, кхмерский, кхоса, лаосский, латинский, латышский, литовский, люксембургский, македонский, малагасийский, малайский, малаялам, мальтийский, маори, маратхи, монгольский, немецкий, непальский, нидерландский, норвежский, ория, панджаби, персидский, польский, португальский, пушту, руанда, румынский, русский, самоанский, себуанский, сербский, сесото, сингальский, синдхи, словацкий, словенский, сомалийский, суахили, суданский, таджикский, тайский, тамильский, татарский, телугу, турецкий, туркменский, узбекский, уйгурский, украинский, урду, филиппинский, финский, французский, фризский, хауса, хинди, хмонг, хорватский, чева, чешский, шведский, шона, шотландский (гэльский), эсперанто, эстонский, яванский, японский, Язык перевода.

Copyright ©2024 I Love Translation. All reserved.

E-mail: