Сучасна диджитал-освіта для дітей — безоплатне заняття в GoITeens ×
Mazda CX 30
×

DOU Статистика

Как то захотелось проверить недавно опубликованную тут статистику по форуму, потому как терзали сомнения насчет ее происхождения. Вообщем, под дверью нашел статистику по использованию языков в целом по годах существования форума, бонусом сумарно по каждому из 29085 активных юзеров, и некоторую другую мелкую инфу типа топ комментаторов, топ лайкнутых комментариев. К сожалению, ввиду бедных возможностей форматирования текста форумом, выглядит тут это все не совсем информативно, да и все равно имеющаяся отрендеренная статистика весит 16мб.

------------------------------------------
Active users count: 29085
Topics count: 12951
Comments count: 1022151
Likes count: 1155218
Tags count: 6130
------------------------------------------
List of languages by number of speakers:
24108 users speak [RUS] (76.7%)
5636 users speak [UKR] (17.9%)
527 users speak [BEL] (1.7%)
651 users speak [ENG] (2.1%)
213 users speak [FRA] (0.7%)
134 users speak [SPA] (0.4%)
110 users speak [DEU] (0.3%)
62 users speak [POL] (0.2%)

Language usage statistic from Jul 2008 to Jun 2018:
Jul 2008- Jul 2009
  topics: 336, length: 197118
   RUS 287/162170 (85.4%/82.3%)         ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 36/24006 (10.7%/12.2%)           ▄▄▄ 
   ENG 4/5687 (1.2%/2.9%)               ▄ 
   FRA 4/5071 (1.2%/2.6%)               ▄ 
   UND 4/163 (1.2%/0.1%)                ▄ 
   SPA 1/21 (0.3%/0.0%)                 ▄
  comments: 6377, length: 3020217
   RUS 5361/2617109 (84.1%/86.7%)       ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 693/306029 (10.9%/10.1%)         ▄▄▄ 
   UND 114/18343 (1.8%/0.6%)            ▄ 
   ENG 104/54669 (1.6%/1.8%)            ▄ 
   BEL 38/6371 (0.6%/0.2%)              ▄ 
   FRA 23/8132 (0.4%/0.3%)              ▄ 
   SPA 22/4670 (0.3%/0.2%)              ▄ 
   DEU 14/3203 (0.2%/0.1%)              ▄ 
   POL 8/1691 (0.1%/0.1%)               ▄ 
Jul 2009- Jul 2010
  topics: 740, length: 431787
   RUS 603/341899 (81.5%/79.2%)         ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 91/47641 (12.3%/11.0%)           ▄▄▄▄ 
   ENG 32/36034 (4.3%/8.3%)             ▄▄ 
   UND 7/464 (0.9%/0.1%)                ▄ 
   FRA 3/4759 (0.4%/1.1%)               ▄ 
   SPA 2/362 (0.3%/0.1%)                ▄ 
   BEL 1/14 (0.1%/0.0%)                 ▄ 
   DEU 1/614 (0.1%/0.1%)                ▄
  comments: 27967, length: 11537623
   RUS 22994/9846493 (82.2%/85.3%)      ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 3427/1296731 (12.3%/11.2%)       ▄▄▄▄ 
   UND 637/93054 (2.3%/0.8%)            ▄ 
   ENG 389/186725 (1.4%/1.6%)           ▄ 
   BEL 255/39178 (0.9%/0.3%)            ▄ 
   FRA 108/27205 (0.4%/0.2%)            ▄ 
   SPA 68/28869 (0.2%/0.3%)             ▄ 
   DEU 63/14788 (0.2%/0.1%)             ▄ 
   POL 26/4580 (0.1%/0.0%)              ▄ 
Jul 2010- Jul 2011
  topics: 867, length: 593183
   RUS 721/462400 (83.2%/78.0%)         ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 117/93546 (13.5%/15.8%)          ▄▄▄▄ 
   ENG 20/36010 (2.3%/6.1%)             ▄ 
   UND 4/148 (0.5%/0.0%)                ▄ 
   FRA 3/781 (0.3%/0.1%)                ▄ 
   BEL 1/18 (0.1%/0.0%)                 ▄ 
   DEU 1/280 (0.1%/0.0%)                ▄
  comments: 34849, length: 13977946
   RUS 29412/12194738 (84.4%/87.2%)     ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 3900/1417459 (11.2%/10.1%)       ▄▄▄ 
   UND 620/91196 (1.8%/0.7%)            ▄ 
   ENG 366/170103 (1.1%/1.2%)           ▄ 
   BEL 317/52099 (0.9%/0.4%)            ▄ 
   FRA 112/28578 (0.3%/0.2%)            ▄ 
   SPA 62/13660 (0.2%/0.1%)             ▄ 
   DEU 34/5944 (0.1%/0.0%)              ▄ 
   POL 26/4169 (0.1%/0.0%)              ▄ 
Jul 2011- Jul 2012
  topics: 1040, length: 764059
   RUS 870/651392 (83.7%/85.3%)         ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 126/77602 (12.1%/10.2%)          ▄▄▄▄ 
   ENG 23/24375 (2.2%/3.2%)             ▄ 
   UND 14/660 (1.3%/0.1%)               ▄ 
   SPA 3/9142 (0.3%/1.2%)               ▄ 
   BEL 2/73 (0.2%/0.0%)                 ▄ 
   FRA 2/815 (0.2%/0.1%)                ▄
  comments: 49717, length: 20192828
   RUS 42982/18238421 (86.5%/90.3%)     ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 4431/1412062 (8.9%/7.0%)         ▄▄▄ 
   UND 1022/172825 (2.1%/0.9%)          ▄ 
   BEL 596/112507 (1.2%/0.6%)           ▄ 
   ENG 440/200677 (0.9%/1.0%)           ▄ 
   FRA 104/25714 (0.2%/0.1%)            ▄ 
   DEU 56/12378 (0.1%/0.1%)             ▄ 
   SPA 53/11081 (0.1%/0.1%)             ▄ 
   POL 28/5928 (0.1%/0.0%)              ▄ 
   HEB 3/714 (0.0%/0.0%)                ▄ 
   HIN 2/521 (0.0%/0.0%)                ▄ 
Jul 2012- Jul 2013
  topics: 1214, length: 1076990
   RUS 1032/916877 (85.0%/85.1%)        ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 128/90639 (10.5%/8.4%)           ▄▄▄ 
   ENG 32/66369 (2.6%/6.2%)             ▄ 
   UND 10/448 (0.8%/0.0%)               ▄ 
   BEL 5/359 (0.4%/0.0%)                ▄ 
   FRA 3/2021 (0.2%/0.2%)               ▄ 
   SPA 3/46 (0.2%/0.0%)                 ▄ 
   DEU 1/231 (0.1%/0.0%)                ▄
  comments: 94358, length: 37256899
   RUS 79126/32717421 (83.9%/87.8%)     ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 10342/3407047 (11.0%/9.1%)       ▄▄▄ 
   UND 2395/423599 (2.5%/1.1%)          ▄ 
   BEL 1243/244136 (1.3%/0.7%)          ▄ 
   ENG 767/342009 (0.8%/0.9%)           ▄ 
   FRA 224/62823 (0.2%/0.2%)            ▄ 
   SPA 109/27497 (0.1%/0.1%)            ▄ 
   DEU 104/22454 (0.1%/0.1%)            ▄ 
   POL 47/9754 (0.0%/0.0%)              ▄ 
   JPN 1/159 (0.0%/0.0%)                ▄ 
Jul 2013- Jul 2014
  topics: 1464, length: 1812578
   RUS 1255/1595920 (85.7%/88.0%)       ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 151/161908 (10.3%/8.9%)          ▄▄▄ 
   ENG 37/49749 (2.5%/2.7%)             ▄ 
   UND 15/747 (1.0%/0.0%)               ▄ 
   BEL 3/71 (0.2%/0.0%)                 ▄ 
   FRA 2/4165 (0.1%/0.2%)               ▄ 
   SPA 1/18 (0.1%/0.0%)                 ▄
  comments: 140644, length: 55920871
   RUS 119750/49764713 (85.1%/89.0%)    ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 13703/4428452 (9.7%/7.9%)        ▄▄▄ 
   UND 3728/689494 (2.7%/1.2%)          ▄ 
   BEL 1792/364438 (1.3%/0.7%)          ▄ 
   ENG 1037/495076 (0.7%/0.9%)          ▄ 
   FRA 279/96711 (0.2%/0.2%)            ▄ 
   DEU 148/35978 (0.1%/0.1%)            ▄ 
   SPA 144/32034 (0.1%/0.1%)            ▄ 
   POL 60/13442 (0.0%/0.0%)             ▄ 
   CMN 1/142 (0.0%/0.0%)                ▄ 
   HEB 1/235 (0.0%/0.0%)                ▄ 
   KOR 1/156 (0.0%/0.0%)                ▄ 
Jul 2014- Jul 2015
  topics: 2015, length: 2755527
   RUS 1617/2216957 (80.2%/80.5%)       ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 338/448687 (16.8%/16.3%)         ▄▄▄▄▄ 
   ENG 37/83605 (1.8%/3.0%)             ▄ 
   UND 11/214 (0.5%/0.0%)               ▄ 
   FRA 5/5019 (0.2%/0.2%)               ▄ 
   BEL 3/148 (0.1%/0.0%)                ▄ 
   DEU 2/459 (0.1%/0.0%)                ▄ 
   SPA 2/438 (0.1%/0.0%)                ▄
  comments: 178421, length: 71879250
   RUS 139813/59559536 (78.4%/82.9%)    ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 28941/10130269 (16.2%/14.1%)     ▄▄▄▄▄ 
   UND 5224/995100 (2.9%/1.4%)          ▄ 
   BEL 2344/495260 (1.3%/0.7%)          ▄ 
   ENG 1182/474733 (0.7%/0.7%)          ▄ 
   FRA 364/98883 (0.2%/0.1%)            ▄ 
   SPA 235/52560 (0.1%/0.1%)            ▄ 
   DEU 227/52630 (0.1%/0.1%)            ▄ 
   POL 86/19337 (0.0%/0.0%)             ▄ 
   HEB 5/942 (0.0%/0.0%)                ▄ 
Jul 2015- Jul 2016
  topics: 1863, length: 2595276
   RUS 1436/1965198 (77.1%/75.7%)       ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 364/580651 (19.5%/22.4%)         ▄▄▄▄▄ 
   ENG 36/40261 (1.9%/1.6%)             ▄ 
   UND 17/398 (0.9%/0.0%)               ▄ 
   FRA 7/7431 (0.4%/0.3%)               ▄ 
   SPA 2/1276 (0.1%/0.0%)               ▄ 
   DEU 1/61 (0.1%/0.0%)                 ▄
  comments: 172518, length: 70270400
   RUS 135863/58381345 (78.8%/83.1%)    ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 27007/9535984 (15.7%/13.6%)      ▄▄▄▄ 
   UND 5243/1030972 (3.0%/1.5%)         ▄ 
   BEL 2210/483187 (1.3%/0.7%)          ▄ 
   ENG 1338/602312 (0.8%/0.9%)          ▄ 
   FRA 381/118495 (0.2%/0.2%)           ▄ 
   SPA 221/53868 (0.1%/0.1%)            ▄ 
   DEU 182/46096 (0.1%/0.1%)            ▄ 
   POL 71/17534 (0.0%/0.0%)             ▄ 
   CMN 1/432 (0.0%/0.0%)                ▄ 
   JPN 1/175 (0.0%/0.0%)                ▄ 
Jul 2016- Jul 2017
  topics: 1726, length: 2676928
   RUS 1284/1969572 (74.4%/73.6%)       ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 355/601624 (20.6%/22.5%)         ▄▄▄▄▄▄ 
   ENG 59/92218 (3.4%/3.4%)             ▄ 
   UND 16/399 (0.9%/0.0%)               ▄ 
   FRA 7/10908 (0.4%/0.4%)              ▄ 
   SPA 3/535 (0.2%/0.0%)                ▄ 
   DEU 1/363 (0.1%/0.0%)                ▄ 
   POL 1/1309 (0.1%/0.0%)               ▄
  comments: 151585, length: 62503781
   RUS 117359/50743379 (77.4%/81.2%)    ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 25460/9452663 (16.8%/15.1%)      ▄▄▄▄▄ 
   UND 4530/897656 (3.0%/1.4%)          ▄ 
   BEL 1806/399956 (1.2%/0.6%)          ▄ 
   ENG 1515/737407 (1.0%/1.2%)          ▄ 
   FRA 362/118473 (0.2%/0.2%)           ▄ 
   DEU 217/56879 (0.1%/0.1%)            ▄ 
   SPA 211/58647 (0.1%/0.1%)            ▄ 
   POL 123/38292 (0.1%/0.1%)            ▄ 
   HEB 1/178 (0.0%/0.0%)                ▄ 
   JPN 1/251 (0.0%/0.0%)                ▄ 
Jul 2017- Jul 2018
  topics: 1686, length: 2438870
   RUS 1265/1793516 (75.0%/73.5%)       ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 344/543692 (20.4%/22.3%)         ▄▄▄▄▄▄ 
   ENG 57/95451 (3.4%/3.9%)             ▄ 
   UND 8/229 (0.5%/0.0%)                ▄ 
   FRA 6/5538 (0.4%/0.2%)               ▄ 
   SPA 4/193 (0.2%/0.0%)                ▄ 
   DEU 2/251 (0.1%/0.0%)                ▄
  comments: 165715, length: 65190193
   RUS 126619/52548901 (76.4%/80.6%)    ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ 
   UKR 29774/10310516 (18.0%/15.8%)     ▄▄▄▄▄ 
   UND 4870/941491 (2.9%/1.4%)          ▄ 
   BEL 2056/437766 (1.2%/0.7%)          ▄ 
   ENG 1441/700325 (0.9%/1.1%)          ▄ 
   FRA 382/104101 (0.2%/0.2%)           ▄ 
   SPA 237/55696 (0.1%/0.1%)            ▄ 
   DEU 224/59992 (0.1%/0.1%)            ▄ 
   POL 110/30972 (0.1%/0.0%)            ▄ 
   JPN 2/433 (0.0%/0.0%)                ▄

Полная отформатированная статистика одним html файлом: s.dou.ua/...​torage-files/DOUStat.html
P.S. Поправил баг, что влиял на некоторую статистику в конце- не суть важно...

👍ПодобаєтьсяСподобалось0
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Trump Told G7 Leaders That Crimea Is Russian Because Everyone Speaks Russian In Crimea

Texas is Spanish Because Everyone Speaks Spanish in Texas. :D

А район старой Дарницы — собачий. На улицах — ни души, только одни собаки и алкаши.

щось забагато росіян на dou.ua.

Вы знаете в чем разница между россиянами, русскими и русскоязычными? Похоже что нет :(

а яка різниця між россіянами і русскімі?

А какая разница между гражданством и национальностью?

Это значения, которые эти слова приобрели в украинском и русском языках. Возможно для тебя будет открытием, что некоторые слова из украинского не мапятся один к одному на английский, хотя слово может быть, очевидно, заимствованным.

ru.wikipedia.org/wiki/Россияне

Форма «россияне», образованная от греко-византийской формы Руси «Россия», впервые встречается у Максима Грека в 1524 году[5][6]. Долгое время эта форма ограничивалась церковно-книжной сферой. Начиная с 1580-х годов, её акутализация имела место прежде всего у галицко-русских православных мещан и в среде Львовского Успенского братства[7]. Позже она распространилась на Киев и земли Русского царства, получив там гражданское распространение ко второй половине XVII века. Являлась более торжественным литературным вариантом этнонима "русины«[5], который в то время был самоназванием как жителей Западной Руси, так и Русского государства (вытеснив, в свою очередь, собирательную форму «русь»). В Русском государстве термин «россияне» был популяризирован прежде всего культурными деятелями Западной Руси, в том числе Симеоном Полоцким, а также архимандритом Киево-Печерской лавры Иннокентием Гизелем, обозначая всех жителей Великой, Малой и Белой России, исторической Руси. Таким образом, термин, не взирая на политические границы своего времени (границу России с Речью Посполитой), охватывал ту группу людей, которая впоследствии была отражена в концепции большого русского народа, то есть совокупно восточных славян.

Плохо, из рук вон плохо работает РосКомНадзор.

Зато ДоуКомНадзор работает отлично.

А что с хабром случилось? Видел как-то что у них домен поменялся.

Графік з мовою анонсів календаря:
s.dou.ua/...​age-files/events-lang.png
(анонси присилають або пишуть організатори подій, а не редактори календаря).

Блин, и вот такую няшку простым смертным в топиках не по используешь, приходится изощрятся, чтобы график нарисовать... эх... может надо в жертву пару джунов php на костре принести? :)

Анонсов событий намного меньше, чем комментариев и их публикует редакция календаря, то есть указать какой язык у анонс не проблема. А комментариев много и их публикуют пользователи, а не редакция и заставлять пользователей указывать язык комментария как-то не очень :)

Да я не о том, я опять на тему разрешить хотя бы в топиках картинки грузить, чтобы это как то нормально оформлять... Почти же ничего не доступно, голый текст. Очевидно, это не из-за технической стороны, ибо там делов вам на день, чтобы картинки по ссылке скачать на свой серв, нормализовать и подменить url. Меньше вам потом при модерации править html, чтобы картинку вставить. Про остальное молчу... Счетчик картинок на каждый аккаунт и разрешите грузить там определенное количество от стажа или хз.

В топики картинки можно вставлять так

<img src="https://i.imgur.com/692831m.jpg">

где i.imgur.com/692831m.jpg — адрес картинки, загруженной на imgur.com

По-моему достаточно просто и удобно.

Спасибо за информацию. Это типа preview комментария, оно только Вам показывалось, остальным пользователям показывалось как Вам после перезагрузки, но в целом согласен, что баг.

Ну хоть так. Были подозрения, только вот об этом ни слова в редакторе и нужно методом тыка угадывать какие теги ваш валитатор порежет, а какие нет, потому как там явно не полный перечень указан. p- ведь тоже проходит валидатор, кто знает какие еще...

По-моему достаточно просто и удобно.

:) Набирать теги, от которых и так за день рябит, и то IDE автокомпликт делает, это достаточно далеко от удобства, в комментах даже и тех кнопарей нет. Не проще ли просто взять минималистичный готовый визуальный редактор, и подкрутить на бекенде валидатор? Это же насколько увеличит что юзабельность, что внешний вид контента. Хотя подозреваю, что в этот олдскул лезть просто не хочется. Да, там есть плагин, но это не то, только лишнее сложности. Может редактор ленты там более навороченный...

В Ленте просто голая django-админка.

Вот такое еще есть:
dou.ua/forums/topic/22693
оно по идее снимает часть проблем с тегами.

Ну так вот там обычный tinymce, и не понятно почему просто его не включить во фронтенд, вместо своей формы? Готовый ведь код, который кем то поддерживается, выплевывает тот же html, глубоко не надо куда то лезть, десяток-другой строчек. Даже пусть тупо без редактирования бек. Все бы пользовались, а не показывали азы html, и не нагружались плагинами каждому, которых и так уже наставлено. Или это типа чтобы DOU не терял свою изюминку? :)

640K ought to be enough for anybody. Большинству пользователей должно хватить обычного plaintext-а. Если не хватает, то плагин, который подключается отдельно пока выглядит более правильным и удобным решением, чем усложнение всего кода и интерфейса для всех.

640K ought to be enough for anybody.

и даже они быстрей сдались :))

Большинству пользователей должно хватить обычного plaintext-а

Жаль голосования тут тоже нет, хотя есть гугл формы ;)
Выходит, всякие там пикабу обладают более требовательной аудиторией, везде как минимум минималистичный визуальный сет стандартных возможностей есть. Нормальная подсветка кода, набор любых плагинов на все случаи жизни. Просто идеально... И ничего своего пилить не надо и его потом поддерживать.

чем усложнение всего кода и интерфейса для всех.

с точки зрения юзабилити? Прячем все не нужное, визуально будет то же самое, но более симпатично, кому надо остальное найдет, проблем как бы никаких. Я же найдеюсь вы не о нагрузке на фронт из-за одного инстанса редактора? :) Эм сайту 10 лет, «пока» как то затянулось, ну хоть в комментарии копки вставки тегов добавить, вместо строки «разрешенных тегов», как у топиков- уже легче. Ладно...

не по используешь

не поиспользуешь

Хех, видно надо мне еще статистику граммарнаци сделать :) Будем рейтинг по правописанию составлять и вывешивать списки позора! Позор! позор! позор... :)
Еще у меня было

какие теги ваш валитатор порежет

и ничего...

ну это я к тому, что ошибки не в одних и тех же местах и часто лениво править руками очепятки, как не там то в другом слове, а автоматом маємо шо маємо, хотя реальные косяки таки бывают, но у нас тут не диктант, а мне позволительно... еще бы так на украинском некоторые писали, как я на русском:)

Ось ще одна статистика — % анонсів українською в DOU календарі:
2016 — 20%
2017 — 25%
2018 — 32%

А решта років? Там до березня 2009 в архіві.

Дані про мову є тільки з 2016 (там є окреме поле в БД, де при публікації події можна вказати мову).

А це мова події, я думав мова опису події.

Вище — мова опису, анонсу події (тексту, опублікованого в календарі), не мова події.

Если тренд сохранится, до доля украинского языка сравняется с долей русского на форуме очень скоро (в 2054 году).

Оп, уже прощупывается почва...
P.S. в 2038 году ;)

Які 2038 ? Там геометрична прогресiя. За останні 5 років кількість україномовних топіків зросла майже в два рази (з 10 до 20%). Ще за 5 років може зрости ще в 2 рази. Отримаємо майже 40%, ще за 1-2 роки ця цифра досягне 50%. PS Звісно якщо залишиться така прогресія

Хочешь ми зробимо щоб зрiвнялася вже в цьому роцi ?

не розумiю, звертайся на державнiй мовi

😂. Если акк взломали подмигни два раза.

Маладца. Теперь почитай про мужской и женский род и правила склонения.

А «хочешь ми» чего ж пропустили? :)

Еще никогда Штирлиц не был так близок к провалу.

Хочу, делайте. 31 декабря зайду, чтоб проверить результаты.

anonymous — главный флудер)

Gennady Dogaev 4678 comments, 2100013 length (RUS)
[RUS] 4057/1906985 (86.7%/0.2%) ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
[UKR] 411/135047 (8.8%/0.0%) ▄▄
[UND] 108/23669 (2.3%/0.0%) ▄
[BEL] 69/17118 (1.5%/0.0%) ▄
[ENG] 17/9523 (0.4%/0.0%) ▄
[FRA] 10/5652 (0.2%/0.0%) ▄
[SPA] 5/1869 (0.1%/0.0%)

Я не знаю Французского и испанского, беларуский только немного понимаю (не мог я на нём написать 69 комментариев).

[UND] 32/5021 (1.9%/0.0%) ▄
[BEL] 23/3954 (1.4%/0.0%) ▄
[ENG] 7/1892 (0.4%/0.0%) ▄
[DEU] 1/268 (0.1%/0.0%) ▄
[FRA] 1/352 (0.1%/0.0%) ▄
[POL] 1/199 (0.1%/0.0%) ▄
[SPA] 1/219 (0.1%/0.0%)
Я не писал ни разу на форуме на этих языках, ибо я в них ноль абсолютно и так же базразличен к ним, мне кажется с определением языков какая-то бажинка.

0.3% ошибки мизер, хотя ошибка ли это, если:

[ENG] 7/1892 (0.4%/0.0%) ▄

dou.ua/...​rums/topic/20872/#1124515 [eng] В перовм же резюме „Guilds: possibility to participate and lead one of the guilds: Machine Learning, BDD, etc”. Больше оно никак к ML не относится.
dou.ua/...​rums/topic/24108/#1350811 [eng] Кто пользовался?
By June of 2009, the original iPhone was gone but the iPhone 3G had sold somewhere around 20 million units.

Элоп придет в нокию только в следующем году. Вернее в конце след года.
dou.ua/...​rums/topic/22471/#1265473 [eng] Сало купыв :-) just take it easy bro
dou.ua/...​rums/topic/21965/#1199302 [eng] It’s just „нi”
dou.ua/...​rums/topic/23396/#1304989 [fra] Решил загуглить что это :-)
Mental health
Most common types:
Clinical depression
Anxiety disorder
Bipolar disorder
Dementia
Attention-deficit/hyperactivity disorder
Schizophrenia
Obsessive compulsive disorder
Autism
Post traumatic stress
dou.ua/...​rums/topic/23432/#1305215 [bel] Маемо шо маемо.
dou.ua/...​rums/topic/24118/#1349895 [bel] Хм...жаль, пичаль. Спасибо за инфу.
dou.ua/...​rums/topic/12102/#1182309 [bel] Ээээ... а на каком? На рускам штоле? )))
dou.ua/...​rums/topic/21716/#1182605 [bel] Бомбишка не бомби )))
dou.ua/...​rums/topic/21639/#1176151 [bel] Затупил, не найм, а пермит на работу для иностранцев не EU.
Как по мне неплохо отработало, ошибка оправдана :)

[UND] 32/5021 (1.9%/0.0%) ▄
[BEL] 23/3954 (1.4%/0.0%) ▄
[ENG] 7/1892 (0.4%/0.0%) ▄
[DEU] 1/268 (0.1%/0.0%) ▄
[FRA] 1/352 (0.1%/0.0%) ▄
[POL] 1/199 (0.1%/0.0%) ▄
[SPA] 1/219 (0.1%/0.0%)

[BEL] вовсе нет, то обычный суржик или намеренные ошибки в языке ради прикола, хз почему тула решила привязать его к [BEL]

dou.ua/...​rums/topic/23396/#1304989 [fra]

и где там французский? Это англ яз.
Польский, немецкий и испанский тоже мимо.

Англ случайно скопипастил в список, не хотел, к нему претензий нет.

Предлагаешь натренировать модель идеально разбирать твои комменты?

Ну а че код языка [DOU] уже готов... даже не занят :) Хм... будет вместо UND теперь гг

1. Предлагаю не приравнивать суржик к белорусскому языку
2. Не писать что я употреблял немецкий, испанский, польский и французские языки при том что я ни слова на этих языках не писал.
3. Не выдавать это за статистику.

Там у всех коментарии на испанском, немецком и прочих языках, если бы только на мне она такие результаты выдавал то это одно, но лепить всем подряд стопку языков... это

какая-то бажинка.

Похоже, просто нужно было сделать упрощенную статистику для масс-маркета оставив только украинский и русский, указав, что остальные сложно определить однозначно. Наверное, автор понадеялся, что читатели нормально воспримут неидельность инструмента и некоторую погрешность в определении языка. Главное ведь получить общую картину, а не разбирать частные случаи.

оставив только украинский и русский
что остальные сложно определить однозначно.

С укр и русским тоже все не так однозначно, там тоже бывают существенные коллизии, и это все ровно не решает проблемы суржика, сленга, приколов и инъекцией английского. Кроме этого, есть несколько топиков, где топик и почти все комментарии на английском. Потому уже минимум 3 языка. Мизерное количество, но есть комментарии на французском, белорусском, где им понтовались :) И белорусский станет распознаваться как русский, или украинский, там разница в score небольшая. Будет ошибка в другую сторону, мало что решает. Проще смерится с 0.5-1% погрешностью.

все ровно

все равно

смерится

смириться

Я не граммар-наци, а национал-лингвист!

Он пару топиков назад тоже калякал с ошибками, так шо так себе из него грамар наци. :-)

[BEL] вовсе нет, то обычный суржик или намеренные ошибки в языке ради прикола, хз почему тула решила привязать его к [BEL]

Всего то суржик. Так некоторые языки так и звучат, как суржик на другом. Искусственный интеллект полиглота, со знанием всех суржиков, пока не изобрели, так что ничего удивительного, белорусский, как то так и звучит, как суржик украинского и русского. Все же языки пресекаются... и т.д
На 1652 комментариях парочка условно левых не такая большая ошибка.
dou.ua/...​rums/topic/23257/#1292853 [pol] Не читай про JavaScript ! :-)
dou.ua/...​rums/topic/21147/#1143809 [spa] Вы про S.H.I.E.L.D или Hydra ? )))
dou.ua/...​rums/topic/24108/#1350019 [deu] На С# или TypeScript ! :-)
Последний Гугл вообще определяет как болгарский.

Не читай про JavaScript ! :-)

Где тут польский ?

Вы про S.H.I.E.L.D или Hydra ? )))

Первое аббревиатура на англ, второе слово на англ которое отлично переводит упомянутый тобой гугл транслейт.

На С# или TypeScript ! :-)

Где тут немецкий или тем более болгарский?

Не читай про JavaScript ! :-)
Где тут польский ?

А какой язык этого комментария? Я вот не уверен, а Вы?

Первое аббревиатура на англ, второе слово на англ которое отлично переводит упомянутый тобой гугл транслейт.

Это все прекрасно, может напишите алгоритм для 100% определения? Думаю в гугле его тоже ждут, а я пересчитаю :) Легко уделать собственным мозгом с глазами мелкую сигнатурную библиотечку с npm...

На С# или TypeScript ! :-)
Где тут немецкий или тем более болгарский?

Вот спросите у гугла, почему он эту фразу определяет за болгарский.
«На»- и на болгарском «на», так же само как и «или». Что Вы предлагаете? Доступные сигнатуры распознаны правильно.

Да, бывает, сам знаешь как оно ;-)

Ну вот такого добра там хватает:

[ukr] масква? москов правильно.

Анализ склонился к украинскому, т.к «правильно» вполне украинское слово, а остальные непонятны... Все не так просто :) Вообщем, укр там опередил русский на 15%. Но вот это никак не исправить, тут только догадаться можно, что коммент на русском, а алгоритмы примитивны, не гугла же :) И есть куча слов, которые пишутся одинаково что на рус, что на укр, и кратких комментариев с одного или двух слов, куда это засчитывать не понятно.
+ придется убрать с анализа блоки pre- хотя все их по разному использует, кто то код, а кто то тексты выделяет, бардак..
И кстати, даже гугл траслейт определяет язык этой фразы как украинский :)

За быстрый доступ к стихам Natalia Riabokon — отдельное спасибо!

Расшифруйте на моём примере что означает эта статистика?
Oleksandr Zakrevskyi 880 comments, 468698 length (RUS)
[RUS] 799/445533 (90.8%/0.2%) ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
[UKR] 46/12356 (5.2%/0.0%) ▄▄
[UND] 22/4574 (2.5%/0.0%) ▄
[BEL] 8/2223 (0.9%/0.0%) ▄
[ENG] 2/3333 (0.2%/0.0%) ▄
[FRA] 1/310 (0.1%/0.0%) ▄
[POL] 1/177 (0.1%/0.0%) ▄
[SPA] 1/192 (0.1%/0.0%) ▄

То есть я писал коментарии на францусзком беларусском(бельгийском) польском и испанском?
И почему всего 880 комментариев, если у меня их 1078 и за июнь, с учётом этого — 3.

У меня тоже возник подобный вопрос. Данные могли использоваться не все, а за какой-то период. На счет погрешности, комментарии, ведь, пишут с ошибками поэтому инструмент определения выдает вероятность что текст на таком-то языке. Отсюда и Олбанский.

На самом деле мне тоже было бы интересно какие инструменты и методики использовались.

Расшифруйте на моём примере что означает эта статистика?
То есть я писал коментарии на францусзком беларусском(бельгийском) польском и испанском?

Первая цифра количество комментариев, вторая- суммарная длина комментариев, язык которых определен как X, ну и их процентное выражение ко всем вашим комментариям, инфа за все время существования форума. В комментарии может быть определен только один язык, если полный фэйл тогда [UND]
Конечно, есть определенные ошибки распознавания языков, так как в библиотеке используются языковые сигнатуры, а не хотя бы словарный метод. Поверх для укр. и рус. еще добавлена коррекция. При анализе языка контента с него сначала убираются блоки цитирования, а так же распознанные ссылки, и все ровно это не решает полностью проблему комментариев на смешанном языковом контенте. Например, сленг, и на форуме его много, суржик украинского и русского воспринимается в половине случаев как белорусский, мешанина из русского и латиницы может определятся как польский. В таких неопределенных комментариях обычно фигурируют латинские названия фирм, продуктов, сайтов без валидной ссылки, которые и вносят ошибку, но суммарно это в пределах 1%. При этом, на форуме есть комментарии и на японском, лично проверял- кто то упражнялся с гугл траслейт :)

И почему всего 880 комментариев, если у меня их 1078 и за июнь, с учётом этого — 3.

Просканирован только весь форум (dou.ua/forums), статистика не включает контент с ленты в котором вы, очевидно, проявляли активность, она и дает разницу в цифрах. Дабы добыть даже эту инфу пришлось запросить 15 тыс страниц на 1гб+ трафика, что и так вряд ли нравилось администрации, но я был предельно терпелив и осторожен :)
P.S Запускалось все на node 10, на одном инстансе, без кластеризации, т.е по сути на одном 4ггц ядре 8 ядерной железяки, в асинхронном режиме, в 4-5 нодовских «потока»- более сервер все ровно не отдавал, посылал 503й, + ненужная нагрузка, потому межу парсингом давал ему хорошо отдохнуть, да и средняя страница весит 0.3мБ, чего не скажешь о темах «с девушками»...

Кажется мне, это не тот случай, когда «хоть бы так». Подобная статистика, заставляет терзаться сомнениями ))

Автор, вот зачем ты убил времени на получение результата, который отвечает на вопрос, какой? (О.о)

Сложно ли запилить такую же статистику отдельно по Ленте?

Ну походу шаблоны там используются те же, но местами классы другие, так что если тупо сделать форк с правками, а не допиливать функционал, то не сложно... нужно ще будет убрать с анализа блоки pre, а то там для кода его юзают.

Цікаво. Поставте собі нагадування опублікувати оновлення через півроку(:.

Любопытная статистика, спасибо за труд 😊.

Еще один языковой срач будет?

Будет, но чуть позже — у Рака в электричке интернет паршивый.

судя с той темы, «срачевой» аспект уже себя исчерпал, так что вряд ли + там еще место есть, если что :)

Срач из-за языка неисчерпаем уже многие лета.

Полезность 0.0%
Уж проще анкетировать.

Может и так, но не спрашивать же на каком языке Вы пишите на доу, чтобы сверить результаты? Да и не IT-way :) Мне вот не совсем понятно, каким образом предыдущий «исследователь» так сходу вывел суммарный процент по контенту- равен ли контент топика по весу с контентом комментария, что делать с суржиком, контентом на смешанных языках, по чему считать- количеству или объему и т.д Там один график и все. Хотя результаты похожие- доля украинского была на минимум в 2011-2012, и сейчас несколько выросла на 8-9%. Может тупо угадали.

Підписатись на коментарі