文章目录:
一 、再读吴军《数学之美》——统计自然语言处理的通俗科普读物
吴军的《数学之美》一书 ,作为自然语言处理的通俗科普读物 ,从数学角度深入浅出地介绍了计算机科学中的离散数学 、编译原理 、信息论 、统计学习等知识体系 。此书内容丰富 ,与现代大模型的研究 、魔改Transformer的研究乃至神经网络的研究有着不同但相互关联的视角 。作者在文中结合自己的新感受 ,穿插吴军书中的结论与个人思考 ,探讨了文字与语言 、数字与信息之间的关系 ,自然语言处理的历史与现代技术路线的转变 ,以及统计语言模型 、分词 、隐马尔可夫模型 、信息度量等关键概念 。书中还提到分治算法 、逻辑回归 、搜索广告以及神经网络的基础知识 ,并讨论了数学在解决自然语言处理问题中的应用 。本书不仅介绍了技术的演变 ,还涉及了奥卡姆剃刀原则 、最大熵模型 、拼写输入法数学原理 、密码学数学原理 、布隆过滤器 、维特比算法等 ,展示了数学之美在不同领域的广泛影响 。
在自然语言处理领域 ,书中强调了统计NLP与深度学习NLP的区别与联系 ,从信息熵 、条件熵 、互信息到相对熵(KL散度)的数学概念 ,以及如何通过这些概念在文本处理中进行相关性度量 。同时 ,书中深入分析了隐马尔可夫模型与现代搜索引擎 、布尔代数 、图论 、PageRank算法 、信息指纹等技术在处理网页和新闻分类 、构建网络爬虫 、计算余弦相似度 、实现搜索引擎功能和反作弊机制中的应用 。通过这些技术的介绍 ,读者不仅能够理解自然语言处理的历史发展 ,还能掌握其在现实世界中的实际应用 。
书中还探讨了文本处理中的有限状态机 、动态规划 、矩阵运算 、最大熵模型 、拼音输入法设计以及数学模型的重要性 ,展现了数学在自然语言处理中不可或缺的作用 。通过这些章节的学习 ,读者可以了解到如何利用数学原理解决实际问题 ,以及如何在自然语言处理领域实现高效 、准确的文本分析与理解 。
最后 ,作者提到数学模型的重要性和奥卡姆剃刀原则 ,强调在预测和解决问题时应保持简洁性 ,避免对未知情况做出主观假设 。通过数学模型的学习 ,读者不仅能够掌握自然语言处理的技术细节 ,还能在设计和应用算法时坚持科学严谨的态度 ,追求最简洁 、最有效的方法 。
二 、数学之美(28)——神奇多样的“记数方法”
一个人面对一堆文字时 ,往往会对其中的数字特别的敏感 ,所以很多文章借助数字来吸引读者的眼球 ,引起读者的兴趣.
古人是没有学过数字的 ,他们怎么记数呢?
为我们所熟知的有:古代巴比伦人用画点的方式表示数 ,六个点代表“6” ,八个点代表“8”……可是当点越来越多 ,密密麻麻数不清怎么办?他们就发明了“<”表示“10” ,五个“<”表示“50”;到了60 ,有个新的符号
这个符号既可以代表60 ,也代表360 ,所以容易混淆不清 ,并且古巴比伦有两种进制 ,十进制和六十进制 ,这给计算也带来了不便 。
古埃及人的数字就比较“简单”一些 ,是“象形文字” 。当然比我们现在所用得的数字要复杂的多 ,比如:
表示100万时 ,要画一个人双膝跪地 ,双手举至头顶的形状.
这种记数方法目前仍然在使用 ,V代表5 ,X代表10 ,L代表50 ,C代表100 ,D代表500 ,M代表1000 ,
数字重复几次 ,相当于这个数字的几倍 ,比如XX代表20 ,MMM代表3000……
原则(左减右加) ,小数在大数左边是减 ,在大数右边是加 ,和数轴上数字的平移规律类似.
再大的数字怎么办?他们还规定在数字上画一横 ,表示它的1000倍 ,比如:
这个就不用过多解释了 ,一 、二 、三 、四……
出现的时间较晚 ,却成为了现在全世界通用的阿拉伯数字 。流行的原因除了写法简单外 ,对于1~9每个数都有不用的记号 ,所以不会混乱 。
我们在菜市场买菜时 ,如果价格是2.9元 ,我们通常会说:“两块九” ,而不说:“三块少一毛 。”这种说法是正确的 ,只不过不符合我们日常的习惯 ,可这启发我们去从另外一个角度改进现行的记数方法 。
当然 ,这不是现在人最先想到的 ,早在18世纪前叶(1726年) ,就有人建议这种“加减记数法”了 。
这种记数法不需要6 ,7 ,8 ,9这几个数字 ,比如6=10-4 ,7=10-3 , 8=10-2 , 9=10-1表示如下:
原则就是数字上加一横线 ,表示减去它.
大点的数字也可以 ,比如489=500-11 , 3888=4000-112 , 2781(只变78)…… ,如下
这种记数方法有哪些好处呢?
(1)少了四个数字 ,6 ,7 ,8 ,9 ,认识大数 ,加减更容易;
咱们看下面的例子 ,比较和感受下传统加法和新加法的不同 。
新加法方法里 ,可以利用正负抵消来加快计算速度.
(2)减法和加法是一回事了 ,所有的减法转变成了加法:比如
减法变加法 ,只需会加法即可.
(3)国外学习我们九九乘法表成为了可能 ,九九乘法表从原来的36句(1的不算) ,变成了现在的10句:
2×2 ,2×3 ,2×4 ,2×5 ,3×3 ,3×4 ,3×5 ,4×4 ,4×5 ,5×5
(4)近似计算时 ,没有现在的“四舍五入”了 ,取而代之的是简单粗暴的去尾巴 。比如:3.0886 ,用四舍五入 ,保留整数是3 ,精确到十分位是:3.1 ,精确到百分位是:3.09 ,精确到千分位是:3.089
新记法中 ,3.0886的数是:
保留到十分位 ,3.1 ,
问题来了 ,新记法中 ,怎么进行乘法和除法计算呢?
举个简答的例子:17×4=68.
除法大家可以自己试一下 ,欢迎交流.
写在最后 ,不过很可惜的是 ,这种算法不可能再普及及推广了 ,因为要改的话付出的代价太大太大太大……
我们今天所谈的不过是纸上谈兵尔尔……不要太过当真去用 。
到此 ,以上就是小编对于数字之美 mobi的问题就介绍到这了 ,希望介绍关于数字之美 mobi的2点解答对大家有用 。
留言评论
暂无留言