用matlab实现文本查重

用matlab实现文本查重

问:查重算法如何实现?
  1. 答:先说明下 什么叫查重算法
问:用matlab怎么得出某个字在一本txt电子书中的出现次数
  1. 答:首先申明,我不会用matlab,这个方法针对于word2007及以上版本
    将TXT电子书全部复制进word文件
    word使用Ctrl+f搜索功能
    搜索框中打出需要查看出现次数的文字
    搜索框下有一个阅读突出显示,单击下滑键有一个全部突出显示
    点选后,其上方会出现word显示突出了xxxx项,就是你想要查看的字数
    希望能够帮助你
  2. 答:clc;clear
    fid = fopen('三国演义.txt','r');
    s = fscanf(fid,'%s');
    str0 = '袁尚';
    idx = strfind(s,str0);
    num = numel(idx)
问:用matlab处理文件名字相似的大量文本文档。求程序。
  1. 答:提供个思路:MATLAB里面有对文件夹和文件的遍历操作的,
    1. 遍历当前目录下的子目录【每个月的】,如201101
    2. 遍历每个子目录下的文件,530880AX00120110101
    3. 对每个文件读取,并实现计算即可。
问:matlab中如何去掉数组中重复的值
  1. 答:unique函数用来去除矩阵A中重复的元素,
    比如说A=[1,2,3,3,4],那么unique(A)=[1,2,3,4];
    如果A=[1,2,3;3,4,5],那么unique(A)=[1,2,3,4,5];
    unique(A,'rows')用来去除矩阵A中重复的行,
    比如说A=[1,2,3;4,5,6;1,2,3],
    那么unique(A,'rows')=[1,2,3;4,5,6];
    综上,如果x=[1 1 1 2 2 2 3 3 3 3 3],
    那么unique(x)=[1,2,3]。
  2. 答:matlab中去掉数组中重复的值步骤如下:
    1、我们首先知道matlab中删除矩阵重复数据,可以用到unique函数,数组的唯一值,在命令行窗口下help unique,可以看到函数的具体用法。
    2、在命令行窗口中新建一个a=[1 3 4 5 6 6 7 8 9 8]矩阵,里面有重复数据6,8。
    3、输入unique(a),按回车键,可以看到a矩阵重复数据全部删除了,矩阵元素全部都是唯一值。
  3. 答:for i=1:length(x)-1
    for j=i+1:length(x)
    if x(j)==x(i)
    x(j)=0;%或者其他标识符号。
    end
    end
    end
    idx=find(x==0);%与前面的标识符号一致。
    x(idx)=[];%删除标识项。
    x
    执行以上程序即可,可能有点复杂。还有更简单的方法。
  4. 答:去掉重复值计数的三种方法,函数法、删除重复值法、透视表法,各种方法均有讲解,可以择优使用。
问:用matlab查找txt文档中的关键字,并把关键字后面的数据存到起来用matlab处理
  1. 答:先处理一下数据,将ky
    -。。放在同一列,比如图片中倒数第9行,把ky
    -34调到1
    后面,注意1
    0和ky
    -34中间有空格隔开,然后用textread来读取数据的第五列
用matlab实现文本查重
下载Doc文档

猜你喜欢